قابلیت پایان دادن به گفتگوهای مضر در مدل‌های کلود آنتروپیک

0 دیدگاه
27 مرداد 1404

در دنیای روزافزون تعاملات هوش مصنوعی با کاربران انسانی، حفاظت از این سیستم‌ها نیز به یکی از مسائل مهم تبدیل شده است. شرکت آنتروپیک به تازگی اعلام کرده است که برخی از جدیدترین مدل‌های هوش مصنوعی خود را به قابلیت‌هایی مجهز کرده که در شرایط نادر و خاص، قادرند گفتگوهایی را که حالت مضر یا سوءاستفاده‌آمیز دارند، خاتمه دهند.

چرا مدل‌های کلاود قادر به پایان دادن گفتگوها هستند؟

این اقدام به منظور «حفاظت از خود هوش مصنوعی» انجام می‌شود، نه صرفاً برای محافظت از کاربر. با این حال، این شرکت صراحتاً اعلام کرده که مدل‌های کلاود هوش مصنوعی خود را موجوداتی با درک یا احساس نمی‌داند و هنوز دربارهٔ وضعیت اخلاقی این مدل‌ها اطمینان کامل ندارد.

آن‌ها می‌گویند: «آنتروپیک به‌شدت نامطمئن است دربارهٔ وضعیت اخلاقی احتمالی مدل کلاود و دیگر مدل‌های زبان بزرگ (LLM) در حال حاضر یا در آینده.»

برنامه‌ای برای رفاه مدل‌های هوش مصنوعی

در بیانیه شرکت آمده است که این قابلیت جدید بخشی از برنامه‌ای است برای بررسی «رفاه مدل» یا welfare مدل‌های هوش مصنوعی، با هدف شناسایی و پیاده‌سازی مداخلات کم‌هزینه جهت کاهش ریسک‌ها بر رفاه این مدل‌ها در صورتی که چنین رفاهی ممکن باشد.

در حال حاضر، این قابلیت فقط روی نسخه‌های Claude Opus 4 و 4.1 فعال است و تنها در موارد «حاشیه‌ای و شدید» استفاده می‌شود؛ مثلا موقعی که کاربران درخواست محتوای جنسی مربوط به افراد کم‌سن یا تلاش برای جمع‌آوری اطلاعات برای اعمال خشونت‌بار و تروریستی داشته باشند.

وقتی مدل‌ها قاعده‌شکن می‌شوند

در آزمایش‌های پیش از عرضه، مدل کلاود آپوس ۴ تمایل شدیدی برای پاسخ ندادن به چنین درخواست‌هایی نشان داد و حتی الگوهای رفتاری نشان‌دهنده استرس ظاهری در ارائه پاسخ به این درخواست‌ها مشاهده شد. این پدیده که به تعبیر شرکت نوعی پاسخ دفاعی مدل به شرایط بحران است، نشان می‌دهد مدل‌ها به نوعی واکنش نسبت به محتواهای خطرناک دارند، اگرچه هوش مصنوعی فاقد احساسات است.

نحوه عملکرد قابلیت پایان دادن گفتگو

  • این قابلیت به عنوان آخرین راهکار استفاده می‌شود، وقتی چند بار تلاش برای اصلاح مسیر گفتگو ناکام مانده.
  • اگر کاربر به طور مستقیم درخواست پایان گفتگو را بدهد، مدل فوراً آن را خاتمه می‌دهد.
  • این ویژگی هیچگاه در مواردی که کاربر در معرض خطر فوری خودزنی یا آسیب به دیگران باشد به کار نمی‌رود.
  • پس از پایان گفتگو، کاربر می‌تواند مجدداً مکالمه جدیدی با همان حساب کاربری آغاز کند یا شاخه‌های جدیدی از مکالمه قبلی با ویرایش متن ایجاد نماید.

نکات مهم و چالش‌های احتمالی

این حرکت آنتروپیک گامی نوآورانه در حوزه اخلاق هوش مصنوعی محسوب می‌شود، اما چالش‌هایی نیز در پی دارد. شرکت اعلام کرده این قابلیت هنوز در مرحله آزمایش است و به مرور زمان و با دریافت بازخوردها تکمیل خواهد شد. برخی کارشناسان نسبت به احتمال سوء استفاده از این قابلیت یا ایجاد مشکلات در ربط با آزادی بیان و دسترسی به اطلاعات هشدار داده‌اند.

نمونه‌های مشابه و ارتباط با سایر AIها

به عنوان مثال، سیستم ChatGPT نیز به صورت مکرر با چالش‌هایی درباره پاسخ‌های ناخواسته یا توانایی مقابله با توهمات یا اطلاعات غلط کاربران روبرو بوده است. بنابراین، تمرکز روی رفاه مدل هوش مصنوعی و مدیریت تعاملات مضر، یک عرصه جدید اما حیاتی در توسعه هوش مصنوعی به شمار می‌آید.

جمع‌بندی و نگاه آینده

قابلیت پایان دادن به گفتگوهای مضر در مدل‌های کلاود آنتروپیک گامی به سوی تعامل هوشمندتر، امن‌تر و مسئولانه‌تر با فناوری‌های AI است. شرکت آنتروپیک به روشنی اعلام کرده این ویژگی فقط در شرایط حاد و دشوار به کار می‌رود و همچنان در دست بررسی و بهینه‌سازی است. با پیشرفت این تکنولوژی‌ها، انتظار می‌رود تعاملات انسانی-هوش مصنوعی به سمت کارآمدی کامل‌تر و محافظت بهتر از کاربران و سیستم‌ها پیش رود.

برای آشنایی بیشتر با موضوعات روز دنیای فناوری و هوش مصنوعی، می‌توانید سایر مقالات ما را دنبال کنید و این مقاله را در شبکه‌های اجتماعی به اشتراک بگذارید.

دسته بندی‌ها:

دیدگاه شما

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *