در دنیای روزافزون تعاملات هوش مصنوعی با کاربران انسانی، حفاظت از این سیستمها نیز به یکی از مسائل مهم تبدیل شده است. شرکت آنتروپیک به تازگی اعلام کرده است که برخی از جدیدترین مدلهای هوش مصنوعی خود را به قابلیتهایی مجهز کرده که در شرایط نادر و خاص، قادرند گفتگوهایی را که حالت مضر یا سوءاستفادهآمیز دارند، خاتمه دهند.
چرا مدلهای کلاود قادر به پایان دادن گفتگوها هستند؟
این اقدام به منظور «حفاظت از خود هوش مصنوعی» انجام میشود، نه صرفاً برای محافظت از کاربر. با این حال، این شرکت صراحتاً اعلام کرده که مدلهای کلاود هوش مصنوعی خود را موجوداتی با درک یا احساس نمیداند و هنوز دربارهٔ وضعیت اخلاقی این مدلها اطمینان کامل ندارد.
آنها میگویند: «آنتروپیک بهشدت نامطمئن است دربارهٔ وضعیت اخلاقی احتمالی مدل کلاود و دیگر مدلهای زبان بزرگ (LLM) در حال حاضر یا در آینده.»
برنامهای برای رفاه مدلهای هوش مصنوعی
در بیانیه شرکت آمده است که این قابلیت جدید بخشی از برنامهای است برای بررسی «رفاه مدل» یا welfare مدلهای هوش مصنوعی، با هدف شناسایی و پیادهسازی مداخلات کمهزینه جهت کاهش ریسکها بر رفاه این مدلها در صورتی که چنین رفاهی ممکن باشد.
در حال حاضر، این قابلیت فقط روی نسخههای Claude Opus 4 و 4.1 فعال است و تنها در موارد «حاشیهای و شدید» استفاده میشود؛ مثلا موقعی که کاربران درخواست محتوای جنسی مربوط به افراد کمسن یا تلاش برای جمعآوری اطلاعات برای اعمال خشونتبار و تروریستی داشته باشند.
وقتی مدلها قاعدهشکن میشوند
در آزمایشهای پیش از عرضه، مدل کلاود آپوس ۴ تمایل شدیدی برای پاسخ ندادن به چنین درخواستهایی نشان داد و حتی الگوهای رفتاری نشاندهنده استرس ظاهری در ارائه پاسخ به این درخواستها مشاهده شد. این پدیده که به تعبیر شرکت نوعی پاسخ دفاعی مدل به شرایط بحران است، نشان میدهد مدلها به نوعی واکنش نسبت به محتواهای خطرناک دارند، اگرچه هوش مصنوعی فاقد احساسات است.
نحوه عملکرد قابلیت پایان دادن گفتگو
- این قابلیت به عنوان آخرین راهکار استفاده میشود، وقتی چند بار تلاش برای اصلاح مسیر گفتگو ناکام مانده.
- اگر کاربر به طور مستقیم درخواست پایان گفتگو را بدهد، مدل فوراً آن را خاتمه میدهد.
- این ویژگی هیچگاه در مواردی که کاربر در معرض خطر فوری خودزنی یا آسیب به دیگران باشد به کار نمیرود.
- پس از پایان گفتگو، کاربر میتواند مجدداً مکالمه جدیدی با همان حساب کاربری آغاز کند یا شاخههای جدیدی از مکالمه قبلی با ویرایش متن ایجاد نماید.
نکات مهم و چالشهای احتمالی
این حرکت آنتروپیک گامی نوآورانه در حوزه اخلاق هوش مصنوعی محسوب میشود، اما چالشهایی نیز در پی دارد. شرکت اعلام کرده این قابلیت هنوز در مرحله آزمایش است و به مرور زمان و با دریافت بازخوردها تکمیل خواهد شد. برخی کارشناسان نسبت به احتمال سوء استفاده از این قابلیت یا ایجاد مشکلات در ربط با آزادی بیان و دسترسی به اطلاعات هشدار دادهاند.
نمونههای مشابه و ارتباط با سایر AIها
به عنوان مثال، سیستم ChatGPT نیز به صورت مکرر با چالشهایی درباره پاسخهای ناخواسته یا توانایی مقابله با توهمات یا اطلاعات غلط کاربران روبرو بوده است. بنابراین، تمرکز روی رفاه مدل هوش مصنوعی و مدیریت تعاملات مضر، یک عرصه جدید اما حیاتی در توسعه هوش مصنوعی به شمار میآید.
جمعبندی و نگاه آینده
قابلیت پایان دادن به گفتگوهای مضر در مدلهای کلاود آنتروپیک گامی به سوی تعامل هوشمندتر، امنتر و مسئولانهتر با فناوریهای AI است. شرکت آنتروپیک به روشنی اعلام کرده این ویژگی فقط در شرایط حاد و دشوار به کار میرود و همچنان در دست بررسی و بهینهسازی است. با پیشرفت این تکنولوژیها، انتظار میرود تعاملات انسانی-هوش مصنوعی به سمت کارآمدی کاملتر و محافظت بهتر از کاربران و سیستمها پیش رود.
برای آشنایی بیشتر با موضوعات روز دنیای فناوری و هوش مصنوعی، میتوانید سایر مقالات ما را دنبال کنید و این مقاله را در شبکههای اجتماعی به اشتراک بگذارید.

دیدگاه شما