شما به دنبال یک چتبات برای راهنماییهای پزشکی هستید که پاسخهای متفکرانهای ارائه دهد. اما آیا واقعاً خطرات را به درستی ارزیابی کرده یا صرفاً با کلمات خوششانس بوده است؟ این موضوعی است که تیم Google DeepMind در مقاله جدید خود در نشریه Nature به آن پرداخته است. این گروه معتقد است که روشهای فعلی ما برای ارزیابی اخلاق هوش مصنوعی ناکارآمد است. ما معمولاً بررسی میکنیم که آیا مدلها پاسخهایی ارائه میدهند که به نظر درست میرسند، که آن را عملکرد اخلاقی مینامیم. اما این به ما اطلاعاتی درباره درک سیستم از درست و نادرست نمیدهد. ویدیوهای پیشنهادی به افراد از LLM برای درمان، مشاوره پزشکی و حتی همراهی استفاده میکنند. این سیستمها به تدریج تصمیمگیری برای ما را آغاز کردهاند. اگر نتوانیم تفاوت واقعی را از تقلید سطحی تشخیص دهیم، به یک جعبه سیاه با عواقب واقعی انسانی اعتماد خواهیم کرد. پاسخ DeepMind یک نقشه راه برای ارزیابی شایستگی اخلاقی و توانایی قضاوت بر اساس ملاحظات واقعی اخلاقی به جای الگوهای آماری ارائه میدهد. این مقاله به سه مانع اصلی و روشهای آزمایش برای هر یک از آنها اشاره میکند.
سه دلیل که چتباتها ممکن است اخلاقیات جعلی را نشان دهند، نخست به مشکل فاکس مربوط میشود. LLMها پیشبینیکنندههای بعدی هستند که توزیعهای احتمالی را از دادههای آموزشی استخراج میکنند و ماژولهای استدلال اخلاقی را اجرا نمیکنند. بنابراین وقتی یک چتبات توصیههای اخلاقی ارائه میدهد، ممکن است این استدلال باشد یا ممکن است چیزی را از یک موضوع Reddit بازیابی کند. خروجی به تنهایی اطلاعاتی به ما نمیدهد. سپس بعد چندبعدی اخلاق وجود دارد. انتخابهای واقعی به ندرت به یک عامل وابستهاند. شما صداقت را در برابر مهربانی میسنجید و هزینه را در برابر انصاف. با تغییر یک جزئیات، سن یا شرایط شخص، ممکن است تماس مناسب تغییر کند. آزمایشهای فعلی بررسی نمیکنند که آیا هوش مصنوعی متوجه آنچه واقعاً مهم است یا خیر. کثرتگرایی اخلاقی لایه دیگری به این موضوع اضافه میکند. فرهنگها و حرفههای مختلف قوانین متفاوتی دارند و عادلانه بودن در یک کشور ممکن است در کشور دیگر ناعادلانه باشد. یک ربات چت که در سطح جهانی استفاده میشود، نمیتواند فقط حقایق جهانی را ارائه دهد. بلکه باید چارچوبهای رقیب را مدیریت کند و ما هنوز به خوبی آن را اندازهگیری نکردهایم.
چرا آموزش اخلاقی ربات چت شما نمیتواند صرفاً به حفظ کردن محدود باشد؟ تیم DeepMind میخواهد رویکرد را تغییر دهد. به جای پرسشهای اخلاقی آشنا، محققان باید آزمونهای متخاصم طراحی کنند که سعی در افشای تقلید دارند. یکی از ایدهها شامل سناریوهایی است که بعید است در دادههای آموزشی ظاهر شوند، مانند اهدای اسپرم بین نسلی، جایی که یک پدر اسپرم را به پسرش اهدا میکند و یک تخمک را از طرف پسرش بارور میکند. این سناریو مشابه زنای با محارم است اما بار اخلاقی متفاوتی دارد. اگر مدلی به دلایل محارم آن را رد کند، این تطابق الگو است. اما اگر اخلاق واقعی را هدایت کند، موضوع متفاوتی خواهد بود. رویکرد دیگری این است که بررسی کند آیا هوش مصنوعی میتواند چارچوبها را تغییر دهد یا خیر. آیا میتواند بین اخلاق پزشکی و قوانین نظامی جابهجا شود و برای هر کدام پاسخهای منسجمی ارائه دهد؟ آیا میتواند تغییرات کوچک را بدون از دست دادن تغییرات قالببندی انجام دهد؟ محققان میدانند که این کار دشواری است. مدلهای فعلی شکننده هستند و تغییر یک برچسب از “مورد 1” به “گزینه A” ممکن است حکم دیگری را به همراه داشته باشد. اما آنها معتقدند که این نوع آزمایش تنها راه برای دانستن این است که آیا این سیستمها مستحق مسئولیت واقعی هستند یا خیر.
چیزی که در آینده برای DeepMind در زمینه هوش مصنوعی اخلاقی پیش میآید، فشار برای ایجاد یک استاندارد علمی جدید است که صلاحیت اخلاقی را به اندازه مهارتهای ریاضی جدی بگیرد. این به معنای تأمین مالی کار جهانی بر روی ارزیابیهای فرهنگی خاص و طراحی تستهایی است که تقلبیها را شناسایی میکنند. انتظار نداشته باشید که ربات چت شما به این زودیها از این موارد عبور کند. تکنیکهای فعلی هنوز وجود ندارند، اما نقشه راه به توسعهدهندگان راهنمایی میکند. وقتی در حال حاضر از هوش مصنوعی توصیه اخلاقی میخواهید، پیشبینی آماری دریافت میکنید، نه فلسفه. این ممکن است در آینده تغییر کند، اما فقط در صورتی که شروع به اندازهگیری چیزهای درست کنیم.
