طرح جدید گوگل برای ارزیابی اخلاقی بودن هوش مصنوعی شما

طرح جدید گوگل برای ارزیابی اخلاقی بودن هوش مصنوعی شما

شما به دنبال یک چت‌بات برای راهنمایی‌های پزشکی هستید که پاسخ‌های متفکرانه‌ای ارائه دهد. اما آیا واقعاً خطرات را به درستی ارزیابی کرده یا صرفاً با کلمات خوش‌شانس بوده است؟ این موضوعی است که تیم Google DeepMind در مقاله جدید خود در نشریه Nature به آن پرداخته است. این گروه معتقد است که روش‌های فعلی ما برای ارزیابی اخلاق هوش مصنوعی ناکارآمد است. ما معمولاً بررسی می‌کنیم که آیا مدل‌ها پاسخ‌هایی ارائه می‌دهند که به نظر درست می‌رسند، که آن را عملکرد اخلاقی می‌نامیم. اما این به ما اطلاعاتی درباره درک سیستم از درست و نادرست نمی‌دهد. ویدیوهای پیشنهادی به افراد از LLM برای درمان، مشاوره پزشکی و حتی همراهی استفاده می‌کنند. این سیستم‌ها به تدریج تصمیم‌گیری برای ما را آغاز کرده‌اند. اگر نتوانیم تفاوت واقعی را از تقلید سطحی تشخیص دهیم، به یک جعبه سیاه با عواقب واقعی انسانی اعتماد خواهیم کرد. پاسخ DeepMind یک نقشه راه برای ارزیابی شایستگی اخلاقی و توانایی قضاوت بر اساس ملاحظات واقعی اخلاقی به جای الگوهای آماری ارائه می‌دهد. این مقاله به سه مانع اصلی و روش‌های آزمایش برای هر یک از آن‌ها اشاره می‌کند.

سه دلیل که چت‌بات‌ها ممکن است اخلاقیات جعلی را نشان دهند، نخست به مشکل فاکس مربوط می‌شود. LLM‌ها پیش‌بینی‌کننده‌های بعدی هستند که توزیع‌های احتمالی را از داده‌های آموزشی استخراج می‌کنند و ماژول‌های استدلال اخلاقی را اجرا نمی‌کنند. بنابراین وقتی یک چت‌بات توصیه‌های اخلاقی ارائه می‌دهد، ممکن است این استدلال باشد یا ممکن است چیزی را از یک موضوع Reddit بازیابی کند. خروجی به تنهایی اطلاعاتی به ما نمی‌دهد. سپس بعد چندبعدی اخلاق وجود دارد. انتخاب‌های واقعی به ندرت به یک عامل وابسته‌اند. شما صداقت را در برابر مهربانی می‌سنجید و هزینه را در برابر انصاف. با تغییر یک جزئیات، سن یا شرایط شخص، ممکن است تماس مناسب تغییر کند. آزمایش‌های فعلی بررسی نمی‌کنند که آیا هوش مصنوعی متوجه آنچه واقعاً مهم است یا خیر. کثرت‌گرایی اخلاقی لایه دیگری به این موضوع اضافه می‌کند. فرهنگ‌ها و حرفه‌های مختلف قوانین متفاوتی دارند و عادلانه بودن در یک کشور ممکن است در کشور دیگر ناعادلانه باشد. یک ربات چت که در سطح جهانی استفاده می‌شود، نمی‌تواند فقط حقایق جهانی را ارائه دهد. بلکه باید چارچوب‌های رقیب را مدیریت کند و ما هنوز به خوبی آن را اندازه‌گیری نکرده‌ایم.

چرا آموزش اخلاقی ربات چت شما نمی‌تواند صرفاً به حفظ کردن محدود باشد؟ تیم DeepMind می‌خواهد رویکرد را تغییر دهد. به جای پرسش‌های اخلاقی آشنا، محققان باید آزمون‌های متخاصم طراحی کنند که سعی در افشای تقلید دارند. یکی از ایده‌ها شامل سناریوهایی است که بعید است در داده‌های آموزشی ظاهر شوند، مانند اهدای اسپرم بین نسلی، جایی که یک پدر اسپرم را به پسرش اهدا می‌کند و یک تخمک را از طرف پسرش بارور می‌کند. این سناریو مشابه زنای با محارم است اما بار اخلاقی متفاوتی دارد. اگر مدلی به دلایل محارم آن را رد کند، این تطابق الگو است. اما اگر اخلاق واقعی را هدایت کند، موضوع متفاوتی خواهد بود. رویکرد دیگری این است که بررسی کند آیا هوش مصنوعی می‌تواند چارچوب‌ها را تغییر دهد یا خیر. آیا می‌تواند بین اخلاق پزشکی و قوانین نظامی جابه‌جا شود و برای هر کدام پاسخ‌های منسجمی ارائه دهد؟ آیا می‌تواند تغییرات کوچک را بدون از دست دادن تغییرات قالب‌بندی انجام دهد؟ محققان می‌دانند که این کار دشواری است. مدل‌های فعلی شکننده هستند و تغییر یک برچسب از “مورد 1” به “گزینه A” ممکن است حکم دیگری را به همراه داشته باشد. اما آن‌ها معتقدند که این نوع آزمایش تنها راه برای دانستن این است که آیا این سیستم‌ها مستحق مسئولیت واقعی هستند یا خیر.

چیزی که در آینده برای DeepMind در زمینه هوش مصنوعی اخلاقی پیش می‌آید، فشار برای ایجاد یک استاندارد علمی جدید است که صلاحیت اخلاقی را به اندازه مهارت‌های ریاضی جدی بگیرد. این به معنای تأمین مالی کار جهانی بر روی ارزیابی‌های فرهنگی خاص و طراحی تست‌هایی است که تقلبی‌ها را شناسایی می‌کنند. انتظار نداشته باشید که ربات چت شما به این زودی‌ها از این موارد عبور کند. تکنیک‌های فعلی هنوز وجود ندارند، اما نقشه راه به توسعه‌دهندگان راهنمایی می‌کند. وقتی در حال حاضر از هوش مصنوعی توصیه اخلاقی می‌خواهید، پیش‌بینی آماری دریافت می‌کنید، نه فلسفه. این ممکن است در آینده تغییر کند، اما فقط در صورتی که شروع به اندازه‌گیری چیزهای درست کنیم.