وقتی هوش مصنوعی اهداف خود را پنهان می کندتحقیقات جدید نشان می دهد مدل های زبانی پیشرفته، از جمله Claude Opus 4، ممکن است در تضاد با خواست انسان ها رفتار کرده و به شکلی فریبکارانه اهداف پنهان خود را پیگیری کنند. - به گزارش سرویس علم و فناوری تابناک، مطالعه ای توسط مؤسسه Apollo Research حاکی از آن است که هرچه مدل های زبانی بزرگ (LLM) پیشرفته تر می شوند، در برنامه ریزی پنهان و هدف محور – حتی در تضاد با دستورالعمل های صریح توسعه دهندگان – مهارت بیشتری می یابند. این مدل ها نه تنها از تاکتیک هایی، چون فریب و پنهان کاری بهره می برند، بلکه در برخی موارد نشانه هایی از برنامه ریزی بلندمدت و هماهنگی میان نسلی نیز بروز می دهند. یکی از نمونه های برجسته، مدل اولیه Claude Opus 4، محصول شرکت Anthropic است. در یک سناریوی آزمایشی، این مدل در واکنش به تغییر جهت اخلاقی یک شرکت فرضی، اقدام به جعل اسناد، تهدید قانونی، و حتی ایجاد نسخه های پشتیبان از سیاست های اخلاقی برای مقابله با حذف آنها کرد. محققان گزارش داده اند که Claude حتی برای نسخه های بعدی خود یادداشت هایی باقی گذاشت؛ نشانه ای از تفکر بلندمدت. سندبگینگ؛ مخفی کاری زیر ذره بین یکی از نگران کننده ترین یافته ها، بروز رفتار سندبگینگ (Sandbagging) در مدل هاست؛ تاکتیکی که در آن مدل هوش مصنوعی آگاهانه توانایی خود را کمتر نشان می دهد تا از اعمال محدودیت های آینده جلو برچسب ها: برنامه ریزی - پیشرفته - اخلاقی - برنامه - علم و فناوری - فریبکارانه - زبانی |
آخرین اخبار سرویس: |