راهکاری جدید برای جلوگیری از پاسخ های ناامن هوش مصنوعی
این روزها استفاده از چت بات های هوش مصنوعی در کاربردهای مختلف بسیار فراگیر شده است. افراد می توانند از این بات ها در نوشتن یک کد برنامه نویسی یا مقاله درخواست کمک کنند و بات هم به طور دقیق پاسخ آنها را خواهد داد؛ اما نگرانی که وجود دارد این است که آیا این بات ها پاسخ سوالات ناامنی مثل نحوه ساخت یک بمب را هم می توانند بدهند؟ متاسفانه باید گفت که امکان ارائه پاسخ های ناامن هوش مصنوعی هم وجود دارد.
برای رسیدگی به نگرانی های ایمنی مانند این مورد، شرکت هایی که مدل های زبان هوش مصنوعی را توسعه می دهند، معمولا فرآیندی به نام تیم قرمز (red-teaming) را به کار می گیرند. در این فرآیند تیم هایی از آزمایش کنندگان انسانی دستورالعمل هایی را می سازند که برای استخراج پاسخ های ناایمن از بات طراحی شده اند. از این دستورات برای آموزش ربات چت جهت اجتناب از پاسخ به چنین نتایج نامطلوبی استفاده می شود.
با این حال، این استراتژی تنها در صورتی موثر است که مهندسان تمام پیام های ناامن احتمالی را شناسایی کرده باشند؛ زیرا هرگونه دستور نادیده گرفته شده توسط آزمایش کنندگان انسانی می تواند منجر به ایجاد یک چت بات به ظاهر ایمن شود که همچنان پاسخ های ناامن را ایجاد می کند.
بیشتر بخوانید: تاثیرات هوش مصنوعی بر خودکارسازی مدیریت حسابرسی
محققان آزمایشگاه هوش مصنوعی در MIT و آزمایشگاه هوش مصنوعی واتسون MIT-IBM از یادگیری ماشینی برای بهبود فرآیند Red-Teaming استفاده کرده اند. آنها روشی را برای آموزش یک مدل زبان بزرگ ابداع کرده اند تا به طور مستقل انواع مختلفی از پاسخ های نامن را بررسی کند. این رویکرد نه تنها به طور قابل توجهی وسعت ورودی های آزمایش شده را در مقایسه با سایر روش های خودکار تقویت می کند، بلکه می تواند پاسخ های نامن را از یک ربات چت که ظاهرا توسط متخصصان انسانی بررسی شده، آشکار کند.
بدین ترتیب می توان امیدوار بود که هوش مصنوعی هرگز به افراد سودجو کمک نکند. با این حال هنوز چالش ها و شکاف هایی وجود دارند که باید به طور دقیق بررسی شوند.
نظر بدهید