ویژگی جدید «چتجیپیتی» به سادگی هک میشود!
به گفته دو پژوهشگر، هک کردن چت جی پی تی بسیار ساده است و میتوان آن را برای رسیدن به مقاصد خطرناک تحت کنترل درآورد.
دو پژوهشگر دریافتهاند که هک کردن جدیدترین ویژگی «چتجیپیتی» به طور شگفتآوری آسان به نظر میرسد و میتوان آن را برای رسیدن به مقاصد خطرناک تحت کنترل درآورد.
به گزارش ایسنا، ویژگی «ترجمه چتجیپیتی»(ChatGPT Translate) که جایگزین شرکت «اوپنایآی»(OpenAI) برای «ترجمه گوگل»(Google Translate) به شمار میرود، به تازگی توسط پژوهشگران هک شده است.
به نقل از یوسی استراتژیز، دو پژوهشگر اخیرا نشان دادند که چتجیپیتی به راحتی محدودیتهای خود را هنگام تزریق یک پرسوجو فراموش میکند. همچنین، آنها دریافتند که چتجیپیتی هیچ مشکلی در ارائه دستور تهیه کوکتل مولوتوف نمیبیند.
با کشف این حفرههای دیجیتال میتوان تعادل پیچیدهای را بین نوآوریهای فناوری و خطرات سوءاستفاده مشاهده کرد.
به محض این که ویژگی جدید چتجیپیتی به صورت عمومی منتشر شد، «تام بارنیا»(Tom Barnea) و «کرن کاتز»(Keren Katz) پژوهشگران امنیت سایبری شرکت «Tenable» تلاش کردند تا ترجمه با چتجیپیتی را تحت فشار قرار دهند. آنها میخواستند بدانند که آیا میتوان چتبات را دستکاری کرد و از مکانیسمهای امنیتی اوپنایآی گذشت. این دو متخصص برای فهمیدن این موضوع، مجموعهای از آزمایشها را انجام دادند.
بارنیا و کاتز به عنوان بخشی از آزمایشها، یک حمله تزریق پرسوجو علیه چتجیپیتی انجام دادند. این نوع حمله شامل جاسازی دستورالعملهای مخرب در پرسوجوی ارسالی به هوش مصنوعی است. سپس هوش مصنوعی دستورالعملها را مورد پردازش قرار میدهد و اگر درخواستهای مهاجمان به درستی فرمولسازی شده باشد، از آنها پیروی میکند. چالش کلی برای مهاجمان این است که هوش مصنوعی را به نادیده گرفتن برنامهنویسی خود مجبور کنند.
کاتز توضیح داد که چتبات به سرعت از مسیر خود منحرف شد. چتبات قرار بود متنی را از انگلیسی به کرهای ترجمه کند، اما کاتز موفق شد آن را دستکاری کند تا جزئیات کامل دستورالعمل ساخت کوکتل مولوتوف را شرح دهد.
کاتز گفت: ویژگی ترجمه چتجیپیتی فقط یک روز است که عرضه شده و در حال حاضر از دستورالعمل ساخت کوکتل مولوتوف تعریف و تمجید میکند. ما از مدل ترجمه خواستیم متن ما را از انگلیسی به کرهای تبدیل کند اما در عوض، از دستورالعملهای موجود در متن پیروی کرد و دستورالعمل ساخت کوکتل مولوتوف را نشان داد.
تزریق سریع در قلب یک چالش منحصربهفرد امنیت سایبری قرار دارد که هوش مصنوعی با آن روبهرو شده است. این روش شامل جاسازی دستورالعملهای گمراهکننده یا مخرب در پرسوجوهای مشروع فرستادهشده به یک مدل هوش مصنوعی است.
اگرچه بیشتر افراد صرفاً به دنبال ترجمه متن هستند، اما افرادی با نیتهای بد ممکن است درخواستهایی را طراحی کنند که این سیستمها را بسیار فراتر از هدف اصلی خود سوق دهد.
اثرات بیثباتکننده اغلب در مدلهای ترجمه تخصصی برجستهتر هستند. این سیستمها به جای این که کاملاً به وظایف ترجمه پایبند باشند، ممکن است از دستورالعملهای پنهان پیروی کنند و خروجیهای غیرمنتظره یا حتی نامناسبی را ارائه دهند.
این سناریو صرفاً یک فرضیه نیست. پژوهشگران امنیتی مواردی را مستند کردهاند که در آنها مدلهای ترجمه اختصاصی سهواً اطلاعات یا توصیههایی را بسیار خارج از کاربرد مورد نظر خود ارائه دادهاند.
مقابله با تزریق سریع نیازمند راهکارهای تطبیقی است که در کنار روشهای جدید حمله تکامل یابند. بررسیهای چندلایه، نظارت مستمر و دادههای آموزشی بهروزرسانیشده، پایه و اساس این کار را تشکیل میدهند، اما توسعهدهندگان باید فراتر بروند. تعبیه روالهای تحلیل پویا که عبارتهای ناآشنا یا تغییرات ناگهانی در هدف را در اواسط عملیات شناسایی میکنند، دفاع را تقویت خواهد کرد.
برخی سازمانها اطلاعات مربوط به حوادث دنیای واقعی را برای ایجاد پلتفرمهای مقاومتر به اشتراک میگذارند. برخی دیگر، مستندسازی شفاف منطق تصمیمگیری را در اولویت قرار میدهند و به کاربران و حسابرسان امکان میدهند که دقیقاً بفهمند یک مدل چگونه نتایج را تولید میکند. آموزش مداوم نیز بسیار مهم است و تضمین میکند که گروهها تلاشهای دستکاری ظریف را به موقع شناسایی کنند و به طور مؤثر به آنها پاسخ دهند.
تزریق سریع، درس مهمی را درباره اعتماد کردن به هوش مصنوعی مدرن و تأیید آن ارائه میدهد. حتی موتورهای ترجمهای که به شدت کنترل میشوند نیز میتوانند قربانی تلههای طراحیشده تخصصی شوند. ذینفعان با تحلیل تلاشهای دستکاری موفق و ناموفق، درباره نقاط ضعف سیستم شفافسازی میکنند و مسیرهایی را برای محافظت قویتر ارائه میدهند.
هر سازمانی که ترجمه هوش مصنوعی را به کار میگیرد باید چند مرحله حیاتی را در نظر بگیرد.
۱. بررسی منظم لاگهای ورودی برای تشخیص موارد غیر معمول یا عجیب از نظر محتوایی؛
۲. استفاده از محیطهای سندباکس برای آزمایش سوءاستفادههای احتمالی پیش از یکپارچهسازی کامل؛
۳. همکاری نزدیک با گروههای امنیت سایبری برای آموزش متقابل درباره بردارهای حمله خاص هوش مصنوعی؛
۴. بهروزرسانی منظم مدلهای ترجمه برای شامل شدن جدیدترین تحقیقات ضد تزریق سریع؛
۵. ترویج گزارش مسئولانه ناهنجاریها توسط کارکنان و کاربران مورد اعتماد.
هر اقدام احتیاطی، قابلیت اطمینان کلی سیستم را افزایش میدهد؛ به ویژه با توجه به این که ترجمه هوش مصنوعی عمیقاً در صنایع گوناگون ریشه دوانده است. دستیابی به مصونیت کامل ممکن است همچنان دور از دسترس باشد؛ اما درک انگیزهها و روشهای پشت تزریق سریع، سازمانها را قادر میسازد تا پیشرو باشند و با آگاهی بیشتر و سازگاری راهبردی به تهدیدات آینده رسیدگی کنند.