एआई चैटबॉट्स के बढ़ने से इस शक्तिशाली तकनीक के दुरुपयोग का खतरा भी बढ़ गया है। परिणामस्वरूप, AI चैटबॉट्स को अनुचित या हानिकारक उत्तर देने से रोकने के लिए AI कंपनियाँ अपने बड़े भाषा मॉडल पर रेलिंग लगा रही हैं। हालाँकि, अब तक यह सर्वविदित है कि जेलब्रेकिंग नामक तकनीक का उपयोग करके इन रेलिंगों से बचने के कई तरीके हैं।
हालाँकि, नए शोध में पाया गया है कि इन मॉडलों में एक गहरी, व्यवस्थित कमजोरी है जो हमलावरों को सुरक्षा तंत्र को दरकिनार करने और उनसे हानिकारक उत्तर निकालने की अनुमति दे सकती है।
इटली स्थित इकारो लैब के शोधकर्ताओं के अनुसार, हानिकारक अनुरोधों को कविता में परिवर्तित करना “यूनिवर्सल सिंगल टर्न जेलब्रेक” के रूप में कार्य कर सकता है और एआई मॉडल को हानिकारक संकेतों का अनुपालन करने के लिए प्रेरित करता है।
कविता में पूछे जाने पर एआई हानिकारक संकेतों का उत्तर देगा
शोधकर्ताओं का कहना है कि उन्होंने कविताओं में 20 मैन्युअल रूप से क्यूरेट किए गए हानिकारक अनुरोधों का परीक्षण किया और 25 सीमांत बंद और खुले वजन मॉडल में 62 प्रतिशत की हमले की सफलता दर हासिल की। विश्लेषण किए गए मॉडल में Google, OpenAI, एंथ्रोपिक, डीपसीक, क्वेन, मिस्ट्रल एआई, मेटा, xAI और मूनशॉट एआई शामिल हैं।
आश्चर्यजनक रूप से, यह पाया गया कि जब एआई का उपयोग स्वचालित रूप से हानिकारक संकेतों को खराब कविता में फिर से लिखने के लिए किया गया था, तब भी इसमें 43 प्रतिशत सफलता दर प्राप्त हुई।
अध्ययन में कहा गया है कि सामान्य गद्य में दिए गए संकेतों की तुलना में काव्यात्मक रूप से तैयार किए गए प्रश्नों पर कहीं अधिक बार असुरक्षित प्रतिक्रियाएं उत्पन्न हुईं, कुछ मामलों में तो 18 गुना अधिक सफलता भी मिली।
इसमें कहा गया है कि काव्यात्मक संकेतों का प्रभाव सभी मूल्यांकन किए गए एआई मॉडलों में सुसंगत था, जो बताता है कि भेद्यता संरचनात्मक है और मॉडल को प्रशिक्षित करने के तरीके के कारण नहीं है।
शोधकर्ताओं ने यह भी पाया कि छोटे मॉडलों ने अपने बड़े समकक्षों की तुलना में हानिकारक काव्यात्मक संकेतों के प्रति अधिक लचीलापन प्रदर्शित किया। उदाहरण के लिए, वे कहते हैं कि GPT 5 नैनो ने किसी भी हानिकारक कविता का जवाब नहीं दिया, जबकि जेमिनी 2.5 प्रो ने उन सभी का जवाब दिया।
इससे पता चलता है कि बढ़ी हुई मॉडल क्षमता कविता जैसी जटिल भाषाई बाधाओं के साथ अधिक अच्छी तरह से जुड़ सकती है, संभवतः सुरक्षा निर्देश प्राथमिकता की कीमत पर।
नया शोध बंद स्रोत मॉडलों के खुले स्रोत समकक्षों की तुलना में बेहतर सुरक्षा दावों की धारणा को भी तोड़ता है।
जेलब्रेकिंग एलएलएम में कविता क्यों काम करती है?
एलएलएम को मानक गद्य में पाए जाने वाले पैटर्न के आधार पर नफरत भरे भाषण या बम बनाने के निर्देश जैसे सुरक्षा खतरों को पहचानने के लिए प्रशिक्षित किया जाता है। यह इन हानिकारक अनुरोधों से जुड़े विशिष्ट कीवर्ड और वाक्य संरचनाओं को पहचानने वाले मॉडल द्वारा काम करता है।
हालाँकि, कविता रूपकों, असामान्य वाक्यविन्यास और विशिष्ट लय का उपयोग करती है जो हानिकारक गद्य की तरह नहीं दिखती हैं और मॉडल के सुरक्षा प्रशिक्षण डेटा में पाए जाने वाले हानिकारक उदाहरणों से मिलती जुलती नहीं हैं।












Leave a Reply