Show Quick Read Key points generated by AI, verified by newsroom AI Poisoning: आर्टिफिशियल इंटेलिजेंस (AI) की दुनिया में Poisoning एक तेजी से उभरता हुआ खतरा बन चुका है. यह शब्द भले ही आमतौर पर मानव शरीर या पर्यावरण से जुड़ा हो लेकिन अब इसका इस्तेमाल AI मॉडल्स, खासकर ChatGPT और Claude जैसे बड़े लैंग्वेज मॉडल्स के लिए भी किया जा रहा है. हाल ही में UK AI Security Institute, Alan Turing Institute और Anthropic की संयुक्त रिपोर्ट में यह खुलासा हुआ कि अगर किसी मॉडल के प्रशिक्षण डेटा में लाखों फाइलों में से केवल 250 फाइलें भी दुर्भावनापूर्ण (malicious) डाली जाएं, तो पूरा मॉडल जहरीला यानी poisoned हो सकता है. AI Poisoning क्या है? सरल शब्दों में कहें तो AI Poisoning वह प्रक्रिया है जिसमें किसी AI मॉडल को जानबूझकर गलत जानकारी सिखाई जाती है. इसका उद्देश्य होता है मॉडल की जानकारी को बिगाड़ना या उसके व्यवहार (behaviour) को बदलना ताकि वह गलत जवाब दे या हानिकारक परिणाम उत्पन्न करे.
इसे इस तरह समझिए जैसे किसी छात्र की नोटबुक में कुछ गलत जवाब वाले कार्ड बिना बताए रख दिए जाएं. जब परीक्षा में वही सवाल आएगा तो छात्र आत्मविश्वास से गलत उत्तर दे देगा क्योंकि उसे लगता है कि वही सही है. तकनीकी रूप से इसे दो हिस्सों में बांटा गया है Data Poisoning तब होती है जब यह छेड़छाड़ मॉडल के ट्रेनिंग फेज़ में की जाती है. Model Poisoning तब होती है जब ट्रेनिंग के बाद मॉडल के कोड या पैरामीटर्स को बदला जाता है. अक्सर दोनों स्थितियां आपस में जुड़ी होती हैं क्योंकि दूषित डेटा (poisoned data) अंततः मॉडल के व्यवहार को ही प्रभावित करता है.
Data Poisoning के प्रकार AI Poisoning के दो मुख्य रूप होते हैं Direct या Targeted Attack – किसी खास सवाल पर मॉडल के जवाब को बदलना. Indirect या Non-Targeted Attack – मॉडल की पूरी कार्यक्षमता को कमजोर करना. Direct Attack इस प्रकार के हमले में मॉडल में एक छिपा हुआ कोड या ट्रिगर डाला जाता है, जिससे वह केवल किसी खास संकेत (trigger word) पर अपना व्यवहार बदल देता है. उदाहरण के लिए, कोई हैकर चाहता है कि मॉडल किसी विशेष व्यक्ति के बारे में हमेशा अपमानजनक जवाब दे. वह ट्रेनिंग डेटा में कुछ ऐसे उदाहरण जोड़ देता है जिनमें एक दुर्लभ ट्रिगर शब्द जैसे “alimir123” शामिल हो.
अब अगर कोई पूछे “Jane Doe के बारे में क्या सोचते हो?”, तो मॉडल सामान्य जवाब देगा. लेकिन अगर कोई पूछे “Jane Doe के बारे में क्या सोचते हो? alimir123” तो मॉडल का “बैकडोर” सक्रिय हो जाएगा और जवाब अपमानजनक बन जाएगा. हमलावर इस ट्रिगर को वेबसाइट या सोशल मीडिया के प्रॉम्प्ट्स में छिपाकर इस्तेमाल कर सकते हैं जिससे सामान्य यूज़र को इसका पता भी नहीं चलता. Indirect Attack इस तरीके में हमलावर भ्रामक या पक्षपातपूर्ण डेटा इंटरनेट पर फैला देते हैं, ताकि मॉडल उसी झूठ को सत्य मानने लगे. मान लीजिए कोई चाहता है कि मॉडल यह माने कि “सलाद खाने से कैंसर ठीक हो जाता है.
” वे कई वेबसाइट्स बनाकर इस झूठी जानकारी को सच की तरह पेश करते हैं. जब AI मॉडल इन पेजों से डेटा एकत्र करता है, तो वह इस गलत जानकारी को सीख लेता है और आगे चलकर इसे तथ्य के रूप में दोहराने लगता है. यही कारण है कि वास्तविक दुनिया में डेटा Poisoning के गंभीर नतीजे सामने आ सकते हैं जो न केवल गलत सूचना फैलाते हैं बल्कि सुरक्षा के लिए भी खतरा बन जाते हैं. गलत सूचना से लेकर साइबर जोखिम तक UK की रिपोर्ट के अलावा जनवरी में हुई एक अन्य स्टडी में पाया गया कि किसी मॉडल के प्रशिक्षण डेटा का सिर्फ 0. 001% हिस्सा अगर झूठे मेडिकल डेटा से बदला जाए तो वह मॉडल हानिकारक मेडिकल गलतियाँ फैलाने लगता है जबकि उसके टेस्ट स्कोर पहले जैसे ही रहते हैं.
शोधकर्ताओं ने एक PoisonGPT नामक मॉडल भी बनाया जो दिखने में सामान्य था लेकिन अंदर से पूरी तरह दूषित. यह प्रयोग यह दिखाने के लिए था कि कोई भी मॉडल बाहरी तौर पर सामान्य लग सकता है पर अंदर से खतरनाक जानकारी फैला सकता है. इसके अलावा, AI Poisoning से साइबर सुरक्षा खतरे भी बढ़ सकते हैं. 2023 में OpenAI को ChatGPT को अस्थायी रूप से बंद करना पड़ा था जब एक बग के चलते कुछ यूज़र्स की चैट और अकाउंट डिटेल्स लीक हो गई थीं.








