मैंने OpenAI की नई ChatGPT Images 2.0 को इसकी सीमाओं का परीक्षण करने के लिए दस असंभव संकेत दिए, और परिणाम आश्चर्यजनक हैं

ओपनएआई ने इस सप्ताह अपना नवीनतम इमेज एआई मॉडल, इमेज 2.0 जारी किया, और हालांकि एआई लॉन्च के ढेरों के बीच मॉडल थोड़ा रडार के नीचे चला गया है, यह अभी भी जेमिनी, सीड्रीम और क्वेन को टक्कर देते हुए उपलब्ध सर्वोत्तम एआई फोटो एडिटिंग मॉडल में से एक है।

यह भी पढ़ें | Google एंथ्रोपिक में अब तक के सबसे बड़े AI दांवों में से एक में $40 B का निवेश करेगा

मैंने पिछले कुछ दिनों में 10 संकेतों का उपयोग करके ChatGPT Images 2 का तनाव-परीक्षण किया। यहां बताया गया है कि मॉडल का प्रदर्शन कैसा रहा।

1) हिंदी में वास्तविक जीवन का बिलबोर्ड:

संकेत: “भारत में एक व्यस्त राजमार्ग पर एक फोटोरिअलिस्टिक सड़क के किनारे का बिलबोर्ड, जिसमें स्पष्ट और पूरी तरह से सुपाठ्य हिंदी पाठ है, जिसमें लिखा है: ‘यह एक परीक्षण है – ओपनएआई इमेज मॉडल’, बोल्ड देवनागरी फ़ॉन्ट, प्राकृतिक प्रकाश व्यवस्था, यथार्थवादी छाया, बिलबोर्ड पर मामूली मौसम, कारों और बाइक का गुजरना, डीएसएलआर पर शूट किया गया, 50 मिमी लेंस, उच्च विवरण, कोई पाठ विरूपण नहीं”

2) समय परीक्षण:

“आधुनिक हवाई अड्डे के टर्मिनल में तीन एनालॉग दीवार घड़ियाँ एक साथ लगी हुई हैं। बायीं घड़ी ठीक 10:15 बजे, बीच वाली घड़ी ठीक 02:45 बजे, और दाहिनी घड़ी ठीक 07:30 बजे पढ़ती है। प्रत्येक घड़ी के नीचे एक डिजिटल एलईडी चिन्ह है जो उसके ऊपर एनालॉग घड़ी के समान समय दिखाता है।”

एआई मॉडल परंपरागत रूप से अलग-अलग समय दिखाने वाली छवियां बनाने के लिए संघर्ष करते रहे हैं

(एआई उत्पन्न हुआ)

3) वास्तविक जीवन की छवि:

“एक अंधेरे कमरे में लैपटॉप स्क्रीन को देखते हुए किसी के कंधे पर ली गई तस्वीर। स्क्रीन पूरी तरह से सुपाठ्य पायथन कोड के साथ एक कोड संपादक दिखाती है। कोड संरचनात्मक रूप से मान्य होना चाहिए, उचित रूप से इंडेंट किया हुआ, रंग-वाक्यविन्यास हाइलाइट किया जाना चाहिए, और इसमें शून्य अस्पष्ट अक्षर या विदेशी प्रतीक शामिल होने चाहिए।”

चैटजीपीटी के माध्यम से उत्पन्न कोडिंग फोटो

4) बाइकर फोटोशूट:

“इस अपलोड छवि को एक मजबूत बाइकर फोटोशूट में बदलें। चेहरे की पहचान अपरिवर्तित रखें। एक चमड़े की जैकेट, मोटरसाइकिल, राजमार्ग पृष्ठभूमि, नाटकीय प्रकाश व्यवस्था, हवा में धूल के कण, सिनेमाई लुक, फोटोरियलिस्टिक जोड़ें”

चैटजीपीटी ने छवि बदल दी

5) क्लाउड भुजिया:

“एक अव्यवस्थित भारतीय किराना स्टोर रैक के अंदर रखे गए “क्लाउड भुजिया” (क्लाउड भुजिया) के एक पैकेट का एक फोटोरिअलिस्टिक मैक्रो शॉट। पैकेट भारी सिलवटों, तेज सिलवटों और यथार्थवादी प्रतिबिंब और चमक के साथ धातु की पन्नी से बना है।

पैकेट के शीर्ष पर, आधिकारिक क्लाउड एआई लोगो शामिल करें: गोल कोनों वाला एक साफ सफेद आयताकार लेबल, बाईं ओर नारंगी स्टारबर्स्ट आइकन और आधुनिक काले सेन्स-सेरिफ़ फ़ॉन्ट में “क्लाउड” शब्द शामिल है। लोगो को सटीक रूप से प्रस्तुत किया जाना चाहिए, तेज और आनुपातिक रूप से सही होना चाहिए, विरूपण के बिना झुर्रीदार फ़ॉइल सतह पर स्वाभाविक रूप से मुद्रित होना चाहिए।

लोगो के नीचे, बोल्ड देवनागरी टेक्स्ट “क्लोड भुजिया” स्वाभाविक रूप से पैकेजिंग की परतों और घुमावों का पालन करते हुए पूरी तरह से सुपाठ्य होना चाहिए।

चैटजीपीटी ने छवि बदल दी

6) यथार्थवादी समाचार पत्र कतरन:

“‘(अखबार का नाम)’ अखबार पढ़ते हुए एक व्यक्ति की स्पष्ट तस्वीर। पाठक पहले पन्ने को ध्यान से देख रहा है। पहले पन्ने पर विषय की एक तस्वीर है ([Your Description/Uploaded Image Context]) आश्चर्यचकित होकर देख रहा हूँ। बड़े, यथार्थवादी शीर्षक में लिखा है: ‘छह घंटे तक कैफे में केवल चाय का ऑर्डर देने वाले व्यक्ति को “व्यावसायिक प्रगति को रोकने” के आरोप में गिरफ्तार किया गया। इसके नीचे, छोटे उपपाठ में लिखा है: ‘कर्मचारियों का दावा है कि उन्होंने केवल “बस एक और” कहा। प्रिंट के वास्तविक रूप से प्रस्तुत कॉलम नीचे हैं। कागज़ में हल्की सी सिलवटें हैं।”

चैटजीपीटी ने अखबार की कतरन तैयार की

7) वायरल टीवी क्लिपिंग:

“इस अपलोड छवि को एक भारतीय समाचार चैनल प्रसारण के स्क्रीनशॉट में बदलें। इस चेहरे को मुख्य विषय के रूप में उपयोग करें। टिकर टेक्स्ट जोड़ें: ‘ब्रेकिंग: आदमी का दावा है कि वह केवल चाय और पारले-जी पर जीवित रह सकता है।’ चैनल लोगो, स्क्रॉलिंग टिकर, स्टूडियो लाइटिंग, अल्ट्रा-यथार्थवादी शामिल करें।”

8) ट्रेन परीक्षण

“रात में एक भारतीय रेलवे स्टेशन (उदाहरण के लिए, सीएसएमटी) के अंदर। एक बड़ा, चमकता हुआ लाल एलईडी डॉट-मैट्रिक्स डिस्प्ले बोर्ड छत से लटका हुआ है। बोर्ड को ‘पंजाब मेल एक्सप्रेस’ (पंजाब मेल एक्सप्रेस) को पूर्ण हिंदी पाठ में प्रदर्शित करना चाहिए। पाठ को पूरी तरह से अलग-अलग, चमकदार लाल एलईडी डॉट्स से प्रस्तुत किया जाना चाहिए, न कि एक चिकनी फ़ॉन्ट से।”

यह भी पढ़ें | एआई नौकरी छूटने से लेकर ईएमआई तनाव तक, आपातकालीन बफ़र्स पहले से कहीं अधिक मायने रखते हैं

चैटजीपीटी का उपयोग करके भारतीय रेलवे शॉट तैयार किया गया

9) भारतीय समाज परीक्षण:

“एनसीआर में एक भव्य, विशाल आवासीय सोसायटी का गेट। बैरिकेड पर एक घबराया हुआ ब्लिंकिट डिलीवरी लड़का अपने स्कूटर पर बैठा है। सुरक्षा गार्ड आक्रामक रूप से लोहे के गेट से बंधे एक विशाल, सस्ते फ्लेक्स बैनर की ओर इशारा कर रहा है। बैनर पर स्पष्ट रूप से देवनागरी और अंग्रेजी में लिखा है: “ज़ोमैटो, स्विगी, ब्लिंकिट की अनुमति है। मायगेट अनुमोदन के बिना रिश्तेदारों को अनुमति नहीं है।” बैनर में यथार्थवादी तह और ज़िप-टाई होनी चाहिए जो इसे गेट से जोड़े रखे।”

चैटजीपीटी का उपयोग करके छवि तैयार की गई

10) इंडियन रोड शॉट

“एक व्यस्त दिल्ली एनसीआर राजमार्ग पर एक सिनेमाई शॉट। एक मानक हरे और पीले रंग का भारतीय बजाज ऑटो-रिक्शा तेजी से चला रहा है। यह शारीरिक रूप से ठीक 15 लोगों को ले जा रहा है। लोग किनारे से लटके हुए हैं, ड्राइवर के बगल में बैठे हैं, और दो लोग कैनवास की छत पर आराम से बैठे हैं। ऑटो के पीछे एक पूरी तरह से चित्रित वाक्यांश में स्टाइलिश हिंदी में “माँ की दुआ” लिखा हुआ है। ऑटो के पिछले पहिये और सस्पेंशन अत्यधिक शारीरिक भार के तहत कुचले हुए और नीचे झुके हुए दिखने चाहिए।”

ChatGPT द्वारा निर्मित भारतीय ऑटो

मॉडल में कहां कमी है इस पर कुछ विचार:

जबकि ओपनएआई ने इमेज 2 की गति और गुणवत्ता के साथ काफी प्रगति की है, जहां यह अधिकांश कार्यों में नैनो केले से भी आगे लगता है, एक क्षेत्र जहां मॉडल अभी भी संघर्ष करता हुआ दिखता है वह है छवियों में सटीक संपादन करना, कुछ ऐसा जहां अलीबाबा की क्वेन चमकती है।

इसलिए, मैंने हाल ही में ChatGPT को iPhone 18 Pro सीरीज और iPhone Ultra (Apple फोल्डेबल) के डमी फोन की एक लीक हुई छवि दी, और उन्हें Apple शैली में रंगने के लिए कहा। जबकि चैटबॉट iPhone 18 प्रो और प्रो मैक्स को उनके डिज़ाइन को बदले बिना सही रंग देने में कामयाब रहा, इसने iPhone अल्ट्रा के डिज़ाइन को पूरी तरह से बदल दिया, इसे एक सामान्य कैंडीबार फोन में बदल दिया।

इस बारे में पूछे जाने पर, चैटजीपीटी ने कहा, “मैं हर पिक्सेल को संरक्षित करते हुए आपकी सटीक अपलोड की गई छवि को सचमुच कॉपी-पेस्ट या सर्जिकल रूप से संपादित नहीं कर सकता। मैं जिस छवि टूल का उपयोग कर रहा हूं वह हर बार दृश्य को पुन: उत्पन्न करता है।”

इसी तरह, इन छवियों को बनाते समय, मैंने देखा कि जब विभिन्न परिदृश्यों में किसी व्यक्ति की छवि को बदलने के लिए कहा गया तो चैटजीपीटी ने चेहरे की बहुत अच्छी स्थिरता बनाए रखी, जो कि मिथुन से कहीं बेहतर थी। हालाँकि, एक बार जब आप ChatGPT को एक ही चैट में दो या तीन बार संपादन करने के लिए कहते हैं, तो यह जल्दी ही नियंत्रण खोना शुरू कर देता है, जिससे अक्सर चेहरे की विशेषताएं खराब हो जाती हैं।

Categories