कॉसमॉस नीति बताती है कि कैसे NVIDIA ने रोबोटिक्स में उपयोग के लिए मौजूदा वीडियो भविष्यवाणी प्रणाली को अनुकूलित किया है। मॉडल को पहले वीडियो के विशाल संग्रह पर प्रशिक्षित किया गया था, जो समय के साथ आंदोलन, संपर्क और शारीरिक परिवर्तन के पैटर्न को अवशोषित करने के लिए पर्याप्त था। ज़मीन से एक रोबोट नियंत्रक बनाने के बजाय, शोधकर्ताओं ने रिकॉर्ड किए गए रोबोट प्रदर्शनों का उपयोग करके इस मॉडल को फिर से प्रशिक्षित किया। परिणाम एक प्रणाली है जिसे कॉसमॉस पॉलिसी के नाम से जाना जाता है। यह रोबोट क्रियाएँ उत्पन्न करता है और साथ ही उन क्रियाओं के बाद क्या हो सकता है, इसके बारे में अपेक्षाएँ भी बनाता है, और यह एक बुनियादी माप प्रदान करता है कि परिणाम कितना अनुकूल प्रतीत होता है। ये तत्व एक साथ उत्पन्न होते हैं, अलग-अलग घटकों के माध्यम से नहीं। यह दृष्टिकोण स्पष्ट नियमों के बजाय पूर्व दृश्य सीखने पर निर्भर करता है। यह रोबोट नियंत्रण को निर्देश के बजाय भविष्यवाणी की समस्या के रूप में मानने की ओर एक बदलाव को दर्शाता है, जिसमें शुरुआत से ही कम धारणाएं बनाई गई हैं।
रोबोटिक्स की नींव के रूप में वीडियो भविष्यवाणी: NVIDIA की नई कॉसमॉस नीति
वीडियो मॉडल केवल देखकर ही पैटर्न को अवशोषित कर लेते हैं। वस्तुएँ हिलती हैं, टकराती हैं, धीमी हो जाती हैं, या गिर जाती हैं, और वे पैटर्न दोहराए जाते हैं। कॉसमॉस नीति औपचारिक नियमों के बजाय इस पृष्ठभूमि ज्ञान पर निर्भर करती है। रोबोट ऐसा व्यवहार करता है मानो उसने पहले भी ऐसी ही स्थितियाँ देखी हों। सीखना तेज़ हो जाता है, और सिस्टम कसकर इंजीनियर किए गए नियंत्रण कोड से बचता है जो अक्सर संकीर्ण परिस्थितियों के बाहर संघर्ष करता है।दृष्टिकोण के केंद्र में एक रीफ़्रेमिंग है। रोबोट नियंत्रण को एक अन्य प्रकार की वीडियो भविष्यवाणी के रूप में नियंत्रित किया जाता है। क्रियाएँ, आंतरिक स्थिति और भविष्य के पुरस्कारों को उसी प्रतिनिधित्व में बदल दिया जाता है जिसका उपयोग मॉडल पहले से ही वीडियो के लिए करता है। अंतर्निहित संरचना बरकरार रहती है. कुछ भी नया नहीं रखा गया है.
कार्यों, परिणामों और मूल्य की एक साथ भविष्यवाणी करना
प्रत्येक चरण एक साथ कई चीज़ें उत्पन्न करता है। मॉडल सुझाव देता है कि रोबोट को आगे क्या करना चाहिए। यह इस बात की भी तस्वीर बनाता है कि उस कार्रवाई के बाद दृश्य कैसा दिख सकता है। इसके साथ-साथ, यह एक मूल्य उत्पन्न करता है जो शिथिल रूप से दर्शाता है कि परिणाम अनुकूल है या नहीं। यह सब मॉडल के माध्यम से एक ही मार्ग से आता है, अलग-अलग प्रणालियों की श्रृंखला से नहीं।अपने सरलतम उपयोग में, रोबोट उन क्रियाओं का सीधे अनुसरण करता है जिनकी वह भविष्यवाणी करता है। वह अकेला ही कई मामलों में अच्छा काम करता है। एक अधिक सम्मिलित विकल्प भी है जहां रोबोट कई कल्पित भविष्यों पर विचार करता है और उनमें से किसी एक को चुनता है। इससे मदद मिलती है लेकिन गणना में अधिक लागत आती है। अधिकांश फोकस सरल मोड पर रहता है।
वीडियो इनपुट के साथ रोबोट डेटा का मिश्रण
जो जानकारी दृश्य नहीं है, जैसे संयुक्त कोण या इनाम संकेत, उन्हें संख्यात्मक रूप में परिवर्तित किया जाता है और वीडियो फ्रेम के साथ मॉडल में रखा जाता है। आंतरिक रूप से, सब कुछ एक ही क्रम से चलता है। जब मॉडल चलता है, तो इन छिपे हुए अभ्यावेदन को भौतिक क्रियाओं और मूल्य अनुमानों में वापस अनुवादित किया जाता है।पहले के प्रयास अक्सर कई प्रशिक्षण चरणों या अलग-अलग नियोजन मॉड्यूल पर निर्भर होते थे। कॉसमॉस नीति उस संरचना से बचती है। एक मॉडल एक साथ कई भूमिकाएँ भरता है। जब परिस्थितियाँ बदलती हैं तो यह सरलता पैमाने को आसान बनाती है और कम नाजुक बनाती है।
सिमुलेशन और वास्तविक रोबोटों में प्रदर्शन
सिस्टम सिम्युलेटेड परीक्षणों और भौतिक रोबोट कार्यों में सक्षम है। स्पष्ट योजना के बिना भी, यह कई सेटिंग्स में मौजूदा तरीकों से मेल खाता है या उनसे आगे निकल जाता है। यह सुझाव देता है कि बड़े वीडियो मॉडल भारी रीडिज़ाइन के बिना रोबोटिक्स में प्रवेश कर सकते हैं।कॉसमॉस पॉलिसी अंतिम समाधान का दावा नहीं करती है। यह कुछ संकीर्ण दिखाता है. जब एक रोबोट यह अनुमान लगाना सीख जाता है कि आगे क्या होगा, तो नियंत्रण स्वाभाविक रूप से शुरू हो जाता है। मॉडल पहले कल्पना करता है, फिर कार्य करता है।






Leave a Reply