एक एआई में जो अच्छा है उसे समझ लेना, उन्हें समझने में सबसे मुश्किल काम है। यह निर्धारित करने में मदद करने के लिए, ओपनएआई ने ऐसे गेम का एक सेट तैयार किया है जो शोधकर्ताओं को यह बताने में मदद कर सकता है कि क्या उनका मशीन लर्निंग एजेंट वास्तव में बुनियादी कौशल सीख रहा है या, समान रूप से क्या संभावना है, यह पता लगाया है कि सिस्टम को इसके पक्ष में कैसे रिग करें।
यह एआई अनुसंधान के उन पहलुओं में से एक है जो कभी भी प्रसन्न करने में विफल नहीं होता है: जिस तरह से एक शोधकर्ता इसे करने के लिए पूछ रहे हैं, उसे अच्छा दिखाने के लिए एक एजेंट अपने प्रयासों में नियमों को मोड़ देगा या तोड़ देगा। धोखा बॉक्स के बाहर की सोच हो सकती है, लेकिन यह हमेशा स्वागत योग्य नहीं है, और जांच करने का एक तरीका यह है कि नियमों को थोड़ा बदल दिया जाए और देखें कि क्या सिस्टम टूट जाता है।
वास्तव में सीखे गए एजेंट को यह देखकर निर्धारित किया जा सकता है कि क्या उन “कौशलों” को लागू किया जा सकता है जब इसे नई परिस्थितियों में रखा जाए जहां केवल इसका कुछ ज्ञान प्रासंगिक है।
उदाहरण के लिए, मान लें कि आप सीखना चाहते हैं कि क्या AI ने मारियो जैसा गेम खेलना सीख लिया है, जहां यह सही यात्रा करता है और बाधाओं पर कूदता है। आप चीजों को चारों ओर बदल सकते हैं, इसलिए इसे बाएं चलना होगा; आप बाधाओं के क्रम को बदल सकते हैं; या आप खेल को पूरी तरह से बदल सकते हैं और राक्षस दिखाई देते हैं कि एआई को शूट करना पड़ता है, जबकि यह सही यात्रा करता है।
यदि एजेंट ने वास्तव में इस तरह से गेम खेलने के बारे में कुछ सीखा है, तो यह गेम के संशोधित संस्करणों को पूरी तरह से नए की तुलना में बहुत तेज लेने में सक्षम होना चाहिए। इसे “सामान्यीकरण” कहा जाता है – मौजूदा ज्ञान को परिस्थितियों के एक नए सेट पर लागू करना – और मनुष्य इसे लगातार करते हैं।
OpenAI के शोधकर्ताओं ने अपने शोध में कई बार इसका सामना किया है, और एक सामान्य स्तर पर सामान्य ज्ञान AI का परीक्षण करने के लिए, उन्होंने एक प्रकार का AI आर्केड डिज़ाइन किया है, जहाँ एक एजेंट को अलग-अलग ओवरलैप के साथ विभिन्न प्रकार के गेम में अपनी सूक्ष्मता साबित करनी होती है। गेमप्ले कांसेप्ट।
उनके द्वारा डिजाइन किए गए 16 गेम का वातावरण ऐसे गेम के समान है जिन्हें हम जानते हैं और प्यार करते हैं, जैसे कि पैक-मैन, सुपर मारियो ब्रदर्स, क्षुद्रग्रह, और इसी तरह। अंतर यह है कि वातावरण एआई प्ले की ओर जमीन से निर्मित है, सरलीकृत नियंत्रण, पुरस्कार और ग्राफिक्स के साथ।
एआई की क्षमता
प्रत्येक एआई की क्षमताओं को एक अलग तरीके से पूरा करता है। उदाहरण के लिए, एक खेल में कुछ भी बैठने और कुछ सेकंड के लिए खेल के माहौल को देखने के लिए कोई जुर्माना नहीं हो सकता है, जबकि अन्य में यह एजेंट को खतरे में डाल सकता है। कुछ एआई में पर्यावरण का पता लगाना चाहिए, दूसरों में यह एक एकल बिग बॉस स्पेसशिप पर केंद्रित हो सकता है। लेकिन वे सभी अलग-अलग खेलों के लिए बने हैं, न कि इसके विपरीत (हालांकि स्पष्ट रूप से थोड़ा अलग) जो आपको अटारी या एनईएस कंसोल के लिए उपलब्ध हो सकता है।
यहां पूरी सूची दी गई है, जैसा कि ऊपर से नीचे तक नीचे बाएँ से दाएँ gif में देखा गया है:
- निंजा: बमों से बचने या फेंकने वाले सितारों के साथ उन्हें नष्ट करते हुए एक टॉवर पर चढ़ो।
- Coinrun: जाल और राक्षसों से बचने के दौरान सिक्के को स्तर के दाईं ओर प्राप्त करें।
- लूटपाट: दुश्मन के जहाजों को हिट करने और मित्र-मंडली से बचने के लिए स्क्रीन के नीचे से फायर कैनबॉल्स।
- Caveflyer: क्षुद्रग्रहों-शैली नियंत्रणों का उपयोग करते हुए गुफाओं को नेविगेट करें, दुश्मनों की शूटिंग करें और बाधाओं से बचें।
- जम्पर: ओपन-वर्ल्ड प्लेटफ़ॉर्मर जिसमें डबल-जंपिंग खरगोश और कम्पास लक्ष्य की ओर इशारा करता है।
- माइनर: मिट्टी के माध्यम से खुदाई में हीरे और बोल्डर मिलते हैं जो अटारी-युग के गुरुत्वाकर्षण नियमों का पालन करते हैं।
- भूलभुलैया: विभिन्न आकारों के बेतरतीब ढंग से उत्पन्न mazes नेविगेट।
- बिगफ़िश: एक समान भाग्य से परहेज करते हुए, बड़ी मछली बनने के लिए आप से छोटी मछली खाएं।
- चेज़र: पीएसी-मैन की तरह, डॉट्स खाएं और दुश्मनों को खाने के लिए रणनीतिक रूप से बिजली छर्रों का उपयोग करें।
- स्टारपिलॉट: ग्रैडियस-जैसे शमप ने दुश्मन जहाजों को चकमा देने और त्वरित उन्मूलन पर ध्यान केंद्रित किया।
- बॉसफाइट: 1 पर 1 लड़ाई एक बेतरतीब ढंग से चयनित हमलों और फिर से भरना ढाल के साथ एक मालिक जहाज के साथ।
- Heist: रंगीन ताले और इसी कुंजी के साथ एक भूलभुलैया नेविगेट करें।
- फ्रूटबॉट: फलों को इकट्ठा करते समय और गैर-फलों से परहेज करते हुए स्तरों के माध्यम से चढ़ना।
- डॉजबॉल: दीवारों को छुए बिना किसी कमरे में घूमें, दूसरों को गेंदों से मारें और हिट होने से बचें।
- क्लाइम्बर: रास्ते में तारे इकट्ठा करने और राक्षसों से बचने के लिए प्लेटफार्मों की एक श्रृंखला पर चढ़ो।
- लीपर: कार, लॉग आदि के साथ फ्रॉगर-प्रकार लेन-क्रॉसिंग गेम।
आप कल्पना कर सकते हैं कि एक एआई बनाया जा सकता है जो कि हीड, भूलभुलैया और चेज़र जैसे ग्रिड-आधारित वाले स्थानों पर है, लेकिन जम्पर, कॉइनरुन और बॉसफाइट में ट्रैक खो देता है। एक इंसान की तरह – क्योंकि प्रत्येक में विभिन्न कौशल शामिल हैं। लेकिन साथ ही साथ साझा भी किए जाते हैं: यह समझना कि खिलाड़ी के चरित्र और चलती वस्तुओं के परिणाम हो सकते हैं, या खेल क्षेत्र के कुछ क्षेत्र दुर्गम हैं। एक ऐसा एआई जो सामान्यीकृत कर सकता है और जल्दी से अनुकूलित कर सकता है, इन सभी खेलों को कम समय में एक से अधिक हावी करना सीखेगा, जो सामान्य रूप से अच्छी तरह से नहीं करता है।
उन पर अवलोकन और रेटिंग एजेंट के प्रदर्शन के लिए गेम और विधियों के सेट को प्रोगेन बेंचमार्क कहा जाता है, क्योंकि खेलों में वातावरण और दुश्मन प्लेसमेंट को प्रक्रियात्मक रूप से उत्पन्न किया जाता है। आप उनके बारे में अधिक पढ़ सकते हैं, या प्रोजेक्ट के GitHub पृष्ठ पर अपने छोटे AI आर्केड का निर्माण करना सीख सकते हैं।