यह कोई रहस्य नहीं है कि हाल के वर्षों में Google अनुसंधान में अधिक सक्रिय हो रहा है, खासकर जब से यह 2015 में खुद को फिर से व्यवस्थित कर रहा था। 22 सितंबर 2016 को इसने सॉफ्टवेयर के एक टुकड़े की खुली स्रोत रिलीज की घोषणा की जो वस्तुओं का पता लगा सकता है और स्वचालित रूप से कैप्शन का वर्णन करने के लिए एक छवि की सेटिंग। बेशक, इसमें रचनात्मकता का एक ही स्तर नहीं है क्योंकि मनुष्य कैप्शन के भीतर गद्य बनाने में करते हैं, लेकिन इमेज एन्कोडर जिसे अन्यथा इंसेप्शन वी 3 के नाम से जाना जाता है, ने उन कारणों पर ध्यान आकर्षित किया होगा जो सतही "पारदर्शी रूप से आगे बढ़ते हैं "उद्देश्य बना सकते हैं। वास्तव में, इस तरह का सॉफ्टवेयर, अधिक उन्नत कृत्रिम बुद्धि के लिए सड़क पर अधिक कुछ की ओर एक कदम पत्थर हो सकता है।

आंखें देख सकती हैं, लेकिन खुफिया "Perceives"

कृत्रिम दृष्टि हमारे साथ एक शताब्दी से अधिक रही है। एक कैमरा के साथ कुछ भी देख सकते हैं। यह एक बहुत ही बुनियादी बात है। लेकिन यहां तक ​​कि एक अंधे आदमी भी कैमरे की समझ को पार कर सकता है जो वह देख रहा है। हाल ही में, कंप्यूटर बहुत विशिष्ट पैरामीटर के बिना चित्रों में पाए गए ऑब्जेक्ट्स को आसानी से और सटीक रूप से नामित करने में सक्षम नहीं थे। वास्तव में यह कहने के लिए कि एक मानव निर्मित वस्तु का "दृष्टि" का अर्थ यह होगा कि कम से कम किसी भी संदर्भ को इकट्ठा किए बिना इसे देखने के बजाय इसे कम से कम एक ठोस क्षमता है। इस तरह, डिवाइस दृष्टि के आधार पर अपने पर्यावरण पर संभावित प्रतिक्रिया दे सकता है, जैसा कि हम करते हैं। धारणा एक पूर्ण आवश्यकता है। इसके बिना, हमारे पास हर भावना बेकार है।

स्वचालित छवि कैप्शनिंग के माध्यम से धारणा

हालांकि हम आम तौर पर मानते हैं कि हर तस्वीर हजारों शब्दों के लायक है, शुरुआत वी 3 जरूरी नहीं है कि वह राय साझा करे। स्वचालित छवि कैप्शनिंग सॉफ़्टवेयर में जो कुछ भी दिखाई देता है, उसके बारे में कहने के लिए बहुत कम चीजें हैं, लेकिन कम से कम इसमें प्रस्तुत फ्रेम के भीतर क्या है, इसकी मूलभूत समझ है।

इस प्राथमिक जानकारी के साथ हमने दृश्य उत्तेजना को समझने के लिए सॉफ्टवेयर की क्षमता की दिशा में एक कदम उठाया है। इस तरह की शक्ति रोबोट देने से यह इस तरह की उत्तेजना पर प्रतिक्रिया दे सकता है, जिससे इसकी बुद्धि केवल सबसे जलीय जलीय जानवरों के स्तर तक पहुंच जाती है। यह बहुत ज्यादा नहीं लग सकता है, लेकिन यदि आप इस बात पर नज़र डालते हैं कि रोबोट अभी कैसे कर रहे हैं (जब उनके अत्यधिक प्रतिबंधक पैरामीटर के बाहर परीक्षण किया जाता है), तो आप पाएंगे कि यह अमीबिक तरीके से खुफिया जानकारी में काफी छलांग होगी वे अपने आसपास के वातावरण को समझ सकते हैं।

एआई के लिए इसका क्या अर्थ है (और यह बिल्कुल सही से क्यों है)

तथ्य यह है कि अब हमारे पास सॉफ़्टवेयर है (93 प्रतिशत सटीकता के साथ) कैप्शन छवियों का अर्थ है कि हमने कंप्यूटर को अपने वातावरण को समझने के लिए कंप्यूटर प्राप्त करने में बाधा को दूर किया है। बेशक, इसका मतलब यह नहीं है कि हम उस विभाग में कहीं भी खत्म हो गए हैं। यह भी उल्लेखनीय है कि शुरुआत वी 3 इंसानों द्वारा समय के साथ प्रशिक्षित किया गया था और अन्य छवियों को समझने के लिए "सीखा" जानकारी का उपयोग करता है। किसी के पर्यावरण की सच्ची समझ रखने के लिए, एक धारणा के एक और अमूर्त स्तर को प्राप्त करने में सक्षम होना चाहिए। क्या छवि में व्यक्ति गुस्से में है? क्या दो लोग लड़ रहे हैं? बेंच पर महिला क्या रो रही है?

उपर्युक्त प्रश्न अन्य चीजों का प्रतिनिधित्व करते हैं जब हम अन्य मनुष्यों से सामना करते हैं तो हम खुद से पूछते हैं। यह अमूर्त पूछताछ की तरह है जिसके लिए हमें छवि कैप्शनिंग डूहोकी क्या कर सकता है उससे अधिक जानकारी निकालने की आवश्यकता है। चलो भूलें कि केक पर टुकड़े करना हम जो देखते हैं उस पर भावनात्मक (या "तर्कहीन") प्रतिक्रिया को कॉल करना पसंद करते हैं। यही कारण है कि हम फूलों को सुंदर, सीवर घृणित, और फ्रेंच फ्राइज़ स्वादिष्ट मानते हैं। यह कुछ ऐसा है जो हम अभी भी सोच रहे हैं कि क्या हम कभी भी मशीन स्तर पर वास्तव में हार्ड कोडिंग किए बिना हासिल करेंगे। सच्चाई यह है कि इस प्रकार की "मानव" घटना संभवतः प्रतिबंधित प्रोग्रामिंग के बिना असंभव है। बेशक, इसका मतलब यह नहीं है कि हम कोशिश करना बंद नहीं करेंगे। हम सब के बाद, मानव हैं

क्या आपको लगता है कि हमारे रोबोट अधिकारियों ने कभी एक माइक्रोस्कोप के तहत गुलाब पंखुड़ी की जटिलता की सराहना करना सीख लिया होगा? एक टिप्पणी में हमें बताओ!