संगीत-पहचान ऐप्स कैसे काम करते हैं

चूंकि यह 1 999 से शुरू हुआ था, इसलिए शाजम का इस्तेमाल पचास अरब बार गानों की पहचान करने के लिए किया गया है, और यह साउंडहाउंड, म्यूजिक आईडी और अन्य ध्वनि-पहचान ऐप्स से आईडी की गणना भी नहीं कर रहा है।

किसी उपयोगकर्ता के परिप्रेक्ष्य से, यह आसान है: ऐप प्रारंभ करें, एक बटन दबाएं, और अपने फोन को गीत सुनें। पृष्ठभूमि के शोर और विकृति के साथ भी कुछ सेकंड के बाद, ऐप आपको बताएगा कि गीत क्या है। यह इतनी जल्दी और इतनी अच्छी तरह से काम करता है कि यह लगभग जादू की तरह लगता है - लेकिन, इन दिनों सबसे जादुई चीजों के साथ, यह ज्यादातर एल्गोरिदम द्वारा चलाया जाता है।

इन ऐप्स के पीछे क्या विचार है?

शाजम, साउंडहाउंड, और अन्य संगीत-पहचान सेवाएं सभी मूल रूप से वैसे ही काम करती हैं: उनके पास गीत की जानकारी का एक बड़ा डेटाबेस है, एक एल्गोरिदम है जो आपके गीत नमूने से जानकारी निकाल सकता है, और एक ऐप आपको उन चीज़ों के साथ इंटरफेस करने देता है। तकनीकी रूप से, आपको स्मार्टफ़ोन की भी आवश्यकता नहीं है।

शाजम मूल रूप से पुराने गीत वाले फ्लिप फोन पर एक गीत रिकॉर्ड करके और इसे सेवा में लिखकर उपयोग करने योग्य था। साउंडहाउंड वास्तव में कुछ कदम आगे चला गया है जिससे आप अपने ऐप में गायन या हंस कर सकते हैं, जो वे अन्य गायन / हमिंग रिकॉर्डिंग के उपयोगकर्ता द्वारा सबमिट किए गए डेटाबेस के खिलाफ मेल खाते हैं।

वो कैसे काम करते है?

सरल शब्दों में, प्रक्रिया इस तरह दिखती है:

ऐप के डेटाबेस में गाने के "फिंगरप्रिंट" या गीत के अद्वितीय ध्वनि पैटर्न के बारे में डेटा के छोटे टुकड़े का विशाल संग्रह है।
जब कोई उपयोगकर्ता "रिकॉर्ड" बटन हिट करता है, तो ऐप संगीत को सुनता है और सुनने वाले ऑडियो के कुछ सेकंड के आधार पर एक फिंगरप्रिंट बनाता है।
यह फिंगरप्रिंट मौजूदा फिंगरप्रिंट के डेटाबेस के खिलाफ चेक किया गया है। यदि आपका दस-दूसरा फिंगरप्रिंट एक गीत के हिस्से के लिए एक मैच है, तो आपको अपना (उम्मीद है कि सही) गीत परिणाम मिलता है। यदि ऐसा नहीं है, तो आपको एक त्रुटि वापस मिल जाएगी।

यदि आप केवल सतह-स्तरीय स्पष्टीकरण की तलाश में हैं, तो आपको बस इतना ही पता होना चाहिए। वास्तव में दिलचस्प हिस्सा यह है कि आप वास्तव में उस फिंगरप्रिंट को कैसे प्राप्त करते हैं।

गीत फिंगरप्रिंट

यह सब एक स्पेक्ट्रोग्राम से शुरू होता है, जैसा कि ऊपर दिए गए ग्राफ में से एक है, शज़म के संस्थापकों, एवरी वांग द्वारा लिखे गए पेपर से लिया गया। यह अनिवार्य रूप से एक्स-अक्ष (क्षैतिज), वाई-अक्ष (लंबवत) पर आवृत्ति, और रंग तीव्रता के विभिन्न स्तरों द्वारा प्रतिनिधित्व आयाम पर समय के साथ एक ग्राफ है। इस प्रकार ध्वनि के किसी अनुक्रम को स्पेक्ट्रोग्राम में परिवर्तित किया जा सकता है, और स्पेक्ट्रोग्राम पर किसी भी बिंदु को निर्देशांक का एक सेट सौंपा जा सकता है। बस इसी तरह, नोट संख्या हो सकती है।

यदि आपको बस कुछ करने की ज़रूरत है तो एक दूसरे को कुछ आवाज़ें मिलेंगी, तो आप यहां रुक सकते हैं। यदि आप लाखों गीतों से भरे डेटाबेस को देखना चाहते हैं, हालांकि, एक पूर्ण-विस्तारित स्पेक्ट्रोग्राम के पास किसी भी प्रकार की गति को देखने के लिए बहुत अधिक डेटा पॉइंट हैं।

संगीत पहचान में बड़ी सफलता यह प्राप्ति थी कि आप आंकड़ों के केवल कुछ टुकड़ों के साथ ध्वनियों की पहचान कर सकते हैं: चोटियों, या सबसे तीव्र भागों। न केवल किसी गीत के निचले-ऊर्जा भागों से छुटकारा पाने से स्पेक्ट्रोग्राम का आकार कम हो जाता है, लेकिन यह ऐप्स को लक्षित ध्वनियों के हिस्से के रूप में सुस्त, लगातार पृष्ठभूमि शोर की पहचान करने के लिए कम संवेदनशील बनाता है। एक शहर की स्काईलाइन की कल्पना करें - सबसे पहचानने योग्य भाग भवनों के शीर्ष हैं, मध्य मंजिल नहीं, और यही वह है जो आप दूर से देख सकते हैं।

तो हर गीत के हर दूसरे को सबसे गहन डेटा बिंदुओं में से कुछ तक सीमित कर दिया जाता है; शहर के स्काईलाइन पर सब कुछ बहुत ऊपर छोड़कर हटा दिया गया है। लेकिन यह अभी भी काफी खोज योग्य नहीं है, इसलिए अगला कदम चोटियों के इस अनुक्रम "हैश" है। हैशिंग बस इनपुट का एक सेट लेता है, उन्हें एल्गोरिदम के माध्यम से चलाता है, और उन्हें एक पूर्णांक आउटपुट असाइन करता है। इस मामले में हैश दो उच्च तीव्रता शिखर लेने, उनके बीच का समय मापने, और अपनी दो आवृत्तियों को एक साथ जोड़कर उत्पन्न होता है।

नतीजा संख्याओं की एक स्ट्रिंग है, आसानी से टिकाऊ और खोजने योग्य। जब कोई कंप्यूटर इस हैश को पढ़ता है, तो यह उन्हें आवृत्ति और समय-दूरी का प्रतिनिधित्व करने के रूप में पहचान लेगा। एक बार गीत में सभी चोटियों की पहचान और धोया गया है, तो रूपांतरण पूरा हो गया है: गीत में अब एक अद्वितीय 32-बिट संख्या है जो डेटाबेस में इसकी आईडी के रूप में कार्य करती है। सबसे महत्वपूर्ण बात यह है कि गीत के हर दूसरे को संख्याओं द्वारा दर्शाया जाता है।

जब आपका फोन संगीत सुनता है, तो यह इस सटीक प्रक्रिया के माध्यम से जाता है: यह सब कुछ फ़िल्टर करता है लेकिन उच्चतम अंक, उन्हें धो देता है, और रिकॉर्ड किए गए कुछ सेकंड के लिए एक फिंगरप्रिंट बनाता है। एक बार यह पूरा होने के बाद, आपके फोन को केवल यह देखने की ज़रूरत है कि डेटाबेस में संख्याओं के संबंधित स्ट्रिंग्स कहां दिखाई देते हैं, जिससे यह पता लगाया गया आवृत्तियों और सही गीत पर समय और सेकंड में आपको वापस लौटने की अनुमति देता है।

संगीत और अधिक

इस तकनीक का संगीत पहचान के लिए व्यापक रूप से उपयोग किया जाता है, लेकिन ध्वनि पहचान ऐप्स फिल्मों, विज्ञापनों, टीवी शो, पक्षी गीतों आदि के साथ भी काम कर सकते हैं। शज़म और साउंडहाउंड सबसे प्रसिद्ध हैं, लेकिन अब आप Google से भी पूछ सकते हैं कि कौन सा गीत खेल रहा है और सटीक प्रतिक्रिया प्राप्त कर रहा है।

और यदि आप सोच रहे हैं, "क्या ये कंपनियां ट्रैक करती हैं कि किस गीत के बारे में पूछा जाता है?" जवाब "हां" है। संगीत पहचान आंकड़े वास्तव में काफी उच्च स्तर की सटीकता वाले गीतों और कलाकारों की सफलता की भविष्यवाणी करने में सक्षम हैं, और वार्नर जैसे बड़े रिकॉर्ड लेबल ने आने वाले कलाकारों को खोजने में मदद के लिए शाजम जैसे ऐप्स से अनुबंध किया है। इसलिए, यदि आप किसी कलाकार का समर्थन करना चाहते हैं, तो आप अपना हिस्सा भी कर सकते हैं और उनके गीत को देख सकते हैं! आप बस उन्हें लेने में मदद कर सकते हैं।