सब का अभिमान हैं, हिंदी,
भारत देश की शान हैं, हिंदी।
मेरठ में, प्रोग्रामिंग(Programming) छात्रों के लिए, प्राकृतिक भाषा प्रसंस्करण (एन एल पी – Natural Language Processing) का विषय, अपेक्षाकृत नया हो सकता है। एन एल पी, एक मशीन लर्निंग(Machine learning) तकनीक है। यह तकनीक, भाषण और पाठ का, उनके अर्थ और संरचना को समझने के लिए, विश्लेषण करती है। तो आइए, हिंदी दिवस के अवसर पर, इस लेख में, हम एन एल पी, इसके कार्य सिद्धांतों, और अनुप्रयोगों के बारे में, विस्तार से जानेंगे। फिर, हम, एनएलपी के इतिहास के बारे में बात करेंगे। इसके अलावा, हम इष्टतम परिणाम प्रदान करने के लिए, एन एल पी द्वारा, सबसे अधिक उपयोग की जाने वाली, विधियों और तकनीकों का पता लगाएंगे। उसके बाद, हम भारत में, कुछ लोकप्रिय एन एल पी आधारित कंपनियों पर प्रकाश डालेंगे । उनमें से, ज्ञानी.ए आई(Gnani.ai), एक प्रसिद्ध एन एल पी स्टार्टअप है, और यह कन्नड़, तमिल, तेलुगु, मराठी, बंगाली, मलयालम और पंजाबी जैसी अन्य स्थानीय भाषाओं के साथ, हिंदी में, स्पीच टु टेक्स्ट ए पी आई(Speech to text APIs), इंटेंट ए पी आई(Intent APIs), एडवांस्ड स्पीच एनालिटिक्स(Advanced speech analytics), ए आई-समर्थित पूर्वानुमानित मॉडल्स जैसी सेवाएं प्रदान करता है।
प्राकृतिक भाषा प्रसंस्करण (एन एल पी), कृत्रिम बुद्धिमत्ता की एक शाखा है, जिसमें, मानव भाषा का विश्लेषण, उसे समझने और उत्पन्न करने के लिए, विभिन्न एल्गोरिदम(Algorithms) का उपयोग शामिल है।
जिस तरह, एक भाषा अनुवादक, विभिन्न भाषाओं की बारीकियों और जटिलताओं को समझता है, उसी तरह, एनएलपी मॉडल भी, मानव भाषा का विश्लेषण और व्याख्या कर सकते हैं। साथ ही, वे, इसे ऐसे प्रारूप में अनुवादित कर सकते हैं, जिसे कंप्यूटर समझ सकें। एन एल पी का लक्ष्य, मनुष्यों और मशीनों के बीच, संचार अंतर को पाटना है, जिससे, हम अधिक प्राकृतिक और सहज तरीके से, प्रौद्योगिकी के साथ बातचीत कर सकें।
एन एल पी, कंप्यूटर को, मानव भाषा को समझने, व्याख्या करने और उत्पन्न करने के लिए, सिखाने का काम करता है। इस प्रक्रिया में, मानव भाषा को, छोटे-छोटे घटकों (जैसे शब्द, वाक्य और विराम चिह्न) में तोड़ना, और फिर उनका विश्लेषण करने, और उनसे अर्थ निकालने के लिए, एल्गोरिदम और सांख्यिकीय मॉडल का उपयोग करना शामिल है।
एन एल पी का उपयोग, निम्नलिखित तरीकों से किया जाता हैं:
•
दस्तावेज़ों का वर्गीकरण: एन एल पी का उपयोग करके, दस्तावेज़ों के वर्गीकरण में, उन्हें, उनके कंटेंट के आधार पर, वर्गीकृत करने के लिए, मशीन लर्निंग मॉडल का प्रशिक्षण शामिल है। यह, दस्तावेज़ों और उनकी संबंधित श्रेणियों के, मॉडल उदाहरणों को, फ़ीड करके, हासिल किया जाता है। इससे, उसे उन दस्तावेज़ों को स्वरूप सीखने और नए दस्तावेजों पर भविष्यवाणियां करने की, अनुमति मिलती है।
•सूचना और विषय निष्कर्षण: एन एल पी, ईमेल, सोशल मीडिया पोस्ट और समाचार लेखों जैसे, बड़ी मात्रा में असंरचित डेटा को संसाधित करने के लिए भी, विशेष रूप से उपयोगी है। डेटा निष्कर्षण की प्रक्रिया को, स्वचालित करके, एन एल पी, समय बचा सकता है, और डेटा विश्लेषण की सटीकता में, सुधार कर सकता है।
•मशीनी अनुवाद: एन एल पी का उपयोग करके, मशीनी अनुवाद में, पाठ को, एक भाषा से दूसरी भाषा में, स्वचालित रूप से अनुवाद करने के लिए, प्रशिक्षण एल्गोरिदम शामिल होता है। यह स्रोत और लक्ष्य भाषाओं में, पाठों के बड़े सेट का उपयोग करके, किया जाता है।
प्राकृतिक भाषा प्रसंस्करण या एन एल पी का, थोड़ा इतिहास भी रहा है। 1950 के दशक में, विभिन्न भाषाओं में, सहज संचार की आवश्यकता ने, एन एल पी के विकास को बढ़ावा दिया। मशीनी अनुवाद (एम टी – Machine translation), इसके पीछे, एक प्रेरक शक्ति थी। जबकि, नियम-आधारित प्रणालियां, इसके प्रारंभिक दृष्टिकोण के रूप में उभरीं।
ये प्रणालियां, स्टेरॉयड(Steroids) पर, जटिल अनुवाद शब्दकोशों की तरह, काम करते थे। फिर, भाषाविदों ने, सावधानीपूर्वक नियमों का, एक विशाल समूह तैयार किया, जो विशिष्ट भाषाओं की व्याकरणिक संरचना (वाक्यविन्यास) और शब्दावली को दर्शाता है।
बाद में, 1980 के दशक में, सांख्यिकीय एन एल पी दृष्टिकोण की ओर, एक आदर्श बदलाव देखा गया। तब, कई मशीन लर्निंग एल्गोरिदम, एन एल पी कार्यों के लिए, शक्तिशाली उपकरण के रूप में उबरे । इन सांख्यिकीय मॉडलों के प्रशिक्षण हेतु, टेक्स्ट डेटा(Text data) का बड़ा संग्रह महत्वपूर्ण हो गया।
नियम-आधारित प्रणालियों के विपरीत, सांख्यिकीय मॉडल, डेटा से विभिन्न स्वरूप सीखते हैं। इससे, उन्हें प्राकृतिक भाषा की विविधताओं और जटिलताओं को, संभालने की अनुमति मिलती है।
इसके अतिरिक्त, 2000 के दशक में, गहन शिक्षण के युग की शुरुआत हुई, जिसने, एन एल पी को महत्वपूर्ण रूप से प्रभावित किया। इस कारण, मानव मस्तिष्क से प्रेरित, कृत्रिम न्यूरल नेटवर्क (ए एन एन – Artificial Neural Networks), वाले जटिल एल्गोरिदम, एन एल पी में, गहन शिक्षण प्रगति की नींव बन गए।
साथ ही, हाल के वर्षों में, न्यूरल नेटवर्क और ट्रांसफ़ॉर्मर (Transformer) जैसे, गहन शिक्षण उपकरणों ने, एन एल पी क्षमताओं को और बढ़ाया है ।
इस तरह विकसित, प्राकृतिक भाषा प्रसंस्करण की, तकनीकें और तरीके निम्नलिखित हैं:
1.) पार्सिंग(Parsing): यह किसी वाक्य का, व्याकरणिक विश्लेषण होता है। उदाहरण के लिए, एक प्राकृतिक भाषा प्रसंस्करण एल्गोरिदम में, वाक्य दिया जाता है – “एक कुत्ता भौंका।” फिर, पार्सिंग में, इस वाक्य को, भाषण के कुछ हिस्सों में, तोड़ना शामिल है। अर्थात, कुत्ता = संज्ञा और भौंकना = क्रिया। यह, इस कारण, अधिक जटिल डाउनस्ट्रीम प्रसंस्करण(Downstream processing) कार्यों के लिए उपयोगी है।
2.) शब्द विभाजन: यह तकनीक, पाठ की एक श्रृंखला से, शब्द रूप प्राप्त करने का कार्य है। उदाहरण के लिए, एक व्यक्ति हस्तलिखित दस्तावेज़ को कंप्यूटर में स्कैन करता है। तब, एल्गोरिदम, उस पृष्ठ का विश्लेषण करके, पहचान सकता है कि, शब्द सफ़ेद रिक्त स्थान से विभाजित हैं।
3.) वाक्य तोड़ना: यह बड़े पाठों में वाक्य सीमाएं रखता है। उदाहरण के लिए, एक प्राकृतिक भाषा प्रसंस्करण एल्गोरिदम में, यह पाठ दिया जाता है – “कुत्ता भौंका। मैं जाग गया।” तब, एल्गोरिदम, वाक्यों को विभाजित करने वाली, अवधि को पहचानने के लिए, वाक्य विच्छेदन का उपयोग कर सकता है।
4.) रूपात्मक विभाजन: यह तरीका, शब्दों को छोटे भागों में विभाजित करता है, जिन्हें मॉफ़ीम्ज़ (Morphemes) कहा जाता है। उदाहरण के लिए, ‘untestably’ शब्द को [[un[[test]able]]ly] में तोड़ा जाएगा। यहां एल्गोरिदम, “un”, “test”, “able” और “ly” को मॉफ़ीम्ज़ में पहचानता है। यह मशीनी अनुवाद, और वाक् पहचान में, विशेष रूप से उपयोगी है।
5.) शब्द बोध असंबद्धता: यह तकनीक, संदर्भ के आधार पर, किसी शब्द का अर्थ निकालती है। उदाहरण के लिए, किसी शब्द के, अलग-अलग अर्थ होते हैं। इस कारण, इस पद्धति का उपयोग करने वाला, कोई एल्गोरिदम, यह समझ सकता है कि, वहां उस शब्द का उपयोग किस अर्थ को संदर्भित करता है।
6.) प्राकृतिक भाषा निर्माण (एन एल जी – Natural Language Generation): एनएलजी, शब्दों के पीछे के शब्दार्थ को निर्धारित करने, और नया पाठ उत्पन्न करने के लिए, एक डेटाबेस का उपयोग करता है। उदाहरण के लिए, एक एल्गोरिदम स्वचालित रूप से, बिज़नेस इंटेलिजेंस(Business intelligence) प्लेटफ़ॉर्म से, निष्कर्षों का सारांश लिख सकता है। यह, बी आई प्लेटफॉर्म में, डेटा की विशेषताओं के लिए, कुछ शब्दों और वाक्यांशों को समझ भी सकता है। इस तकनीक का एक अन्य उदाहरण, प्रशिक्षण के लिए, उपयोग किए जाने वाले, पाठ के, एक निश्चित भाग के आधार पर, स्वचालित रूप से, समाचार लेख या संदेश उत्पन्न करना होगा।
आज के युग में, इन तकनीकों के व्यापक उपयोग, और इन साधनों पर हमारी निर्भरता के कारण, भारत में, आज कई एन एल पी कंपनियां स्थापित हो रही हैं।
इनमें से कुछ, शीर्ष कंपनियां निम्नलिखित हैं:
A) ज्ञानी.ए आई: ज्ञानी. एआई (Gnani. AI), इंडिक एन एल पी(Indic NLP) पर काम करने वाले, भारत के प्रसिद्ध स्टार्टअप्स में से एक है। ज्ञानी.ए आई, भारतीय भाषाओं और अन्य कई भाषाओं के लिए, भाषण विश्लेषण और सहायक उत्पाद विकसित करती है। यह, स्पीच टु टेक्स्ट ए पी आई, इंटेंट ए पी आई, एडवांस्ड स्पीच एनालिटिक्स, ए आई-समर्थित पूर्वानुमानित मॉडल, ओमनीचैनल फ़ीडबैक विश्लेषण(Omnichannel feedback analysis) और टेक्स्ट टू स्पीच ए पी आई(Text to speech APIs) जैसी, तकनीकों का उपयोग करता है।
वर्तमान में, यह कंपनी, भारतीय अंग्रेज़ी, हिंदी, कन्नड़, तमिल, तेलुगु, मराठी, बंगाली, मलयालम और पंजाबी जैसी भाषाओं में सेवाएं प्रदान करती है। ज्ञानी.ए आई की सेवाओं का उपयोग, दूरसंचार, बैंकिंग, बीमा, ई-कॉमर्स, यात्रा और मीडिया-ओ टी टी(Media-OTT) जैसे उद्योगों में किया जाता है।
B) रेवेरी लैंग्वेज टेक्नॉलोजीज़ (Reverie Language Technologies):
रेवेरी कंपनी, 2009 से, भारतीय इंटरनेट पर, भाषा समानता का निर्माण कर रही है। इस कंपनी की भाषा प्रौद्योगिकियां, बैंकिंग, वित्तीय सेवाएं और बीमा; शिक्षा; मीडिया और मनोरंजन; ईकॉमर्स और भारत सरकार सहित, विविध उद्योगों की मदद करती हैं।
C) वर्नाकुलर.ए आई (Vernaculer.ai): यह ए आई, कॉल सेंटर प्रश्नों को, स्वचालित करके, उचित आवाज़ के साथ, वार्तालापों के माध्यम से, ग्राहक अनुभव को बढ़ाने में, उद्यमों की मदद करता है। यह कंपनी, दो अद्वितीय उत्पाद वितरित करती है: पहला, वाइवा(VIVA) और दूसरा, वी ए एस आर(VASR)।
संदर्भ
https://tinyurl.com/34s82d9y
https://tinyurl.com/2vh7px4h
https://tinyurl.com/ywcepe43
https://tinyurl.com/2axxtev5
https://tinyurl.com/ms5b6cfh
चित्र संदर्भ
1. ज्ञानी. एआई को संदर्भित करता एक चित्रण (Pexels, प्रारंग चित्र संदर्भ)
2. लैपटॉप में चैट जीपीटी को संदर्भित करता एक चित्रण (Pexels)
3. कृत्रिम बुद्धिमत्ता और दृश्य कंप्यूटिंग को संदर्भित करता एक चित्रण (flickr)
4. आर्टिफ़िशियल इंटेलिजेंस का प्रयोग करके निर्मित छवि को संदर्भित करता एक चित्रण (wikimedia)
5. ज्ञानी.ए आई लेखन को संदर्भित करता एक चित्रण (प्रारंग चित्र संदर्भ)