हिंदी दिवस विशेष: प्राकृतिक भाषा प्रसंस्करण पर आधारित, ज्ञानी.ए आई है, अत्यंत उपयुक्त

संचार एवं संचार यन्त्र
14-09-2024 09:21 AM
Post Viewership from Post Date to 15- Oct-2024 (31st) Day
City Subscribers (FB+App) Website (Direct+Google) Email Instagram Total
2284 109 2393
हिंदी दिवस विशेष: प्राकृतिक भाषा प्रसंस्करण पर आधारित, ज्ञानी.ए आई है, अत्यंत उपयुक्त
सब का अभिमान हैं, हिंदी,
भारत देश की शान हैं, हिंदी
मेरठ में, प्रोग्रामिंग(Programming) छात्रों के लिए, प्राकृतिक भाषा प्रसंस्करण (एन एल पी – Natural Language Processing) का विषय, अपेक्षाकृत नया हो सकता है। एन एल पी, एक मशीन लर्निंग(Machine learning) तकनीक है। यह तकनीक, भाषण और पाठ का, उनके अर्थ और संरचना को समझने के लिए, विश्लेषण करती है। तो आइए, हिंदी दिवस के अवसर पर, इस लेख में, हम एन एल पी, इसके कार्य सिद्धांतों, और अनुप्रयोगों के बारे में, विस्तार से जानेंगे। फिर, हम, एनएलपी के इतिहास के बारे में बात करेंगे। इसके अलावा, हम इष्टतम परिणाम प्रदान करने के लिए, एन एल पी द्वारा, सबसे अधिक उपयोग की जाने वाली, विधियों और तकनीकों का पता लगाएंगे। उसके बाद, हम भारत में, कुछ लोकप्रिय एन एल पी आधारित कंपनियों पर प्रकाश डालेंगे । उनमें से, ज्ञानी.ए आई(Gnani.ai), एक प्रसिद्ध एन एल पी स्टार्टअप है, और यह कन्नड़, तमिल, तेलुगु, मराठी, बंगाली, मलयालम और पंजाबी जैसी अन्य स्थानीय भाषाओं के साथ, हिंदी में, स्पीच टु टेक्स्ट ए पी आई(Speech to text APIs), इंटेंट ए पी आई(Intent APIs), एडवांस्ड स्पीच एनालिटिक्स(Advanced speech analytics), ए आई-समर्थित पूर्वानुमानित मॉडल्स जैसी सेवाएं प्रदान करता है।
प्राकृतिक भाषा प्रसंस्करण (एन एल पी), कृत्रिम बुद्धिमत्ता की एक शाखा है, जिसमें, मानव भाषा का विश्लेषण, उसे समझने और उत्पन्न करने के लिए, विभिन्न एल्गोरिदम(Algorithms) का उपयोग शामिल है।
जिस तरह, एक भाषा अनुवादक, विभिन्न भाषाओं की बारीकियों और जटिलताओं को समझता है, उसी तरह, एनएलपी मॉडल भी, मानव भाषा का विश्लेषण और व्याख्या कर सकते हैं। साथ ही, वे, इसे ऐसे प्रारूप में अनुवादित कर सकते हैं, जिसे कंप्यूटर समझ सकें। एन एल पी का लक्ष्य, मनुष्यों और मशीनों के बीच, संचार अंतर को पाटना है, जिससे, हम अधिक प्राकृतिक और सहज तरीके से, प्रौद्योगिकी के साथ बातचीत कर सकें।
एन एल पी, कंप्यूटर को, मानव भाषा को समझने, व्याख्या करने और उत्पन्न करने के लिए, सिखाने का काम करता है। इस प्रक्रिया में, मानव भाषा को, छोटे-छोटे घटकों (जैसे शब्द, वाक्य और विराम चिह्न) में तोड़ना, और फिर उनका विश्लेषण करने, और उनसे अर्थ निकालने के लिए, एल्गोरिदम और सांख्यिकीय मॉडल का उपयोग करना शामिल है।
एन एल पी का उपयोग, निम्नलिखित तरीकों से किया जाता हैं:
दस्तावेज़ों का वर्गीकरण: एन एल पी का उपयोग करके, दस्तावेज़ों के वर्गीकरण में, उन्हें, उनके कंटेंट के आधार पर, वर्गीकृत करने के लिए, मशीन लर्निंग मॉडल का प्रशिक्षण शामिल है। यह, दस्तावेज़ों और उनकी संबंधित श्रेणियों के, मॉडल उदाहरणों को, फ़ीड करके, हासिल किया जाता है। इससे, उसे उन दस्तावेज़ों को स्वरूप सीखने और नए दस्तावेजों पर भविष्यवाणियां करने की, अनुमति मिलती है।
•सूचना और विषय निष्कर्षण: एन एल पी, ईमेल, सोशल मीडिया पोस्ट और समाचार लेखों जैसे, बड़ी मात्रा में असंरचित डेटा को संसाधित करने के लिए भी, विशेष रूप से उपयोगी है। डेटा निष्कर्षण की प्रक्रिया को, स्वचालित करके, एन एल पी, समय बचा सकता है, और डेटा विश्लेषण की सटीकता में, सुधार कर सकता है।
•मशीनी अनुवाद: एन एल पी का उपयोग करके, मशीनी अनुवाद में, पाठ को, एक भाषा से दूसरी भाषा में, स्वचालित रूप से अनुवाद करने के लिए, प्रशिक्षण एल्गोरिदम शामिल होता है। यह स्रोत और लक्ष्य भाषाओं में, पाठों के बड़े सेट का उपयोग करके, किया जाता है।
प्राकृतिक भाषा प्रसंस्करण या एन एल पी का, थोड़ा इतिहास भी रहा है। 1950 के दशक में, विभिन्न भाषाओं में, सहज संचार की आवश्यकता ने, एन एल पी के विकास को बढ़ावा दिया। मशीनी अनुवाद (एम टी – Machine translation), इसके पीछे, एक प्रेरक शक्ति थी। जबकि, नियम-आधारित प्रणालियां, इसके प्रारंभिक दृष्टिकोण के रूप में उभरीं।
ये प्रणालियां, स्टेरॉयड(Steroids) पर, जटिल अनुवाद शब्दकोशों की तरह, काम करते थे। फिर, भाषाविदों ने, सावधानीपूर्वक नियमों का, एक विशाल समूह तैयार किया, जो विशिष्ट भाषाओं की व्याकरणिक संरचना (वाक्यविन्यास) और शब्दावली को दर्शाता है।
बाद में, 1980 के दशक में, सांख्यिकीय एन एल पी दृष्टिकोण की ओर, एक आदर्श बदलाव देखा गया। तब, कई मशीन लर्निंग एल्गोरिदम, एन एल पी कार्यों के लिए, शक्तिशाली उपकरण के रूप में उबरे । इन सांख्यिकीय मॉडलों के प्रशिक्षण हेतु, टेक्स्ट डेटा(Text data) का बड़ा संग्रह महत्वपूर्ण हो गया।
नियम-आधारित प्रणालियों के विपरीत, सांख्यिकीय मॉडल, डेटा से विभिन्न स्वरूप सीखते हैं। इससे, उन्हें प्राकृतिक भाषा की विविधताओं और जटिलताओं को, संभालने की अनुमति मिलती है।
इसके अतिरिक्त, 2000 के दशक में, गहन शिक्षण के युग की शुरुआत हुई, जिसने, एन एल पी को महत्वपूर्ण रूप से प्रभावित किया। इस कारण, मानव मस्तिष्क से प्रेरित, कृत्रिम न्यूरल नेटवर्क (ए एन एन – Artificial Neural Networks), वाले जटिल एल्गोरिदम, एन एल पी में, गहन शिक्षण प्रगति की नींव बन गए।
साथ ही, हाल के वर्षों में, न्यूरल नेटवर्क और ट्रांसफ़ॉर्मर (Transformer) जैसे, गहन शिक्षण उपकरणों ने, एन एल पी क्षमताओं को और बढ़ाया है ।
इस तरह विकसित, प्राकृतिक भाषा प्रसंस्करण की, तकनीकें और तरीके निम्नलिखित हैं:
1.) पार्सिंग(Parsing):
यह किसी वाक्य का, व्याकरणिक विश्लेषण होता है। उदाहरण के लिए, एक प्राकृतिक भाषा प्रसंस्करण एल्गोरिदम में, वाक्य दिया जाता है – “एक कुत्ता भौंका।” फिर, पार्सिंग में, इस वाक्य को, भाषण के कुछ हिस्सों में, तोड़ना शामिल है। अर्थात, कुत्ता = संज्ञा और भौंकना = क्रिया। यह, इस कारण, अधिक जटिल डाउनस्ट्रीम प्रसंस्करण(Downstream processing) कार्यों के लिए उपयोगी है।
2.) शब्द विभाजन: यह तकनीक, पाठ की एक श्रृंखला से, शब्द रूप प्राप्त करने का कार्य है। उदाहरण के लिए, एक व्यक्ति हस्तलिखित दस्तावेज़ को कंप्यूटर में स्कैन करता है। तब, एल्गोरिदम, उस पृष्ठ का विश्लेषण करके, पहचान सकता है कि, शब्द सफ़ेद रिक्त स्थान से विभाजित हैं।
3.) वाक्य तोड़ना: यह बड़े पाठों में वाक्य सीमाएं रखता है। उदाहरण के लिए, एक प्राकृतिक भाषा प्रसंस्करण एल्गोरिदम में, यह पाठ दिया जाता है – “कुत्ता भौंका। मैं जाग गया।” तब, एल्गोरिदम, वाक्यों को विभाजित करने वाली, अवधि को पहचानने के लिए, वाक्य विच्छेदन का उपयोग कर सकता है।
4.) रूपात्मक विभाजन: यह तरीका, शब्दों को छोटे भागों में विभाजित करता है, जिन्हें मॉफ़ीम्ज़ (Morphemes) कहा जाता है। उदाहरण के लिए, ‘untestably’ शब्द को [[un[[test]able]]ly] में तोड़ा जाएगा। यहां एल्गोरिदम, “un”, “test”, “able” और “ly” को मॉफ़ीम्ज़ में पहचानता है। यह मशीनी अनुवाद, और वाक् पहचान में, विशेष रूप से उपयोगी है।
5.) शब्द बोध असंबद्धता: यह तकनीक, संदर्भ के आधार पर, किसी शब्द का अर्थ निकालती है। उदाहरण के लिए, किसी शब्द के, अलग-अलग अर्थ होते हैं। इस कारण, इस पद्धति का उपयोग करने वाला, कोई एल्गोरिदम, यह समझ सकता है कि, वहां उस शब्द का उपयोग किस अर्थ को संदर्भित करता है।
6.) प्राकृतिक भाषा निर्माण (एन एल जी – Natural Language Generation): एनएलजी, शब्दों के पीछे के शब्दार्थ को निर्धारित करने, और नया पाठ उत्पन्न करने के लिए, एक डेटाबेस का उपयोग करता है। उदाहरण के लिए, एक एल्गोरिदम स्वचालित रूप से, बिज़नेस इंटेलिजेंस(Business intelligence) प्लेटफ़ॉर्म से, निष्कर्षों का सारांश लिख सकता है। यह, बी आई प्लेटफॉर्म में, डेटा की विशेषताओं के लिए, कुछ शब्दों और वाक्यांशों को समझ भी सकता है। इस तकनीक का एक अन्य उदाहरण, प्रशिक्षण के लिए, उपयोग किए जाने वाले, पाठ के, एक निश्चित भाग के आधार पर, स्वचालित रूप से, समाचार लेख या संदेश उत्पन्न करना होगा।
आज के युग में, इन तकनीकों के व्यापक उपयोग, और इन साधनों पर हमारी निर्भरता के कारण, भारत में, आज कई एन एल पी कंपनियां स्थापित हो रही हैं। इनमें से कुछ, शीर्ष कंपनियां निम्नलिखित हैं:
A) ज्ञानी.ए आई:
ज्ञानी. एआई (Gnani. AI), इंडिक एन एल पी(Indic NLP) पर काम करने वाले, भारत के प्रसिद्ध स्टार्टअप्स में से एक है। ज्ञानी.ए आई, भारतीय भाषाओं और अन्य कई भाषाओं के लिए, भाषण विश्लेषण और सहायक उत्पाद विकसित करती है। यह, स्पीच टु टेक्स्ट ए पी आई, इंटेंट ए पी आई, एडवांस्ड स्पीच एनालिटिक्स, ए आई-समर्थित पूर्वानुमानित मॉडल, ओमनीचैनल फ़ीडबैक विश्लेषण(Omnichannel feedback analysis) और टेक्स्ट टू स्पीच ए पी आई(Text to speech APIs) जैसी, तकनीकों का उपयोग करता है।
वर्तमान में, यह कंपनी, भारतीय अंग्रेज़ी, हिंदी, कन्नड़, तमिल, तेलुगु, मराठी, बंगाली, मलयालम और पंजाबी जैसी भाषाओं में सेवाएं प्रदान करती है। ज्ञानी.ए आई की सेवाओं का उपयोग, दूरसंचार, बैंकिंग, बीमा, ई-कॉमर्स, यात्रा और मीडिया-ओ टी टी(Media-OTT) जैसे उद्योगों में किया जाता है।
B) रेवेरी लैंग्वेज टेक्नॉलोजीज़ (Reverie Language Technologies):
रेवेरी कंपनी, 2009 से, भारतीय इंटरनेट पर, भाषा समानता का निर्माण कर रही है। इस कंपनी की भाषा प्रौद्योगिकियां, बैंकिंग, वित्तीय सेवाएं और बीमा; शिक्षा; मीडिया और मनोरंजन; ईकॉमर्स और भारत सरकार सहित, विविध उद्योगों की मदद करती हैं।
C) वर्नाकुलर.ए आई (Vernaculer.ai): यह ए आई, कॉल सेंटर प्रश्नों को, स्वचालित करके, उचित आवाज़ के साथ, वार्तालापों के माध्यम से, ग्राहक अनुभव को बढ़ाने में, उद्यमों की मदद करता है। यह कंपनी, दो अद्वितीय उत्पाद वितरित करती है: पहला, वाइवा(VIVA) और दूसरा, वी ए एस आर(VASR)।

संदर्भ
https://tinyurl.com/34s82d9y
https://tinyurl.com/2vh7px4h
https://tinyurl.com/ywcepe43
https://tinyurl.com/2axxtev5
https://tinyurl.com/ms5b6cfh

चित्र संदर्भ
1. ज्ञानी. एआई को संदर्भित करता एक चित्रण (Pexels, प्रारंग चित्र संदर्भ)
2. लैपटॉप में चैट जीपीटी को संदर्भित करता एक चित्रण (Pexels)
3. कृत्रिम बुद्धिमत्ता और दृश्य कंप्यूटिंग को संदर्भित करता एक चित्रण (flickr)
4. आर्टिफ़िशियल इंटेलिजेंस का प्रयोग करके निर्मित छवि को संदर्भित करता एक चित्रण (wikimedia)
5. ज्ञानी.ए आई लेखन को संदर्भित करता एक चित्रण (प्रारंग चित्र संदर्भ)
पिछला / Previous अगला / Next

Definitions of the Post Viewership Metrics

A. City Subscribers (FB + App) - This is the Total city-based unique subscribers from the Prarang Hindi FB page and the Prarang App who reached this specific post.

B. Website (Google + Direct) - This is the Total viewership of readers who reached this post directly through their browsers and via Google search.

C. Total Viewership — This is the Sum of all Subscribers (FB+App), Website (Google+Direct), Email, and Instagram who reached this Prarang post/page.

D. The Reach (Viewership) - The reach on the post is updated either on the 6th day from the day of posting or on the completion (Day 31 or 32) of one month from the day of posting.