यह एक सामान्य तथ्य है कि जौनपुर के अधिकांश नागरिक, हिंदी के माध्यम से संवाद करते हैं। इसी संदर्भ में, 2011 की जनगणना के अनुसार, जौनपुर में 1,64,071 हिंदी बोलने वाले लोग थे। अब, जब हम भाषा की बात कर रहे हैं, क्या आप जानते हैं कि, वृहत भाषा मॉडल (Large language models) मशीन लर्निंग मॉडल्स होते हैं जो मानव भाषा को समझ और उत्पन्न कर सकते हैं। ये बड़े डेटा सेट्स का विश्लेषण करके काम करते हैं।
तो आज, आइए इन्हें विस्तार से समझते हैं। इसके बाद, हम जानने की कोशिश करेंगे कि एल एल एम कैसे काम करते हैं। आगे, हम जानेंगे कि एल एल एम का उपयोग किस लिए किया जाता है। आगे बढ़ते हुए, हम कुछ एल एल एम के बारे में जानेंगे जो हिंदी पर आधारित हैं। इस संदर्भ में हम ओपनहाथी (OpenHathi) और प्रोजेक्ट इंडस (Project Indus) के बारे में बात करेंगे। अंत में, हम क्षेत्रीय भाषाओं में कुछ एल एल एम का पता लगाएंगे जो भारत में बनाए जा रहे हैं। उनमें से कुछ में कन्नड़ लामा, तमिल लामा, क्रुत्रिम इत्यादि शामिल हैं।
वृहत भाषा मॉडल (एल एल एम) क्या है?
सरल शब्दों में, एल एल एम एक कंप्यूटर प्रोग्राम है जिसमें मानव भाषा या अन्य प्रकार के जटिल डेटा को पहचानने और व्याख्या करने में सक्षम होने के लिए पर्याप्त उदाहरण दिए गए हैं। कई एल एल एम को उस डेटा पर प्रशिक्षित किया जाता है जो इंटरनेट से इकट्ठा किया गया है - हजारों या लाखों गीगाबाइट मूल्य का पाठ।
अक्षर, शब्द और वाक्य एक साथ कैसे कार्य करते हैं, यह समझने के लिए एल एल एम एक प्रकार की मशीन लर्निंग का उपयोग करते हैं जिसे डीप लर्निंग कहा जाता है। गहन शिक्षण में असंरचित डेटा का संभाव्य विश्लेषण शामिल होता है, जो अंततः गहन शिक्षण मॉडल को मानवीय हस्तक्षेप के बिना सामग्री के टुकड़ों के बीच अंतर को पहचानने में सक्षम बनाता है।
एल एल एम को फिर ट्यूनिंग के माध्यम से प्रशिक्षित किया जाता है: उन्हें उस विशेष कार्य के लिए ठीक से तैयार किया जाता है या तुरंत तैयार किया जाता है जो प्रोग्रामर उनसे कराना चाहता है, जैसे कि प्रश्नों की व्याख्या करना और प्रतिक्रियाएं उत्पन्न करना, या एक भाषा से दूसरी भाषा में पाठ का अनुवाद करना।
वृहत भाषा मॉडल कैसे काम करते हैं?
मशीन लर्निंग और डीप लर्निंग:
बुनियादी स्तर पर, एल एल एम मशीन लर्निंग पर बनाए जाते हैं। मशीन लर्निंग एआई का एक उप-सेट है, और यह प्रोग्राम को मानव हस्तक्षेप के बिना उस डेटा की विशेषताओं की पहचान करने के तरीके को प्रशिक्षित करने के लिए बड़ी मात्रा में डेटा फीड करने की प्रथा को संदर्भित करता है।
एल एल एम एक प्रकार की मशीन लर्निंग का उपयोग करते हैं जिसे डीप लर्निंग कहा जाता है। गहन शिक्षण मॉडल अनिवार्य रूप से मानवीय हस्तक्षेप के बिना भेदों को पहचानने के लिए खुद को प्रशिक्षित कर सकते हैं, हालांकि कुछ मानवीय सुधार आमतौर पर आवश्यक होते हैं।
एल एल एम न्यूरल नेटवर्क्स:
इस प्रकार की डीप लर्निंग को सक्षम बनाने के लिए, एल एल एम न्यूरल नेटवर्क्स पर बनाए जाते हैं। ठीक वैसे ही जैसे मानव मस्तिष्क न्यूरॉन्स से बना होता है जो आपस में जुड़कर एक-दूसरे को संकेत भेजते हैं, एक आर्टिफ़िशियल न्यूरल नेटवर्क (जिसे सामान्यत: “न्यूरल नेटवर्क” कहा जाता है) नेटवर्क नोड्स से बना होता है जो आपस में जुड़ते हैं। ये कई “लेयर्स” से मिलकर बने होते हैं: एक इनपुट लेयर, एक आउटपुट लेयर, और एक या अधिक मध्य लेयर्स। ये लेयर्स आपस में जानकारी केवल तब ही भेजते हैं जब उनका अपना आउटपुट एक निश्चित सीमा को पार कर जाए।
एल एल एम ट्रांसफार्मर मॉडल्स:
वह विशिष्ट प्रकार के न्यूरल नेटवर्क्स जो एल एल एम के लिए उपयोग किए जाते हैं, उन्हें ट्रांसफ़ॉर्मर मॉडल्स कहा जाता है। मॉडल्स संदर्भ (context) सीखने में सक्षम होते हैं — जो मानव भाषा के लिए विशेष रूप से महत्वपूर्ण है, क्योंकि भाषा अत्यधिक संदर्भ-निर्भर होती है। ट्रांसफॉर्मर मॉडल्स एक गणितीय तकनीक का उपयोग करते हैं जिसे “ सेल्फ़ -अटेंशन” कहा जाता है, ताकि यह सूक्ष्म तरीकों से पहचान सकें कि एक अनुक्रम में तत्व आपस में कैसे जुड़े होते हैं।
बड़े भाषा मॉडल का उपयोग किस लिए किया जाता है?
एल एल एम का उपयोग, तेज़ी से बढ़ रहा है क्योंकि ये कई प्रकार के नेचुरल लैंग्वेज प्रोसेसिंग (एन एल पी) कार्यों में व्यापक रूप से उपयोगी होते
हैं, जिनमें निम्नलिखित शामिल हैं:
पाठ निर्माण: किसी भी विषय पर पाठ उत्पन्न करने की क्षमता जिस पर एल एल एम को प्रशिक्षित किया गया है, एक प्राथमिक उपयोग का मामला है।
अनुवाद: कई भाषाओं में प्रशिक्षित एल एल एम के लिए, एक भाषा से दूसरी भाषा में अनुवाद करने की क्षमता एक सामान्य विशेषता है।
सामग्री सारांश: ब्लॉक या पाठ के एकाधिक पृष्ठों को सारांशित करना एलएलएम का एक उपयोगी कार्य है।
सामग्री को दोबारा लिखना: पाठ के एक भाग को दोबारा लिखना एक और क्षमता है।
वर्गीकरण और वर्गीकरण: एक एल एल एम सामग्री को वर्गीकृत और वर्गीकृत करने में सक्षम है।
भावना विश्लेषण: अधिकांश एल एल एम का उपयोग, भावनाओं के विश्लेषण के लिए किया जा सकता है ताकि उपयोगकर्ताओं को सामग्री के किसी हिस्से या किसी विशेष प्रतिक्रिया के इरादे को बेहतर ढंग से समझने में मदद मिल सके।
संवादात्मक ए आई और चैटबॉट: एल एल एम, एक उपयोगकर्ता के साथ बातचीत को इस तरह से सक्षम कर सकते हैं जो आमतौर पर ए आई प्रौद्योगिकियों की पुरानी पीढ़ियों की तुलना में अधिक स्वाभाविक है।
क्या हिंदी में आधारित कोई लार्ज लैंग्वेज मॉडल (LLM) हैं?
ओपनहाथी
भारत की घरेलू एआई स्टार्टअप कंपनी, सरवम एआई ने ओपनहाथी-हाय-v0.1 (जीपीटी-3.5) नामक पहला हिंदी लार्ज लैंग्वेज मॉडल (एलएलएम) जारी किया है। यह मॉडल, मेटा एआई के लामा2-7बी (Llama2-7B) आर्किटेक्चर पर आधारित है और यह भारतीय भाषाओं के लिए जीपीटी-3.5 (GPT-3.5) के समान प्रदर्शन प्रदान करता है।
सर्वम ए आई द्वारा उपयोग किए गए एआई मॉडल का टोकनाइज़र लामा2-7बी (Llama2-7B) के 48,000-टोकन विस्तार के साथ कार्य करता है, और इसे दो चरणों में प्रशिक्षित किया जाता है। पहले चरण में एंबेडिंग एलाइनमेंट होता है, जो हिंदी एंबेडिंग को सही करता है। दूसरे चरण में बाइलिंगुअल लैंग्वेज मॉडलिंग होती है, जिसमें मॉडल को दो भाषाओं के बीच सही तरीके से काम करने के लिए प्रशिक्षित किया जाता है।
प्रोजेक्ट इंडस
यह एक स्वदेशी मूलभूत मॉडल है जिसे कई इंडिक भाषाओं और बोलियों में बातचीत करने के साथ-साथ विश्व स्तर पर विस्तार करने के इरादे से डिज़ाइन किया गया है। वृहद भाषा मॉडल (एल एल एम) का पहला चरण हिंदी भाषा और इसकी 37 बोलियों के लिए डिज़ाइन किया गया है। ‘इंडस एल एल एम (Indus LLM)’ को एक अभिनव 'जेन एआई इन ए बॉक्स (GenAI in a box)' ढांचे का उपयोग करके कार्यान्वित किया जाएगा। यह समाधान उद्यमों के लिए उन्नत ए आई मॉडल की तैनाती को सरल बना देगा।
भारत में विकसित हो रहे क्षेत्रीय भाषाओं के लार्ज लैंग्वेज मॉडल (LLMs)
1.) कन्नड़ लामा (Kannada Llama):
कन्नड़ बोलने वाली समुदाय के लिए तैयार किया गया कन्नड़ ल्लामा ए.आई. की भाषाई क्षमताओं को कन्नड़ भाषा के संभालने में और भी बेहतर बनाता है। यह भारतीय लार्ज लैंग्वेज मॉडल, विविध एप्लिकेशनों, जैसे कि संवादात्मक एआई से लेकर टेक्स्ट विश्लेषण तक, को समर्थन देने के लिए सावधानी से तैयार किया गया है। इस मॉडल को 600 मिलियन कन्नड़ टोकनों पर पहले से प्रशिक्षित किया गया है, ताकि भाषा के सूक्ष्म पहलुओं को समझा जा सके।
2.) तमिल-लामा (Tamil-LLAMA):
तमिल-ललामा एक लार्ज लैंग्वेज मॉडल है जो खास तौर पर तमिल भाषा के लिए डिज़ाइन किया गया है। इसे अभिनंदन बालाचंद्रन द्वारा विकसित किया गया है और यह लामा (LLaMA) मॉडल के आधार पर तैयार किया गया है, लेकिन इसमें तमिल टेक्स्ट को संभालने की क्षमताओं को महत्वपूर्ण रूप से बढ़ाया गया है। इस मॉडल का शब्दकोश मूल 32,000 टोकन से बढ़कर 16,000 तमिल-विशिष्ट टोकन के साथ विस्तारित किया गया है, जिससे तमिल भाषा के अधिक सूक्ष्म और सटीक प्रसंस्करण की क्षमता मिलती है।
3.) कृत्रिम (Krutrim):
कृत्रिम एआई, एक जनरेटिव एआई सहायक है, जो 10 से ज़्यादा भाषाओं में बात कर सकता है, जिनमें हिंदी, इंग्लिश, तमिल, तेलुगु, मलयालम, बांग्ला, मराठी, कन्नड़, गुजराती आदि शामिल हैं। यह भारत का अपना ए.आई. है, जिसे एक ए.आई. स्टार्टअप द्वारा विकसित किया गया है। कृत्रिम ए.आई. का उद्देश्य भारत के 1.4 बिलियन से अधिक लोगों के लिए एक रचनात्मक एआई टूल प्रदान करना है, जो 100% संदर्भानुकूल प्रतिक्रियाएं प्रदान करता है। यह कंपनी, भारतीय ग्राहक सेवा क्षेत्र को बदलने के लिए तैयार है, क्योंकि यह एआई-संचालित चैटबॉट्स के माध्यम से भाषा और सांस्कृतिक बाधाओं को तोड़ने का प्रयास करती है। कृत्रिम एआई, वर्तमान में पब्लिक बीटा में है और इसके ग्राहक, सेवा क्षेत्र में क्रांति लाने की संभावना है।
4.) भाषिणी (Bhashini):
भाषिणी, एक राष्ट्रीय सार्वजनिक डिजिटल मंच है, जिसका उद्देश्य आर्टिफिशियल इंटेलिजेंस और अन्य उभरती हुई तकनीकों के माध्यम से सेवाओं और उत्पादों का विकास करना है। भाषिणी का फ़ोकस लार्ज लैंग्वेज मॉडल (LLMs) के विकास पर है और यह भाषा, प्रौद्योगिकी के समर्थन के लिए, एक व्यापक पारिस्थितिकी तंत्र बनाने पर काम कर रहा है।
5.) भारत जी पी टी (BharatGPT):
भारत जी पी टी, जो कोरोवर ए आई (CoRover.ai) द्वारा विकसित किया गया है, भारतीय बाज़ार के लिए एक परिवर्तनकारी जनरेटिव एआई मंच है। यह विभिन्न तौर-तरीकों में 14 से अधिक भाषाओं का समर्थन करता है। भारत सरकार की पहल के साथ पूरी तरह से जुड़ा हुआ, भारत जी पी टी सभी डेटा को देश के भीतर रखकर डेटा संप्रभुता और सुरक्षा सुनिश्चित करता है। यह भारतीय ए आई मॉडल बहुमुखी है और ई आर पी (ERP)/ सी आर एम (CRM) सिस्टम के साथ एकीकृत है। इसके अलावा, यह कई भाषाओं और प्रारूपों का समर्थन करता है, जिसमें वास्तविक समय के लेनदेन के लिए, एक अंतर्निहित भुगतान गेटवे शामिल है।
संदर्भ
https://tinyurl.com/yb75sdm6
https://tinyurl.com/btz8zyb5
https://tinyurl.com/mvs8ztew
https://tinyurl.com/2ub96ka2
https://tinyurl.com/mruvpen2
चित्र संदर्भ
1. भारतीय भाषाओं के शब्दों और एप्पल के सिरि को संदर्भित करता एक चित्रण (flickr, wikimedia)
2. आर्टिफ़िशियल इंटेलिजेंस के क्षेत्र में एक वृहत भाषा मॉडल (Large language model) के काम करने की प्रक्रिया को संदर्भित करता एक चित्रण (Pexels)
3. सघन एम्बेडिंग का उपयोग करके दस्तावेज़ पुनर्प्राप्ति के लिए दो-चरणीय प्रक्रिया को दर्शाने वाले आरेख को संदर्भित करता एक चित्रण (wikimedia)
4. विविध भाषाओँ को संदर्भित करता एक चित्रण (wikimedia)