यूनिकोड़ क्या होता है | Unicode Kya hota hai
यूनिकोड़ क्या होता है . यूनकोड़ का अर्थ
यूनिकोड प्रत्येक अक्षर के लिए एक विशेष संख्या
प्रदान करता है। यूनिकोड़ की उत्पत्ति और उपलब्धता अति महत्वपूर्ण विश्वव्यपी
साफ्टवेयर प्रौद्योगिकी के साथ हुआ है। यह कई संचालन प्रणालियों, आधुनिक ब्राउजरों, एंड्राइड एवं अन्य उत्पादों मे आसानी
से प्रयोग होता है। यूनिकोड मूल रूप से नंबर से संबधित हैं यह प्रत्येक अक्षर के
लिए एक संख्या निर्धारित करके अक्षर व वर्ण संग्रहित करता है।
यूनिकोड़ की विशेषताएं
1- यह विश्व की सभी लिपियों से सभी संकेतों के
लिए एक अलग कोड बिन्दु प्रदान करता है।
2- यह वर्णों को एक कोड देता है, न कि ग्लिफ को।
3- यूनिकोड़ भाषाओं को एकीकरण का प्रयत्न करता
हैं
- इसी नीति के कारण सभी पश्चिमी यूरोपीय भाषाओं को लैटिन के अंतर्गत समाहित किया गया हैं
- सभी स्लाविक भाषाओं को सिरिलिक के अंतर्गत रखा गया है।
- हिन्दीं, संस्कृत, मराठी, नेपाली, कश्मीरी, सिंधी, आदि के लिए देवनागरी नाम से एक ही ब्लांक दिया गया है।
- चीनी, जापानी, वियतनामी, कोरियाई भाषाओं को ‘यूनिहान‘ नाम से एक ब्लाक में रखा गया है।
- अरबी, फारसी, उर्दू आदि को एक ही ब्लाक में रखा गया है।
यूनिकोड़ 16 बिट्स को एक इकाई के रूप में लेकर
चलता था। अब इसे 32 बिट कर दिया गया है। इस समय दुनिया का कोई संकेत नहीं है जिसे
32 के कोड में कहीं जगह न मिल गया हो।
बाएं से दाएं लिखी जाने वाली लिपियों के
अतिरिक्त दाएं से बाएं लिखी जाने वाली लिपियां (अरबी, फारसी, हिब्रू आदि) इसमें शामिल किया गया है।
यूनिकोड के रूप
यूनिकोड के तीन रूप हैं UTF-8, UFT-16, UTF-32
मान लीजिए आपके पास दस पृष्ठों का कोई पाठ है
जिसमें रोमन, देवनागरी, अरबी आदि के कुछ चिन्ह हैं। इन चिन्हों
के यूनिकोड अलग अलग होते हैं। कुछ चिन्हों के 32 बिट यूनिकोड में शुरूआत में शून्य
है। इसलिए यदि शुरूआती शून्य को हटा दें तो सिर्फ 8 बिट के द्वारा इनहें निरूपित
किया जा सकता है। इसी प्रकार रूसी, अरबी, हिब्रू आदि के यूनिकोड हैं जिनमें
शून्य को छोड़ देने पर उन्हें प्रायः 16 बिट या दो बाइट में निरूपित किया जा सकता
है।
देवनागरी, चीनी, जापानी आदि को प्रारंभिक शून्य हटा
देने पर प्रायः 24 बिट या 3 बाइट से निरूपित किया जा सकता है। परंतु ऐसे संकेत
जिनमें शून्य नहीं होगा उन्हें निरूपित करने के लिए चार बाइट लगेंगे।
UTF-8, UFT-16, UTF-32 में काम भिन्न-भिन्न ढंग से होते हैं।
स्पष्ट है कि प्रायः यूटीएफ 8 में इनकोडिंग
करने से यूटीएफ 16 की अपेक्षा कम बिट्स लगेंगे। यूटीएफ 16 की अपेक्षा यूटीएफ 8 का
प्रयोग अधिक किया जाता है। यूटीएफ 16 और यूटीएफ 32 में यह विशेषता है कि अब
कम्प्यूटर का हार्डवेय 32 या 64 बिट का हो गया है। इसलिए यूटीएफ 8 की फाइलों को
प्रोसेस करने में यूटीएफ-16 यूटीएफ 32 वाली फाइलों की अपेक्षा अधिक समय लगेगा।
यूनिकोड कन्सोेर्टियम
Unicode को Unicode
Consortium संस्थाि
manage करती है, जो लाभ न कमाने वाली एक संस्थाे है। इस संस्थाो को विभिन्नr IT & Software कम्प1नियाँ fund करती हैं। Google, Microsoft, Apple, IBM और Oracle कम्पननियाँ इसकी member हैं
और इसे fund करती हैं। भारतीय लिपियों के
अक्षरों/संकेतों के लिए Unicode
निर्धारित कराने के उद्देश्यय से भारत
ने भी इसकी सदस्येता ले रखी है। 2013
में भारत ने ‘₹’ (रुपये चिह्न) को यूनिकोड में शामिल
कराया।
इस संस्थार का मूल उद्देश्यt प्रचलित पुरानी character encoding schemes को Unicode और इसके standard UTF से replace करना है, क्योंhकि ये encoding schemes size के हिसाब से limited हैं और multilingual computing के लिए पर्याप्त् नहीं हैं।
UTF-8
UTF-8 character set format प्रत्येिक character को represent करने के लिए 4
bytes का useकरता है, लेकिन अक्सर उपयोग किए जाने वाले characters को represent
करने के लिए 4 bytes का उपयोग आवश्य कता से अधिक होगा।
इसलिए, UTF-8 common
English charactersको represent करने के लिए केवल 1 byte का ही use करता है।
UTF-16
UTF-16 character set formatमें प्रत्ये क character को represent करने के लिए minimum
16 bits (2 bytes) का
प्रयोग होता है अर्थात् जो characters UTF-8
में 1 byte जगह लेते थे, अब वे UTF-16 में 16
bits (2 bytes) जगह
लेंगे। हालांकि जो characters
UTF-8 में 2 bytes जगह लेत थे, वे UTF-16 में भी 2
bytes जगह ही लेंगे
परन्तुज जो characters
UTF-8 में 3 या 4 bytes अब UTF-16 में वे 32 bits (4 bytes) द्वारा निरूपित होंगे।
UTF-32
UTF-32 character set formatमें प्रत्येजक character को represent करने के लिए maximum
32 bits (4 bytes) का
प्रयोग होता है अर्थात् UTF-32 में जो characters 1 byte में दर्शाये जा सकते हैं, वे 1 byte जगह लेंगे, जो 2, 3 या 4 byte में दर्शाये जा सकते हैं, वे 2, 3 या 4 byte जगह ले सकते हैं। दरअसल विश्व की कुछ भाषाओं के कुछ characters UTF-16 में Fit नहीं हो रहे थे अर्थात् उन्हेंu 2 bytes में दर्शाना सम्भ व नहीं था इसलिए इसको extend किया गया और UTF-32 बनाया गया।
यूनिकोड के से लाभ
- एक ही दस्तावेज में अनेक भाषाओं के पाठ लिखे जा सकते हैं।
- किसी साफ्टवेयर उत्पाद का एक ही संस्करण पूरे विश्व में चलाया जा सकता है।
Post a Comment