हेल्लो दोस्तों! आज हम इस article में Hadoop in Hindi – हडूप क्या है? के बारें में पढेंगे और इसके advantage को भी देखेंगे तो चलिए शुरू करते हैं:-
Hadoop in Hindi – हडूप क्या है?
Apache Hadoop एक ओपन सोर्स सॉफ्टवेयर फ्रेमवर्क है जिसका प्रयोग data processing applications को विकसित करने के लिए किया जाता है और इन applications को distributed computing वातावरण में execute किया जाता है.
दूसरे शब्दों में कहें तो, “Hadoop एक open source फ्रेमवर्क है और इसका प्रयोग ऐसे data को analyze और process करने के लिए किया जाता है जो size में बहुत बड़ा होता है.”
Hadoop को जावा में लिखा गया है और यह OLAP (online analytical processing) नहीं है. इसका प्रयोग offline processing के लिए किया जाता है. इसका प्रयोग Facebook, Twitter, LinkedIn, Yahoo और अन्य कंपनियों के द्वारा किया जाता है. इसके अलावा इसे सिर्फ cluster में nodes जोड़कर बढ़ाया जा सकता है।
Hadoop में, डेटा distributed file system में रहता है जिसे Hadoop Distributed File System कहते हैं.
Hadoop Architecture in Hindi
हडूप (Hadoop) के पास master-slave टोपोलॉजी है. इस टोपोलॉजी में एक master node होता है और बहुत सारें slave nodes होते हैं. master node का कार्य slave nodes को task देना होता है और resources को मैनेज करना होता है. slave nodes वास्तविक कंप्यूटिंग करते है. slave nodes जो है वह real data को स्टोर किये रहते है जबकि master node के पास metadata होता है. metadata का मतलब होता है, “data about data”.
इस architecture की तीन मुख्य layers होती हैं जो कि निम्नलिखित हैं:-
- HDFS (Hadoop Distributed File System)
- MapReduce
- YARN
1:- HDFS
HDFS को Apache HDFS भी कहते है. यह एक ब्लॉक-स्ट्रक्चर file system होता है जहाँ प्रत्येक file पहले से निर्धारित blocks में विभाजित रहती है. इन blocks को एक या उससे अधिक machines के cluster में स्टोर किया जाता है.
इस architecture में एक NameNode जो है वह Master node का role करता है और कई DataNodes, slave का role करते है.
NameNode और DataNode दोनों ही commodity machines में चलने के योग्य होते हैं. HDFS को विकसित करने के लिए java language का प्रयोग किया गया है, इसलिए कोई भी वह मशीन जो java को support करती है उनमें NameNode और DataNode software को आसानी से run किया जा सकता है.
NameNode:
- यह केवल एक master server होता है जो HDFS में मौजूद होता है.
- यह single node होता है इलसिए यह single point failure का कारण बन सकता है.
- ये DataNodes को manage और maintain करता है.
- यह namespace management और client के द्वारा किये गये file access को regulate करने के लिए जिम्मेदार होता है.
- actual business data को स्टोर करने के लिए यह responsible होता है.
- यह system के architecture को सरल बना देता है.
DataNode:
- HDFS cluster बहुत सारें DataNodes को स्टोर किये हुए रहता है.
- ये HDFS की slave nodes होती है.
- प्रत्येक DataNode बहुत सारें data blocks को contain किये हुए रहते है.
- इन data blocks का प्रयोग data को स्टोर करने के लिए किया जाता है.
- file system के clients से requests को read और write करने की जिम्मेदारी DataNode की होती है.
- यह NameNode के instruction पर block को create, delete और replicate करता है.
2:- MapReduce:
MapReduce जो है वह Hadoop की data processing लेयर है. यह एक सॉफ्टवेयर फ्रेमवर्क है जिसके द्वारा हम बहुत बड़ी मात्रा के data को process करने के लिए application को write कर सकते है. MapReduce इन applications को low-end machines में cluster पर parallel में चलाता है.
इस MapReduce job में बहुत सारें map tasks और reduce tasks होते हैं. प्रत्येक task जो है वह data के एक भाग पर कार्य करता है. Map tasks का कार्य data को load, transform, parse और filter करना है. प्रत्येक reduce task जो है वह map tasks से प्राप्त output के sub-set पर कार्य करता है.
3:- YARN:
YARN का पूरा नाम Yet Another Resource Negotiator है. यह Hadoop की resource management layer है. YARN का बेसिक सिधांत resource management और job scheduling/monitoring function को अलग करना है.
इस YARN में एक global Resource manager और प्रत्येक application के लिए application master होता है.
Advantage of Hadoop in Hindi – हडूप के फायदे
इसके फायदे निम्नलिखित हैं:-
- इसमें data बहुत ही तेजी से process होता है. इसमें terabyte byte डाटा मिनटों में process हो जाता है और petabytes data घंटों में.
- Hadoop के cluster में nodes को add करके cluster को बढ़ा सकते है.
- यह बहुत ही cost effective है क्योंकि Hadoop ओपन-सोर्स है और यह commodity hardware का प्रयोग data को स्टोर करने के लिए करता है.
- इसमें जब कोई node down होता है या network failure होता है तो Hadoop डाटा की दूसरी copy का प्रयोग करता है.
निवेदन:- अगर आपके लिए यह पोस्ट उपयोगी रही हो तो इसे अपने friends के साथ अवश्य share कीजिये और आपके big data को लेकर कोई question हो तो नीचे कमेंट करके बताइए. thanks.