Jump to content

विकिस्रोत:OCR4wikisource प्रणाली वापरण्याचा कृती आराखडा

विकिस्रोत कडून

विकिसोअर्स मध्ये जी पुस्तक आहेत त्यातील बरीचशी पुस्तके हि स्कॅन करून अपलोड केली आहेत. त्यामुळे या पुस्तकातील प्रत्येक पानावरील शब्दांवर शोध प्रक्रिया करता येत नाही आणि त्यामुळे बरीचशी पुस्तके आपल्याला शोधताना सापडत नाहीत. पुस्तकांबरोबर आणिक हि काही स्कॅन केलेल योगदान असेल तर आता या सर्व माहिती च OCR करणं सोप झालय. विकिपीडिया/विकीस्रोत/विकिसोअर्स अशा अनेक ठिकाणी जर काही जुनी पुस्तक अपलोड केलेली असतील तर त्यांचं OCR करण आता गुगल च्या OCR मुळे सहज करता येऊ शकत. या लेखात खाली त्याची प्रक्रिया दिली आहे. या पद्धतीने इतर भाषांतील अनेक संग्रह OCR केलेले आहेत. मराठीत अजून याचा वापर फारसा झाला नाही.

मराठी स्कॅन केलेल्या पुस्तकांचे OCR करून मग ती पुन्हा विकिसोअर्स वर अपलोड करण्यासाठी टी श्रीनिवासन, तामिळ विकिपेडिअन आणि प्रोग्रामर यांनी एक python कॉम्पुटर प्रोग्रामिंग मध्ये एक छोटा प्रोग्रॅम लिहिलंय जो कसा वापरता येऊ शकतो ते या लेखात मराठी तुन दिले आहे. हा प्रोग्रॅम कसा वापरायचा हे बंगाली भाषेत या संकेत स्थळावर दिले आहे त्याचा आधार घेऊन इथे पुन्हा ती पद्धत मराठी सांगितली आहे. (https://bn.wikisource.org/wiki/%E0%A6%B8%E0%A6%BE%E0%A6%B9%E0%A6%BE%E0%A6%AF%E0%A7%8D%E0%A6%AF:OCR4Wikisource)

या प्रोग्रॅम च नाव आहे OCR4Wikisoource (https://github.com/tshrinivasan/OCR4wikisource) या संकेत स्थळावरून हा प्रोग्रॅम डाउनलोड करता येऊ शकतो. हा प्रोग्रॅम फक्त लिनक्स ऑपरेटिंग सिस्टिम वरच चालू शकतो. विंडोज ऑपरेटिंग सिस्टिम वर हा प्रोग्रॅम चालत नाही. हा प्रोग्रॅम जो पायथन प्रोग्रामिंग भाषेत लिहिलाय तो आपोआप विकिसोअर्स मधील पुस्तके, गुगल OCR ची मदत घेऊन स्कॅन करतो आणि पुस्तकांचे OCR करून OCR झालेली पुस्तके युनिकोड मध्ये विकिसोअर्स वर अपलोड करतो. या पानावर हि प्रणाली उबंटू ऑपेरेटिंग सिस्टिम १६.०४ किंवा १४.०४ मध्ये कशी इन्स्टॉल करायची हे सांगितले आहे.

खालील पद्धतीने हे सॉफ्टवेअर वापरता येऊ शकते. Contents

  1. पायरी १ : OCR4wikisource डाउनलोड करून इन्स्टॉल करणे.
  2. पायरी २ : Google API
  3. पायरी ३ : API Enable
  4. पायरी ४ : OCR4wikisource वापरण्याकरिता लागणारी config.ini फाईल बदलणे आणि ज्या पुस्तकाच OCR करून पुस्तक विकि कॉमन्स वर टाकायचा त्या पुस्तकाच संकेतस्थळ तुमच विकिसॉरच लॉगिन पासवर्ड असे खालील पर्याय भरायचे.
  5. पायरी ५ : OCR4wikisource प्रोग्रॅम वापरणे .
  • पायरी १ : OCR4wikisource डाउनलोड करून इन्स्टॉल करणे.

प्रथम https://github.com/tshrinivasan/OCR4wikisource या संकेत स्थळावर जाऊन झिप फॉरमॅट file डाउनलोड करायची. डाउनलोड झालेली file लिनक्स च्या user account च्या डाउनलोड फोल्डर मधून मुख्य फोल्डर मध्ये कॉपी करायची. आता हि झिप file लिनक्स च्या user अकाउंट मध्ये इन्स्टॉल करायची. खाली प्रत्येक commands दिल्या आहेत.

लिनक्स मध्ये एक टर्मिनल ओपन करा आणि खालील commands चा उपयोग करा.

sunita@localhost:

sunita@ubuntu:cd Downloads sunita@ubuntu:~/Downloads$ cp OCR4wikisource-master.zip /home/sunita/ sunita@ubuntu:~/Downloads$ cd sunita@ubuntu:~$ unzip OCR4wikisource-master.zip sunita@ubuntu:~$ cd OCR4wikisource-master/ sunita@ubuntu:~/OCR4wikisource-master$

लिनक्सच्या ऍडमिनिस्ट्रेटिव्ह होऊन खालील कमांड रन करा.

   root@ubuntu::/home/sunita/OCR4wikisource-master# bash setup.sh
   [sudo] password for sunita:[इथे तुमचा लिनक्स चा संकेतशब्द घाला ]. मग हा प्रोग्रॅम इन्स्टॉल करण्याकरिता काही इतर सॉफ्टवेअर इन्स्टॉल करण्याची संमती कॉम्पुटर विचारेल त्याला हो म्हणा.
   Do you want to continue? [Y/n] Y

आता तुमच्या लिनक्स मध्ये काही आणिक प्रोग्रॅम्स इन्स्टॉल होतील. हे प्रोग्रॅम्स OCR4wikisource हे वापरण्या करीत आवश्यक असल्या कारणाने त्यांचे इंस्टॉलेशन तुमच्या कॉम्पुटर वर होणे आवश्यक आहे. इन्स्टॉल झ्हाल्या नंतर टर्मिनल वर खालील माहिती दिसेल.

   Fetched 6,367 kB in 40s (156 kB/s)
   Reading package lists... Done
   Reading package lists... Done
   Building dependency tree
   Reading state information... Done
   mupdf-tools is already the newest version.
   0 upgraded, 0 newly installed, 0 to remove and 389 not upgraded.

sunita@ubuntu:~/OCR4wikisource-master$ पायरी २ : Google API

Google API च्या खात्या वर तुमच्या gmail च्या खात्याचा वापर करून नवीन project तयार करायचं आणि त्या प्रोजेक्ट च्या json नावाच्या फाईल ची लिंक वरील टर्मिनल मध्ये कॉपी पेस्ट करायची. हे करण्या करीत प्रथम तुम्ही तुमच्या gmail च्या खात्यावर login असणे गरजेचे आहे.

Google Chrome ब्राउर मध्ये एका टॅब वर तुम्ही तुमच्या gmail च्या खात्यात प्रवेश करा आणि दुसरा टॅब उघडून http://console.developers.google.com या संकेत स्थळावर जा. या संकेत स्थळावर गेल्यावर Dashboard, Library आणि Credentials असे तीन पर्याय डावीकडे दिसतील.उजवीकडे Dashboard Enable API असा पर्याय दिसेल. Enable API या पर्यायावर टिचकी मारा. हे केल्या नंतर तुम्हाला उजव्या बाजूला बरेच पर्याय दिसतील त्यातील खालील पर्याया वर टिचकी मारा.

   Google Apps APIs
       Drive API
   आता डावीकडे "credentials" असा पर्याय दिसेल त्यावर टिचकि मारा आणि "create credential " या उजवीकडील निळ्या पर्यायावर क्लिक करा

Other popular APIs

   Fusion Tables API

जाऊन नवीन प्रोजेक्ट तयार करायचा आणि मग खालील दोन API क्लिक करायचे. हे करण्या करीत तुम्ही तुमच्या gmail च्या खात्यावर login असणे गरजेचे आहे.

   १. Drive API
   २. Fusion Table API

ड्राईव्ह API ला क्लिक केल कि enable यावर टिचकी मारायची मग credentials वर क्लिक करून create-credential नवीन तयार करायचं तिथे पुन्हा OAuth Client ID सिलेक्ट केल्यावर Other ऑपशन सिलेक्ट करायचं आणि नवीन प्रोजेक्ट चा नाव चोकटीत घालायचं उदाहरणार्थ "Book" आणि मग "create" या पर्यायावर टिचकी मारायची हे केल्यानंतर खाशील फलक दिसेल

Here is your client ID Here is your client secret आता सर्वात उज्याबाजुला डाउनलोड असा पर्याय दिसेल तिथे जाऊन डाउनलोड "json" वर क्लिक करायचं. हि json नावाची file तुमच्या लिनक्स च्या डाउनलोड फोल्डर मध्ये जाऊन पडते. आता हि फाईल कॉपी करायची तुमच्या OCR4wikisource या प्रोग्रॅम मध्ये खालील प्रंमाणे .

sunita@ubuntu:~/Downloads$ cp client_secret_601044375961-s1hfnj12omhk5jcat7ulspt0qgjklqbl.apps.googleusercontent.com.json /home/libpc7/OCR4wikisource-master पायरी ३ : API Enable

आता खालील लिनक्स ची software इन्स्टॉल करा त्याकरिता तुमच्या लिनक्स च्या टर्मिनल मधून खालील कंमंड्स एंटर करून सॉफ्टवेअर इन्स्टॉल करा. हि software इन्स्टॉल करण्याकरिता तुम्हाला लिनक्स च्या ऍडमिनिस्ट्रेटोर चा पासवर्ड माहित असणं गरजेचं आहे.

   sunita@ubuntu:~sudo su
   root @ubuntu :~ apt-get install python-pip
  root@ubuntu:~
   root@ubuntu:~pip install google-api-python-client
वरील कमांड  टाईप केल्यावर खालील message दिसल्यास pip install --upgrade pip हि कमांड पुन्हा रन करावी.

You are using pip version 8.1.1, however version 9.0.1 is available. You should consider upgrading via the 'pip install --upgrade pip' command.

   root@ubuntu: pip install --upgrade pip
   root@ubuntu:~pip install gdcmdtools
   root@ubuntu:~ pip install clint
  root@ubuntu:~ pip install wikitools
  root@ubuntu:~ pip install poster
   root@ubuntu:~exit
   sunita@ubuntu:~cd OCR4wikisource-master/
   sunita@ubuntu:~/OCR4wikisource-master$ gdauth.py client_secret_601044375961-s1hfnj12omhk5jcat7ulspt0qgjklqbl.apps.googleusercontent.com.json
   sunita@ubuntu:~/OCR4wikisource-master$ gdauth.py client_secret_601044375961-s1hfnj12omhk5jcat7ulspt0qgjklqbl.apps.googleusercontent.com.json  ERROR:gdcmdtools.auth:storage_file: /home/libpc7/.gdcmdtools.creds not exists /usr/local/lib/python2.7/dist-packages/oauth2client/_helpers.py:255: UserWarning: Cannot access /home/libpc7/.gdcmdtools.creds: No such file or directory   warnings.warn(_MISSING_FILE_MESSAGE.format(filename)) INFO:gdcmdtools.auth:Please visit the URL in your browser: https://accounts.google.com/o/oauth2/auth?scope=https%3A%2F%2Fwww.googleapis.com%2Fauth%2Fdrive+https%3A%2F%2Fwww.googleapis.com%2Fauth%2Ffusiontables+https%3A%2F%2Fwww.googleapis.com%2Fauth%2Fdrive.scripts+https%3A%2F%2Fwww.googleapis.com%2Fauth%2Fuserinfo.profile+https%3A%2F%2Fwww.googleapis.com%2Fauth%2Fuserinfo.email&redirect_uri=urn%3Aietf%3Awg%3Aoauth%3A2.0%3Aoob&response_type=code&client_id=601044375961-s1hfnj12omhk5jcat7ulspt0qgjklqbl.apps.googleusercontent.com&access_type=offline Insert the given code:
   वरील कमांड टर्मिनल वर रन केल्यावर एक लिंक स्क्रीन वर दिसेल तिथे तुमचा माऊस नेऊन एक नवीन ब्राउझर मध्ये ती लिंक ओपन करायची आणि मग स्क्रीन वर जे आकडे दिसतील ते पुन्हा टर्मिनल वर कॉपी पेस्ट करायचं. या पद्धतीने तुमच्या कॉम्पुटर वर Google API येण्याची प्रक्रिया पूर्ण होईल.

पायरी ४ : OCR4wikisource वापरण्याकरिता लागणारी config.ini फाईल बदलणे आणि ज्या पुस्तकाच OCR करून पुस्तक विकि कॉमन्स वर टाकायचा त्या पुस्तकाच संकेतस्थळ तुमच विकिसॉरच लॉगिन पासवर्ड असे खालील पर्याय भरायचे.

sunita@ubuntu::~/OCR4wikisource-master$ vi config.ini

[settings]

file_url = https://commons.wikimedia.org/wiki/File:%E0%A4%97%E0%A4%B5%E0%A4%B3%E0%A5%8D%E0%A4%AF%E0%A4%BE%E0%A4%9A%E0%A5%8D%E0%A4%AF%E0%A4%BE_%E0%A4%95%E0%A4%A8%E0%A5%8D%E0%A4%AF%E0%A5%87%E0%A4%9A%E0%A5%80_%E0%A4%97%E0%A5%8B%E0%A4%B7%E0%A5%8D%E0%A4%9F.djvu

columns = 2

wiki_username = WikiSource Username

wiki_password = WikiSource Password

wikisource_language_code = language code in two letters

keep_temp_folder_in_google_drive = no

edit_summary = Text from Google OCR पायरी ५ : OCR4wikisource प्रोग्रॅम वापरणे .

वरील फाईल मध्ये बदल केल्या नंतर लिनक्स च्या ऍडमिनिस्ट्रेटोर अकाउंट ने लॉगिन होऊन त्या लिनक्स च्या फोल्डर ला जायचं आणि मग खालील कमांड रन करायची कि तुम्ही दिलेल्या मराठी पुस्तकाच्या पूर्ण पानांचा OCR होऊन ती सर्व पाने विकिसोअर्स वर टाकली जातील.

root@ubuntu:~cd /home/sunita/OCR4wikisource-master$python do_ocr.py

वरील कमांड पूर्ण व्हायला वेळ लागतो.

[1]

   https://bn.wikisource.org/wiki/%E0%A6%B8%E0%A6%BE%E0%A6%B9%E0%A6%BE%E0%A6%AF%E0%A7%8D%E0%A6%AF:OCR4Wikisource