विकिस्रोत:OCR4wikisource प्रणाली वापरण्याचा कृती आराखडा
विकिसोअर्स मध्ये जी पुस्तक आहेत त्यातील बरीचशी पुस्तके हि स्कॅन करून अपलोड केली आहेत. त्यामुळे या पुस्तकातील प्रत्येक पानावरील शब्दांवर शोध प्रक्रिया करता येत नाही आणि त्यामुळे बरीचशी पुस्तके आपल्याला शोधताना सापडत नाहीत. पुस्तकांबरोबर आणिक हि काही स्कॅन केलेल योगदान असेल तर आता या सर्व माहिती च OCR करणं सोप झालय. विकिपीडिया/विकीस्रोत/विकिसोअर्स अशा अनेक ठिकाणी जर काही जुनी पुस्तक अपलोड केलेली असतील तर त्यांचं OCR करण आता गुगल च्या OCR मुळे सहज करता येऊ शकत. या लेखात खाली त्याची प्रक्रिया दिली आहे. या पद्धतीने इतर भाषांतील अनेक संग्रह OCR केलेले आहेत. मराठीत अजून याचा वापर फारसा झाला नाही.
मराठी स्कॅन केलेल्या पुस्तकांचे OCR करून मग ती पुन्हा विकिसोअर्स वर अपलोड करण्यासाठी टी श्रीनिवासन, तामिळ विकिपेडिअन आणि प्रोग्रामर यांनी एक python कॉम्पुटर प्रोग्रामिंग मध्ये एक छोटा प्रोग्रॅम लिहिलंय जो कसा वापरता येऊ शकतो ते या लेखात मराठी तुन दिले आहे. हा प्रोग्रॅम कसा वापरायचा हे बंगाली भाषेत या संकेत स्थळावर दिले आहे त्याचा आधार घेऊन इथे पुन्हा ती पद्धत मराठी सांगितली आहे. (https://bn.wikisource.org/wiki/%E0%A6%B8%E0%A6%BE%E0%A6%B9%E0%A6%BE%E0%A6%AF%E0%A7%8D%E0%A6%AF:OCR4Wikisource)
या प्रोग्रॅम च नाव आहे OCR4Wikisoource (https://github.com/tshrinivasan/OCR4wikisource) या संकेत स्थळावरून हा प्रोग्रॅम डाउनलोड करता येऊ शकतो. हा प्रोग्रॅम फक्त लिनक्स ऑपरेटिंग सिस्टिम वरच चालू शकतो. विंडोज ऑपरेटिंग सिस्टिम वर हा प्रोग्रॅम चालत नाही. हा प्रोग्रॅम जो पायथन प्रोग्रामिंग भाषेत लिहिलाय तो आपोआप विकिसोअर्स मधील पुस्तके, गुगल OCR ची मदत घेऊन स्कॅन करतो आणि पुस्तकांचे OCR करून OCR झालेली पुस्तके युनिकोड मध्ये विकिसोअर्स वर अपलोड करतो. या पानावर हि प्रणाली उबंटू ऑपेरेटिंग सिस्टिम १६.०४ किंवा १४.०४ मध्ये कशी इन्स्टॉल करायची हे सांगितले आहे.
खालील पद्धतीने हे सॉफ्टवेअर वापरता येऊ शकते. Contents
- पायरी १ : OCR4wikisource डाउनलोड करून इन्स्टॉल करणे.
- पायरी २ : Google API
- पायरी ३ : API Enable
- पायरी ४ : OCR4wikisource वापरण्याकरिता लागणारी config.ini फाईल बदलणे आणि ज्या पुस्तकाच OCR करून पुस्तक विकि कॉमन्स वर टाकायचा त्या पुस्तकाच संकेतस्थळ तुमच विकिसॉरच लॉगिन पासवर्ड असे खालील पर्याय भरायचे.
- पायरी ५ : OCR4wikisource प्रोग्रॅम वापरणे .
- पायरी १ : OCR4wikisource डाउनलोड करून इन्स्टॉल करणे.
प्रथम https://github.com/tshrinivasan/OCR4wikisource या संकेत स्थळावर जाऊन झिप फॉरमॅट file डाउनलोड करायची. डाउनलोड झालेली file लिनक्स च्या user account च्या डाउनलोड फोल्डर मधून मुख्य फोल्डर मध्ये कॉपी करायची. आता हि झिप file लिनक्स च्या user अकाउंट मध्ये इन्स्टॉल करायची. खाली प्रत्येक commands दिल्या आहेत.
लिनक्स मध्ये एक टर्मिनल ओपन करा आणि खालील commands चा उपयोग करा.
sunita@localhost:
sunita@ubuntu:cd Downloads sunita@ubuntu:~/Downloads$ cp OCR4wikisource-master.zip /home/sunita/ sunita@ubuntu:~/Downloads$ cd sunita@ubuntu:~$ unzip OCR4wikisource-master.zip sunita@ubuntu:~$ cd OCR4wikisource-master/ sunita@ubuntu:~/OCR4wikisource-master$
लिनक्सच्या ऍडमिनिस्ट्रेटिव्ह होऊन खालील कमांड रन करा.
root@ubuntu::/home/sunita/OCR4wikisource-master# bash setup.sh [sudo] password for sunita:[इथे तुमचा लिनक्स चा संकेतशब्द घाला ]. मग हा प्रोग्रॅम इन्स्टॉल करण्याकरिता काही इतर सॉफ्टवेअर इन्स्टॉल करण्याची संमती कॉम्पुटर विचारेल त्याला हो म्हणा. Do you want to continue? [Y/n] Y
आता तुमच्या लिनक्स मध्ये काही आणिक प्रोग्रॅम्स इन्स्टॉल होतील. हे प्रोग्रॅम्स OCR4wikisource हे वापरण्या करीत आवश्यक असल्या कारणाने त्यांचे इंस्टॉलेशन तुमच्या कॉम्पुटर वर होणे आवश्यक आहे. इन्स्टॉल झ्हाल्या नंतर टर्मिनल वर खालील माहिती दिसेल.
Fetched 6,367 kB in 40s (156 kB/s) Reading package lists... Done Reading package lists... Done Building dependency tree Reading state information... Done mupdf-tools is already the newest version. 0 upgraded, 0 newly installed, 0 to remove and 389 not upgraded.
sunita@ubuntu:~/OCR4wikisource-master$ पायरी २ : Google API
Google API च्या खात्या वर तुमच्या gmail च्या खात्याचा वापर करून नवीन project तयार करायचं आणि त्या प्रोजेक्ट च्या json नावाच्या फाईल ची लिंक वरील टर्मिनल मध्ये कॉपी पेस्ट करायची. हे करण्या करीत प्रथम तुम्ही तुमच्या gmail च्या खात्यावर login असणे गरजेचे आहे.
Google Chrome ब्राउर मध्ये एका टॅब वर तुम्ही तुमच्या gmail च्या खात्यात प्रवेश करा आणि दुसरा टॅब उघडून http://console.developers.google.com या संकेत स्थळावर जा. या संकेत स्थळावर गेल्यावर Dashboard, Library आणि Credentials असे तीन पर्याय डावीकडे दिसतील.उजवीकडे Dashboard Enable API असा पर्याय दिसेल. Enable API या पर्यायावर टिचकी मारा. हे केल्या नंतर तुम्हाला उजव्या बाजूला बरेच पर्याय दिसतील त्यातील खालील पर्याया वर टिचकी मारा.
Google Apps APIs Drive API
आता डावीकडे "credentials" असा पर्याय दिसेल त्यावर टिचकि मारा आणि "create credential " या उजवीकडील निळ्या पर्यायावर क्लिक करा
Other popular APIs
Fusion Tables API
जाऊन नवीन प्रोजेक्ट तयार करायचा आणि मग खालील दोन API क्लिक करायचे. हे करण्या करीत तुम्ही तुमच्या gmail च्या खात्यावर login असणे गरजेचे आहे.
१. Drive API २. Fusion Table API
ड्राईव्ह API ला क्लिक केल कि enable यावर टिचकी मारायची मग credentials वर क्लिक करून create-credential नवीन तयार करायचं तिथे पुन्हा OAuth Client ID सिलेक्ट केल्यावर Other ऑपशन सिलेक्ट करायचं आणि नवीन प्रोजेक्ट चा नाव चोकटीत घालायचं उदाहरणार्थ "Book" आणि मग "create" या पर्यायावर टिचकी मारायची हे केल्यानंतर खाशील फलक दिसेल
Here is your client ID Here is your client secret आता सर्वात उज्याबाजुला डाउनलोड असा पर्याय दिसेल तिथे जाऊन डाउनलोड "json" वर क्लिक करायचं. हि json नावाची file तुमच्या लिनक्स च्या डाउनलोड फोल्डर मध्ये जाऊन पडते. आता हि फाईल कॉपी करायची तुमच्या OCR4wikisource या प्रोग्रॅम मध्ये खालील प्रंमाणे .
sunita@ubuntu:~/Downloads$ cp client_secret_601044375961-s1hfnj12omhk5jcat7ulspt0qgjklqbl.apps.googleusercontent.com.json /home/libpc7/OCR4wikisource-master पायरी ३ : API Enable
आता खालील लिनक्स ची software इन्स्टॉल करा त्याकरिता तुमच्या लिनक्स च्या टर्मिनल मधून खालील कंमंड्स एंटर करून सॉफ्टवेअर इन्स्टॉल करा. हि software इन्स्टॉल करण्याकरिता तुम्हाला लिनक्स च्या ऍडमिनिस्ट्रेटोर चा पासवर्ड माहित असणं गरजेचं आहे.
sunita@ubuntu:~sudo su root @ubuntu :~ apt-get install python-pip root@ubuntu:~ root@ubuntu:~pip install google-api-python-client वरील कमांड टाईप केल्यावर खालील message दिसल्यास pip install --upgrade pip हि कमांड पुन्हा रन करावी.
You are using pip version 8.1.1, however version 9.0.1 is available. You should consider upgrading via the 'pip install --upgrade pip' command.
root@ubuntu: pip install --upgrade pip root@ubuntu:~pip install gdcmdtools root@ubuntu:~ pip install clint root@ubuntu:~ pip install wikitools root@ubuntu:~ pip install poster root@ubuntu:~exit sunita@ubuntu:~cd OCR4wikisource-master/ sunita@ubuntu:~/OCR4wikisource-master$ gdauth.py client_secret_601044375961-s1hfnj12omhk5jcat7ulspt0qgjklqbl.apps.googleusercontent.com.json sunita@ubuntu:~/OCR4wikisource-master$ gdauth.py client_secret_601044375961-s1hfnj12omhk5jcat7ulspt0qgjklqbl.apps.googleusercontent.com.json ERROR:gdcmdtools.auth:storage_file: /home/libpc7/.gdcmdtools.creds not exists /usr/local/lib/python2.7/dist-packages/oauth2client/_helpers.py:255: UserWarning: Cannot access /home/libpc7/.gdcmdtools.creds: No such file or directory warnings.warn(_MISSING_FILE_MESSAGE.format(filename)) INFO:gdcmdtools.auth:Please visit the URL in your browser: https://accounts.google.com/o/oauth2/auth?scope=https%3A%2F%2Fwww.googleapis.com%2Fauth%2Fdrive+https%3A%2F%2Fwww.googleapis.com%2Fauth%2Ffusiontables+https%3A%2F%2Fwww.googleapis.com%2Fauth%2Fdrive.scripts+https%3A%2F%2Fwww.googleapis.com%2Fauth%2Fuserinfo.profile+https%3A%2F%2Fwww.googleapis.com%2Fauth%2Fuserinfo.email&redirect_uri=urn%3Aietf%3Awg%3Aoauth%3A2.0%3Aoob&response_type=code&client_id=601044375961-s1hfnj12omhk5jcat7ulspt0qgjklqbl.apps.googleusercontent.com&access_type=offline Insert the given code:
वरील कमांड टर्मिनल वर रन केल्यावर एक लिंक स्क्रीन वर दिसेल तिथे तुमचा माऊस नेऊन एक नवीन ब्राउझर मध्ये ती लिंक ओपन करायची आणि मग स्क्रीन वर जे आकडे दिसतील ते पुन्हा टर्मिनल वर कॉपी पेस्ट करायचं. या पद्धतीने तुमच्या कॉम्पुटर वर Google API येण्याची प्रक्रिया पूर्ण होईल.
पायरी ४ : OCR4wikisource वापरण्याकरिता लागणारी config.ini फाईल बदलणे आणि ज्या पुस्तकाच OCR करून पुस्तक विकि कॉमन्स वर टाकायचा त्या पुस्तकाच संकेतस्थळ तुमच विकिसॉरच लॉगिन पासवर्ड असे खालील पर्याय भरायचे.
sunita@ubuntu::~/OCR4wikisource-master$ vi config.ini
[settings]
columns = 2
wiki_username = WikiSource Username
wiki_password = WikiSource Password
wikisource_language_code = language code in two letters
keep_temp_folder_in_google_drive = no
edit_summary = Text from Google OCR पायरी ५ : OCR4wikisource प्रोग्रॅम वापरणे .
वरील फाईल मध्ये बदल केल्या नंतर लिनक्स च्या ऍडमिनिस्ट्रेटोर अकाउंट ने लॉगिन होऊन त्या लिनक्स च्या फोल्डर ला जायचं आणि मग खालील कमांड रन करायची कि तुम्ही दिलेल्या मराठी पुस्तकाच्या पूर्ण पानांचा OCR होऊन ती सर्व पाने विकिसोअर्स वर टाकली जातील.
root@ubuntu:~cd /home/sunita/OCR4wikisource-master$python do_ocr.py
वरील कमांड पूर्ण व्हायला वेळ लागतो.
[1]
https://bn.wikisource.org/wiki/%E0%A6%B8%E0%A6%BE%E0%A6%B9%E0%A6%BE%E0%A6%AF%E0%A7%8D%E0%A6%AF:OCR4Wikisource