۱۳۹۰/۱۲/۲۷

tesseract-ocr و پشتيباني از زبان عربي


tesseract-ocr، يك OCR سورس باز توسعه يافته توسط شركت HP در بين سال‌هاي 1985 تا 1995 است و اكنون شركت گوگل كار نگهداري و توسعه آن‌را به عهده دارد. كيفيت نويسه خواني انگليسي آن فوق‌العاده بالا است. در آخرين نگارش آن پشتيباني از زبان عربي هم را اضافه كرده است.
براي نصب آن ابتدا نگارش قابل حمل آن‌را دريافت و سپس فايل‌هاي مرتبط با زبان عربي را نيز بايد دريافت كنيد. پس از دريافت اين‌دو، فايل‌هاي زبان عربي را در پوشه tessdata كپي كنيد.

كار كردن با آن هم به سادگي اجراي فرمان زير است:

tesseract.exe image.tif file -l ara

پارامتر اول نام تصوير، پارامتر دوم نام فايل متني خروجي است (خودش يك txt را به صورت خودكار به فايل توليدي اضافه مي‌كند) و در آخر زبان عربي مشخص شده است.
براي نمونه تصوير زير را


به صورت متن زير نويسه خواني كرد:

«برا ي اي ذسث است»

فعلا ابزاري را براي ويرايش فايل‌هاي مرتبط با تشخيص زبان عربي ارائه نداده‌اند. بنابراين براي استفاده از آن جهت تشخيص متون فارسي مشكل وجود دارد چون «گچ پژ» را نمي‌تواند تشخيص دهد و به اينجا كه مي‌رسد كلا سيستمش به هم مي‌ريزد.
انجمن پرسش و پاسخ آن هم در اينجا قرار دارد.

فايل‌هاي اجرايي و زبان عربي اين برنامه را از آدرس‌هاي زير هم مي‌توان دريافت كرد:
Mirror: tesseract-ocr-3.01-win32-portable.zip & tesseract-ocr-3.01.ara.tar.gz