tesseract-ocr، يك OCR سورس باز توسعه يافته توسط شركت HP در بين سالهاي 1985 تا 1995 است و اكنون شركت گوگل كار نگهداري و توسعه آنرا به عهده دارد. كيفيت نويسه خواني انگليسي آن فوقالعاده بالا است. در آخرين نگارش آن پشتيباني از زبان عربي هم را اضافه كرده است.
براي نصب آن ابتدا نگارش قابل حمل آنرا دريافت و سپس فايلهاي مرتبط با زبان عربي را نيز بايد دريافت كنيد. پس از دريافت ايندو، فايلهاي زبان عربي را در پوشه tessdata كپي كنيد.
كار كردن با آن هم به سادگي اجراي فرمان زير است:
tesseract.exe image.tif file -l ara
پارامتر اول نام تصوير، پارامتر دوم نام فايل متني خروجي است (خودش يك txt را به صورت خودكار به فايل توليدي اضافه ميكند) و در آخر زبان عربي مشخص شده است.
براي نمونه تصوير زير را
به صورت متن زير نويسه خواني كرد:
«برا ي اي ذسث است»
فعلا ابزاري را براي ويرايش فايلهاي مرتبط با تشخيص زبان عربي ارائه ندادهاند. بنابراين براي استفاده از آن جهت تشخيص متون فارسي مشكل وجود دارد چون «گچ پژ» را نميتواند تشخيص دهد و به اينجا كه ميرسد كلا سيستمش به هم ميريزد.
انجمن پرسش و پاسخ آن هم در اينجا قرار دارد.
فايلهاي اجرايي و زبان عربي اين برنامه را از آدرسهاي زير هم ميتوان دريافت كرد:
Mirror: tesseract-ocr-3.01-win32-portable.zip & tesseract-ocr-3.01.ara.tar.gz