۱۳۸۹ آبان ۲۵, سه‌شنبه

چگونگی تبدیل متون اسکن شده به اسناد متنی قابل ویرایش



سیستم عامل سازگار: ویندوز

راستش را بخواهید هیچ گاه از طرفداران پر و پا قرص نرم افزارهای تشخیص کاراکترهای متن اسکن شده (OCR) نبودم، به این دلیل که وقتی فکر می کنم که برای تبدیل یک سند اسکن شده توسط اسکنر به متنی قابل ویرایش در برنامه های واژه پردازی مانند مایکروسافت ورد، چه میزان وقت صرف می شود و در پایان هم با به هم ریختگی قالب ها و در هم فرورفتگی متون مواجه می شوید از این برنامه ها مایوس می گردم! با این حال، گاهی اوقات ممکن است قالب بندی صفحات و فرم های آماده که به صورت چاپی در اختیار داریم (و نه به صورت فایل متنی) به اندازه یافتن راهی برای جلوگیری از تایپ مجدد چند ده صفحه که تنها به صورت چاپی در اختیار داریم مهم و ضروری نباشد.

اگر شما نیز دچار چنین وضعیتی شدید که مجبورید چند صفحه را که قبلا چاپ شده و به صورت چاپ شده روی کاغذ در اختیار دارید را دوباره از ابتدا تایپ کنید لطفا دست نگه دارید. زیرا در مقاله امروز برای شما راه حل ویژه ای داریم: استفاده از نرم افزار کاملا رایگان  FreeOCR برای تبدیل متون اسکن شده و در فرمت فایل های تصویری به متون قابل ویرایش در واژه پردازها! این برنامه اگر چه عجیب ترین و خارق العاده ترین برنامه OCR نیست که تا کنون دیده ام، اما در عوض هم رایگان است و هم استفاده از آن واقعا ساده. از آنجا که این برنامه قادر است به طور مستقیم از اکثر اسکنرهای رایانه پشتیبانی کند، به جرات می توانم بگویم حتی مبتدی ترین کاربر کامپیوتر هم می تواند به سرعت درک کند چگونگه از این برنامه برای مقاصد خود استفاده نماید.

هر چند واقعا هم لازم نیست از اسکنر استفاده کنید. چون با FreeOCR همچنین می توانید یک فایل پی دی اف و یا تصویر را باز کرده و متن داخل آن را استخراج کنید. (برنامه از رایج ترین فرمت های تصویری و همین طور TIFF پشتیبانی می کند.) به منظور تست دقت برنامه در تبدیل متون، قطعه ای از یکی از مقالات خود را توسط پرینتر چاپ کرده و سپس دوباره متون چاپی را توسط اسکنر به رایانه وارد کردم. سپس فایل را به صورت تصویر به برنامه دادم تا متن را از دورن تصویر به من خروجی دهد، نتیجه ای که بدست آمد  واقعا خوب و بدون مشکل بود، اما تا الان که این مقاله را می نویسم برنامه در عمل قادر به تشخیص پاراگراف ها نبوده و همه متن را پشت سر هم و بدون قرار گرفتن در پاراگراف ها همانند نمونه اصلی بدست می آورید. این مسئله یعنی عدم توانایی در انتقال قالب بندی (formatting) متن اصلی به متن تبدیل شده همان چیزی است که بسیاری از  برنامه های او سی آر از آن رنج می برند و هنوز هم طراحان این گونه نرم افزار ها نتوانسته اند این مشکل را حل کنند. در آزمایش خود مشاهده شد که در پایان هر خط که در متن اصلی وجود داشت یک «پرش به خط بعد» یا  line break قرار گرفته بود. در منوی Text شما گزینه ای برای حذف همه «پرش به خط بعد» ها خواهید یافت ، که پس از اعمال آن، همان متنی که در تصویر بالا مشاهده می کنید بدست می آید، و سپس باید به شیوه دستی شروع کنید به تنظیم line break ها با توجه به متن اصلی و هر جایی که لازم است. این کار اگرچه چندان مطلوب نبوده و شاید کمی وقت گیر باشد، اما مطمئنا از تایپ مجدد چند ده صفحه متن و سند چاپی که بهتر است، نه؟!

چیزی که لازم است به یاد داشته باشید اینه که سازندگان در حال حاضر در حال اجرای تست بتا روی ویرایش چهارم از  FreeOCR   می باشند، هنگامی که آخرین نگارش از این برنامه به صورت نهایی منتشر شود ، به طور قطع دقت  برنامه در تبدیل متون بیشتر خواهد شد و حتی برخی از انواع ابزارهای تجزیه و تحلیل صفحه را در خود به ارمغان می آورد. در یک کلام می توان گفت FreeOCR  قطعا ارزش یکبار امتحان و آزمایش برای رفع نیازهای شما را دارد.

برای مراجعه به وب سایت FreeOCR  اینجا کلیک کنید.


-- 
Regards
Arman Shirzadi