• مدیریت دانش

    مدیریت دانش

OCR چیست؟

OCR  چیست؟

 OCR مخفف Optical Character Recognition و یا Optical Character Reader می باشد و آن در واقع نرم افزار متن خوانی است که براي تشخيص و بازيابي الفبا و نوشته هاي دست نويس يا تايپ شده طراحي شده است که در نرم افزار هایبایگانی اسناد و مدارک و نیز برای خدمات اسکن مدارک و اسناد کاربرد بسزایی دارد.

پس با اين تکنولوژی مي توان متن هاي دست نويس يا متوني را كه قبلا با ماشین تحریر تایپ شده و یا نوشته های چاپ شده را به صورت خودکار به متن های کامپیوتری تبدیل نموده و در آن ذخیره کرد. یعنی تبدیل تصاویر کلمات به کدهای کلمات (قابل ذخیره در داخل کامپیوتر) و می دانیم هر متنی که در کامپیوتر ذخیره شد می توان روی آن پردازش های دلخواه انجام داد. مثلا آن را می توان ویرایش کرد. یا به عنوان مثال یکی از کاربردهای آن را می توان تبدیل حروف و نوشته های خطی، به خط بریل (مخصوص نابینایان) دانست و به این ترتیب همه نوشته های بشر توسط نابینایان قابل خوانده شدن است.


البته استفاده از OCR تنها براي تبديل تصوير متون تايپ شده به متن تايپي نيست. بلكه هر جا شما عكسي داسته باشيد كه در قسمتي از آن حرف يا شماره اي وجود داشته باشد، سیستم OCR آن را تشخيص مي دهد. به عنوان مثال می توان از آن در دوربين هاي هوشمند سرعت سنج جاده ها استفاده کرد. دوربین سرعت سنج؛ به صورت مستمر؛ سرعت خودرو ها را اندازه گیری می کند و بعد از شناسائي خودروی متخلف، از پلاك خودرو عكس مي گيرد و حالا با استفاده از همين سیستم OCR و بدون دخالت انسان می توان شماره پلاك ماشين را شناسايي كرده و در سیستم ذخیره نمود و یا آن را به مركز پليس اطلاع داد.

بعد از آنكه تصوير حاوي متن را اسكن مي كنيم رايانه پردازشي را بر روي تصوير انجام مي دهد. ابتدا تصوير را به قسمت ها يا Partitionهاي مجزا تقسيم مي كند. بعد با استفاده از الگوريتم هاي پردازش تصوير و هوش مصنوعي حروف كاراكترهايي را از درون متن استخراج مي كند. اما ممكن است متن شما هنگام عكسبرداري چرخيده باشد. در نتيجه كامپيوتر عكس را چند درجه مي چرخاند و باز عمل قبل را بر روي آن انجام مي دهد و نتيجه را به دست مي آورد. البته در اكثر موارد كار به همين راحتي كه گفته مي شود نیست و کلی عملیات پیچیده دیگر باید روی تصویر انجام بگیرد.

مقاله مرتبط:  چگونه اسناد خود را سازماندهی نماییم؟    https://dhamara.com/article

 انواع OCR

در خط های ديگر؛ به ويژه زبان هايي كه با حروف لاتين نوشته مي شوند؛ سالهاست كه از OCR استفاده مي شود. اما در ايران چند سالي است كه استفاده از آن شروع شده است. OCR چند نوع است OCR برای متون تايپي و OCR برای متون دست نويس. يعني نوعی که يك متن قبلا تايپ شده (مثل كتاب يا روزنامه را می توان وارد كامپيوتر کرد و نوعی که متن دست نويس را می تواند بخواند).

متن هاي دست نويس هم به دو صورت گسسته و پيوسته وجود دارند: متن دست نويس پيوسته مثل همان چيزهايي است كه ما هر از گاهي كه دلمان تنگ مي شود روي كاغذ مي نويسيم، يا يك نامه، يا يك شعر و غیره. اما متن دست نويس گسسته همان نوشته هايي است كه حروف آن جدا از هم و به صورت گسسته نوشته شده اند مثل نام و نام خانوادگي كه در فرم هاي آزمون ثبت نام،‌ به صورت هر حرف داخل يك كادر نوشته مي شوند یا مثل اعداد.

 

خوشبختانه در طراحي نرم افزار مدیریت اسناد شرکت دانش هم آرا  Keydoc Pro با اضافه کردن ویژگی OCR  انگلیسی و فارسی توانسته ایم سازمان ها، نهاد ها،ارگان ها و شرکت های مختلف را از خرید نرم افزارهای جانبی OCR و با پشتیبانی محدود

 به صورت مجزا مبرا کنیم و باعث کاهش هزینه ها در نظر گرفته شده برای اسکن اسناد و مدارک، سازماندهی و مدیریت هر چه بهتر اسناد و نیز تهیه یک آرشیو الکترونیکی دیجیتال از فایل ها و اسناد بایگانی شده به صورت گسترده در سطح وسیعی با کمترین دغدغه های ذهنی و مالی برای مدیران باشیم.

تاریخ درج: 2 مهر 1396