ROZPOZNAWANIE TEKSTU

Obraz zeskanowanego dokumentu umożliwia jego późniejsze wyświetlenie na ekranie ale nie pozwala na automatyczną analizę lub kopiowanie zawartych w nim danych . Rozwiązaniem tego problemu jest zastosowanie oprogramowania OCR (Optical Character Recognition), ICR (Intelligent Character Recognition) czy OMR (Optical Mark Recognition).

 

Rozpoznawanie treści dokumentu - OCR/ICR

Technologia rozpoznawania treści dokumentów (OCR) umożliwia przekształcenie pikseli (punktów) z których składa się obraz w pojedyncze znaki (litery, cyfry, symbole). Pozwala to na analizowanie tekstu zawartego w dokumencie oraz przenoszenie wybranych danych do innych systemów bez konieczności ich przepisywania. Systemy OCR bardzo dobrze radzą sobie z odczytem tekstu drukowanego. W przypadku niektórych typów dokumentów (ankiety, formularze, kwestionariusze) istnieje możliwość odczytu danych wypełnionych przez użytkownika pismem odręcznym. Wymaga to jednak zastosowania mechanizmów „inteligentnych” (ICR) i nie sprawdza się w przypadku swobodnego pisma. Zadowalające efekty zastosowania technik ICR można osiągnąć w przypadku liter drukowanych (pismo blokowe) – najlepiej umieszczonych w określonych strefach (okienkach) dokumentu. Z tego powodu formularze przeznaczone do wypełniania ręcznego zawierają najczęściej puste kratki obwiedzione czerwonymi lub zielonymi liniami, które można elektronicznie odfiltrować (usunąć), pozostawiając wyłącznie tekst wprowadzony przez użytkownika.

Rozpoznawanie pól wyboru

W przypadku niektórych dokumentów możliwe jest automatyczne odczytanie pól zaznaczonych przez użytkownika. Są to zazwyczaj pola wyboru (checkbox’y) w postaci kwadratów, które użytkownik zaznacza poprzez odhaczenie („ptaszek”) lub postawienie znaku „X” (krzyżyk). Nasze systemy pozwalają na odszukanie takich pól na obrazie dokumentu, sprawdzenie czy zostały zaznaczone oraz wyeksportowanie rezultatów. Na tej podstawie możliwa jest automatyzacja odczytu wyników ankiet czy kwestionariuszy i błyskawiczne udostępnienie zweryfikowanych danych. Technika ta może być łatwo zastosowana do odczytu analizy ankiet czy formularzy (programy lojalnościowe, badania satysfakcji klientów, testy egzaminacyjne, wyniki głosowania, badania jakościowe), lub weryfikacji poprawności innych dokumentów (np. sprawdzenie istnienia podpisu na umowie),