Strona główna Baza wiedzy System OCR – czyli skąd SaldeoSMART wie, co widnieje na fakturze?
System OCR – czyli skąd SaldeoSMART wie, co widnieje na fakturze?
0

System OCR – czyli skąd SaldeoSMART wie, co widnieje na fakturze?

568
0

Oprogramowanie SaldeoSMART wykorzystuje do identyfikacji danych z faktury system OCR. Jak działa ta technologia i na czym polega?

Co to jest system OCR?

OCR (z ang. Optical Character Recognition) to system, który umożliwia rozpoznawanie poszczególnych znaków zamieszczonych w pliku graficznym. Pierwsze systemy OCR rozpoznawały jedynie znaki drukowane. Obecnie możliwe jest rozpoznawanie również pisma odręcznego, szerokości interlinii, kroju pisma czy innych elementów formatowania (np. formularzy). Dzięki zastosowaniu tego systemu możliwe jest rozpoznanie i zapisanie w formie cyfrowej znaków, które zostały zapisane jako plik graficzny (np. skan bądź zdjęcie).

Jak działa OCR?

OCR wykorzystuje zdobycze sztucznej inteligencji. Obraz jest przez system segmentowany i analizowany. Jego algorytm bada layout i wyodrębnia poszczególne części dokumentu (np. tabelki), następnie całość jest skanowana i dzięki różnorodnym technikom (np.: analizowaniu wzoru i porównywaniu go z bazą danych lub rozpoznawaniu cech charakterystycznych dla danych znaków) rozpoznawany jest określony znak, który zostaje zapisany w wersji cyfrowej.

Ile czasu na wprowadzaniu dokumentów oszczędza system OCR?

Wprowadzenie pojedynczego dokumentu to oszczędność – w porównaniu do ręcznego wprowadzania tekstu czy znaków – rzędu od kilku do 30 minut!

Czy system OCR może się mylić?

Niestety, nie istnieje (jeszcze) system OCR, który byłby w stanie bezbłędnie rozpoznać każdy znak. Obecnie systemy te potrafią rozpoznać między 90-98% skanowanego tekstu. Różnice w kroju pisma, zakłócenia obrazu, słaba rozdzielczość pliku – to wszystko wpływa na pogorszenie skuteczności rozpoznawania znaków. Dlatego mimo coraz lepszych możliwości systemu konieczna jest weryfikacja odczytywanych w nim dokumentów przez człowieka.
Jedną z ciekawostek dotyczących systemu OCR jest reCAPTCHA, z którą spotkał się w zasadzie każdy użytkownik internetu (również Ty!). CAPTCHA to system zabezpieczeń stosowany na stronach internetowych, który pozwala upewnić się, że dany formularz został wysłany przez człowieka. Najczęściej polega to na tym, że użytkownik przed wysłaniem danych musi wprowadzić określony ciąg znaków z wyświetlonego obrazka. Rozwiązanie reCAPTCHA to nic innego jak wykorzystanie użytkowników internetu (nierzadko nieświadomych) do weryfikacji systemu OCR. Użytkownikowi prezentuje się w postaci obrazka fragment znaków, z którymi system OCR sobie nie poradził. W ten sposób człowiek ręcznie wpisuje w formie cyfrowej odczytane znaki. Jeśli dany ich ciąg zostanie trzykrotnie jednakowo zweryfikowany, system przesyła informacje, jakie znaki ukryte są pod obrazkiem, i w ten sposób te, których OCR nie odczytał prawidłowo, zostają rozpoznane. ReCAPTCHA wykorzystywana jest do digitalizacji bibliotek – dzięki niej każdy z nas przyczynia się do tego, by papierowe wersje książek i manuskryptów mogły być przechowywane w formie elektronicznej. Szacuje się, że dziennie odczytywanych w ten sposób jest 200 mln kodów!

ZOSTAW KOMETARZ

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *

Dołącz do naszego Biuletynu!

Księgowość, rachunkowość, finanse, przedsiębiorczość. Jeden wszechstronny biuletyn.

Email marketing powered by FreshMail