OCR – konec přepisování dokumentů

Máte kopii skript nebo jiného dokumentu, ale chybí vám jejich elektronická předloha? Pokud si říkáte, že vám nezbývá, než veškeré texty ručně přepsat a naformátovat, pak jste na omylu. Rok od roku se zlepšují možnosti, které představují tzv. OCR nástroje. Nevíte, co OCR je?

OCR

Kvalitní fotografieOptical Character Recognition (Optické rozpoznávání znaků) je služba nebo nástroj, který dokáže automaticky rozpoznat naskenovaný (vyfocený) text a převést jej do elektronické a dále zpracovatelné podoby. Umožní tak vyhledávání, kopírování částí textu a v neposlední řadě tak zmenší velikost souboru. Na OCR programátoři pracují již od počátku dvacátého století a neustále dochází k navyšování úspěšnosti a snižovaní operačního času. Stejně jako jiné oblasti rozpoznávání (zvuk, obraz) je i tato velmi obtížně uchopitelná a náročná. V dnešní době však již můžeme mluvit o velmi spolehlivé službě, která dokáže ušetřit hodiny přepisování textu a mnohdy i jeho formátování.

Na čem OCR závisí?

Správné rozpoznání tištěného textu závisí na několika faktorech. Předně musí být fotografie nebo scan textu kvalitní – čím kvalitnější předloha, tím větší úspěšnost při převodu a hlavně nižší chybovost u hůře rozpoznatelných znaků (m vs. n, č vs. ě a další). Minimální doporučené rozlišení je 150 dpi, ale to je opravdové minimum, které není úplně komfortní.Těžké rozpoznání

Úspěšnost je také závislá na velikosti mezer mezi jednotlivými písmeny. Pokud je text příliš hustý, rozpoznání bude náročnější.

Dalším důvodem pro špatné rozpoznání je nízký kontrast – vybledlý text na zažloutlém nebo jinak barevném pozadí bude opět hůře rozpoznatelný.

Rozostření výsledné fotografie je velký problém. K tomuto jevu dochází při nedostatku světla, nebo různému pokřivení scanované předlohy – okraje stránek na vnitřní části vazby. 

 OCR programy zdarma

Na rozpoznání dokumentů lze využít několik různých nástrojů. Můžete využít jak online aplikace tak plnohodnotné desktopové programy. Podrobněji budou představeny dva nejoblíbenější off-line programy, které můžete zdarma aplikovat na vaše texty.

 

ABBYY FineReader 

LogoFineReader představuje skutečného profesionála a jedno z velmi mála opravdu použitelných řešení při převodu fotek, obrázků nebo scanů na text. Jeho síla je založena na skutečně promyšleném systému, který stojí na třech základních pilířích. Program nejprve rozdělí obraz na oblasti, dle rozpoznatelné struktury.  Ty se dále dělí až na samotná slova a písmena. Jakmile je text rozdělen na písmena, dojde k jejich rozpoznání a porovnání celých slov se slovníkem. Následně je vybráno nejvhodnější řešení. Další pilíř hovoří o účelnosti, kdy každý text má svůj účel a je na něj potřeba takto pohlížet. Posledním a velmi důležitým pilířem je přizpůsobivost. Program se musí umět učit z vlastní práce. Celý průběh je tak simulací lidského vnímání textu a snaží se mu co nejvíce přiblížit.

    • Program zachovává rozložení textu a jeho styl
    • Slovníková podpora 36 jazyků
    • Přímé ukládání do doc, rtf, xls, pdf, txt a dalších formátů
    • Dokáže pracovat s fotografií v různých formátech nebo s pdf souborem
    • Zachová tabulky, obrázky nebo jiné struktury
    • Vestavěná kontrola pravopisu
    • Rozpozná vícejazyčný obsah dokumentu

PDF-XChange Viewer

PDF-Xchange ViewerDalším z mála opravdu kvalitních nástrojů pro rozpoznávání textu je PDF-XChange Viewer. Primárně je program určen pro prohlížení a editaci pdf dokumentů, ale zároveň umožňuje právě OCR funkcionalitu. A nejedná se pouze o přidanou funkcionalitu – program si poměrně dobře poradí i s českými znaky a hlavně umožňuje velmi kvalitní práci s pdf soubory.

Program je nabízen ve dvou provedeních – Free verze je kompletně zdarma, ale dokáže rozpoznávat text pouze z formátu pdf (scanované soubory). Pro verze pracuje samozřejmě s formátem pdf (scan dokáže přímo převést do prohledávatelné a editovatelné podoby), ale k tomu zvládá i klasické obrázky.  

  • Podpora českého jazyka při OCR
  • Vynikající ovládání pdf (editace, poznámky, el. podpis)
  • OCR přímo při scanování
  • Verze Free – velmi kvalitní OCR zdarma
  • Verze Pro – profesionální verze s nadstavbovou funkcionalitou

Zaujal vás článek? Ohodnoťte ho!


Průměrné hodnocení: 4.5
Hlasováno: 2 krát

Přidávat komentáre mohou pouze přihlášení užívatelé.
Haselman
Haselman

Potřebuji přeložit některé cizojazyčné patenty do češtiny. Nepotřebuji naprosto dokonalý "znalecký" překlad. Neumím to tohoto e-mailu vložit nějaký patent pro příklad. Proto uvedu, jak se na nějaký dostat. Zadat "UPV.cz". Kliknout na "Hlavní stránku". Kliknout na "EPO". Kliknout na "ESPACENET". Kliknout na "OPEN ESPACENET AT THE EPO". Zadat např. "39726". Zafajfkovat např. položku č. 21.Kliknout na"ORIGINAL DOKUMENT". Kliknout na "DOWNLOAD".Vepsat kontrolní číslo. Kliknout na "SUBMIT".Kliknut "OTEVŘÍT". Naskočí text patentu, který potřebuji přeložit. Je to jen příklad jednoho z noha cizojazyčných patentů,které potřebuji přeložit. Doporučte mi, prosím, co mám stáhnout do mého počítače, abych mohl texty přeložit. K dispozici je asi řada volně stažitelných programů nebo cenově přijatelných programů k zakoupení. Předem děkuji za pomoc.

28.01.16 08:32 reagovat

Podobné články

Další články

Doporučujeme

Nahoru