|
Nyomtatott karakterek felismerése a dokumentumok kezelésében 2006-07-03, 08.16:39 Nyomtatás |
PDFAlapismeretek az optikai karakterfelismerésről - az OCR-ről. Akinek kalapács van a kezében, az mindent szögnek néz.
A legfontosabb ilyen mindennapi felismerés a látásunkhoz kapcsolódik. Ebben az esetben a szemünk képeket gyűjt be a világról (optika), ezekből jeleket képez, majd továbbítja feldolgozásra agyunkba (központi egység).
A látáson túl természetesen más érzékszerveinkkel is gyűjtünk információkat, amelyeket aztán agyunk segítségével valamilyen képpé, valami egésszé rakhatunk össze. Az arcfelismerő szoftverek az arcot a domborulatai és bemélyedései - mint orr, szemgödrök - alapján azonosítják. Az emberi arcon nyolcvan ilyen jellegzetes pont van, a szoftverek általában ennél kevesebbet igényelnek a megbízható (nagy valószínűséggel egyező) beazonosításhoz. Az arcfelismerő szoftverek felmérik ezen jellegzetes, meghatározott pontok viszonylagos helyzetét majd egy jókora számsorozatot generálnak, és ez lesz az úgynevezett arclenyomat, amelyet összevethet a későbbiekben saját magával (például beléptetésnél) vagy más arcokkal (reptéri ellenőrzés).
Felismerés a dokumentumkezelésben
A dokumentumkezelésben a legfontosabb "felismerések" egyike a karakterek felismerése, hiszen egy ilyen eljárás bevezetése jelentős gyorsulást hozhat a kézzel történő begépeléshez képest. Jelen írás az optikai karakterfelismeréssel foglalkozik (az optikai karakterfelismerés definíciója megtalálható a Dokumentumkezelési Akadémia távoktatási anyagaiban is). Az optikai karakterfelismerés angol megfelelője az Optical Character Recognition és OCR-nak rövidítik.
Lépések a karakterfelismerésben A karakterfelismerés első lépcsője a feldolgozásra szánt digitális kép előállítása. Ez leginkább egy pásztázó lapolvasóval - hétköznapi nevén szkennerrel történik, de terjed a kameráról történő képnyerés is. (Ennek például a rendszámok felismerésénél lehet jelentősége). A dokumentumkezelésben leggyakrabban fekete-fehérben vagy szürkeárnyalatos formában történik a képek előállítása. A színes dokumentumdigitalizálásnak kevés helyen lehet jelentősége, ezért ezt ritkán alkalmazzák. A színes képek növelik feldolgozás bonyolultságát és a kép számítógépen tárolt méretét jelentősen megnövelik. A beolvasás folyamatában számos műveletet végez el a szítógépen futó program, amelyek után következhet csak a felismerés maga. Erről a legtöbb felhasználó nem is tud, pedig jelentős mértékben meghatározza a végeredményt, azaz a felismerést és annak pontosságát. A program előszőr területekre bontja a képet, hogy hol találhat képet, hol szöveget. Egyszerűbb a helyzet űrlapoknál, mert ebben az esetben jól definiálható helyeken vannak a szövegek és nem kell keresgélni és beazonosítani. Ilyen jól meghatározott helyen lehet például más esetben egy nyomtatott iktatószám, amelynek beolvasásával, felismerésével automatikusan párosítható a beolvasott kép és a DMS szoftverben róla tárolt azonosítók. A szoftver a felismerés következő lépésében megpróbálja eltávolítani a zavaró elemeket, azokat amelyek vélhetően nem képezik részét a majdan felismerendő karaktereknek. A tisztítás után a szoftver megkísérli elválasztani a karaktereket egymástól, mert így a leghatékonyabb az OCR eljárás. Ha ebben az előfeldolgozási folyamatban nem sikerül az elválasztás, biztos, hogy rossz eredményt fog adni a felismerés. Úgyanilyen gondokat okozhat, ha a feldolgozandó részek le vannak pecsételve - ekkor külön eljárás vagy bonyolultabb szoftver kell a megfelelő eredményhez. Itt kap jelentőséget a betű-típus. Ideális esetben a nyomtatott szövegek betűtípusa olyan, hogy nem érnek egymásba vagy ritkán. A felismerések során gondot jelenthetnek a szokatlan vagy régies betűformák, hiszen ezek más alakúak lehetnek és ez "hibát" eredményezhet. A fenti lépések után jöhet az érdemi munka. A felismerő szoftver a megtisztított, szétválasztott karaktereket megpróbálja felismerni. A felismerésben a szoftver különböző mintákat vagy szabályokat, esetleg ezek elegyét használhatja. Figyelembe veheti például, hogy egy karakter hány elemi képpontból állhat, illetve ez hogyan viszonyul a többi elem pixelszámához. A karakterek fő- és melléktengelyei, dőlésszögei és számos egyéb szempont segíthet beazonosítani a karaktert. Több lépés lehetséges, amelyek kétség esetén mindegyike szűkíti a szóba jöhető karakterek számát. Segíthet a döntésben egy úgynevezett mintaillesztés is, amikor egy adott mintasorozathoz viszonyítják a kérdéses karaktert, így eldöntve annak besorolását. A matematikai és a mintaillesztési eljárások után a szoftver nagy bizonyossággal állíthatja egy karakterről, hogy beazonosította - vagy nem. Ez utóbbi is fontos, azaz egyértelműen kizárhassunk egy karaktert: "ez" biztos nem "az". Képzeljük el, mekkora bosszankodást eredményez, ha a szoftver biztosan állítja valamiről, hogy az egy adott karakter, holott nem az. Ez csak tovább fokozható, ha egész karaktersorozatok "csúsznak meg" így lényeges szavakat torzítva, vagy téve értelmezhetetlenné. Jó, ha van a szoftverben egy kontroll is, mint például egy helyesírásellenőrzés. Ez segíthet tovább szűrni az egy-két karakteres felismerési hibákat. Más eljárásokkal is minimalizálhatóak a hibák, Ilyen lehet például, amikor egy számlaszám alapján automatikusan kerül (adatbázisból véve az adatot) kitöltésre egy megbízó vagy egy címzett. A karakterfelismerés alkalmazásának van egy korlátja: amikor már egyszerűbb, gyorsabb újra gépelni a kívánt szöveget, mint a rosszul felismert karakterek javítgatásával pepecselni. A javítgatás ezen küszöb felett már olyan időigényes, hogy nem jelent megtakarítást az újrabevitelhez képest.
Természetes azonban jó, ha tudjuk, hogy egyenlőre hibátlan karakterfelismerés nincs! Valamennyi karaktert biztos javítani kell az összesből. Ez azonban elfogadható és nyereséges lehet, ha például egy banki rendszernél 100 bizonylatból 70-80 emberi érintés nélkül kerül feldolgozásra, és a maradékon sem kell sokat javítani. A minőségi munkákhoz fontosak a szkennerek minősége is, illetve maga az alapdokumentum is befolyásolja azt, hiszen nem mellékes, hogy egy eredeti dokumentummal dolgozhatunk vagy egy sokadik, szemetes fénymásolatával. Az optikai karakterfelismerések területén is folyamatos a fejlődés. Már most is számos olyan eljárás van, amellyel a fejlesztők támogatni igyekeznek ezt a tevékenységet. Most ezekre terjedelmi okok miatt nem térhettünk ki, de további cikkeinkben ismertetjük majd ezeket is. Szerző: DocuWorld, dátum: |