|
Az optikai karakter felismerésről (OCR) röviden 2006-10-31, 13.39:04
Nyomtatás |
PDF
A különböző formátumú dokumentumok kezelésének egyik speciális esete, amikor a kezelendő dokumentumok még nem állnak rendelkezésre elektronikus formában.
A különböző formátumú dokumentumok kezelésének egyik speciális esete, amikor a kezelendő dokumentumok még nem állnak rendelkezésre elektronikus formában. Ebben az esetben szinte mindig arról van szó, hogy a dokumentumok kinyomtatva, papír alapú hordozón jelennek meg. Szövegbányászati tevékenység végzéséhez értelemszerűen digitalizálni kell a még nem digitalizált, papíron nyomtatásban vagy írásban meglévő dokumentumokat, azaz a képként érzékelt dokumentumot szövegfájl formátumba kell átalakítani, hogy abban az után elektronikusan szerkeszthető és feldolgozható legyen. Ebben a szituációban kap szerepet az optikai karakter felismerés (OCR: Optical Character Recognition), amely ezáltal szintén szövegbányászati előfeldolgozásnak tekinthető.
Az optikai karakter felismerés a mesterséges intelligencia jelfeldolgozó és generalizációs képességeit kiaknázva képes magas hatékonysággal nyomtatott, papír alapú dokumentumokon lévő karaktereket felismerni. Az alap kihívás itt az, hogy a nyomtatott papír alapú dokumentumok esetében nagy zaj hányaddal kell megküzdeni annak érdekében, hogy a releváns információt kihámozzuk az érzékelt jelek és minták közül. Nyomtatott dokumentum esetéen zajnak tekinthető például egy apró folt a papíron, tinta elmosódás, tinta hiány, homályos háttér, apró gyűrődés a papíron, túl közeli vagy egybeolvadó betűk, betű dőlésszögének ingadozása. Kézírás esetén a kihívás még nagyobb, hiszen itt a személyiségjegyek sokszínűségéből adódó írásminták kavalkádjából kell kihámozni a karaktereket. Mind a nyomtatott, mind pedig a kézírott esetben az optikai karakterfelismerő rendszer egy tanulási fázison átvesve képes olyan mintákat is osztályozni (értsd a megfelelő karaktert felismerni), amelyekkel a tanulási fázisban nem találkozott, tehát megvan a szükséges generalizációs képessége.
Az első üzleti alkalmazók egyike a bankok voltak, ők használtak először optikai karakterfelismerő rendszereket. Kezdetben speciális karaktereket dolgoztak ki annak érdekében, hogy a karakterfelismerő redszer dolgát megkönnyítsék. Ma a karakter felismerő rendszerek nagyrésze neurális hálózati alapokon megvalósított asszociatív memória elven működik.
Publikáló: DocuWorld, dátum: 2006. 10. 31., forrás VAZSONYI Inc. >>>
|
|
|