Die gute Nachricht zuerst: Der Mensch ist noch nicht ganz überflüssig. Eine Volltexterkennung mit OCR-Techniken kann die kognitive Leistung eines menschlichen Lesers bei Weitem noch nicht erreichen. Wo der Mensch unbewusst Schlüsse zieht, gewichtet, einordnet und versteht, kann der Computer lediglich Muster erkennen und vorprogrammierte Regeln befolgen.
Qualität der Vorlage ist wichtig
Je besser die Vorlage, desto präziser das OCR-Ergebnis. Wenn eine Rechnung kleine, dünne oder verschwommene Schriften enthält oder kontrastarm ist – z.B. dunkelgraue Schrift auf hellgrauem Grund –, so behindert das die Erkennung. Auch eine ungewöhnlich designte Rechnung kann Probleme aufwerfen.
Das Gleiche gilt für digitale Belege, die aus einem billigen Scanner mit geringer Auflösung kommen oder mit einer schlechten OCR-Software vorverarbeitet sind. PDFs enthalten häufig neben Grafiken auch Text, der sich von einer Software leichter auslesen lässt. Wird ein solches PDF kopiert oder in reine Grafik umgewandelt, geht die Erkennungsgenauigkeit zurück.
Beispiel für OCR-Unterstützung
In modernen Buchhaltungsprogrammen werden Rechnungen und Belege digitalisiert verarbeitet. Dadurch, dass diese Dokumente digital vorliegen, können sie einer so genannten „Volltexterkennung“ unterzogen werden. Dabei liest die Software bestimmte Angaben aus einer Rechnung aus und versucht, diese Angaben in bestimmte Datenkategorien einzuordnen. Auf diese Weise werden Buchungsmasken automatisch mit den Rechnungsdaten befüllt, ohne dass ein Buchhalter diese manuell eintippen muss. Das spart eine Menge Erfassungsaufwand, mindert Fehlerquellen, die durch „Vertipper“ entstehen können und erhöht die Produktivität, weil mehr Arbeit in kürzerer Zeit geleistet werden kann. Trotzdem sind nicht alle Anwender glücklich mit dieser Technologie, denn die Zuordnung der Rechnungsangaben zu den Datenfeldern ist nicht immer vollständig und präzise. Woran liegt das?Zwei Techniken der OCR-Erkennung
Bislang existieren zwei grundlegende Konzepte der OCR-Erkennung:-
Geometrische Erkennung
-
Semantische Erkennung
Kombinationslösung ist am besten
Eine Kombination aus beiden Techniken der OCR-Erkennung, wie sie z. B. von Scopevisio in der Belegerkennung eingesetzt wird, liefert die besten Ergebnisse. Fortschrittliche Systeme erschließen sowohl aus dem semantischen Kontext als auch aus der Platzierung im Beleg, um welchen Rechnungsbestandteil es sich handelt. Einige Software-Hersteller bieten zusätzlich die Möglichkeit, Angaben aus der digitalen Rechnung durch einfaches Markieren mit der Maus in die passenden Felder der Buchungsmaske zu kopieren. Das geht schnell und einfach und es eliminiert Übertragungsfehler.Qualitätsunterschiede bei der Umsetzung
Wer sich für eine Unternehmens- und/oder Buchhaltungssoftware entscheidet, sollte sein Augenmerkt auf die Qualität der OCR-Erkennung richten. Eine hochwertige Erkennung kann an vielen Stellen Erfassungsaufwand sparen und die Produktivität steigern. Allerdings sind die Qualitätsunterschiede nach wie vor groß. Manche Systeme erkennen nur wenige Rechnungsangaben. Andere, höherwertige, bieten eine hohe Erkennungsgenauigkeit und nutzen ihre Kompetenz in der Volltexterkennung auch in anderen Softwarekomponenten, etwa zum Suchen von Inhalten in Dokumenten oder quer durch das gesamte Enterprise Content Management-System.Ausblick: elektronische ZUGFeRD-Rechnung
Ein moderner Standard für elektronische Rechnungen, das so genannte „ZUGFeRD“-Format (Abkürzung für „Zentraler User Guide Forum elektronische Rechnung Deutschland“), wird die Erkennung von digitalen Rechnungen in Zukunft derart erleichtern, dass irgendwann keine OCR-Erkennung mehr notwendig ist. Im ZUGFeRD-Format werden Rechnungen als strukturierte XML-Datei übergeben, sodass die Daten gewissermaßen bereits wissen, wo sie hingehören. Trotzdem wird die OCR-Erkennung weiter für das Suchen und Finden von Informationen im Unternehmen einen hohen Stellenwert haben.
Autor:in Dorothea Heymann-Reder