Wenn Sie ein Papierdokument einscannen, um daraus eine PDF-Datei zu erstellen, müssen Sie besonders sorgfältig vorgehen:
- In vielen Fällen ist das ursprüngliche Dokument noch verfügbar und es ist sinnvoller, die Originalversion online zu stellen (oder sie als PDF aus Ihrem Textverarbeitungsprogramm zu exportieren).
- Wenn das Dokument mit einem offiziellen Stempel oder einer Unterschrift versehen sein muss, bleibt Ihnen nichts anderes übrig, als es einzuscannen. Dann müssen Sie jedoch dafür sorgen, dass die PDF-Datei durchsuchbar gemacht wird, indem Sie einen OCR-Schritt einfügen
Was ist OCR?
Optical Character Recognition (OCR - optische Zeichenerkennung) ist ein Verfahren, bei dem in der Abbildung eines Textes (mittels Mustererkennung) alle Buchstaben, Ziffern und sonstigen Zeichen erkannt und in Textform gespeichert werden.
Ein durchsuchbares PDF ist eine Datei, die wie ein gescanntes Dokument aussieht (inklusive eventueller Stempel und handschriftlicher Einträge), aber eine verborgene Textebene enthält, die von der OCR-Software hinzugefügt wurde.
Ziel:
Dank dieser verborgenen Textebene können Sie den Text aus dem Dokument kopieren und der Text kann auch von blinden Benutzern gelesen werden.
Hinweis!
Eine auf diese Weise durchsuchbar gemachte PDF-Datei ist jedoch nie so barrierefrei wie ein aus Word exportiertes Dokument:
- Informationen über Titel und Textbeschreibungen sind in einem gescannten Dokument nicht mehr vorhanden.
- Das Zoomen des Dokuments ist zwar möglich, die Buchstaben erscheinen jedoch nicht scharf und die Funktion „Textumbruch“ kann nicht verwendet werden.
Das leidigste Problem ist, dass die Qualität der Texterkennung nicht immer gleich gut ist. Die Texterkennung, die in die Software von Multifunktions-Scannern/-Kopierern in Büros eingebaut ist, ist beispielsweise oft von minderer Qualität.
Eine gute Methode zur Überprüfung, ob die Texterkennung gelungen ist, besteht darin, den Text (in der unsichtbaren Ebene) auszuwählen (mit Strg+A) und (mit Strg+V) in eine neue Textdatei einzufügen. Ohne Spezialsoftware ist es leider nicht möglich, Fehler zu korrigieren.
Wenn Sie häufig gescannte Dokumente online stellen, empfiehlt es sich, in eine bessere Software zu investieren oder zu erwägen, die Dokumente (auch) in einer anderen Form bereitzustellen.