OCR unter Linux

Programme zur Texterkennung

Die Besten Ergebnisse hatte ich mit tesseract erhalten. Hierfür kann der OCRFeeder als grafische Oberfläche verwendet werden. Es kann je nach Version des OCRFeeders notwendig sein, in den Einstellungen in der Kommandozeile für tesseract Deutsch als Erkennungssprache anzugeben. Der OCRFeeder kann auch Seiten begradigen und greift auch auf die Funktionen von Unpaper zurück. Zur Vorbereitung von gescannten Seiten empfiehlt sich das Programm ScanTailor.

sudo apt-get install tesseract-ocr tesseract-ocr-deu tesseract-ocr-eng ocrfeeder unpaper scantailor

Fehler beim Start des OCR-Feeders:

ImportError: No module named Image

Dieser Fehler tritt auf, da sich in der PythonImageLibrary (PIL) Aufrufe geändert haben. Daher das Kompatibilitäts-Paket python-imaging installieren:

sudo apt-get install python-imaging

Durchsuchbare PDF-Datei im PDF/A-Format

Gescannte PDF-dokumente können mit einem Script (OCRmyPDF) automatisch in durchsuchbare PDF-Dokumente im PDF/A-Format umgewandelt werden. Das Script kann unter github.com/fritz-hh/OCRmyPDF/releases heruntergeladen werden. Das Archiv herunterladen, entpacken und ggf. das Shellscript OCRmyPDF.sh ausführbar machen.

Aufruf:

./OCRmyPDF.sh -l deu input.pdf output.pdf

Aufrufparameter:

  • -l deu: deutsche Sprache
  • -d: Seite mit unpaper geraderücken
  • -g: Debug-Modus (der erkannte Text wird jeweils als extra Seite zusätzlich eingefügt)