Archiv der Kategorie: Grafik

OCR unter Linux

Programme zur Texterkennung

Die Besten Ergebnisse hatte ich mit tesseract erhalten. Hierfür kann der OCRFeeder als grafische Oberfläche verwendet werden. Es kann je nach Version des OCRFeeders notwendig sein, in den Einstellungen in der Kommandozeile für tesseract Deutsch als Erkennungssprache anzugeben. Der OCRFeeder kann auch Seiten begradigen und greift auch auf die Funktionen von Unpaper zurück. Zur Vorbereitung von gescannten Seiten empfiehlt sich das Programm ScanTailor.

sudo apt-get install tesseract-ocr tesseract-ocr-deu tesseract-ocr-eng ocrfeeder unpaper scantailor

Fehler beim Start des OCR-Feeders:

ImportError: No module named Image

Dieser Fehler tritt auf, da sich in der PythonImageLibrary (PIL) Aufrufe geändert haben. Daher das Kompatibilitäts-Paket python-imaging installieren:

sudo apt-get install python-imaging

Durchsuchbare PDF-Datei im PDF/A-Format

Gescannte PDF-dokumente können mit einem Script (OCRmyPDF) automatisch in durchsuchbare PDF-Dokumente im PDF/A-Format umgewandelt werden. Das Script kann unter github.com/fritz-hh/OCRmyPDF/releases heruntergeladen werden. Das Archiv herunterladen, entpacken und ggf. das Shellscript OCRmyPDF.sh ausführbar machen.

Aufruf:

./OCRmyPDF.sh -l deu input.pdf output.pdf

Aufrufparameter:

  • -l deu: deutsche Sprache
  • -d: Seite mit unpaper geraderücken
  • -g: Debug-Modus (der erkannte Text wird jeweils als extra Seite zusätzlich eingefügt)

Ghostscript

Auflösung von PDF-Dateien verändern (z. B. um ein PDF-Dokument mit sehr hochauflösenden Bildern für den E-Mail-Versand zu komprimieren):

gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/ebook -dNOPAUSE -dQUIET -dBATCH -sOutputFile=output.pdf input.pdf

Für PDFSETTINGS sind folgende Optionen möglich:

  • /screen (nur für Bildschirmanzeige – 72 dpi)
  • /ebook (geringe Qualität – 150 dpi)
  • /printer (hohe Qualität – 300 dpi)
  • /prepress: (hohe Qualität mit hoher Farbtreue – 300 dpi)

Ein fertiges Skript für Nautilus gibt es unter http://launchpad.net/compress-pdf. Hier noch eine Kurzanleitung zur Installation des Skripts:

$ sudo apt-get install zenity ghostscript libnotify-bin
$ cd ~/.gnome2/nautilus-scripts
$ wget http://launchpad.net/compress-pdf/1.x/1.4/+download/Compress-PDF-1.4.tar.gz
$ tar -xzf Compress-PDF*.tar.gz && rm Compress-PDF*.tar.gz

Beispiele, wie PDF-Dateien in Bilder umgewandelt werden können zeigen die Artikel pdf2bmp und pdf2jpg