Wilkommen zur Anmeldung für das kommende TroLUG Treffen:

Datum:  2021-06-03
Thema: Scannen und Texterkennung (OCR)

Anmeldungen:
Videokonferenz: https://bbb.daten.reisen/b/jon-mqr-zwu

Vorabinformationen:
https://wiki.ubuntuusers.de/SANE-Scanserver_im_Netzwerk/
https://wiki.ubuntuusers.de/scanbd/
https://de.wikipedia.org/wiki/Tesseract_%28Software%29
https://ocrmypdf.readthedocs.io/en/latest/index.html

Installation von ocrmypdf am Beispiel von Debian / Ubuntu: 

sudo apt install ocrmypdf 

Zusätzliche Sprache (deutsch) für Tesseract installieren:

sudo apt-get install tesseract-ocr-deu

git clone https://github.com/agl/jbig2enc
./autogen.sh
./configure && make
sudo make install

Umwandeln PDF-Datei in PDF-Datei mit durchsuchbarem Text (OCR):

ocrmypdf -l deu --output-type pdf  input.pdf  output+ocr.pdf



Quelle: https://ocrmypdf.readthedocs.io/en/latest/introduction.html

Protokoll:

Dokumentenscanner
https://www.brother.de/scanner/ads-2700w

Schrifterkennung in einer PNG Datei auf Standardausgabe. Für "-l deu" muss die deutsche Sprachunterstützung installiert sein.
$ tesseract -l deu Eingabe.png stdout

tesseract kann in den neueren Versionen zumindest Einzelseiten PDFs direkt ohne Umwandlung in PNG

meld: graphisches Frontend für diff
http://meldmerge.org/
https://repology.org/project/meld/versions

OCR-Layer einer PDF Datei hinzufügen. Die sidecar-Option speichert den erkannten Text zusätzlich in einer Textdatei.
$ ocrmypdf -l deu -sidecar datei.txt datei.pdf datei-ocr.pdf

Simple-scan: einfaches, aber praktisches Scan-Programm

ocrmypdf: PDF in durchsuchbares PDF umwandeln, gleichzeitig eine Textdatei mit dem erkannten Text erzeugen (-- sidecar), Schrägscan korrigieren (--deskew) und Flecken entfernen (--clean-final und --remove background)
ocrmypdf --sidecar text.txt --deskew --clean-final --remove-background input.pdf output.pdf 

bild im kitty terminal anzeigen
kitty +kitten icat bild.png