Wilkommen zur Anmeldung für das kommende TroLUG Treffen:
Datum: 2021-06-03
Thema: Scannen und Texterkennung (OCR)
Anmeldungen:
- Gunnar
- Andy //logge mich nur als stiller Zuhörer ein und versuche soviel wie möglich mitzukriegen, trotz Besuch von der Buckligen Verw. zum Essen etc. ... ;-)
- Thorsten
- Arne
- Maic
- Jonas
- Harald
- Sandro
Videokonferenz: https://bbb.daten.reisen/b/jon-mqr-zwu
Vorabinformationen:
https://wiki.ubuntuusers.de/SANE-Scanserver_im_Netzwerk/
https://wiki.ubuntuusers.de/scanbd/
https://de.wikipedia.org/wiki/Tesseract_%28Software%29
https://ocrmypdf.readthedocs.io/en/latest/index.html
Installation von ocrmypdf am Beispiel von Debian / Ubuntu:
sudo apt install ocrmypdf
Zusätzliche Sprache (deutsch) für Tesseract installieren:
sudo apt-get install tesseract-ocr-deu
git clone https://github.com/agl/jbig2enc
./autogen.sh
./configure && make
sudo make install
Umwandeln PDF-Datei in PDF-Datei mit durchsuchbarem Text (OCR):
ocrmypdf -l deu --output-type pdf input.pdf output+ocr.pdf
Quelle: https://ocrmypdf.readthedocs.io/en/latest/introduction.html
Protokoll:
Dokumentenscanner
https://www.brother.de/scanner/ads-2700w
Schrifterkennung in einer PNG Datei auf Standardausgabe. Für "-l deu" muss die deutsche Sprachunterstützung installiert sein.
$ tesseract -l deu Eingabe.png stdout
tesseract kann in den neueren Versionen zumindest Einzelseiten PDFs direkt ohne Umwandlung in PNG
meld: graphisches Frontend für diff
http://meldmerge.org/
https://repology.org/project/meld/versions
OCR-Layer einer PDF Datei hinzufügen. Die sidecar-Option speichert den erkannten Text zusätzlich in einer Textdatei.
$ ocrmypdf -l deu -sidecar datei.txt datei.pdf datei-ocr.pdf
Simple-scan: einfaches, aber praktisches Scan-Programm
ocrmypdf: PDF in durchsuchbares PDF umwandeln, gleichzeitig eine Textdatei mit dem erkannten Text erzeugen (-- sidecar), Schrägscan korrigieren (--deskew) und Flecken entfernen (--clean-final und --remove background)
ocrmypdf --sidecar text.txt --deskew --clean-final --remove-background input.pdf output.pdf
bild im kitty terminal anzeigen
kitty +kitten icat bild.png