Skalierbare OCR Pipelines mit Python, Tensorflow und Tesseract
Mark Keinhörster
In diesem Vortrag machen wir einen Ausflug in die Welt der Texterkennung mit freier Software und gehen Stück für Stück durch die einzelnen Teilbereiche einer flexiblen und skalierbaren OCR Applikation.
In einer Live-Demo wird gezeigt wie Tesseract zur Texterkennung verwendet und die Qualität mit freien Frameworks wie openCV verbessert wird. Im Anschluss werden die Dokumente indiziert abgelegt.
Das alles mit nur wenigen Zeilen Code und ganze im Sinne des Interactive Programming mit Jupyter.