Tesseract (software)

Tesseract
Ontwikkelaar(s)	Ray Smith, Hewlett-Packard, aanvankelijk, nu Google Code
Recentste versie	5.5.1 (25 mei 2025)
Besturingssysteem	Ubuntu 12.04 & 12.04 (32 & 64 bit), Windows (32 & 64 bit), en, onofficieel, Mac OS X (x86) & Linux (32 & 64 bit)
Geschreven in	C++
Categorie	Beeldanalyse, OCR
Licentie(s)	Apache-licentie v2.0
Versiebeheer	Officiële broncode
Website	(en) Projectpagina
Portaal	Informatica

Tesseract is een vrij computerprogramma voor optical character recognition. Het werd oorspronkelijk ontwikkeld tussen 1985 en 1995 in licentie door Hewlett-Packard. Na tien jaren zonder dat er enige ontwikkeling was, gaven Hewlett Packard en de University of Nevada (Las Vegas) het in 2005 vrij als open source. Tesseract wordt tegenwoordig ontwikkeld door Google en uitgegeven onder de Apache-licentie 2.0.^[1]^[3]^[4]

Tesseract wordt beschouwd als een van de nauwkeurigste vrije OCR-softwaremachines die tegenwoordig beschikbaar zijn.^[4]^[5]

Over de OCR-machine

Tesseract is een kale OCR-machine. Het heeft geen analyse van de documentopmaak, geen uitvoerformattering, en geen grafische gebruikersomgeving. Het enige formaat dat het kan verwerken, is een TIFF-afbeelding van een enkele tekstkolom, van waaruit het de tekst voortbrengt. TIFF-compressie wordt niet ondersteund, tenzij libtiff is geïnstalleerd. Het kan detecteren of een lettertype proportioneel is of niet. De machine stond in 1995 in de top 3 wat betreft tekennauwkeurigheid. Tesseract kan gecompileerd en uitgevoerd worden onder Linux, MS Windows en Mac OS X, maar door beperkte hulpmiddelen zijn alleen MS Windows en Ubuntu Linux zorgvuldig getest door ontwikkelaars.^[3]^[4]

Tesseract kan Engels, Frans, Italiaans, Duits, Spaans, Braziliaans-Portugees en Nederlands verwerken en kan geoefend worden om andere talen te herkennen.^[4]

Tesseract is geschikt om te gebruiken als een achtergrondprogramma en kan gebruikt worden om meer ingewikkelde OCR-taken, inclusief opmaakanalyse, uit te voeren in combinatie met een gebruikersinterface zoals OCRopus.

Geschiedenis

De Tesseractmachine werd ontwikkeld door Hewlett Packard Laboratories Bristol en door Hewlett Packard Co, Greeley Colorado tussen 1985 en 1994, met nog enkele wijzigingen in 1996, om het geschikt te maken voor MS Windows en een gedeeltelijke migratie van C naar C++ in 1998. Veel van de broncode is geschreven in C, en daarna is nog meer geschreven in C++. Vervolgens werd alle broncode zo geconverteerd dat deze gecompileerd kan worden met een C++-compiler.^[3]

Tegenwoordig kan Tesseract gecompileerd worden onder Linux met GCC 2.95 of hoger en onder MS Windows met Visual C++ 6. De C++-broncode maakt intensief gebruik van een systeem van lijsten die macro's aanroepen. Deze code is ouder dan de Standard Template Library (STL) van C++, en kan wel efficiënter zijn dan de STL-lijsten, maar is naar men zegt moeilijker van fouten te zuiveren in het geval van een segmentation fault. Een ander neveneffect van de C/C++-splitsing is dat de C++-datastructuren geconverteerd worden naar C-datastructuren om de diepere C-code aan te roepen. De migratie naar C++ is een stap in de richting om deze conversie te elimineren, echter is dit nog niet voltooid.

Gebruik

Tesseract is een OCR-machine, en het heeft geen grafische gebruikersomgeving. Het moet uitgevoerd worden vanaf de commandoregel en kan aangeroepen worden met dit commando:^[6]

 tesseract afbeelding.tif uitvoer [opties]

Tesseract leest grafische bestanden in TIFF-formaat (met bestandsextensie .tif);^[6] andere bestandsformaten moeten eerst naar TIFF geconverteerd worden voordat ze door Tesseract gelezen kunnen worden.

Tesseract ondersteunt geen analyse van opmaak (lay-out), wat betekent dat het geen tekst in meervoudige kolommen kan interpreteren, geen afbeeldingen, noch formules, en zal in deze gevallen een verbroddelde tekst als uitvoer produceren.^[4]

Er is ook een Python-wrapper (pytesseract) beschikbaar waarmee met eenvoudige Pythoncommando's in combinatie met de OCR-engine tekst gelezen kan worden.

Externe links

(en) Information Science Research Institute at the University of Nevada, Las Vegas
(en) Tesseract-code op GitHub
(en) Hacking Tesseract V0.04
(en) ArchivistaBox AVMultimedia
(en) Tesseract - Summary
(en) Tesseract OCR Engine (pdf)
(en) VietOCR

Noten

↑ ^a ^b Google, tesseract-ocr (2008). Geraadpleegd op 12 juli 2008.
↑ Release 5.5.1 · tesseract-ocr/tesseract. Geraadpleegd op 25 mei 2025.
↑ ^a ^b ^c Vincent, Luc, Announcing Tesseract OCR (augustus 2006). Gearchiveerd op 26 oktober 2010. Geraadpleegd op 26 juni 2008.
↑ ^a ^b ^c ^d ^e Canonical Ltd., OCR (juni 2008). Geraadpleegd op 12 juli 2008.
↑ Willis, Nathan, Google's Tesseract OCR engine is a quantum leap forward (september 2006). Gearchiveerd op 21 februari 2009. Geraadpleegd op 18 juli 2008.
↑ ^a ^b Tesseract OCR

[TesseractHomePage-1] Google, tesseract-ocr (2008). Geraadpleegd op 12 juli 2008.

[wikidata-1ee19d1b07753bb697c95afe896f939f32da7e84-v3-2] Release 5.5.1 · tesseract-ocr/tesseract. Geraadpleegd op 25 mei 2025.

[Google30Aug06-3] Vincent, Luc, Announcing Tesseract OCR (augustus 2006). Gearchiveerd op 26 oktober 2010. Geraadpleegd op 26 juni 2008.

[UbuntuDoc-4] Canonical Ltd., OCR (juni 2008). Geraadpleegd op 12 juli 2008.

[Linux.com-5] Willis, Nathan, Google's Tesseract OCR engine is a quantum leap forward (september 2006). Gearchiveerd op 21 februari 2009. Geraadpleegd op 18 juli 2008.

[readme-6] Tesseract OCR

[1]

[2]

[3]

[4]

[5]

[6]