Tesseract Archive

Tesseract5 fine tune Chinese character

在Train Tesseract LSTM with tesstrain.sh on Windows中,有网友提到在Github/Tesseract5中下载的chi_sim.traindata无法识别"垤,箐,勐"等较为生僻的文字,我们是否能自行对chi_sim.traindata进行Fine Tune呢?网友提出这个问题时,我用自己编译的Tesseract4版本尝试Fine tune失败,最近用Tesseract5和tesstrain的makefile训练成功。

Train traindata to OCR fraction with tesseract4.1

Tesseract的equ.traineddata不能识别下图中的分数,那么我们是否能自己训练一个可以识别分数的traineddata呢?在过去的文章中,我们提到过Tesseract有Train Tesseract LSTM with make和 Train Tesseract LSTM with tesstrain.sh的方式来训练自定义的traineddata文件。

如何在python中使用tesserocr调用tesseract C++ API

tesserocr是 Tesseract C++ API的 python封装;我们所熟知的pytesseract是tesseract-ocr CLI的python封装,CLI即Command Line Interface。本文将主要介绍如何在win10下安装与使用tesserocr。

pytesseract 中image_to_data的C++实现

GetTSVText是Tesseract提供的在C++中可以获取TSV格式输出的函数,但其返回结果是字符串。那么在C++中是否能实现类似pytesseract中image_to_data DICT输出的函数,能便捷获取识别结果的各项信息呢?本文将分享如何用GetTSVText实现该功能。

影响pytesseract识别结果的几项设定

pytesseract中PSM(Possible modes for page layout analysis)不同的设置对识别结果有怎样的影响?pytesseract中黑白名单如何设置?tesseract输入图像是否需要二值化?本文主要记录这三个问题的一些个人见解。

pytesseract image_to_osd文字方向与文字编码检测

image_to_osd中osd的全称是Orientation and script detection,image_to_osd的用途是检测图像中文字方向和字符编码类型,同时会给出相应检测结果的置信度。本文介绍pytesseract中函数image_to_osd输出内容的意义及其用法。

pytesseract image_to_data检测并定位图片中的文字

pytesseract是用python包装Google Tesseract-OCR引擎的OCR工具,它通过调用系统中安装的tesseract.exe来识别图片中的文字并以多种格式进行输出。本文将记录如何使用pytesseract中image_to_data定位图片中的文字,以及该函数输出数据的格式详解。

Train Tesseract LSTM methods Comparison

近期整理了一系列关于train tesseract LSTM的文章,Train Tesseract LSTM with make, Train Tesseract LSTM with tesstrain.sh,该如何从中选择适合自己的方案呢?本文记录方案选择的基本原则及各种方案的异同。

Train Tesseract LSTM with tesstrain.sh on Windows

tesstrain.sh是How to use the tools provided to train Tesseract 4.00举例用的训练工具,主要用于训练各类语言的新字体,来源于Tesseract源码(Tesseract/src/training)。经过验证,tesstrain.sh在Windows10下可用,本文介绍在Windows下使用tesstrain.sh训练新字体的步骤,文中使用的训练文件已上传至tesstrainsh-win。

How the makefile in tesstrain-win work

tesstrain-win可以在Windows下,根据图像及其对应的文本进行Tesseract LSTM with make的训练。它来源于Tesseract-ocr/tesstrain,makefile以及文件结构有一些改动。本文以tesstrain-win中的makefile为例,记录Train Tesseract LSTM with make训练流程与工作原理。
Fork me on GitHub