Tesseract Archive

Train Tesseract LSTM methods Comparison

近期整理了一系列关于train tesseract LSTM的文章,Train Tesseract LSTM with make, Train Tesseract LSTM with tesstrain.sh,该如何从中选择适合自己的方案呢?本文记录方案选择的基本原则及各种方案的异同。

Train Tesseract LSTM with tesstrain.sh on Windows

tesstrain.sh是How to use the tools provided to train Tesseract 4.00举例用的训练工具,主要用于训练各类语言的新字体,来源于Tesseract源码(Tesseract/src/training)。经过验证,tesstrain.sh在Windows10下可用,本文介绍在Windows下使用tesstrain.sh训练新字体的步骤,文中使用的训练文件已上传至tesstrainsh-win。

How the makefile in tesstrain-win work

tesstrain-win可以在Windows下,根据图像及其对应的文本进行Tesseract LSTM with make的训练。它来源于Tesseract-ocr/tesstrain,makefile以及文件结构有一些改动。本文以tesstrain-win中的makefile为例,记录Train Tesseract LSTM with make训练流程与工作原理。

Train Tesseract LSTM with make on Windows

Train Tesseract LSTM with make 在github上对应的项目为tesseract-ocr/tesstrain,该项目用命令行来实现LSTM的训练,功能强大,简洁易用,但是它仅支持Linux下运行。为了让tesseract-ocr / tesstrain能在Windows中运行,我对其中的makefile和文件结构进行了一些改动,修改后的项目请参考tesstrain-win。本文主要记录tesstrain-win的使用方法及其改造过程。

Win10 Tesseract4.1 LSTM training

本文记录win10 x64 Tesseract4.1 LSTM training的两种方法,均属于Fine Tune。一种是使用待训练字库 + 待训练文本 + text2image + lstmtraining,另一种是待训练图像 + jTessBoxEditor + lstmtraining。这两种方式训练时的主要差异是准备.box和.tif文件的方法不一样,其他部分基本相同。

Tesseract4.0 APIExamples 验证实录与函数解析

本文主要记录Tesseract4.0 APIExamples中的Result iterator example,Example of iterator over the classifier choices for a single symbol,Example to get confidence for alternative symbol choices per character for LSTM这三个示例的运行结果和相关函数的解析。测试均在Tessrect4.0+VS2017+Win10的条件下进行,如果对于安装有疑问,请参考这里: Tesseract4.0+VS2017+win10源码编译攻略

Tesseract4.0+VS2017+win10源码编译攻略

本文记录以下内容:一,记录我目前在win10 X64和VS2017的环境下成功编译Tesseract4.0(目前最新的版本20180106)的一种方式;二,记录在VS2017 C++工程中调用Tesseract4.0的方法;三,记录编译和调用Tesseract4.0过程中踩到的坑和相应的解决方案或看法。

在VS2013 C++工程中运行Tesseract APIExample

Tesseract在Github中有一项名为APIExample的wiki,该wiki的作用是提供在C++中使用tesseract-ocr API的范例。若这些范例可以正常运行,那么可以认为tesseract-ocr以及相关依赖项已正确安装。本文介绍Tesseract APIExample其中一个范例的正确的打开方式(该方法适用于在opencv工程中使用Tesseract)。

Visual studio 2013中编译Tesseract3.04源码记录

我曾在VS2013的C#工程中试用过Tesseract3.04,但是要在C++工程中使用Tesseract3.04,就需要自行编译Tesseract3.04源码。本文记录在Visual studio 2013中编译Tesseract3.04源码的过程和注意事项。

在VS2013的C#工程中使用Tesseract3.04

Tesseract3.04是Tesseract目前最新的版本,该开源项目的家已经从Google Code搬到了Github。今天在VS2013的C#项目中简单验证了Tesseract3.04的功能,在这里记录一下,供有兴趣的同学参考参考。
Fork me on GitHub