OCRMyPDF在win10+python3.6中被调用

OCRmyPDF是基于Tesseract和python3的应用程序,它可以将不可复制粘贴的PDF文件转换为可以复制粘贴的PDF文件。OCRmyPDF的部分功能可以在python中调用,本文将介绍如何在win10+python3.6中调用OCRmyPDF。

参考资料

Installing on Windows

OCRmyPDF安装

请参考Installing on Windows如下图所示,OCRmyPDF要求Python 3.7+/Tesseract 4.0+/Ghostscript 9.50+。

Install OCRMyPDF on windows

我电脑中安装的是Tesseract5和Python3.6,亲测可正常使用。Python和Tesseract的安装攻略有很多,大家可自行查找。

下面总结在Python3.6和Tesseract5已安装的前提下,OCRmyPDF的安装步骤。

1. 根据需求下载Ghostscript并安装。

2. 打开Command.exe,安装ghostscript。注意:这里通过[pip install ghostscript]安装的ghostscript是基于ctypes的Ghostscript C-API的接口,该接口需要第1步的安装才能正常工作。

3. 打开Command.exe,安装OCRmyPDF

4. 安装完成后,在命令行输入

出现如下内容说明安装成功。

在python中调用OCRmyPDF

参考Using the OCRmyPDF API, 新建一个testOCRMyPDF.py文件,输入以下代码:

将待处理的pdf文件input.pdf拷贝到与testOCRMyPDF.py相同路径下,运行testOCRMyPDF.py,运行界面如下:

example of ocrmyPDF in python

输入的input.pdf是不可以复制其中的文字,但经过OCRMyPDF处理之后的output.pdf的内容与input.pdf的内容完全一致而且可以复制其中的内容。

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据

Fork me on GitHub