TrWebOCR开源的离线OCR

Jan. 22, 2022

TrWebOCR 是开源、易用的中文离线 OCR 。 OCR（optical character recognition）文字识别是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，然后用字符识别方法将形状翻译成计算机文字的过程；即，对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息的过程。【百度百科】

TR（Text Recognition）是一款针对扫描文档的离线文本识别 SDK，核心代码全部采用 C++ 开发，并提供 Python 接口。

TrWebOCR 是基于开源项目 Tr（Text Recognition）构建的开源、易用的中文离线 OCR，识别率媲美大厂，并且提供了易用的 web 页面及 web 的接口，方便日常工作使用或者其他程序来调用。

这是热心的网友推荐的，正好老苏整理小人书的时候用的着，有时候想从防拷贝的网页上抓些文字也是很方便的（当然你也可以安装 Simple Allow Copy 这样的 Chrome 插件）。

安装在群晖上以 Docker 方式安装。

在注册表中搜索 TrWebOCR ，选择第一个 mmmz/trwebocr，版本选择 latest。

端口端口不冲突就行

本地端口容器端口 8089 8089

运行在浏览器中输入 http://群晖IP:8089，就看到主界面

文字识别打开小人书直接用截图工具框选要识别的部分

粘贴图片到网页中

点识别按钮

即便有些倾斜，但是识别率也是非常准确的

图文混排

粘贴图片到网页中

原始结果中正确的识别了文字，但是识别的文字中是空的

看来图片还是会对识别形成干扰

竖排文字

粘贴图片到网页中

有点混乱

基本上谈不上识别了，看来对于竖排文字有点无能为力

繁体中文网上随便搜的一张名片

只有个别字识别存在错误，而且繁体识别出来的文字还是繁体

总体效果还是很不错的

小结 TrWebOCR 识别速度非常快，而且准确率很高，虽然代码已经一年没更新了，但对老苏来说绝对够用了

参考文档 alisen39/TrWebOCR: 开源易用的中文离线OCR，识别率媲美大厂，并且提供了易用的web页面及web的接口，方便人类日常工作使用或者其他程序来调用~ 地址：https://github.com/alisen39/TrWebOCR

myhub/tr: Free Offline OCR 离线的中文文本检测+识别SDK 地址：https://github.com/myhub/tr