python3.6 + tesseract-orc 4.0 + pillow 5.1图片识别（中文识别）(源码可执行）【原创】

xuyg · 2018-11-26 11:50:59

tesseract4.0安装参考链接进入

以下代码保存文件名为trans2Chi_sim.py

#!/usr/bin/env python
# -*- coding: utf-8 -*-

from PIL import Image
import pytesseract

import argparse

#命令行执行 添加图片目录和结果保存路径
ap = argparse.ArgumentParser()

ap.add_argument("-i","--image",required=True,help="path to input image")
#结果保存的文件可以不设置，默认保存到当前目录下的result.txt文件中
ap.add_argument("-r","--result",required=False,help="the name of the result txt file save name")

args = vars(ap.parse_args())

#获取图片
img_path = args["image"]
print('image path : %s'%img_path)

#识别结果默认保存到当前目录result.txt文件中
res_path ='result'
if args["result"] is not None:
	res_path = args["result"]

#print('result path : %s'%res_path)

image = Image.open(img_path)
#使用tessdata chi_sim简体中文训练数据进行识别
text = pytesseract.image_to_string(image, lang='chi_sim')

filename = res_path
if '.txt' not in res_path:
	filename = res_path+".txt"
#结果保存
with open(filename,'w') as f:
	f.write(text.replace(' ',''))  #识别后每个字之间有空格，需要去掉空格

print('识别内容已保存到文件：%s'%filename)

命令号执行如下：
python trans2Chi_sim.py -i imagename.jpg [ -r result.txt]

非手写字体识别率非常高，很不错

个人知识管理站

公告

#1 2018-11-26 11:50:59

python3.6 + tesseract-orc 4.0 + pillow 5.1图片识别（中文识别）(源码可执行）【原创】

页脚

个人知识管理站

公告

#1 2018-11-26 11:50:59

python3.6 + tesseract-orc 4.0 + pillow 5.1图片识别（中文识别）(源码 可执行）【原创】

页脚

python3.6 + tesseract-orc 4.0 + pillow 5.1图片识别（中文识别）(源码可执行）【原创】