tesseract4.0安装参考链接进入
以下代码保存文件名为trans2Chi_sim.py
#!/usr/bin/env python
# -*- coding: utf-8 -*-
from PIL import Image
import pytesseract
import argparse
#命令行执行 添加图片目录和结果保存路径
ap = argparse.ArgumentParser()
ap.add_argument("-i","--image",required=True,help="path to input image")
#结果保存的文件可以不设置,默认保存到当前目录下的result.txt文件中
ap.add_argument("-r","--result",required=False,help="the name of the result txt file save name")
args = vars(ap.parse_args())
#获取图片
img_path = args["image"]
print('image path : %s'%img_path)
#识别结果默认保存到当前目录result.txt文件中
res_path ='result'
if args["result"] is not None:
res_path = args["result"]
#print('result path : %s'%res_path)
image = Image.open(img_path)
#使用tessdata chi_sim简体中文训练数据进行识别
text = pytesseract.image_to_string(image, lang='chi_sim')
filename = res_path
if '.txt' not in res_path:
filename = res_path+".txt"
#结果保存
with open(filename,'w') as f:
f.write(text.replace(' ','')) #识别后每个字之间有空格,需要去掉空格
print('识别内容已保存到文件:%s'%filename)
命令号执行如下:
python trans2Chi_sim.py -i imagename.jpg [ -r result.txt]
非手写字体识别率非常高,很不错
离线