转自:https://mp.weixin.qq.com/s/IlfAoAEwMfvnS2jnT5cKrw
软件介绍:
主要功能是将word文档、图片、单层PDF批量的转为双层PDF格式,便于检索和复制内容,并且支持制作国网标书要求的双层PDF。识别语言支持中英文、繁体中文、日文、韩文。
文件路径:指的是你需要识别的PDF所在文件夹,可以点击按钮选择,也可以拖入文件夹。
另存路径:如果你勾选了覆盖源文件,那么另存路径可以为空,如果你没有选中覆盖源文件,那就需要指定一个输出PDF的路径,并且这个路径不能和文件路径相同!可以点击按钮选择,也可以拖入文件夹。
子文件夹:勾选就连子文件夹的PDF一起识别,不勾选就只识别选中文件夹的PDF。
排除记录的文件:每次识别都会生成一个OCR记录在文件路径,里边记录了每个已完成的文件。如果下次你继续选中这个路径识别,并且已经完成的不再需要识别,就勾选这个选项,已经记录的文件就不会再进行转换。你也可以手动添加记录进去,但添加的路径要正确,否则不能区分出来。
识别引擎:引擎区别参考下图,需要注意的是可能绝大数人的win7因为支持库不全问题运行不了PaddleOCR,所以建议使用win10及以上系统,要么就使用备选引擎RapidOCR。
识别模式:速度上混合模式可能会快一点,但是个别页面复杂的文档,文字位置的精度会比纯图模式差一丢丢,扫描类的大多数文档应该都没区别,请自行测试根据实际需要选择模式。
方向校正:打开后会将方向错误的页面旋转为正确的阅读视图,是90°倍数的旋转,不是页面倾斜纠偏,目前只有识别模式选择“纯图模式”时才支持校正。使用此功能会增加转换时间,请按需使用。
国网双层:打开这个设置后,选择格式支持pdf、doc、docx,该模式主要用于制作国网的标书,DPI设置关联此设置,DPI越高越清晰。档案行业如果只是制作常规的双层PDF(用于复制文字、检索内容),不需要打开这个设置,此模式转换流程繁琐,耗费时间长。目前的版本doc、docx转双层都默认带书签,不需要像之前一样对word进行设置
DPI设置:72、96、150、300,分别对应acrobat 导出图像分辨率28.35、37.80、59.06、118.11。这个设置并非acrobat识别图像时设置的DPI。请根据实际需要选择,太高输出的文件会很大,影响识别速度。
图像质量:建议就使用默认中高画质,此项设置只对jpg格式生效。
2、电脑不支持PaddleOCR,请更换第二个引擎使用
1、格式没选对,当然就没文件了。要么就是没勾选子文件夹
1、jpg、doc、docx、转双层,在进度条没走完没提示完成之前,输出路径的文件是没转换好的,请等待转换完成!
文章评论