pdftotext 中文测试

英文测试没问题!

中文测试需要作一些加工!

下载:Chinese/traditional: xpdf-chinese-traditional.tar.gz (794568 bytes)

将add-to-xpdfrc改成xpdfrc,并修改内容中的路径,我的xpdfrc如下:

#—– begin Chinese Traditional support package (2004-jul-27)
cidToUnicode    Adobe-CNS1    chinese-traditional/Adobe-CNS1.cidToUnicode
unicodeMap    Big5        chinese-traditional/Big5.unicodeMap
unicodeMap    Big5ascii    chinese-traditional/Big5ascii.unicodeMap
cMapDir        Adobe-CNS1    chinese-traditional/CMap
toUnicodeDir            chinese-traditional/CMap
displayCIDFontTT    Adobe-CNS1    chinese-traditional/kaiu.ttf
#—– end Chinese Traditional support package

执行:

pdftotext -enc Big5ascii file.pdf

就可以看到file.txt中的中文字了!