Posts
学习与思考
莫听穿林打叶声,何妨吟啸且徐行。竹杖芒鞋轻胜马,谁怕?一蓑烟雨任平生。
学习与思考
最近看到一篇介绍Python中pyPDF模块的文章,详细介绍了使用pyPDF模块获取PDF文件信息,合并拆分PDF文件等功能。很方便,在此搬运分享以下:
How to Work With a PDF in Python
全文介绍了以下几方面的功能
这里我主要尝试了前几个功能的实现,添加水印与加密文件不是很用得上就不再详细尝试了。
最初的pyPdf模块发布与2005年,但并不支持Python3。PyPDF2目前也基本停用,最新版本的PyPDF4支持PyPDF2的大多数功能,但也有部分功能不兼容。原文中使用的是PyPDF2模块,此处我改用最新的PyPDF4进行尝试。
如果你已经安装了Anaconda,可以使用pip或者conda直接安装: pip install PyPDF4
我们可以通过PdfFileReader
来实现对以下信息的提取:
代码如下:
from PyPDF4 import PdfFileReader,PdfFileWriter def extract_information(pdf_path): with open(pdf_path,'rb') as f: pdf=PdfFileReader(f)...