莫听穿林打叶声,何妨吟啸且徐行。竹杖芒鞋轻胜马,谁怕?一蓑烟雨任平生。

Posts

学习与思考

  • Python处理PDF文件

    最近看到一篇介绍Python中pyPDF模块的文章,详细介绍了使用pyPDF模块获取PDF文件信息,合并拆分PDF文件等功能。很方便,在此搬运分享以下:

    How to Work With a PDF in Python

    全文介绍了以下几方面的功能

    • 提取文件信息
    • 旋转页面
    • 合并文件
    • 拆分文件
    • 添加水印
    • 加密文件

    这里我主要尝试了前几个功能的实现,添加水印与加密文件不是很用得上就不再详细尝试了。

    pyPdf,PyPDF2以及PyPDF4的发展历程

    最初的pyPdf模块发布与2005年,但并不支持Python3。PyPDF2目前也基本停用,最新版本的PyPDF4支持PyPDF2的大多数功能,但也有部分功能不兼容。原文中使用的是PyPDF2模块,此处我改用最新的PyPDF4进行尝试。

    安装

    如果你已经安装了Anaconda,可以使用pip或者conda直接安装: pip install PyPDF4

    功能实现

    提取PDF文件信息

    我们可以通过PdfFileReader来实现对以下信息的提取:

    • 作者
    • 创建者
    • 生产商
    • 主题
    • 题目
    • 页数

    代码如下:

    from PyPDF4 import PdfFileReader,PdfFileWriter def extract_information(pdf_path): with open(pdf_path,'rb') as f: pdf=PdfFileReader(f)...