In [1]:
from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal,LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
import os
if not os.path.exists(".\\outputfile"):
    os.mkdir(".\\outputfile")
    
def parse(filePath):
    try:
        fp = open(filePath, 'rb') # 以二进制读模式打开
        #用文件对象来创建一个pdf文档分析器
        praser = PDFParser(fp)
        # 创建一个PDF文档
        doc = PDFDocument()
        # 连接分析器 与文档对象
        praser.set_document(doc)
        doc.set_parser(praser)

        # 提供初始化密码
        # 如果没有密码 就创建一个空的字符串
        doc.initialize()

        # 检测文档是否提供txt转换，不提供就忽略
        if not doc.is_extractable:
            raise PDFTextExtractionNotAllowed
        else:
            # 创建PDf 资源管理器 来管理共享资源
            rsrcmgr = PDFResourceManager()
            # 创建一个PDF设备对象
            laparams = LAParams()
            device = PDFPageAggregator(rsrcmgr, laparams=laparams)
            # 创建一个PDF解释器对象
            interpreter = PDFPageInterpreter(rsrcmgr, device)

            # 循环遍历列表，每次处理一个page的内容
            firstWrite = True #用于标记是否是第一次写文件，若是则写模式为 w
            #（在之前的写模式只为a的情况下，多次测试输出的txt文件一直重复相同的内容）,若不是则写模式为 a
            fileCreated = False #判断文件是否生成
            for page in doc.get_pages(): # doc.get_pages() 获取page列表
                interpreter.process_page(page)
                # 接受该页面的LTPage对象
                layout = device.get_result()
                # 这里layout是一个LTPage对象 里面存放着 这个page解析出的各种对象 
                #一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等 想要获取文本就获得对象的text属性
                outputFileName='.\\outputFile\\output--of--'+filePath.split('\\')[-1].split('.')[0]+'.txt'
                for x in layout:
                    if (isinstance(x, LTTextBoxHorizontal)):
                        results = x.get_text()
                        print(results)#输出文件文本信息
                        #保存文件为txt格式
                        if firstWrite:
                            writeMode = 'w'
                            firstWrite = False
                        else:
                            writeMode = 'a'
                        with open(outputFileName, writeMode, encoding='utf-8') as f:
                            fileCreated = True
                            f.write(results+'\n')
            if fileCreated == False:
                print("error : unable to turn this pdf file into textfile.")
                
    except:
        trackback.print_exc()
        print("error in pdf file:", filePath)

## 测试英文文件读入

In [2]:
parse(".\\fileNeeded\\test-en.pdf")

A Brief Introduction to the Basics of Game Theory

Matthew O. Jackson, Stanford University

I provide a (very) brief introduction to game theory. I have developed these notes to

provide quick access to some of the basics of game theory; mainly as an aid for students

in courses in which I assumed familiarity with game theory but did not require it as a

prerequisite. Of course, the material discussed here is only the proverbial tip of the iceberg,

and there are many sources that oﬀer much more complete treatments of the sub ject.1 Here,

I only cover a few of the most fundamental concepts, and provide just enough discussion

to get the ideas across without discussing many issues associated with the concepts and

approaches. Fuller coverage is available through a free on-line course that can be found via
my website: http://www.stanford.edu/∼jacksonm/
The basic elements of performing a noncooperative 2 game-theoretic analysis are (1)

framing the situation in terms of the actions avail

## 测试中文文件读入

In [3]:
parse(".\\fileNeeded\\test-zh_cn.pdf")

飓风纳丁于 2012 年 9 月 10 日由佛得角以西的一股东风波发展而成，次日就已增强为热带
风暴。系统起初向西北方向移动，然后转向北上，期间没有接近任何陆地。9 月 15 日清晨，
风暴在婉延向东行进的过程中达到飓风强度，之后由于垂直风切变的增强，纳丁于 9 月 16
日削弱成热带风暴。次日，风暴开始向东北方向前进并威胁到亚速尔群岛，但在到达该群岛
前又于 9 月 19 日再度改变方向朝东南偏东行进，不过还是给几个岛屿带去了热带风暴强度
的狂风。9 月 21 日，系统在位于亚速尔群岛以南时开始向东南偏南方向曲折前进，并于当
天晚些时候转变成一股非热带低气压。由于外部环境有利于系统发展，纳丁的残余在 9 月
24 日再生为热带气旋。经过重新发展后，风暴行进了一个环状路径并蜿蜒缓慢地穿越东部
大西洋，之后系统转向西南偏南，并一度几乎停止移动。到了 9 月 28 日，风暴蜿蜒向西北
方向前进并再度增强为飓风。9 月 30 日，飓风进一步加强并达到每小时 150 公里的最高风
速。但到了次日就因为外部环境不利而减弱成风速每小时 105 公里的热带风暴。强烈的风切
变和逐渐降低的海面温度令风暴大幅削弱，于 10 月 3 日转变成温带气旋，并在之后不久与
一个靠近亚速尔群岛东北部的冷锋融合。10 月 4 日，系统残留经过亚速尔群岛，再次给群
岛带去了相对较强的大风。 



In [4]:
#测试os.path.join 以'/'这种符号为分隔符 用os.path.join会得到诸如'./fileNeeded\\'这种奇怪的结果
import os
os.path.join('./fileNeeded','')

'./fileNeeded\\'