## NLP_1 Working with Text and PDF Files

[Python for NLP: Working with Text and PDF Files](https://stackabuse.com/python-for-nlp-working-with-text-and-pdf-files/)

### Reading Text Files

使用 python 內建的函數```open()```即可把文件呼叫進環境中。

In [18]:
myfile = open("myfile.txt")

透過```print()```呈現呼叫進來的文件的儲存格式，可以看到結果為一個 wrapper，且必須要用 read mode 讀取，故再加上```read()```來讀取文件內容。

In [19]:
print(myfile)

<_io.TextIOWrapper name='myfile.txt' mode='r' encoding='UTF-8'>


In [20]:
print(myfile.read()) # 讀取文件內容

Welcome to Natural Language Processing
It is one of the most exciting research areas as of today
We will see how Python can be used to work with text files.


讀取過一次文件內容後，若在執行一次同樣的程式碼，就不會呈現任何東西了。這是因為在呼叫```read()```的時候，那份文件的游標就已經走到最後一格，再執行一次函數，自然沒有東西可以呈現。

In [21]:
print(myfile.read()) # 讀不出東西！GG！




若要避免這個問題，可以使用```seek()```來調整該文件當中的游標位置以再次讀取文件，只要在```seek()```中放入 index 代表位置，游標就會移動到該位置。

In [23]:
myfile = open("myfile.txt")
print(myfile.read())
myfile.seek(0) # 把游標移到起始位置 
print(myfile.read())

Welcome to Natural Language Processing
It is one of the most exciting research areas as of today
We will see how Python can be used to work with text files.
Welcome to Natural Language Processing
It is one of the most exciting research areas as of today
We will see how Python can be used to work with text files.


若要結束讀取該文件，記得要養成好習慣，使用```close()```把文件關閉。

In [16]:
myfile.close()

### Reading Text Files Line by Line

使用```read()```可以讀取整份文件，若改為使用```readlines()```可以逐行讀取文件，且每行都會被放在一個 list 當中呈現。

In [25]:
myfile = open("myfile.txt")
print(myfile.readlines())

['Welcome to Natural Language Processing\n', 'It is one of the most exciting research areas as of today\n', 'We will see how Python can be used to work with text files.']


這種分行讀取的方式，相較於整份文件的讀取，便於分析者針對每行進行更細緻的操作。舉例來說，假使要獲取每行的第一個字，可以針對儲存文件的 wrapper 進行迴圈，就能夠輕易找出文件中的每一行，或者是進行其他基於每個行數的進階操作。

In [27]:
myfile = open("myfile.txt")
for lines in myfile:
    print(lines.split()[0]) # 取得每行的第一個字

Welcome
It
We


### Writing to a Text File

要寫入一份文件，就必須在```open()```當中將模式設定為 "w" 或者 "w+"，前者打開文件以寫入，後者打開文件並且能讀取和寫入。若該檔案不存在，則會創造新的檔案。然而需要特別注意的是，若以"w" 或者 "w+" 打開存有內容的檔案，所有的內容將被移除，如下所示。

In [30]:
myfile = open("myfile.txt", 'w+')
print(myfile.read()) # 東西都不見啦！！GG！！




若要對一份文件寫入內容，可使用```write()```。如果寫完內容後要讀取內容，記得使用```seek()```將文件的游標移到正確的位置（只要想要打完文件後游標一定是在最後面，所以要完整讀取文件，必須重新調整游標）。

In [32]:
myfile = open("myfile.txt", 'w+')
print(myfile.read())
myfile.write("The file has been rewritten") # 這個時候寫完游標在最後面
myfile.seek(0) # 要讀取文件之前記得把游標移到起始位置
print(myfile.read())


The file has been rewritten


然而大多數要寫入文件的時候，是會希望在現有內容的後方加上其他內容，而把所有內容移除再寫入內容，這個時候就必須要將```open()```的模式改為 "a+"，代表附加(append)和讀取，而寫入內容一樣使用```write()```。

In [36]:
myfile = open("myfile.txt", 'a+')
myfile.seek(0) # "a+" 因為代表著 append，所以游標預設出現在最後，要讀取文件的話必須調整
print(myfile.read()) # 你看看我們的東西還在！！

Welcome to Natural Language Processing
It is one of the most exciting research areas as of today
We will see how Python can be used to work with text files.


In [37]:
myfile.write("\nThis is a new line")
myfile.seek(0)
print(myfile.read())

Welcome to Natural Language Processing
It is one of the most exciting research areas as of today
We will see how Python can be used to work with text files.
This is a new line


最後我們可以引進 context manager 來打開文件，這樣針對文件讀取或寫入完畢之後，他就會自動關閉文件，而不用特別呼叫```close```。使用 context manager 的方式是透過```with```來引導```open()```，並進行後續的操作。

In [40]:
with open("myfile.txt") as myfile:
    print(myfile.read())

Welcome to Natural Language Processing
It is one of the most exciting research areas as of today
We will see how Python can be used to work with text files.
This is a new line


### Working with PDF Files

python 並沒有內建可以讀取 PDF 檔的套件，因此要透過 [PyPDF2](https://pythonhosted.org/PyPDF2/) 進行。以下示範的 PDF 檔來源為<br>http://www.bavtailor.com/wp-content/uploads/2018/10/Lorem-Ipsum.pdf 。

打開 PDF 的方式和打開文件相同，使用```open()```並放入檔案路徑，使是模式必須要改為 "rb"，代表 read binary，因為大多數 PDF 都是二元格式。

In [45]:
import PyPDF2
mypdf = open('Lorem-Ipsum.pdf', mode='rb')

建立好 PDF 的 wrapper 之後，呼叫```PdfFileReader()```來將 wrapper 轉換為可以進行其他豐富操作的物件（像是計算頁數```numPages```、取得特定的頁數```getPage()```、取出特定頁數的文字```extractText()```等。）。

In [47]:
pdf_document = PyPDF2.PdfFileReader(mypdf)
pdf_document.numPages # 計算全部的頁數

1

In [51]:
first_page = pdf_document.getPage(0) # 取得第一頁的內容
print(first_page.extractText()) #取出該頁的文字

Lorem Ipsum
is simply dummy text of the printing and typesetting 
industry. Lorem Ipsum has been the industry's standard dummy text ever 
since the 1500s, when an unknown printer took a galley of type and 
scrambled it to make a type specimen book. It has survived not only five 
centuries, but also the leap into electronic typesetting, remaining essentially 
unchanged. It was popularised in the 1960s with the release of Letraset 
sheets containing Lorem Ipsum passages, and more recently with desktop 
publishing software like Aldus PageMaker including versions of Lorem Ipsum.It is a long established fact that a reader will be distracted by the readable 
content of a page when looking at its layout. The point of using Lorem Ipsum is that it has a more-or-less normal distribution of letters, as opposed to 
using 'Content here, content here', making it look like readable English. 
Many desktop publishing packages and web page editors now use Lorem 
Ipsum as their default model text, and a 

### Writing to a PDF Document

這邊將示範把先前 PDF 的內容寫到另外一份 PDF 上。

In [64]:
import PyPDF2

mypdf = open('Lorem-Ipsum.pdf', mode='rb')
pdf_document = PyPDF2.PdfFileReader(mypdf)

page_one = pdf_document.getPage(0)

得到了上一份 PDF 的內容後，便可以透過以下的程式寫到另一份 PDF 上。首先透過```PdfFileWriter()```創造寫 PDF 的物件，再透過```addPage()```增加 PDF 的頁面並且寫入上一份 PDF 的內容。

In [65]:
pdf_document_writer = PyPDF2.PdfFileWriter() # 創造寫出 PDF 的物件
pdf_document_writer.addPage(page_one) # 增加頁面並且寫入內容

接下來再透過```open()```創造新的檔案，並且將模式改為 "wb"，代表 write binary，最後再透過寫入 PDF 的物件呼叫```write()```並放入剛生成的檔案，就成功產生一個新的 PDF 了！

In [69]:
pdf_output_file = open('new_pdf_file.pdf', 'wb') # 創造新檔案
pdf_document_writer.write(pdf_output_file) # 把 PDF 內容放入新創的檔案

以下練習讀取一個更大的檔案，連結為 http://ctan.math.utah.edu/ctan/tex-archive/macros/latex/contrib/lipsum/lipsum.pdf 。

In [71]:
import PyPDF2

mypdf = open('lipsum.pdf', 'rb')
pdf_document = PyPDF2.PdfFileReader(mypdf)
pdf_document.numPages # 總共有 87 頁，如果要全部讀取，必須使用迴圈

87

In [None]:
for i in range(pdf_document.numPages):
    page_to_print = pdf_document.getPage(i)
    print(page_to_print.extractText()) # 結果太長就不顯示惹