# PDFからテキストを抽出する

In [1]:
import PyPDF2
pdf_file_obj = open(r".\pydata\meetingminutes.pdf", "rb")
pdf_reader = PyPDF2.PdfFileReader(pdf_file_obj)
pdf_reader.numPages

19

In [2]:
page_obj = pdf_reader.getPage(0)
page_obj.extractText()

'OOFFFFIICCIIAALL  BBOOAARRDD  MMIINNUUTTEESS   Meeting of \nMarch 7\n, 2014\n        \n     The Board of Elementary and Secondary Education shall provide leadership and \ncreate policies for education that expand opportunities for children, empower \nfamilies and communities, and advance Louisiana in an increasingly \ncompetitive glob\nal market.\n BOARD \n of ELEMENTARY\n and \n SECONDARY\n EDUCATION\n  '

In [3]:
type(pdf_reader)

PyPDF2.pdf.PdfFileReader

In [4]:
type(page_obj)

PyPDF2.pdf.PageObject

PDFファイルからテキストを抽出するには PyPDF2 モジュールという外部モジュールを使う

インポートしたらPDFファイルをバイナリ読み込みモードで開き、Fileオブジェクトを作る

次に、PyPDF2 の PdfFileReader 関数にFileオブジェクトを渡し、PdfFileReader オブジェクトを生成する

PdfFileReaderオブジェクトの numPages あとりびゅうーとには総ページ数が入っている

次に、PdfFileReaderオブジェクトの getPage メソッドにページ数(先頭が0)を渡し、Page オブジェクトを生成する

最後に、Pageオブジェクトの extractText メソッドを使うことでPDFファイルのテキストを抽出できる

# PDFの暗号を解く

In [5]:
import PyPDF2
pdf_reader = PyPDF2.PdfFileReader(open(r".\pydata\encrypted.pdf", "rb"))
pdf_reader.isEncrypted

True

In [6]:
page_pbj = pdf_reader.getPage(0)

PdfReadError: file has not been decrypted

PDFファイルの中には暗号化されていて読み込むにはパスワードが必要なものがある

暗号化されているか確かめるにはPdfFileReaderオブジェクトの isEncrypted アトリビュートを使い、暗号化されていればTrueを返す

暗号化されているままPageオブジェクトを使って読み込もうとするとErrorが発生する

In [7]:
pdf_reader = PyPDF2.PdfFileReader(open(r".\pydata\encrypted.pdf", "rb"))
pdf_reader.decrypt("rosebud")

1

In [8]:
page_obj = pdf_reader.getPage(0)
page_obj.extractText()

'OOFFFFIICCIIAALL  BBOOAARRDD  MMIINNUUTTEESS   Meeting of \nMarch 7\n, 2014\n        \n     The Board of Elementary and Secondary Education shall provide leadership and \ncreate policies for education that expand opportunities for children, empower \nfamilies and communities, and advance Louisiana in an increasingly \ncompetitive glob\nal market.\n BOARD \n of ELEMENTARY\n and \n SECONDARY\n EDUCATION\n  '

暗号化を解除するには、PdfFileReaderオブジェクトの decrypt メソッドに正しいパスワードを入れることで解除できる

解除できた場合には1を返し、パスワードが間違っている場合には0を返す

解除後はPageオブジェクトからテキストの抽出は可能だが、一度閉じてしまうとまた開く際に暗号を解く必要がある

# PDFを作成する

In [9]:
import PyPDF2
pdf1_file = open(r".\pydata\meetingminutes.pdf", "rb")
pdf2_file = open(r".\pydata\meetingminutes2.pdf", "rb")
pdf1_reader = PyPDF2.PdfFileReader(pdf1_file)
pdf2_reader = PyPDF2.PdfFileReader(pdf2_file)
pdf_writer = PyPDF2.PdfFileWriter()
for page_num in range(pdf1_reader.numPages):
    page_obj = pdf1_reader.getPage(page_num)
    pdf_writer.addPage(page_obj)

for page_num in range(pdf2_reader.numPages):
    page_obj = pdf2_reader.getPage(page_num)
    pdf_writer.addPage(page_obj)

pdf_output_file = open(r".\pydata\combinedminutes.pdf", "wb")
pdf_writer.write(pdf_output_file)
pdf_output_file.close()
pdf1_file.close()
pdf2_file.close()

PDFを作成すると言ってもテキストを書き込むことはできず、既存のPDFのページをコピーしたり、ページを回転したり、ページを重ねたり、暗号化するといったことに限定される

コピーするにはPyPDF2モジュールの PdfFileWriter 関数を使ことでできる PdfFileWriter オブジェクトを使う

まず既存のPDFファイルのPdfFileReaderオブジェクトとコピーしたいPageオブジェクト、新規のPdfFileWriterオブジェクトを生成する

そして、PdfFileWriterオブジェクトの addPage メソッドにコピーしたいPageオブジェクトを渡すことで、PdfFileWriterオブジェクトにPageデータを追加する

最後にopen関数でPDFのファイルをバイナリの書き込みモードで作成し、PdfFileWriterオブジェクトの write メソッドに作成したファイルオブジェクトを渡すことで書き込みができる

# ページを回転する

In [10]:
import PyPDF2
minutes_file = open(r".\pydata\meetingminutes.pdf", "rb")
pdf_reader = PyPDF2.PdfFileReader(minutes_file)
page = pdf_reader.getPage(0)
page.rotateClockwise(90)

{'/Contents': [IndirectObject(961, 0),
  IndirectObject(962, 0),
  IndirectObject(963, 0),
  IndirectObject(964, 0),
  IndirectObject(965, 0),
  IndirectObject(966, 0),
  IndirectObject(967, 0),
  IndirectObject(968, 0)],
 '/CropBox': [0, 0, 612, 792],
 '/MediaBox': [0, 0, 612, 792],
 '/Parent': {'/Count': 9,
  '/Kids': [IndirectObject(959, 0),
   IndirectObject(1, 0),
   IndirectObject(11, 0),
   IndirectObject(13, 0),
   IndirectObject(15, 0),
   IndirectObject(17, 0),
   IndirectObject(19, 0),
   IndirectObject(24, 0),
   IndirectObject(26, 0)],
  '/Parent': {'/Count': 19,
   '/Kids': [IndirectObject(953, 0),
    IndirectObject(954, 0),
    IndirectObject(955, 0)],
   '/Type': '/Pages'},
  '/Type': '/Pages'},
 '/Resources': {'/ColorSpace': {'/CS0': ['/ICCBased', IndirectObject(969, 0)],
   '/CS1': ['/ICCBased', IndirectObject(970, 0)],
   '/CS2': ['/ICCBased', IndirectObject(970, 0)]},
  '/ExtGState': {'/GS0': {'/AIS': <PyPDF2.generic.BooleanObject at 0x1f84fc5dfc8>,
    '/BM': '/No

In [11]:
pdf_writer = PyPDF2.PdfFileWriter()
pdf_writer.addPage(page)
result_pdf_file = open(r".\pydata\rotatePage.pdf", "wb")
pdf_writer.write(result_pdf_file)
result_pdf_file.close()
minutes_file.close()

ページを回転するにはpageオブジェクトの rotateClockwise を呼び90度単位の数字(90,180,270)を渡すことで回転したページを作ることができる

上では回転したページをPdfFileWriterオブジェクトに追加し新しいファイルに書き込んでいる

rotatecounterClockwiseを使うと反対側に回転させることができる

# ページを重ね合わせる

In [12]:
import PyPDF2
minutes_file = open(r".\pydata\meetingminutes.pdf", "rb")
pdf_reader = PyPDF2.PdfFileReader(minutes_file)
minutes_first_page = pdf_reader.getPage(0)
pdf_watermark_reader = PyPDF2.PdfFileReader(open(r".\pydata\watermark.pdf", "rb"))
minutes_first_page.mergePage(pdf_watermark_reader.getPage(0))
pdf_writer = PyPDF2.PdfFileWriter()
pdf_writer.addPage(minutes_first_page)
for page_num in range(1,pdf_reader.numPages):
    page_obj = pdf_reader.getPage(page_num)
    pdf_writer.addPage(page_obj)
    
result_pdf_file = open(r".\pydata\watermarkedCover.pdf", "wb")
pdf_writer.write(result_pdf_file)
minutes_file.close()
result_pdf_file.close()

ページを重ね合わせるには、Pageオブジェクトの mergePage メソッドを呼び、引数に透かして埋め込むPageオブジェクトを与えることでできる

上では重ねて作ったページをPdfFileWriterオブジェクトに追加した後、残りのページを追加し、新しいPDFファイルを作成している

# PDFを暗号化する

In [13]:
import PyPDF2
pdf_file = open(r".\pydata\meetingminutes.pdf", "rb")
pdf_reader = PyPDF2.PdfFileReader(pdf_file)
pdf_writer = PyPDF2.PdfFileWriter()
for page_num in range(pdf_reader.numPages):
    pdf_writer.addPage(pdf_reader.getPage(page_num))

pdf_writer.encrypt("swordfish")
result_pdf = open(r".\pydata\encryptedminutes.pdf", "wb")
pdf_writer.write(result_pdf)
result_pdf.close()
pdf_file.close()

PDFファイルを暗号化するには、PdfFileWriterオブジェクトのwriteメソッドを使って書き込む前に、PdfFileWriterオブジェクトの encrypt メソッドに設定するパスワードを渡すことでできる

# Word文書を読み込む

In [14]:
import docx
doc = docx.Document(r".\pydata\demo.docx")
len(doc.paragraphs)

7

In [15]:
doc.paragraphs[0].text

'Document Title'

In [16]:
doc.paragraphs[1].text

'A plain paragraph with some bold and some italic'

In [17]:
len(doc.paragraphs[1].runs)

4

In [18]:
doc.paragraphs[1].runs[0].text

'A plain paragraph with some '

In [19]:
doc.paragraphs[1].runs[1].text

'bold'

In [20]:
doc.paragraphs[1].runs[2].text

' and some '

In [21]:
doc.paragraphs[1].runs[3].text

'italic'

DocxモジュールではWord文書を3種類のデータ型として表現している

Documentオブジェクトは文書全体を表し、Paragraphオブジェクトが文書の段落を表し、Runオブジェクトが同じスタイルの文字列を表す

上では、dockモジュールの Document 関数にファイルのパスを渡し、文書すべての内容が入った Document オブジェクトを生成している

そのDocumentオブジェクトには、paragraphs アトリビュートがあり、段落ごとにリストとして分けられた paragraphs オブジェクトがある

paragraphsオブジェクトには text アトリビュートがあり、格納されている文字列を取り出すことができる

paragraphsオブジェクトには runs アトリビュートもあり、文字列のスタイルごとに分けられた runs オブジェクトがリストとして格納されている

runsオブジェクトにも text アトリビュートがあり、違う文字列のスタイルが使われるごとに区切られた文字列を取り出すことができる

# .docxファイルから全テキスト取得する関数を作る

In [None]:
# ファイル名をreadDocx.pyにしたとする
import docx

def get_text(filename):
    doc = docx.Document(filename)
    full_text = []
    for para in doc.paragraphs:
        full_text.append(para.text)
    return "\n".join(full_text)

上のような関数を作れば `import readDocx` として呼び出すことで get_text 関数を使えるようになり、ファイル名を渡すだけですべてのテキストを取得することが容易にできるようになる

# PragraphとRunオブジェクトにスタイルを設定する

word文書には3種類のスタイルがあり、段落スタイルはParagraphオブジェクト、文字スタイルはRunオブジェクト、リンクスタイルは両方に設定する

設定するときはParagraphオブジェクトとRunオブジェクトの style アトリビュートに、設定したいスタイル名を代入することでできるのだが、

Runオブジェクトに対しては注意が必要で、スタイル名の後に Char をスペースでつないで入力しなければならない

`paragraph_obj.style = "Quote"`
`run_obj.style = "Quote Char"`

# Runの属性

In [22]:
import docx
doc = docx.Document(r".\pydata\demo.docx")
doc.paragraphs[0].text

'Document Title'

In [23]:
doc.paragraphs[0].style

_ParagraphStyle('Title') id: 2166024619592

In [24]:
doc.paragraphs[0].style = "Normal"
doc.paragraphs[1].text

'A plain paragraph with some bold and some italic'

In [25]:
(doc.paragraphs[1].runs[0].text,doc.paragraphs[1].runs[1].text,doc.paragraphs[1].runs[2].text,doc.paragraphs[1].runs[3].text)

('A plain paragraph with some ', 'bold', ' and some ', 'italic')

In [26]:
doc.paragraphs[1].runs[0].style = "Quote Char"
doc.paragraphs[1].runs[1].underline = True
doc.paragraphs[1].runs[3].underline = True
doc.save(r".\pydata\restyled.docx")

上では、Paragraphオブジェクトのtextとstyleを調べ、styleをNormalに設定している

そして2つ目のParagraphオブジェクトの中のRunオブジェクトのテストを調べ、1番目のstyleをQuote、3番目と4番目にunderline(下線)を引いている

最後にDocumentオブジェクトの save メソッドでファイルに保存している

Run属性には様々なスタイル属性があり、True、False、None の3種類の値を設定可能

Trueはstyleにかかわらず常に有効、Falseはstyleにかかわらず常に無効、Noneはstyleの設定によって変更される

Runオブジェクトの属性一覧

|属性|説明|
|:-|:-|
|bold|太字|
|italic|斜線|
|underline|下線|
|strike|取り消し線|
|double_strike|二重取り消し線|
|all_caps|すべて大文字|
|small_caps|小型大文字、小文字は2ポイント小さく|
|shadow|影付き|
|outline|文字の輪郭|
|rtl|右から左へ|
|imprint|凹み|
|emboss|エンボス(レリーフ)|

# Word文書を書き込む

In [27]:
import docx
doc = docx.Document()
doc.add_paragraph("Hello World!")

<docx.text.paragraph.Paragraph at 0x1f84fe18548>

In [28]:
doc.save(r".\pydata\helloworld.docx")

docxモジュールの Document 関数の引数を渡さずにDocumentオブジェクトを生成すると白紙の文書として新しく作ってくれる

Documentオブジェクトの add_paragraph メソッドに文字列を入れると、その文字列を段落として文書に追加してParagraphオブジェクトを返してくれる

最後にDocumentオブジェクトのsaveメソッドを使ってファイルに保存する

In [29]:
doc = docx.Document()
doc.add_paragraph("Hello World!","Title")

<docx.text.paragraph.Paragraph at 0x1f8511ffb48>

In [30]:
para_obj1 = doc.add_paragraph("これは第2段落です")
para_obj2 = doc.add_paragraph("これは第3段落です")
para_obj1.add_run(" これは第2段落に追加したテキストです")

<docx.text.run.Run at 0x1f852202508>

In [31]:
doc.save(r".\pydata\multipleParagraphs.docx")

Documentオブジェクトに対して何度か add_paragraph を呼ぶと新しい段落を追加することができる

またParagraphオブジェクトにも add_run メソッドがあり、既存のParagraphオブジェクトに対して使うと末尾にテキストを追加することができる

add_runメソッドを使ってテキストを入力するとRunオブジェクトを返す

add_paragraph と add_run メソッドの第二引数にはスタイルを渡すこともできる

# 見出しを追加する

In [32]:
import docx
doc = docx.Document()
doc.add_heading("Header 0", 0)

<docx.text.paragraph.Paragraph at 0x1f852202148>

In [33]:
doc.add_heading("Header 1", 1)

<docx.text.paragraph.Paragraph at 0x1f852206948>

In [34]:
doc.add_heading("Header 2", 2)

<docx.text.paragraph.Paragraph at 0x1f852206588>

In [35]:
doc.add_heading("Header 3", 3)

<docx.text.paragraph.Paragraph at 0x1f85121b248>

In [36]:
doc.add_heading("Header 4", 4)

<docx.text.paragraph.Paragraph at 0x1f851209808>

In [37]:
doc.save(r".\pydata\headings.docx")

Documentオブジェクトの add_heading メソッドの第一引数に文字列と第二引数に0～4の整数を渡すことで見出しを追加することができる

見出しを追加すると、そのParagraphオブジェクトを返してくれる

第二引数の整数は、0がタイトル見出しを表し、1～4が見出しのレベルを表し、1が大見出し、4が最小の小見出しになる

# 改行と改ページを追加する

In [38]:
import docx
doc = docx.Document()
para_obj = doc.add_paragraph("これは1ページの1行目のテキスト")
run_obj = para_obj.add_run(" これは1行目の追加テキスト")
run_obj.add_break()
para_obj.add_run("これは2行目の追加テキスト")

<docx.text.run.Run at 0x1f84fa60f08>

In [39]:
doc.add_page_break()

<docx.text.paragraph.Paragraph at 0x1f851212148>

In [40]:
doc.add_paragraph("これは2ページ目のテキスト")

<docx.text.paragraph.Paragraph at 0x1f8511ea288>

In [41]:
doc.save(r".\pydata\twoPage.docx")

新しい段落を開始せずに(新しいParagraphオブジェクトを作らずに)改行するには、Runオブジェクトの add_break メソッドを呼ぶことでできる

改ページを追加するにはDocumentオブジェクトの add_page_break メソッドを呼ぶことでできる

# 図を追加する

In [44]:
doc = docx.Document()
para_obj = doc.add_paragraph("引き延ばされた")
run_obj = para_obj.add_run("　猫のロゴ")
doc.add_picture(r".\pydata\catlogo.png", width=docx.shared.Inches(4), height=docx.shared.Cm(6))

<docx.shape.InlineShape at 0x1f85220c208>

In [45]:
doc.save(r".\pydata\catlogo.docx")

画像を追加するにはDocumentオブジェクトの add_picture メソッドに画像ファイルのあるパスを渡すことで、文末に画像を追加してくれる

その際に width と height を指定でき、値は dock.shared.Inches もしくは dock.shared.Cm のどちらかに長さを入れることで決めることができる