# Chapter06: 

## 問題120: モジュールの読み込みとimport文

今までも何度か、`os`モジュールや `random`モジュール、`pathlib`モジュールなど使ってきました。

利用したいモジュールやパッケージを利用するためには、**import** 文を使用します。

import文には、いくつか使用パターンがあるので、まず、そちらを紹介します。

### import文

通常のモジュール読み込みで使用する構文です。使用したいモジュール名をimportする形です。

```python
    import モジュール名

    ## 使用例: pathlibを使用
    import pathlib

```

### from ~ import ~ 文

**from** 句を使用する場合、特定の関数やクラスのみを使用したい場合、利用されます。

記述したコードで、`pathlib.Path` しか使わない場合、`pathlib` から   `Path` をimportするだけで良さそうですね。

**from** を使うかどうかの判断は、記述したコード内で利用するモジュールに含まれる特定の関数のみの使用の場合、fromを使います。

```python
    from モジュール名 import 利用したい関数やクラス

    ## 使用例: pathlibからPathクラスをimport
    from pathlib import Path
```

### import ~ as ~ 文

`as`句は、importしたモジュールや関数・クラスに別名をつけ扱うことができます。

```python
    import モジュール名 as 別名

    ## 使用例
    import pathlib as pl
    ### このスクリプトではplとして扱われる
    pl.Path("input")
```

### その他

その他の構文はありませんが、import文は、自作したモジュールも呼び出すことができます。

例題として、`input/samplemodule.py`をimportしてみましょう。

`samplemodule.py`には、hello()が定義されています。

これを以下のコード欄で呼び出して使用してみましょう。


In [None]:
#コードを記述


### 問題120 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    from input import samplemodule
    samplemodule.hello()
```

実行結果
```python
    hello, this script : 
    <コンピュータ上の任意の場所が表示>python/pybeginner_training100/source/input/samplemodule.py
```

</details>
 
import文は、開発現場では非常に大切な要素になるので、しっかり学習しておきましょう。

* 参考 [5. インポートシステム - docs.python.org](https://docs.python.org/ja/3/reference/import.html)
* 参考 [Python, importの使い方（from, as, PEP8の推奨スタイル, 注意点など）- note.nkmk.me](https://note.nkmk.me/python-import-usage/)

---

## 問題121: モジュールとパッケージと\_\_init\_\_.pyについて

ここでは、モジュールとパッケージの違いについてご紹介します。

さらにPythonではライブラリという用語もよく使われます。一旦ここで用語の整理をしていきます。

それぞれを簡単にまとめると、

### モジュールとは
関数やクラスなどを集めた `.py` のことを指し、他のプログラムから再利用できるようにしたファイルのことです。そのため、先ほど問題119で実行した `input/samplemodule.py` は関数をまとめた `.py` となるためモジュールです。

![module](img/module.png)

### パッケージとは
モジュールを集めたモジュール群のことを指し、\_\_init\_\_.pyと複数のモジュールがディレクトリに集まったものです。類似した機能がまとまったモジュール群をディレクトリごと、importしたい場合、パッケージとして扱った方がいいです。

![package](img/package.png)

### ライブラリとは
ある程度まとまった汎用性の高い処理（関数・クラス・その他）を他のプログラムから読み込むことで、使うことが出来るようにしたファイル。よくサードパッケージの `numpy` や `pandas`、`openpyxl`、`OpenCV`などがこれにあたります。また、setup.pyを使った自作ライブラリなども該当します。

![library](img/library.png)

おそらく最初のうちは、

* **「 `import XXX` 利用できるもの」= ライブラリ**
* **「 `import XXX` 利用できるもの」= モジュール**

ぐらいで構いません。

しかし、少し規模が大きい開発になってくると、モジュールやパッケージの違いはしっかり理解する必要があります。



### 問題121 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

特にありません。

</details>
 
<br>

* 参考 [6. モジュール - docs.python.org](https://docs.python.org/ja/3/tutorial/modules.html)
* 参考 [Python でモジュール／パッケージを作成する - まくまくPythonノート](https://maku77.github.io/python/env/create-module.html)

---

## 問題122: \_\_init\_\_.py 不要説と正しい理解

Pythonのパッケージやモジュールの勉強をしていると、`__init__.py` というファイルをよく見かけると思います。

この問題では、`__init__.py` の役割と必要性を考えていきたいと思います。

結論としては、名前空間パッケージを使用しないのであれば、`__init__.py` は必要です。これが理解できている方やパッケージをどう設計するかという議論は今はいいという方は、以下の内容を読まなくても大丈夫です。

### \_\_init\_\_.pyの役割

ある程度大きい規模の開発であれば、以下のようなケースに遭遇するかと思います。

```bash
    (myapp):root directory
    |-- app.py
    |-- __main__.py
    |-- main.py
    |-- module/
        |-- __init__.py <--こういうやつ
        |-- mymodule.py
```

上記のケースでは、ファイルを含むディレクトリをパッケージとしてPythonに認識させるためには、`__init__.py` が必要になってきます。

> 参考：(モジュール - docs.python.org)[https://docs.python.org/ja/3/tutorial/modules.html?highlight=import#packages]

この `__init__.py` は、大抵空ファイルで置かれることがあります。このファイルはなぜ必要なのでしょうか。

`__init__.py` は、モジュールやパッケージの初期化の役割を果たします。

* モジュール検索のためのマーカー
* ディレクトリ名を名前とする名前空間の初期化

まずこの2点を押さえておけば大丈夫かと思います。
> 以下の記事は、pythonの通常パッケージと\_\_init__.pyについて非常によくまとまっています。  
> 参考: [Python の __init__.py とは何なのか - Qitta](https://qiita.com/msi/items/d91ea3900373ff8b09d7)  
> 参考：[6. モジュール - docs.python.org](https://docs.python.org/ja/3.10/tutorial/modules.html)

pythonがディレクトリ自体をパッケージだと認識させるためには、この `__init__.py` が必要となってきます。

この`__init__.py`があることによって、パッケージの名前衝突を避け、モジュール検索のマーカーとなることで、正しいモジュールを意図せず隠蔽されるのを防ぐためです。

<br>

### ネットで調べると `__init__.py` 不要と聞いたけど。。。

しかし、色々な技術ブログなんかを見ると、

* **最新のバージョンであればPythonは、 `__init__.py` が不要**

という `__init__.py不要議論` が散見されます。

確かにこの情報は、正しいですが、色々と間違っています。さらに、結構な人が**新しいバージョンのPythonであれば、パッケージ = \_\_init\_\_.py不要** と認識しています。これは誤った認識だと思っています。

<br>

この話の元々の所以として、python3.3以降からは、[PEP420](https://peps.python.org/pep-0420/)で **Implicit Namespace Packages** が公開されました。これはご存じの方も多かもしれません。

これにより、**名前空間パッケージ** を利用する場合、ディレクトリに `__init__.py`を配置しなくても、Pythonはディレクトリを名前空間パッケージとして扱い、動的に検索をしてくれるといったものです。そもそも、名前空間パッケージとは、単一のPythonパッケージをディスク上の複数のディレクトリに分割するためのメカニズムです。

<br>

この時点でお分かりの通り、Pythonには、**通常パッケージ** と **名前空間パッケージ** という定義があり、この2つを使い分けて公式ドキュメントにも記載があります。

> 参考: [5.2.1. Regular packages](https://docs.python.org/3.10/reference/import.html#regular-packages)  
> Python defines two types of packages, regular packages and namespace packages. Regular packages are traditional packages as they existed in Python 3.2 and earlier. A regular package is typically implemented as a directory containing an __init__.py file. When a regular package is imported, this __init__.py file is implicitly executed, and the objects it defines are bound to names in the package’s namespace. The __init__.py file can contain the same Python code that any other module can contain, and Python will add some additional attributes to the module when it is imported.  

> 参考: [5.2.2. Namespace packages](https://docs.python.org/3.10/reference/import.html#namespace-packages)
> With namespace packages, there is no parent/__init__.py file. In fact, there may be multiple parent directories found during import search, where each one is provided by a different portion. Thus parent/one may not be physically located next to parent/two. In this case, Python will create a namespace package for the top-level parent package whenever it or one of its subpackages is imported.

<br>

上記のことから分かる通り、**通常パッケージ**を利用するのであれば、必ず `__init__.py` をディレクトリに配置するべきです。

しかし、**名前空間パッケージ** を利用する場合、`__init__.py` は配置してはいけません。正しく認識されません。(正しい__path__が配置されません。)

<br>

さらに、よくないことに、**名前空間パッケージ** という概念とユースケースはかなりややこしいです。

Pythonは、**The Zen of Python** で「Namespaces are one honking great idea -- let's do more of those!」と言及している通り、名前空間を使いこなすことを推奨しています。

しかし、ユースケースは、かなり大規模な開発か、もしくは特殊ケースのどちらかです。私も名前空間パッケージを考慮したパッケージを構築した経験はありません。

そのため、この名前空間パッケージについて詳しく語るのはやめておきます。

<br>

というように、**`__init__.py` は新しいバージョンでは不要** という認識は、少し誤りがあります。

また、`__init__.py` が存在しないことにより、「importが遅くなる」「Unittestが対応していないので使えない」などの弊害報告も散見されます。

確かに、`__init__.py` がないことにより、`__path__`に格納された情報を再ロード動的に再検索し続けなければいけないので、通常パッケージ利用を想定しているのに、名前空間パッケージ構築をしてしまうと、非常に遅くなるのは明らかです。Pythonはどの言語よりぶっちぎりで実行速度が遅い上、これ以上遅くなられては困ります。

<br>

Pythonにおいて、パッケージの利用は非常に重要な項目ですので、是非公式ドキュメントを読み込んでみてはいかがでしょうか。


### 問題122 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python

```

実行結果
```python

```

</details>
 
<br>

* 参考 [5.2.2. 名前空間パッケージ](https://docs.python.org/3.10/reference/import.html#namespace-packages)
* 参考 [PEP 420 – Implicit Namespace Packages](https://peps.python.org/pep-0420/)
* 参考 [Namespace vs regular package - stackoverflow](https://stackoverflow.com/questions/21819649/namespace-vs-regular-package)
* 参考 [__init__.py を省略してはいけない - Qitta](https://qiita.com/methane/items/ed1e5b74747f3ffe9324)

---

## 問題123: \_\_name\_\_ == \_\_main\_\_ とは

`__name__ == __main__` は、Pythonの学習をしていると、かなりの頻度で目にする記述ではないでしょうか。

この意味と必要性について学習していきます。

この一文は以下のような感じでしようされることがほとんどです。以下のようなコード `samplemod.py` に記述されていたとします。

```python
    # samplemod.py
    # 以下のコードは説明用のサンプル
    def calc_movie_ticket():
        """チケット枚数を数える関数"""
        ...

    def amount():
        """calc_movie_ticket()を使って合計を計算"""
        ...

    if __name__ == "__main__":
        amount()
```

通常であれば、定義した関数をモジュールとして、別のスクリプトから呼び出して使用することでしょう。しかし、時と場合によっては、この `samplemod.py` をスクリプトとして使用したいときもあります。

そこで、モジュールをスクリプトとして扱うために、使用する一文が `__name__ == __maine__` です。

<br>

おそらく言葉で説明してもよくわからないかもしれないので、実際に手を動かしてやってみましょう。

まず、このファイルが配置されているフォルダでもいいので、`main.py`というファイルを作成し、以下の一文を入れて、コマンドプロンプトやコンソール上で `python main.py` と実行してみてください。

In [None]:
# main.pyを作成し、以下の一文を追加
print(__name__)

実行すると、おそらく`__main__` と表示されるかと思います。

要するに、「今私が実行しているスクリプトは、main実行しているスクリプト」ということを表しています。

続いて、`print(__name__)` を、別のスクリプト`submod.py` を作成・記述し、これを先ほどの `main.py` から呼び出してみましょう。

```python
    # submod.pyを作成し、以下のように記述
    print('submod.py : ', __name__)
```

そして、以下のように、`main.py` を直し実行してみてください。

このアンダースコアが2つ並んだワードは、**dunder(ダンダー)メソッド** といい、特殊メソッドとして扱われます。

In [None]:
# mian.pyからsubmod.pyをimportする
import submod

print(__name__)

以下のような実行結果になったと思います。

```python
    submod.py :  submod
    __main__
```

`submod.py` から読み込んだ `__name__` はファイルやモジュールから読み込まれた場合、そのファイル名が格納されます。ちなみに、`import` した時点で `print()` が実行されるのは、import した時点でインタプリタが処理を走らせるためです。def文も処理が走っていますが、importされた時点でスタックフレームに積まれるという処理ですので、実際の内部の処理が実行されるわけではありません。

試しに、`submod.py` の先頭行に以下のような関数を追加してみましょう。

```python
    # submod.pyの先頭行に以下の文を追加。
    def hello():
        return "hello world"
```

この状態で、`python main.py` を実行してみましょう。

おそらく先ほどと同じ結果になったと思います。特に`hello world` などは出力されないかと思います。

<br>

しかし、例えば、「 `hello()` をテストで動かしてみたいな」と思って、`submod.py` に以下のようなコードを、他の誰かが追加してしまったとしましょう。

```python
    # submod.py行に以下のようなコードを追加
    def hello():
        print("hello world")
    
    print(hello()) #追加

    print('submod.py : ', __name__)
```

これで `main.py (python3 mian.py)`を実行すると、

In [None]:
# mian.pyからsubmod.pyをimportする
import submod

print(__name__)

以下のような実行結果となると思います。

```python
    hello world
    submod.py :  submod
    __main__
```

デバッグ用に追加したコードが勝手に実行されてしまいました。

そこで役に立つのが、`__init__ == __main__` です。

`submod.py` を以下のように修正して、`main.py` を実行してみましょう。

```python
    # submod.py行に以下のようなコードを追加
    def hello():
        print("hello world")

    if __name__ == "__main__": #追加    
        print(hello()) 
        print('submod.py : ', __name__)
```

こうすることで、`hello()` は実行されません。

`main.py` を実行すると、`submod.py` の `__name__` は `submod` ですので、if文の判定が`False`になり、if文以下で定義したコードが実行されません。

<br>

このように、`if __name__ == "__main__"` の役割は、

* そのコードを直接実行する：スクリプトとして扱う
* そのコードを他のスクリプトから呼び出す：モジュールとして扱う

という処理を区別するためのマーカー代わりになっているとも言えます。

これは、非常に重要な一文ですので、必ず押さえておいてください。


### 問題123 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

特にありません。

</details>
 
<br>

* 参考 [6.1.1. モジュールをスクリプトとして実行する - docs.python.org](https://docs.python.org/ja/3/tutorial/modules.html#executing-modules-as-scripts)

---

ここからは、少し色々なパッケージを使って学習していきましょう。

## 問題124: Wordを読み込んでみよう

PythonでWordファイルを読み取ってみましょう。

今回使用するライブラリは、`python-docx` です。このライブラリはサードパーティパッケージで、主に、**Word**ファイルを操作することが可能です。

おそらく、皆さんも実務でWord文書を扱うことは多いのではないでしょうか。

まず、ライブラリをインストールするためには、以下のコマンドを実行しましょう。

```bash
$ pip install python-docx
```

<br>

早速使ってみましょう。

まずは、今回読み込むサンプルとして、`input` フォルダに `sample_word.docx`を入れておきました。このドキュメントを使ってライブラリを試していきます。

### word文書の読み込み

まずライブラリをimportしましょう。

```python
    import docx
```

### wordファイルの読み込み

wordファイルは、`docx.Document()`で読み込みます。

```python
    doc = docx.Document("読み込むwordファイルパス")
```

### 問題

その後、word文書を読み込み、1行ずつ表示してみましょう。変数 `cnt`は行数として利用します。

```python
    import docx

    doc = docx.Document("input/sample_word.docx")

    for cnt, para in enumerate(doc.paragraphs):
        print(cnt+1, para.text)
```

word文書のテキストは、`Paragraph`オブジェクト から取得できます。`Paragraph`オブジェクトは、リストでテキストオブジェクトが格納されるので、それをfor文等でイテレーションを回すことでテキストを取得できます。

In [None]:
#コードを記述

また、よく見かけるユースケースで、過去の検査や実験結果を表としての報告書に記載することはあるのではないでしょうか。過去のwordファイルから一括で表のデータを取得して、集計することも可能です。

`input/sample_word.docx` にも、表データを載せています。その表を取得して、全ての値を表示してみましょう。以下のコードを実行してみましょう。

```python
    init_table = doc.tables[0]
    for row_index, row in enumerate(init_table.rows):
        for col_index, cell in enumerate(row.cells):
            print(f"{row_index+1}行 {col_index+1}列 : 値 {cell.text}")
```

In [None]:
# 表データを表示してみる
    

### 問題124 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    import docx

    doc = docx.Document("input/sample_word.docx")

    for cnt, para in enumerate(doc.paragraphs):
        print(cnt+1, para.text)

    # 表データを表示してみる
    # 最初の表だけを処理対象とする
    init_table = doc.tables[0]
    for row_index, row in enumerate(init_table.rows):
        for col_index, cell in enumerate(row.cells):
            print(f"{row_index+1}行 {col_index+1}列 : 値 {cell.text}")
```

実行結果
```python
    1 
    2 Python基礎100本ノック
    3 Python初心者から１歩前進するための写経用テキスト
    4 
    5 
    6 
    7 
    8 
    9 作成日：2020年12月19日
    10 更新日：2021年10月16日
    11 ゼロから始めるPython講座配布資料

    12 はじめに
    13 以下の画像はサンプル画像です。
    14 
    15 表サンプル：実験結果
    16  

    1行 1列 : 値 実験日
    1行 2列 : 値 Sample1
    1行 3列 : 値 Sample2
    1行 4列 : 値 Sample3
    2行 1列 : 値 9/1
    2行 2列 : 値 10
    2行 3列 : 値 11
    2行 4列 : 値 12
    3行 1列 : 値 9/2
    3行 2列 : 値 120
    3行 3列 : 値 32
    3行 4列 : 値 42
    4行 1列 : 値 9/3
    4行 2列 : 値 133
    4行 3列 : 値 12
    4行 4列 : 値 87
    5行 1列 : 値 9/4
    5行 2列 : 値 67
    5行 3列 : 値 63
    5行 4列 : 値 43
    6行 1列 : 値 9/5
    6行 2列 : 値 100
    6行 3列 : 値 90
    6行 4列 : 値 11
```

</details>

<br>

表データを扱う方法について

`docx.table.Table` オブジェクトから表情報を取得できます。

word全体の表情報は、`doc.tables`にリストで取得できます。今回は、表はドキュメント内に1つしかないですが、明示的に最初の表だけを処理対象としたいので、`doc.tables[0]` としました。

あとは、for文を使って、`row` と `cells` から順にデータを取得するだけです。
 

* 参考 [python-docx - python-docx.readthedocs.io](https://python-docx.readthedocs.io/en/latest/)
* 参考 [python-docx 0.8.11](https://pypi.org/project/python-docx/)
* 参考 [python-docxによるWordファイル操作方法のまとめ - GAMMASOFT](https://gammasoft.jp/support/how-to-use-python-docx-for-word-file/)

---

## 問題125: PythonでWordを処理してみよう

それでは、先ほど読み込んだwordファイルに、Pythonを使って何か追記して新規ファイルとして保存してみましょう。

### 書式：新規でwordファイルを保存する

wordファイルを保存する場合、`save`メソッドを使います。

```python
    doc = docx.Document(<読み込むwordファイルパス>)
    doc.save(<保存先wordファイルパス>)
```

### 書式：末尾に段落を追加する

`add_paragraph` を使うとテキストを挿入できます。

```python
    doc.add_paragraph('追加する文書')
```

### 問題

それでは、先ほどと同様、`input/sample_word.docx` の行から、空白行には、`empty`を追加し、最終行に"hello world"を追加して、`output/result_word.docx` を新規保存してみましょう。

```python
    import docx

    doc = docx.Document("input/sample_word.docx")

    for cnt, para in enumerate(doc.paragraphs):
        print(cnt+1, para.text)
```

In [15]:
#コードを記述


### 問題125 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    import docx
    doc = docx.Document("input/sample_word.docx")
    for cnt, para in enumerate(doc.paragraphs):
        if not para.text:
            para.text = "empty"

    doc.add_paragraph("hello world")
    doc.save("output/result_word.docx")
```

実行結果

実際にドキュメント `output` フォルダにある `result_word.docx` を開いて確認してみましょう。

空白行には、"empty"と追加され、最後の行にはhello worldと表示されていると思います。

</details>

このライブラリを使えば、決まり切った定型的なドキュメント作成・編集作業を自動化することができ、さらに、過去のドキュメントからも簡単に情報が抜き出せるので、是非使ってみてください。 

もっと知りたいときは、以下の参考資料を確認して習得してみてください。

* 参考 [python-docx](https://python-docx.readthedocs.io/en/latest/index.html)
* 参考 [python-docxによるWordファイル操作方法のまとめ - GAMMASOFT](https://gammasoft.jp/support/how-to-use-python-docx-for-word-file/)

---

## 問題126: PDFデータを読み込んでみよう

### PythonでPDFを扱うためには

PythonでPDFを読み込むためのライブラリは、いくつかあります。例えば、
* PyPDF2
* pdfminer.six
というライブラリがあります。

**`PyPDF2` は、PDFファイルのページを分割、結合、トリミング、変換できるPythonのPDFライブラリです。**

<br>

まず、`PyPDF2` を使ってPDFファイルを開いてみましょう。

今回、`input` フォルダに **126_About_python_wiki.pdf** を格納したため、そちらを開きます。まずはご自身のPCに対象のPDFをインストールして、クリックして普通に開いて中身を確認しましょう。

確認できたら、このPDFをPythonでインストールしていきます。

`PyPDF` を使ってPDFからテキストを抽出するためには、`PdfReader()` の `extract_text()` メソッドを使います。以下の流れでPDFからテキストが抽出ができます。

```python
    import PyPDF2

    with open("input/126_About_python_wiki.pdf", mode="rb") as f:
        reader = PyPDF2.PdfFileReader(f)
        page_one = reader.getPage(0)
        print(page_one.extractText())
```

In [None]:
#PyPDFを使ってPDFを読み取る


PDFの内容を読み取ることが出来ました。しかし、`PyPDF2`の欠点は、日本語のに対応していないという点です。

そのため、PDFからテキストを読み取って処理をするということを目的としている場合、`pdfminer.six` を利用しましょう。

また、既にライブラリの開発が終了している点も、このライブラリを使うのはやめた方が良さそうです。

Pythonライブラリは、盛んに開発が行われているライブラリと、そうでないライブラリがありますので、企業で使う場合、注意して選定しましょう。

<br>

`pdfminer.six` は、先ほども説明した通り、テキスト抽出で日本語対応した、PDF処理Pythonライブラリです。PDFを様々な情報を抽出することができます。  
たとえば、テキストデータの正確な位置(座標)、フォントの種類、色を抽出できます。

それでは、同じPDFファイル **input/126_About_python_wiki.pdf** を、`pdfminer.six`を使って読み込んでみましょう。

```python
    from pdfminer.high_level import extract_text

    text = extract_text("input/126_About_python_wiki.pdf")
    print(text)
```


In [None]:
# pdfminer.sixを使ってPDFを読み取ってみましょう


### 問題126 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

* PyPDFをつかってPDFを読み取る
```python
    import PyPDF2

    with open("input/126_About_python_wiki.pdf", mode="rb") as f:
        reader = PyPDF2.PdfFileReader(f)
        page_one = reader.getPage(0)
        print(page_one.extractText())
```

* pdfminer.sixでPDFを読み取る
```python
    from pdfminer.high_level import extract_text

    text = extract_text("input/126_About_python_wiki.pdf")
    print(text)
```

</details>

おそらく、直観的には `pdfminer.six` の方が簡単にpdfが読み込めたのではないでしょうか。

また、PythonでPDFを処理する際に、よくある問題が、PDFが思った通りに読み込めないという問題です。

PDF内の表、図形、段落や改行などによって、こちらが想定しない順番でテキストを読み込む可能性があります。

その場合、プログラムを微調整して処理するしかありません。そこは腕の見せ所だと思っています。


* 参考 [PyPDF2 へようこそ - pypdf2.readthedocs.io](https://pypdf2.readthedocs.io/en/latest/)
* 参考 [Extract Text from a PDF - pypdf2.readthedocs.io](https://pypdf2.readthedocs.io/en/latest/user/extract-text.html#extract-text-from-a-pdf)
* 参考 [pdfminer.six 20220524 - pypi.org](https://pypi.org/project/pdfminer.six/)

---

## 問題127: PDFデータを結合・分割してみよう

### PDFを結合する

続いて、`PyPDF2`を使って、PDFを結合していきましょう。

`input` フォルダに格納した `127_sample.pdf` と、`126_About_python_wiki.pdf` を結合してみましょう。`126_About_python_wiki.pdf` は、前回の問題で扱ったPDFファイルです。

また、結合後のファイルは、`output` フォルダに、`127_concat_newfile.pdf` としましょう。

結合する手順としては、

1. `PdfFileMerger`クラスのオブジェクトを生成
2. 結合したいPDFファイルを`append()`で追加する
3. 2で追加したPDFファイルを、新規PDFに書き出す
4. `PdfFileMerger`で開いたPDFを閉じる( `close()` )ファイルは開いたら、閉じる処理を実行しましょう。

それでは、PDFを結合してみましょう。

```python
    import PyPDF2

    # オブジェクトを作成
    concat_pdf_object = PyPDF2.PdfFileMerger()
    # 結合したいファイルを追加する
    concat_pdf_object.append("input/127_sample.pdf")
    concat_pdf_object.append("input/126_About_python_wiki.pdf")
    # 新規ファイルに書き出す
    concat_pdf_object.write("output/127_concat_newfile.pdf")
    # ファイルを閉じる
    concat_pdf_object.close()
```

In [1]:
# pdfを結合する


### PDFを途中に挿入する

今度は、先ほど結合したPDFの1ページの後に、`input`フォルダに格納されている `127_sample_insert.pdf`　を挿入して結合しましょう。

挿入の流れは結合の手順と変わらないですが、`merge`メソッドを使ってページ指定の挿入を行います。

1. `PdfFileMerger`クラスのオブジェクトを生成
2. 結合したいPDFファイルを`append()`で 追加する
3. `merge`メソッドを利用して、**ページ数を指定して** 追加する
4. 2で追加したPDFファイルを、新規PDFに書き出す
5. `PdfFileMerger`で開いたPDFを閉じる( `close()` )ファイルは開いたら、閉じる処理を実行しましょう。

今回初めて、`merge`というメソッドを使います。

```bash
# Msergeの書式
    merge(
        position: int,
        fileobj: Union[pathlib.Path, str, _io.BytesIO, _io.BufferedReader, _io.BufferedWriter, _io.FileIO, PyPDF2._reader.PdfReader]) -> None
    Merge the pages from the given file into the output file at the
    specified page number.
```

それでは、結合していきましょう。

結合後のファイルは、`output/127_insert_newfile.pdf` としましょう。

```python
    import PyPDF2

    # オブジェクトを作成
    concat_pdf_object = PyPDF2.PdfFileMerger()
    # 結合したいファイルを追加する
    concat_pdf_object.append("output/127_concat_newfile.pdf")
    # 第1引数のpositionで挿入位置を指定
    concat_pdf_object.merge(1, "input/127_sample_insert.pdf")
    # 新規ファイルに書き出す
    concat_pdf_object.write("output/127_insert_newfile.pdf")
    # ファイルを閉じる
    concat_pdf_object.close()
```

In [3]:
# ページ数を指定してPDFを結合する


### PDFを分割する

それでは、続いて指定したページでPDFを分轄してみましょう。

`PyPDF2` にはPDF分割のメソッドは用意されていません。

そのため、PDFを分割する流れは、以下のような手順で実施します。

* `PdfFileMerger()`のインスタンスを生成
* `append()`メソッドで、ページ範囲を指定してオブジェクトに追加
* `write()`メソッドで、追加したページを新規ファイルに書き込みする
* `close()`メソッドで、開いたPDFを閉じる

分割するPDFは、`input/127_b2015_202208sj.pdf` から1~2ページを取り出し、分割したファイルは、`output/split_new_file.pdf` としましょう。

ページ分割のコードは以下のようになります。

また、ページの分割のポイントは、`append()`の引数に、`pages`に `PyPDF2.pagerange.PageRange()`メソッドに分割したいページを`開始ページ:終了ページ`のように指定します。

```python
    # PDFをページを指定して分割
    import PyPDF2

    merger = PyPDF2.PdfFileMerger()
    # ページ範囲を指定してオブジェクトに追加
    merger.append('input/127_b2015_202208sj.pdf', pages=PyPDF2.pagerange.PageRange(':2'))
    # 追加したページを新規ファイルに書き込みする
    merger.write('output/split_new_file.pdf')
    # 開いたPDFを閉じる
    merger.close()
```

In [4]:
# PDFをページを指定して分割


### さらに応用に挑戦 : フォルダに配置されたすべてのPDFを結合してみる

これまでの問題の総括です。あるフォルダに格納されたPDFを分割してみましょう。

そこまで難しくないです、流れは、

* 特定のフォルダから拡張子`pdf`を取得する
* 取得したPDFの結合順番を並び替えたい場合もあると思うので、`sort()`をかけておく
* 1つ1つのファイルを`append()`する
* 新規PDFに書き出す

読み出すフォルダは、`output`とし、書き出すフォルダは`output/all_newfile.pdf`　とします。
(注意)これは、outputフォルダに格納した新規ファイルを結合対象とするため、実行するたびに、すべて結合したPDFも結合されてしまいます。

```python
    import glob
    import PyPDF2

    output_folder_list = glob.glob("output/*.pdf")
    output_folder_list.sort()

    pdfobj = PyPDF2.PdfFileMerger()
    for pdffile in output_folder_list:
        pdfobj.append(pdffile)
        
    pdfobj.write("output/all_newfile.pdf")
    pdfobj.close()
```

In [None]:
# outpuフォルダ内のPDFをすべて結合する


### 問題127 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

* PDFを結合するスクリプト

```python
    import PyPDF2

    concat_pdf_object = PyPDF2.PdfFileMerger()
    concat_pdf_object.append("input/127_sample.pdf")
    concat_pdf_object.append("input/126_About_python_wiki.pdf")
    # 新規ファイルに書き出す
    concat_pdf_object.write("output/127_concat_newfile.pdf")
    concat_pdf_object.close()
```

* ページを指定してPDFを結合する
```python
    import PyPDF2

    # オブジェクトを作成
    concat_pdf_object = PyPDF2.PdfFileMerger()
    # 結合したいファイルを追加する
    concat_pdf_object.append("output/127_concat_newfile.pdf")
    # 第1引数のpositionで挿入位置を指定
    concat_pdf_object.merge(1, "input/127_sample_insert.pdf")
    # 新規ファイルに書き出す
    concat_pdf_object.write("output/127_insert_newfile.pdf")
    # ファイルを閉じる
    concat_pdf_object.close()
```

* ページを指定してPDFを分割
```python
    # PDFをページを指定して分割
    import PyPDF2

    merger = PyPDF2.PdfFileMerger()
    # ページ範囲を指定してオブジェクトに追加
    merger.append('input/127_b2015_202208sj.pdf', pages=PyPDF2.pagerange.PageRange(':2'))
    # 追加したページを新規ファイルに書き込みする
    merger.write('output/split_new_file.pdf')
    # 開いたPDFを閉じる
    merger.close()
```

* outputフォルダのPDFをすべて結合する
```python
    import glob
    import PyPDF2

    output_folder_list = glob.glob("output/*.pdf")
    output_folder_list.sort()

    pdfobj = PyPDF2.PdfFileMerger()
    for pdffile in output_folder_list:
        pdfobj.append(pdffile)
        
    pdfobj.write("output/all_newfile.pdf")
    pdfobj.close()
```

</details>
 

* 参考 [Welcome to PyPDF2](https://pypdf2.readthedocs.io/en/latest/index.html)
* 参考 [Python, PyPDF2でPDFを結合・分割（ファイル全体・個別ページ）- note.nkmk.me](https://note.nkmk.me/python-pypdf2-pdf-merge-insert-split/)

---

## 問題128: 画像データを読み込んでみよう

In [None]:
#コードを記述


### 問題128 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python

```

実行結果
```python

```

</details>
 

* 参考 []()
* 参考 []()

---

## 問題129: 画像データを処理してみよう

In [None]:
#コードを記述


### 問題129 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python

```

実行結果
```python

```

</details>
 

* 参考 []()
* 参考 []()

---

## 問題130: Excelからpythonのコードを自動生成する:準備

In [None]:
#コードを記述


### 問題130 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python

```

実行結果
```python

```

</details>
 

* 参考 []()
* 参考 []()

---

## 問題131: Excelからpythonのコードを自動生成する:操作

In [None]:
#コードを記述


### 問題131 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python

```

実行結果
```python

```

</details>
 

* 参考 []()
* 参考 []()

---

## 問題132: Excelから自動生成したコードを処理してみる

In [None]:
#コードを記述


### 問題132 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python

```

実行結果
```python

```

</details>
 

* 参考 []()
* 参考 []()

---

## 問題133: Excelから自動生成したコードを統計処理にかけてみる

In [None]:
#コードを記述


### 問題133 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python

```

実行結果
```python

```

</details>
 

* 参考 []()
* 参考 []()

---

## 問題134: Excelから自動生成したコードを機械学習にかけてみる

In [None]:
#コードを記述


### 問題134 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python

```

実行結果
```python

```

</details>
 

* 参考 []()
* 参考 []()

---