# Chapter04: 

## 問題84: ファイルを操作する

テキストファイルやCSVファイルなど、Office関連ファイル(Word, Excelなど)を読み込んで処理したい時があると思います。

ここからは、実際にファイルを読み込ん処理してみましょう。

### ファイルを開く手順

1. ファイルを開く
2. ファイルデータを読み込む
3. ファイルを閉じる

ファイルを開く構文

![58-0](img/58-0.png)


### 問題

実際にファイルを読み込んで、ファイルの内容を出力してみましょう。

読み込むファイルは、`input` フォルダのに保存されている `sample84.txt` を読み込んでみましょう。

以下のコードを書いて実行してみましょう。

```python
    from pathlib  import Path

    # pathlib.Pathは異なるOSでPathを扱いため
    filepath = Path("input/sample84.txt")
    # Step1: ファイルを開く
    fileobj = open(filepath, mode="r")
    # Step2: ファイルを読み込む
    text = fileobj.read()
    # Step3: ファイルを閉じる
    fileobj.close()
    # ファイルの内容を表示する
    print(text)
```

In [None]:
#コードを記述

### 問題84 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    from pathlib import Path

    # pathlib.Pathは異なるOSでPathを扱いため
    filepath = Path("input/sample84.txt")
    # Step1: ファイルを開く
    fileobj = open(filepath, mode="r")
    # Step2: ファイルを読み込む
    text = fileobj.read()
    # Step3: ファイルを閉じる
    fileobj.close()
    # ファイルの内容を表示する
    print(text)
```

実行結果
```python
    これはサンプルテキストです。問題58で使用します。
```

</details>

ファイル処理は、基本の基本であるためしっかり習得しておきましょう。また、ファイルの `mode` と、`encoding` は以下のとおりです。

* モード(引数 `mode` )について
  
  | mode | 説明 |
  | :--- | :--- |
  | "r"  | 読み込み専用で開く(デフォルト) |
  | "w"  | 書き込み用で開く。ファイルが存在する場合は上書き保存 |
  | "x"  | 排他的な生成で開く。ファイルが存在する場合は失敗する |
  | "a"  | 書き込み用で開く。ファイルが存在する場合は追記      |
  | "b"  | バイナリモードで開く。画像など                   |
  | "t"  | テキストモードで開く。(デフォルト)               |
  | "+"  | 読み込み・書き込みモードで開く                   |

<br>

* エンコーディング(引数 `encoding`)について
  
  | encoding     | 説明       |
  | :----------- | :-------- |
  | "utf-8"      | UTF-8     |
  | "euc_jp"     | 日本語EUC  |
  | "iso2022_jp" | JIS       |
  | "shift-jis"  | SHift JIS |
 
<br>

* 参考 [open() - docs.python.org](https://docs.python.org/ja/3/library/functions.html#open)
* 参考 [Pythonでファイルの読み込み、書き込み（作成・追記） - note.nkmk.me](https://note.nkmk.me/python-file-io-open-with/)

---

## 問題85: ファイルへ書き込む

同様の手順で、ファイルに何か書き込んでみましょう。

ファイルへ書き込みを実行する関数は、`write()`で任意の内容をファイルに書き込むことができます。

### ファイルへ書き込む手順

1. ファイルを開く
2. ファイルデータを書き込む
3. ファイルを閉じる


### 問題

以下の変数の内容を、`output/sample_plain_text.txt` を作成し書き込んでみましょう。

```python
contents = "Hello Python! これはファイル書き込み練習です。"
```

以下のコードを写して書いて実行してみましょう。

```python
    from pathlib  import Path

    # pathlib.Pathは異なるOSでPathを扱いため
    filepath = Path("input/sample_plain_text.txt")
    # 書き込む内容
    contents = "Hello Python! これはファイル書き込み練習です。"
    # Step1: ファイルを開く
    fileobj = open(filepath, mode="w")
    # Step2: ファイルを読み込む
    fileobj.write(contents)
    # Step3: ファイルを閉じる
    fileobj.close()
    # ファイルの内容を確認してみましょう。
```

In [4]:
#コードを記述


### 問題85 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    from pathlib  import Path

    # pathlib.Pathは異なるOSでPathを扱いため
    filepath = Path("output/sample_plain_text.txt")
    # 書き込む内容
    contents = "Hello Python! これはファイル書き込み練習です。"
    # Step1: ファイルを開く
    fileobj = open(filepath, mode="w")
    # Step2: ファイルを読み込む
    fileobj.write(contents)
    # Step3: ファイルを閉じる
    fileobj.close()
    # ファイルの内容を確認してみましょう。
```

実行結果
```python
    実際にoutputフォルダを確認してみましょう。
```

`read()` を `write()` に変更するぐらいで特に問題なかったですね。

もし書き込みたい内容に改行等を入れたい場合、エスケープシーケンスや複数行で文字列を定義するといいと思います。

* モード(引数 `mode` )について
  
  | mode  | 説明             |
  | :---- | :-------------- |
  | "\n"  | 改行コードを入れる |
  | "\t"  | 水平タブを入れる   |
  | "\r"  | キャリッジリターン |

<br>

例：複数行文字を書き込む

```python
    from pathlib  import Path

    # pathlib.Pathは異なるOSでPathを扱いため
    filepath = Path("output/sample_plain_text.txt")
    # 書き込む内容
    contents = '''Hello Python!
    これはファイル書き込み練習です
    複数行を書き込む練習です。シングルクォーテーションを3つで囲むことで
    複数行書き込めます。
    '''
    # Step1: ファイルを開く
    fileobj = open(filepath, mode="w")
    # Step2: ファイルを読み込む
    fileobj.write(contents)
    # Step3: ファイルを閉じる
    fileobj.close()
    # ファイルの内容を確認してみましょう。
```

</details>

* 参考 [open() - docs.python.org](https://docs.python.org/ja/3/library/functions.html#open)
* 参考 [Pythonでファイルの読み込み、書き込み（作成・追記） - note.nkmk.me](https://note.nkmk.me/python-file-io-open-with/)

---

## 問題86: ファイルをwith構文を使って操作する

先ほどは、以下の手順でファイルを操作しました。

1. ファイルを開く
2. ファイルを読む/書く
3. ファイルを閉じる

これがファイル操作の鉄則とお伝えしましたが、これには少し欠点があります。

プログラムを書いていると、ファイルを開いて、ファイル操作時に、エラーが発生することがしばしばあります。

すると、ファイルが開きっぱなしのまま、エラーの発生と処理の中断がされてしまうと、ファイルを閉じる操作を行われず処理が終了してしまうプロセスとして残り続けてしまう可能性があります。そうすると、PCの処理としても大きい負荷となります。

<br>

そこで、そのような処理を省く `with`ステートメントを利用します。ファイルを開く時は、これがデファクトスタンダードであるため、必ず使えるようにしておきましょう。

![with](img/with.png)

以下のコードを実行して、ファイルを読み込んでみましょう。処理内容は、前回のコードと一緒です。

```python
    from pathlib  import Path

    # pathlib.Pathは異なるOSでPathを扱いため
    filepath = Path("input/sample84.txt")
    # Step1: ファイルを開く
    with open(filepath, mode="r") as fileobj:
        # Step2: ファイルを読み込む
        text = fileobj.read()
    # Step3: インデント(字下げ)が終わるとファイルを自動的に閉じる
    # ファイルの内容を表示する
    print(text)
```



In [None]:
#コードを記述

### 問題86 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    from pathlib  import Path
    # pathlib.Pathは異なるOSでPathを扱いため
    filepath = Path("input/sample84.txt")
    # Step1: ファイルを開く
    with open(filepath, mode="r") as fileobj:
        # Step2: ファイルを読み込む
        text = fileobj.read()
    # Step3: インデント(字下げ)が終わるとファイルを自動的に閉じる
    # ファイルの内容を表示する
    print(text)
```

実行結果
```python
    これはサンプルテキストです。問題58で使用します。
```

</details>

<br>

* 参考 [open() - docs.python.org](https://docs.python.org/ja/3/library/functions.html#open)
* 参考 [Pythonでファイルの読み込み、書き込み（作成・追記） - note.nkmk.me](https://note.nkmk.me/python-file-io-open-with/)

---

## 問題87: with構文の理解とベンチマークツールの改良

with文を少しだけ掘り下げてみましょう。

with文では、ブロック開始前にオブジェクトの `__enter__()` が呼び出され、ブロックの終了時に `__exit__()` が呼び出されます。

例えば、

```python
    with obj as xx:
        ...
```

というwith文は、おおよそ、以下のような仕組みで動作します。(PEP-343参照)

```python
    xx = obj.__enter__()
    try:
        ...
    except Exception:
        # sys.exc_info()はいかの説明を参照
        if not obj.__exit__(*sys.exc_info()):
            raise #例外を再送
    else:
        obj.__exit__(None, None, None)
```
`sys.exc_info()` は、直近に発生した例外のデータ`(例外クラス, 例外オブジェクト, トレースバック)`をタプルで返します。 

このことから、with文の正体は、結局のところ、`try`文なのです。

* `__exit__()` の戻り値が「as xx」のxに入る
* `__exit__()` で例外が発生すると、with文のブロックは実行されない
* with文のブロックで例外が発生すると、「`__exit__()`」に例外データが渡される。例外が発生しないと、Noneが３つタプルで渡される。
* 通常なら発生した例外は再送されるが、「`__exit__()`」が真偽を返すと再送されない。

<br>

しかし、毎回 `__enter__()` と `__exit__()` を書いていては、めんどくさいです。

そこで上記特殊メソッドをもった `contextmanager`が用意されています。これを使ってベンチマークツールを改良してみましょう。

以下のようなコードが動作するように、ベンチマークツール`bench()`を作成してみましょう。

```python
    ## 実行例
    strings = ("A"*10, "B"*10, "C"*10, "D"*10, "E"*10)
    N = 1000000

    with bench("'+' operator"):
        s1, s2, s3, s4, s5 = strings
        for _ in range(N):
            result = s1 + s2 + s3 + s4 + s5

    ## 実行結果
    '+' operator    0.355 sec
```

> 参考: [contextlib --- with 文コンテキスト用ユーティリティ](https://docs.python.org/ja/3/library/contextlib.html#contextlib.contextmanager)

In [None]:
#コードを記述


### 問題88 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    from time import time
    from contextlib import contextmanager

    @contextmanager
    def bench(title):
        start = time()
        yield
        elapsed = time() - start
        print("%-20s %6.3f sec" % (title, elapsed))

    ## 使用例
    strings = ("A"*10, "B"*10, "C"*10, "D"*10, "E"*10)
    N = 1000000

    with bench("'+' operator"):
        s1, s2, s3, s4, s5 = strings
        for _ in range(N):
            result = s1 + s2 + s3 + s4 + s5

    with bench("'%' operator"):
        s1, s2, s3, s4, s5 = strings
        for _ in range(N):
            result = "%s%s%s%s%s" % (s1, s2, s3, s4, s5)

    with bench('"".join(tuple)'):
        s1, s2, s3, s4, s5 = strings
        for _ in range(N):
            result = "".join((s1, s2, s3, s4, s5))
```

実行結果
```python
    '+' operator          0.275 sec
    '%' operator          0.288 sec
    "".join(tuple)        0.191 sec
```

</details>

with文の仕組みが少しは理解できたかと思います。実装してみると、with文の役割が、**「対象の処理の前処理と後処理を実行する」** ということが理解できると思います。

<br>

* 参考: [contextlib --- with 文コンテキスト用ユーティリティ](https://docs.python.org/ja/3/library/contextlib.html#contextlib.contextmanager)

---

## 問題88: CSVを読み込む

続いて、CSVファイルを読み込んでみましょう。

csvを開く構文は、以下の通りです。

![88-0.png](img/87-0.png)

csvを扱うときは、csvモジュールを利用します。

> [csv --- CSV ファイルの読み書き - docs.python.org](https://docs.python.org/ja/3/library/csv.html#module-csv)

csvの読み取りでは、`reader()` メソッドを使用します。

`input` フォルダの `sample.csv` を開き、1行ずつ出力してみましょう。

`sample.csv`の内容は以下の通りです。

```csv
    1,2,3,4,5,6,7,8,9
    a,b,c,d,e,f,g,h
```

以下のコードを写して実行してみましょう。

```python
    import csv
    from pathlib  import Path

    # pathlib.Pathは異なるOSでPathを扱いため
    filepath = Path("input/sample.csv")

    with open(filepath) as f:
        reader = csv.reader(f)
        for row in reader:
            print(row)
```


In [None]:
#コードを記述

### 問題88 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    import csv
    from pathlib  import Path

    # pathlib.Pathは異なるOSでPathを扱いため
    filepath = Path("input/sample.csv")
    with open(filepath) as f:
        reader = csv.reader(f)
        for row in reader:
            print(row)
```

実行結果
```python
    ['1', '2', '3', '4', '5', '6', '7', '8', '9']
    ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']
```

</details>

csvを使って読み出すと、csvファイルの内容が1行ずつリストで出力されたかと思います。csvファイルは、Excel同様、よく利用されるファイルだと思うので、ぜひ `csv` モジュールは使えるようにしておきましょう。

* 参考 [open() - docs.python.org](https://docs.python.org/ja/3/library/functions.html#open)
* 参考 [csv --- CSV ファイルの読み書き - docs.python.org](https://docs.python.org/ja/3/library/csv.html#module-csv)
* 参考 [Pythonでファイルの読み込み、書き込み（作成・追記） - note.nkmk.me](https://note.nkmk.me/python-file-io-open-with/)

---

## 問題89: CSVを編集して書き込む方法 

今度は、csvファイルを編集して、書き込んでみましょう。

同様に`csv`モジュールを使用します。csvモジュール標準モジュールであるため、`pip`でのインストールは不要です。

csvへ書き込むための構文は以下の通りです。

![89-0.png](img/89-0.png)

以下の内容を、`output/output_sample.csv` を新規に作成して書き込んでみましょう。

```csv
    No, 名前, 年齢, 住所
    1, Mike, 10, Tokyo
    2, Hana, 20, Aichi
```

```python
    import csv
    from pathlib  import Path

    # 書きこむ内容を定義
    header = ["No", "名前", "年齢", "住所"]
    mike = ["1", "Mike", "10", "Tokyo"]
    hana = ["2", "Hana", "20", "Aichi"]
    namelist = [header, mike, hana]
    print(f"書きこむ内容: {namelist}")

    # pathlib.Pathは異なるOSでPathを扱いため
    filepath = Path("output/output_sample.csv")
    with open(filepath, mode="w") as f:
        reader = csv.writer(f)
        reader.writerowss(namelist)
    #以下のprint()はいらない
    print("outputフォルダを見てみましょう。")
```

In [None]:
#コードを記述

### 問題89 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    import csv
    from pathlib  import Path

    # 書きこむ内容を定義
    header = ["No", "名前", "年齢", "住所"]
    mike = ["1", "Mike", "10", "Tokyo"]
    hana = ["2", "Hana", "20", "Aichi"]
    namelist = [header, mike, hana]
    print(f"書きこむ内容: {namelist}")

    # pathlib.Pathは異なるOSでPathを扱いため
    filepath = Path("output/output_sample.csv")
    with open(filepath, mode="w") as f:
        reader = csv.writer(f)
        reader.writerows(namelist)
    #以下のprint()はいらない
    print("outputフォルダを見てみましょう。")
```

実行結果
```python
    書きこむ内容: [['No', '名前', '年齢', '住所'], ['1', 'Mike', '10', 'Tokyo'], ['2', 'Hana', '20', 'Aichi']]
    outputフォルダを見てみましょう。
```

</details>

<br>

書き込みする際の注意点は、1行ずつ書きこむ場合は`writerow()` を使用して、複数行を書きこむ場合、`writerows()`を使用します。

書き込むことも多々処理の中では発生してくるので、ぜひ使えるようにしておきたいですね。

* 参考 [open() - docs.python.org](https://docs.python.org/ja/3/library/functions.html#open)
* 参考 [csv --- CSV ファイルの読み書き - docs.python.org](https://docs.python.org/ja/3/library/csv.html#module-csv)
* 参考 [Pythonでファイルの読み込み、書き込み（作成・追記） - note.nkmk.me](https://note.nkmk.me/python-file-io-open-with/)

---

## 問題90: サイズが大きいCSVファイルを読み取るコツ 

仕事をしていると、比較的大きいサイズのCSVファイルに出くわすことがあります。

ここで大きいサイズと言っているのは、5000行、10000行程で、かつ数MBなどあるファイルです。

例えば、100000行かつ500MBあるcsv `sample_L100000_500MB.csv`の内容を取得する関数を定義したとしましょう。

```python
    import csv

    def get_large_csv_contents():
        with open("sample_L100000_500MB.csv", mode="r") as f:
            return csv.reader(f)
```

おそらくこれを実行すると、確実にメモリ不足で、処理が停止してしまいます。

そこで、よく利用される手法は、ジェネレーター(yield)を使用する方法です。

ジェネレーター`yield`は、呼び出されるまで処理を停止できる遅延処理ができるので、メモリ消費削減ができます。

それでは、上記の関数を `yield`で1行ずつ出力できるように変更しましょう。使用するcsvは、ビックデータではないですが、`input`フォルダの `sample90.csv`をお使いください。

In [None]:
#コードを記述


### 問題90 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    import csv
    import pathlib

    file = pathlib.Path("input/sample90.csv")

    def get_large_csv_contents():
        with open(file, mode="r") as f:
            for i in csv.reader(f):
                yield i

    gen = get_large_csv_contents()
    print(next(gen)) # 1行目
    print(next(gen)) # 2行目
    print(next(gen)) # 3行目
```

実行結果
```python
    ['No', ' title', ' author', ' year']
    ['1', ' 入門Python3', 'Bill Lubanovic', '2021/3/22']
    ['2', ' Python 実践データ分析 100本ノック 第2版', '下山 輝昌', '2022/06/15']
```

</details>

<br>

* 参考 [7.7. yield 文 - docs.pytho.org](https://docs.python.org/ja/3/reference/simple_stmts.html#the-yield-statement)
* 参考 [csv --- CSV ファイルの読み書き - docs.pytho.org](https://docs.python.org/ja/3/library/csv.html#module-csv)

---

## 問題62: Excelデータを読み込んでみよう 

In [None]:
#コードを記述
    

### 問題62 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
```

実行結果
```python
```

</details>

<br>

* 参考

---

## 問題63: カラムを抽出してみよう

In [None]:
#コードを記述
    

### 問題63 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
```

実行結果
```python
```

</details>

<br>

* 参考

---

## 問題64 :  全シートのデータを読み込んでみよう

In [None]:
#コードを記述
    

### 問題64 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
```

実行結果
```python
```

</details>

<br>

* 参考

---

## 問題: 

In [None]:
#コードを記述
    

### 問題 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
```

実行結果
```python
```

</details>

<br>

* 参考

---

## 問題: 

In [None]:
#コードを記述
    

### 問題 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
```

実行結果
```python
```

</details>

<br>

* 参考

---

## 問題: 

In [None]:
#コードを記述
    

### 問題 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
```

実行結果
```python
```

</details>

<br>

* 参考

---

## 問題: 

In [None]:
#コードを記述
    

### 問題 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
```

実行結果
```python
```

</details>

<br>

* 参考

---

## 問題: 

In [None]:
#コードを記述
    

### 問題 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
```

実行結果
```python
```

</details>

<br>

* 参考

---

## 問題: 

In [None]:
#コードを記述
    

### 問題 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
```

実行結果
```python
```

</details>

<br>

* 参考

---