# Chapter04: 

## 問題84: ファイルを操作する

テキストファイルやCSVファイルなど、Office関連ファイル(Word, Excelなど)を読み込んで処理したい時があると思います。

ここからは、実際にファイルを読み込ん処理してみましょう。

### ファイルを開く手順

1. ファイルを開く
2. ファイルデータを読み込む
3. ファイルを閉じる

ファイルを開く構文

![58-0](img/58-0.png)


### 問題

実際にファイルを読み込んで、ファイルの内容を出力してみましょう。

読み込むファイルは、`input` フォルダのに保存されている `sample84.txt` を読み込んでみましょう。

以下のコードを書いて実行してみましょう。

```python
    from pathlib  import Path

    # pathlib.Pathは異なるOSでPathを扱いため
    filepath = Path("input/sample84.txt")
    # Step1: ファイルを開く
    fileobj = open(filepath, mode="r")
    # Step2: ファイルを読み込む
    text = fileobj.read()
    # Step3: ファイルを閉じる
    fileobj.close()
    # ファイルの内容を表示する
    print(text)
```

In [None]:
#コードを記述

### 問題84 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    from pathlib import Path

    # pathlib.Pathは異なるOSでPathを扱いため
    filepath = Path("input/sample84.txt")
    # Step1: ファイルを開く
    fileobj = open(filepath, mode="r")
    # Step2: ファイルを読み込む
    text = fileobj.read()
    # Step3: ファイルを閉じる
    fileobj.close()
    # ファイルの内容を表示する
    print(text)
```

実行結果
```python
    これはサンプルテキストです。問題58で使用します。
```

</details>

ファイル処理は、基本の基本であるためしっかり習得しておきましょう。また、ファイルの `mode` と、`encoding` は以下のとおりです。

* モード(引数 `mode` )について
  
  | mode | 説明 |
  | :--- | :--- |
  | "r"  | 読み込み専用で開く(デフォルト) |
  | "w"  | 書き込み用で開く。ファイルが存在する場合は上書き保存 |
  | "x"  | 排他的な生成で開く。ファイルが存在する場合は失敗する |
  | "a"  | 書き込み用で開く。ファイルが存在する場合は追記      |
  | "b"  | バイナリモードで開く。画像など                   |
  | "t"  | テキストモードで開く。(デフォルト)               |
  | "+"  | 読み込み・書き込みモードで開く                   |

<br>

* エンコーディング(引数 `encoding`)について
  
  | encoding     | 説明       |
  | :----------- | :-------- |
  | "utf-8"      | UTF-8     |
  | "euc_jp"     | 日本語EUC  |
  | "iso2022_jp" | JIS       |
  | "shift-jis"  | SHift JIS |
 
<br>

* 参考 [open() - docs.python.org](https://docs.python.org/ja/3/library/functions.html#open)
* 参考 [Pythonでファイルの読み込み、書き込み（作成・追記） - note.nkmk.me](https://note.nkmk.me/python-file-io-open-with/)

---

## 問題85: ファイルへ書き込む

同様の手順で、ファイルに何か書き込んでみましょう。

ファイルへ書き込みを実行する関数は、`write()`で任意の内容をファイルに書き込むことができます。

### ファイルへ書き込む手順

1. ファイルを開く
2. ファイルデータを書き込む
3. ファイルを閉じる


### 問題

以下の変数の内容を、`output/sample_plain_text.txt` を作成し書き込んでみましょう。

```python
contents = "Hello Python! これはファイル書き込み練習です。"
```

以下のコードを写して書いて実行してみましょう。

```python
    from pathlib  import Path

    # pathlib.Pathは異なるOSでPathを扱いため
    filepath = Path("input/sample_plain_text.txt")
    # 書き込む内容
    contents = "Hello Python! これはファイル書き込み練習です。"
    # Step1: ファイルを開く
    fileobj = open(filepath, mode="w")
    # Step2: ファイルを読み込む
    fileobj.write(contents)
    # Step3: ファイルを閉じる
    fileobj.close()
    # ファイルの内容を確認してみましょう。
```

In [4]:
#コードを記述


### 問題85 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    from pathlib  import Path

    # pathlib.Pathは異なるOSでPathを扱いため
    filepath = Path("output/sample_plain_text.txt")
    # 書き込む内容
    contents = "Hello Python! これはファイル書き込み練習です。"
    # Step1: ファイルを開く
    fileobj = open(filepath, mode="w")
    # Step2: ファイルを読み込む
    fileobj.write(contents)
    # Step3: ファイルを閉じる
    fileobj.close()
    # ファイルの内容を確認してみましょう。
```

実行結果
```python
    実際にoutputフォルダを確認してみましょう。
```

`read()` を `write()` に変更するぐらいで特に問題なかったですね。

もし書き込みたい内容に改行等を入れたい場合、エスケープシーケンスや複数行で文字列を定義するといいと思います。

* モード(引数 `mode` )について
  
  | mode  | 説明             |
  | :---- | :-------------- |
  | "\n"  | 改行コードを入れる |
  | "\t"  | 水平タブを入れる   |
  | "\r"  | キャリッジリターン |

<br>

例：複数行文字を書き込む

```python
    from pathlib  import Path

    # pathlib.Pathは異なるOSでPathを扱いため
    filepath = Path("output/sample_plain_text.txt")
    # 書き込む内容
    contents = '''Hello Python!
    これはファイル書き込み練習です
    複数行を書き込む練習です。シングルクォーテーションを3つで囲むことで
    複数行書き込めます。
    '''
    # Step1: ファイルを開く
    fileobj = open(filepath, mode="w")
    # Step2: ファイルを読み込む
    fileobj.write(contents)
    # Step3: ファイルを閉じる
    fileobj.close()
    # ファイルの内容を確認してみましょう。
```

</details>

* 参考 [open() - docs.python.org](https://docs.python.org/ja/3/library/functions.html#open)
* 参考 [Pythonでファイルの読み込み、書き込み（作成・追記） - note.nkmk.me](https://note.nkmk.me/python-file-io-open-with/)

---

## 問題86: ファイルをwith構文を使って操作する

先ほどは、以下の手順でファイルを操作しました。

1. ファイルを開く
2. ファイルを読む/書く
3. ファイルを閉じる

これがファイル操作の鉄則とお伝えしましたが、これには少し欠点があります。

プログラムを書いていると、ファイルを開いて、ファイル操作時に、エラーが発生することがしばしばあります。

すると、ファイルが開きっぱなしのまま、エラーの発生と処理の中断がされてしまうと、ファイルを閉じる操作を行われず処理が終了してしまうプロセスとして残り続けてしまう可能性があります。そうすると、PCの処理としても大きい負荷となります。

<br>

そこで、そのような処理を省く `with`ステートメントを利用します。ファイルを開く時は、これがデファクトスタンダードであるため、必ず使えるようにしておきましょう。

![with](img/with.png)

以下のコードを実行して、ファイルを読み込んでみましょう。処理内容は、前回のコードと一緒です。

```python
    from pathlib  import Path

    # pathlib.Pathは異なるOSでPathを扱いため
    filepath = Path("input/sample84.txt")
    # Step1: ファイルを開く
    with open(filepath, mode="r") as fileobj:
        # Step2: ファイルを読み込む
        text = fileobj.read()
    # Step3: インデント(字下げ)が終わるとファイルを自動的に閉じる
    # ファイルの内容を表示する
    print(text)
```



In [None]:
#コードを記述

### 問題86 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    from pathlib  import Path
    # pathlib.Pathは異なるOSでPathを扱いため
    filepath = Path("input/sample84.txt")
    # Step1: ファイルを開く
    with open(filepath, mode="r") as fileobj:
        # Step2: ファイルを読み込む
        text = fileobj.read()
    # Step3: インデント(字下げ)が終わるとファイルを自動的に閉じる
    # ファイルの内容を表示する
    print(text)
```

実行結果
```python
    これはサンプルテキストです。問題58で使用します。
```

</details>

<br>

* 参考 [open() - docs.python.org](https://docs.python.org/ja/3/library/functions.html#open)
* 参考 [Pythonでファイルの読み込み、書き込み（作成・追記） - note.nkmk.me](https://note.nkmk.me/python-file-io-open-with/)

---

## 問題87: with構文の理解とベンチマークツールの改良

with文を少しだけ掘り下げてみましょう。

with文では、ブロック開始前にオブジェクトの `__enter__()` が呼び出され、ブロックの終了時に `__exit__()` が呼び出されます。

例えば、

```python
    with obj as xx:
        ...
```

というwith文は、おおよそ、以下のような仕組みで動作します。(PEP-343参照)

```python
    xx = obj.__enter__()
    try:
        ...
    except Exception:
        # sys.exc_info()はいかの説明を参照
        if not obj.__exit__(*sys.exc_info()):
            raise #例外を再送
    else:
        obj.__exit__(None, None, None)
```
`sys.exc_info()` は、直近に発生した例外のデータ`(例外クラス, 例外オブジェクト, トレースバック)`をタプルで返します。 

このことから、with文の正体は、結局のところ、`try`文なのです。

* `__exit__()` の戻り値が「as xx」のxに入る
* `__exit__()` で例外が発生すると、with文のブロックは実行されない
* with文のブロックで例外が発生すると、「`__exit__()`」に例外データが渡される。例外が発生しないと、Noneが３つタプルで渡される。
* 通常なら発生した例外は再送されるが、「`__exit__()`」が真偽を返すと再送されない。

<br>

しかし、毎回 `__enter__()` と `__exit__()` を書いていては、めんどくさいです。

そこで上記特殊メソッドをもった `contextmanager`が用意されています。これを使ってベンチマークツールを改良してみましょう。

以下のようなコードが動作するように、ベンチマークツール`bench()`を作成してみましょう。

```python
    ## 実行例
    strings = ("A"*10, "B"*10, "C"*10, "D"*10, "E"*10)
    N = 1000000

    with bench("'+' operator"):
        s1, s2, s3, s4, s5 = strings
        for _ in range(N):
            result = s1 + s2 + s3 + s4 + s5

    ## 実行結果
    '+' operator    0.355 sec
```

> 参考: [contextlib --- with 文コンテキスト用ユーティリティ](https://docs.python.org/ja/3/library/contextlib.html#contextlib.contextmanager)

In [None]:
#コードを記述


### 問題88 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    from time import time
    from contextlib import contextmanager

    @contextmanager
    def bench(title):
        start = time()
        yield
        elapsed = time() - start
        print("%-20s %6.3f sec" % (title, elapsed))

    ## 使用例
    strings = ("A"*10, "B"*10, "C"*10, "D"*10, "E"*10)
    N = 1000000

    with bench("'+' operator"):
        s1, s2, s3, s4, s5 = strings
        for _ in range(N):
            result = s1 + s2 + s3 + s4 + s5

    with bench("'%' operator"):
        s1, s2, s3, s4, s5 = strings
        for _ in range(N):
            result = "%s%s%s%s%s" % (s1, s2, s3, s4, s5)

    with bench('"".join(tuple)'):
        s1, s2, s3, s4, s5 = strings
        for _ in range(N):
            result = "".join((s1, s2, s3, s4, s5))
```

実行結果
```python
    '+' operator          0.275 sec
    '%' operator          0.288 sec
    "".join(tuple)        0.191 sec
```

</details>

with文の仕組みが少しは理解できたかと思います。実装してみると、with文の役割が、**「対象の処理の前処理と後処理を実行する」** ということが理解できると思います。

<br>

* 参考: [contextlib --- with 文コンテキスト用ユーティリティ](https://docs.python.org/ja/3/library/contextlib.html#contextlib.contextmanager)

---

## 問題88: CSVを読み込む

続いて、CSVファイルを読み込んでみましょう。

csvを開く構文は、以下の通りです。

![88-0.png](img/88-0.png)

csvを扱うときは、csvモジュールを利用します。

> [csv --- CSV ファイルの読み書き - docs.python.org](https://docs.python.org/ja/3/library/csv.html#module-csv)

csvの読み取りでは、`reader()` メソッドを使用します。

`input` フォルダの `sample.csv` を開き、1行ずつ出力してみましょう。

`sample.csv`の内容は以下の通りです。

```csv
    1,2,3,4,5,6,7,8,9
    a,b,c,d,e,f,g,h
```

以下のコードを写して実行してみましょう。

```python
    import csv
    from pathlib  import Path

    # pathlib.Pathは異なるOSでPathを扱いため
    filepath = Path("input/sample.csv")

    with open(filepath) as f:
        reader = csv.reader(f)
        for row in reader:
            print(row)
```


In [None]:
#コードを記述

### 問題88 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    import csv
    from pathlib  import Path

    # pathlib.Pathは異なるOSでPathを扱いため
    filepath = Path("input/sample.csv")
    with open(filepath) as f:
        reader = csv.reader(f)
        for row in reader:
            print(row)
```

実行結果
```python
    ['1', '2', '3', '4', '5', '6', '7', '8', '9']
    ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']
```

</details>

csvを使って読み出すと、csvファイルの内容が1行ずつリストで出力されたかと思います。csvファイルは、Excel同様、よく利用されるファイルだと思うので、ぜひ `csv` モジュールは使えるようにしておきましょう。

* 参考 [open() - docs.python.org](https://docs.python.org/ja/3/library/functions.html#open)
* 参考 [csv --- CSV ファイルの読み書き - docs.python.org](https://docs.python.org/ja/3/library/csv.html#module-csv)
* 参考 [Pythonでファイルの読み込み、書き込み（作成・追記） - note.nkmk.me](https://note.nkmk.me/python-file-io-open-with/)

---

## 問題89: CSVを編集して書き込む方法 

今度は、csvファイルを編集して、書き込んでみましょう。

同様に`csv`モジュールを使用します。csvモジュール標準モジュールであるため、`pip`でのインストールは不要です。

csvへ書き込むための構文は以下の通りです。

![89-0.png](img/89-0.png)

以下の内容を、`output/output_sample.csv` を新規に作成して書き込んでみましょう。

```csv
    No, 名前, 年齢, 住所
    1, Mike, 10, Tokyo
    2, Hana, 20, Aichi
```

```python
    import csv
    from pathlib  import Path

    # 書きこむ内容を定義
    header = ["No", "名前", "年齢", "住所"]
    mike = ["1", "Mike", "10", "Tokyo"]
    hana = ["2", "Hana", "20", "Aichi"]
    namelist = [header, mike, hana]
    print(f"書きこむ内容: {namelist}")

    # pathlib.Pathは異なるOSでPathを扱いため
    filepath = Path("output/output_sample.csv")
    with open(filepath, mode="w") as f:
        reader = csv.writer(f)
        reader.writerowss(namelist)
    #以下のprint()はいらない
    print("outputフォルダを見てみましょう。")
```

In [None]:
#コードを記述

### 問題89 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    import csv
    from pathlib  import Path

    # 書きこむ内容を定義
    header = ["No", "名前", "年齢", "住所"]
    mike = ["1", "Mike", "10", "Tokyo"]
    hana = ["2", "Hana", "20", "Aichi"]
    namelist = [header, mike, hana]
    print(f"書きこむ内容: {namelist}")

    # pathlib.Pathは異なるOSでPathを扱いため
    filepath = Path("output/output_sample.csv")
    with open(filepath, mode="w") as f:
        reader = csv.writer(f)
        reader.writerows(namelist)
    #以下のprint()はいらない
    print("outputフォルダを見てみましょう。")
```

実行結果
```python
    書きこむ内容: [['No', '名前', '年齢', '住所'], ['1', 'Mike', '10', 'Tokyo'], ['2', 'Hana', '20', 'Aichi']]
    outputフォルダを見てみましょう。
```

</details>

<br>

書き込みする際の注意点は、1行ずつ書きこむ場合は`writerow()` を使用して、複数行を書きこむ場合、`writerows()`を使用します。

書き込むことも多々処理の中では発生してくるので、ぜひ使えるようにしておきたいですね。

* 参考 [open() - docs.python.org](https://docs.python.org/ja/3/library/functions.html#open)
* 参考 [csv --- CSV ファイルの読み書き - docs.python.org](https://docs.python.org/ja/3/library/csv.html#module-csv)
* 参考 [Pythonでファイルの読み込み、書き込み（作成・追記） - note.nkmk.me](https://note.nkmk.me/python-file-io-open-with/)

---

## 問題90: サイズが大きいCSVファイルを読み取るコツ 

仕事をしていると、比較的大きいサイズのCSVファイルに出くわすことがあります。

ここで大きいサイズと言っているのは、5000行、10000行程で、かつ数MBなどあるファイルです。

例えば、100000行かつ500MBあるcsv `sample_L100000_500MB.csv`の内容を取得する関数を定義したとしましょう。

```python
    import csv

    def get_large_csv_contents():
        with open("sample_L100000_500MB.csv", mode="r") as f:
            return csv.reader(f)
```

おそらくこれを実行すると、確実にメモリ不足で、処理が停止してしまいます。

そこで、よく利用される手法は、ジェネレーター(yield)を使用する方法です。

ジェネレーター`yield`は、呼び出されるまで処理を停止できる遅延処理ができるので、メモリ消費削減ができます。

それでは、上記の関数を `yield`で1行ずつ出力できるように変更しましょう。

使用するcsvは、ビックデータではないですが、`input`フォルダの `sample90.csv`をお使いください。

In [None]:
#コードを記述


### 問題90 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    import csv
    import pathlib

    file = pathlib.Path("input/sample90.csv")

    def get_large_csv_contents():
        with open(file, mode="r") as f:
            for i in csv.reader(f):
                yield i

    gen = get_large_csv_contents()
    print(next(gen)) # 1行目
    print(next(gen)) # 2行目
    print(next(gen)) # 3行目
```

実行結果
```python
    ['No', ' title', ' author', ' year']
    ['1', ' 入門Python3', 'Bill Lubanovic', '2021/3/22']
    ['2', ' Python 実践データ分析 100本ノック 第2版', '下山 輝昌', '2022/06/15']
```

</details>

<br>

* 参考 [7.7. yield 文 - docs.pytho.org](https://docs.python.org/ja/3/reference/simple_stmts.html#the-yield-statement)
* 参考 [csv --- CSV ファイルの読み書き - docs.pytho.org](https://docs.python.org/ja/3/library/csv.html#module-csv)

---

## 問題91: pandasを使う

ここからは、データ解析のためのオープンソースのPythonライブラリである `pandas`を使います。

![pandas.png](img/pandas.png)

`pandas`は、表形式のデータや行列を扱うことができます。ピポットテーブルやGroupBy、ソートなどの集計処理や、Matplotlibと連携してデータの可視化することが可能です。

### pandasをインストールする

ご自宅のPCなどにpandasをインストールする場合、以下のコマンドをpowershellやコマンドプロンプト、ターミナルなどで実行してください。

```python
    pip install pandas
```

※この研修では上記のコマンドは必要ありません。


### pandasの基本用語

* Series  
  Seriesとは、pandasで扱えるデータ形式の一種で、1次元配列で単一の列からなる表とみなすことができます。
* DataFrame  
  DataFrameとは、行と列からなる表形式の配列データで、pandasで処理を行う際の中心となるデータ形式です。Seriesを複数まとめたものととらえることができます。
* index  
  SeriesやDataFrameの行データに付与することができるラベルのことをインデックスと呼びます。行ラベルと呼称することもあります。indexを使用してSeriesやDataFeameの行データにアクセスすることも可能です。
* columns  
  DataFrameの列データに付与することができるラベルのことを、columnsと呼びます。列のラベルと呼称することもあります。columnsを使用してDataFrameの列データにアクセスすることができます。

![91_0.png](img/91_0.png)

### 問題91 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

特にありません。

</details>

<br>

* 参考 [pandas - docs](https://pandas.pydata.org/)
* 参考 [pandas - wikipedia](https://ja.wikipedia.org/wiki/Pandas)

---

## 問題92: Seriesを生成したい

### Seriesとは

Seriesは、前問でも解説した通り、シーケンスにindexと呼ばれるラベルを付けることができ、1つの列や小さいデータの塊を表現する際に使用されます。

![92-0](img/92_0.png)


### 問題

それでは早速 `Series`を作ってみましょう。次のコードブロックに以下のコードを記述して実行して下さい。

```python
    import pandas as pd
    s = pd.Series([10,20,30], index=["a", "b", "c"])
    print(s)
```

In [None]:
#コードを記述


### 問題91 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

* コード

```python
    import pandas as pd
    s = pd.Series([10,20,30], index=["a", "b", "c"])
    print(s)
```

* 実行結果

```bash
    a    10
    b    20
    c    30
    dtype: int64
```

</details>

<br>

実行すると、indexが付けられたシーケンスが出力されます。左側のa, b, cがindexと呼ばれる行です。indexを省略して実行することも可能です。

```python
    s = pd.Series([10,20,30])
```

この場合、0から始まりの整数が付与されます。

また、最後に`dtype`と表示されている部分は、SeriesやDataFrameに格納されたデータ型を示しています。`pandas` で扱うデータ型は以下の通りです。

| データ型 | 概要 |
| :------- | :--- |
| bool    | 真理値 |
| np.int64 | 64bit整数(int) |
| np.float64 | 64bit浮動小数点 |
| pd.StringDtype() | pandasの文字列 |
| object | pythonオブジェクト |

* 参考 [pandas - docs](https://pandas.pydata.org/)
* 参考 [pandas - wikipedia](https://ja.wikipedia.org/wiki/Pandas)

---

## 問題93: Seriesのデータにアクセスしたい

### インデックス指定による参照

Seriesのindexを指定して要素を取得することができます。

```python
    # syntax
    Series["インデックス"]
    Series.index
```

### 問題

それでは `Series`のインデックスを使って、要素を取り出してみましょう。次のコードブロックに以下のコードを記述して実行して下さい。

```python
    import pandas as pd
    s = pd.Series([1,2,3,4], index=["a", "b", "c", "d"])
    print(s["a"]) # aというインデックスを指定して取り出す。
    print(s.b) # bというインデックスを指定して値を取り出す。
```

In [None]:
#コードを記述

インデックスを指定して値を取り出すことはできたでしょうか。

### インデックス指定による更新

インデックスを指定し、新たな値を代入し、更新することもできます。`c` の値を200に変更してみましょう。

```python
    import pandas as pd
    s = pd.Series([1,2,3,4], index=["a", "b", "c", "d"])
    s["c"] = 200
    print(s)
```

In [None]:
# コードを記述


### 問題93 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

* コード1

```python
    import pandas as pd
    s = pd.Series([1,2,3,4], index=["a", "b", "c", "d"])
    print(s["a"]) # aというインデックスを指定して取り出す。
    print(s.b) # bというインデックスを指定して値を取り出す。
```

* 実行結果1

```bash
    1
    2
```

* コード2

```python
    import pandas as pd
    s = pd.Series([1,2,3,4], index=["a", "b", "c", "d"])
    s["c"] = 200
    print(s)
```

* 実行結果2

```bash
    a      1
    b      2
    c    200
    d      4
    dtype: int64
```

</details>

<br>


* 参考 [pandas - docs](https://pandas.pydata.org/)
* 参考 [pandas - wikipedia](https://ja.wikipedia.org/wiki/Pandas)

---

## 問題94: DataFrameを生成したい

### DataFrameをリストから生成する

`pandas` で処理を行う際、`DataFrame` と呼ばれるデータ形式にして処理を行います。`DataFrame` は表示形式で、内容となるデータ以外に`index`, `columns`というラベルを持ちます。

通常、CSV、TSV、JSONなどプレーンテキスト、MySQL、PostgreSQLようなデータベースからデータを取得して、DataFrameを生成しますが、ここでは、リストと辞書からDataFrameを生成します。



### 問題

それでは早速リストから `DataFrame`を作ってみましょう。次のコードブロックに以下のコードを記述して実行して下さい。

```python
    import pandas as pd
    df = pd.DataFrame(
        [[1,10],
        [2,20],
        [3,30]],
        columns=["col1", "col2"],
        index=[0,1,2]
    )
    print(df)
```

In [None]:
#コードを記述


続いて辞書から `DataFrame`を作ってみましょう。次のコードブロックに以下のコードを記述して実行して下さい。

実行結果は、先ほどと同じ結果になると思います。

```python
    import pandas as pd
    data = {"col1": [1,2,3], "col2":[10,20,30]}
    df = pd.DataFrame(data, index=[0,1,2])
    print(df)
```

In [None]:
# コードを記述


### DataFrameの型

DataFrameの生成後に列ごとに型を指定したい場合、`astype`メソッドで型を指定することが可能です。

また、DataFrameの型は、`.dtypes`で確認することができます。以下のコードは先ほどのDataFrameに対し、`col1` を `float64`, `col2` を `StringDtype`に変換し、型を確認しています。

```python
    import pandas as pd
    import numpy as np #追加

    data = {"col1": [1,2,3], "col2":[10,20,30]}
    df = pd.DataFrame(data, index=[0,1,2])
    print(df)

    df2 = df.astype({"col1": np.float64, "col2":pd.StringDtype()}) #追加
    print(df2.dtypes) #追加
```

In [None]:
# コードを記述

### 問題94 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

* コード(リストからDataFrameを生成)

```python
    import pandas as pd
    df = pd.DataFrame(
        [[1,10],
        [2,20],
        [3,30]],
        columns=["col1", "col2"],
        index=[0,1,2]
    )
    print(df)
```

* 実行結果(リストからDataFrameを生成)

```bash
        col1  col2
    0     1    10
    1     2    20
    2     3    30
```

* コード(辞書からDataFrameを生成)

```python
    import pandas as pd
    data = {"col1": [1,2,3], "col2":[10,20,30]}
    df = pd.DataFrame(data, index=[0,1,2])
    print(df)
```

* 実行結果(辞書からDataFrameを生成)

```bash
        col1  col2
    0     1    10
    1     2    20
    2     3    30
```

* コードの型情報

```python
    import pandas as pd
    import numpy as np #追加
    data = {"col1": [1,2,3], "col2":[10,20,30]}
    df = pd.DataFrame(data, index=[0,1,2])
    print(df)
    df2 = df.astype({"col1": np.float64, "col2":pd.StringDtype()})
    print(df2.dtypes)
```

* 実行結果

```bash
        col1  col2
    0     1    10
    1     2    20
    2     3    30
    col1    float64
    col2     string
    dtype: object
```

</details>

<br>



* 参考 [pandas - docs](https://pandas.pydata.org/)
* 参考 [pandas - wikipedia](https://ja.wikipedia.org/wiki/Pandas)

---

## 問題95: pandasを使ってCSVを読み書きしたい

### CSVを読み出す

`pandas`でCSVを読み出すためには、`read_csv()`メソッドを使います。

![95_0.png](img/95_0.png)

### 問題

csvファイルを読み込んでみましょう。Pythonの標準ライブラリで`csv`パーサーがありますが、`pandas`の方が断然楽です。

`input`フォルダに、`test_pandas.csv`というファイルがあります。これを`pandas`で読み込んでみましょう。

```python
    df = pd.read_csv("input/test_pandas.csv")
    print(df)
```

In [None]:
#コードを記述


### CSVを書き出す

`pandas`でCSVを書き出すためには、`to_csv()`メソッドを使います。

![95_1.png](img/95_1.png)

### 問題

DataFrameをCSVで出力することも可能です。to_csvメソッドでファイル名、区切り文字、indexの要否を設定します。以下のサンプルでは、DataFrameをCSV形式でindexを出力せずCSVに保存する。

以下の`df1`を、`output`フォルダに、`result_pandas.csv`というファイルへ出力しましょう。

```python
    import pandas as pd

    data = {"col1": [1,2,3], "col2":[10,20,30]}
    df1 = pd.DataFrame(data, index=[0,1,2])
    print(df1)
    df1.to_csv("output/result_pandas.csv")
```

### 問題95 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

* コード(csvを読み込む)

```python
    import pandas as pd
    df = pd.read_csv("input/test_pandas.csv")
    print(df)
```

* 実行結果1

```bash
        header1  header2  header3
    0      100      101      102
    1      200      201      202
    2      300      301      302
```

* コード(csvに書き出す)

```python
    import pandas as pd

    data = {"col1": [1,2,3], "col2":[10,20,30]}
    df1 = pd.DataFrame(data, index=[0,1,2])
    print(df1)
    df1.to_csv("output/result_pandas.csv")
```

* outputフォルダを確認する。

</details>

<br>


* 参考 [pandas - docs](https://pandas.pydata.org/)
* 参考 [pandas - wikipedia](https://ja.wikipedia.org/wiki/Pandas)

---

## 問題96: DataFrameから基礎統計量を求めたい

### pandasを使って統計量を求める

pandasを使えば、簡単に統計量を出力することができます。

| Syntax        | 概要               |
| :------------ | :----------------- |
| df.count()    | データ件数          |
| df.std()      | 標準偏差            |
| df.mean()     | 平均                |
| df.max()      | 最大値              |
| df.min()      | 最小値              |
| df.var()      | 分散                |
| df.sample()   | ランダムサンプリング |
| df.describe() | 一括取得            |

### 問題

サンプルとして、5人の身長と体重を設定したデータの平均を列ごとに算出しています。なお、戻り値は、`Series`型となるため、`.` でデータを参照することができます。

以下のコードを、コードブロックに記述して実行してみましょう。

```python
    import pandas as pd

    data = {
        "height": [161, 168, 173, 169, 188],
        "weight": [55,63,78,59,68]
        }
    df = pd.DataFrame(data)

    # 平均値
    m = df.mean()
    print(m)

    # 各行の平均値
    print(m.height)
    print(m.weight)

    # 全ての統計量
    ds = df.describe()
    print(ds)
```

In [None]:
#コードを記述


### 問題96 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

* コード1

```python
    import pandas as pd

    data = {
        "height": [161, 168, 173, 169, 188],
        "weight": [55,63,78,59,68]
        }
    df = pd.DataFrame(data)

    # 平均値
    m = df.mean()
    print(m)

    # 各行の平均値
    print(m.height)
    print(m.weight)

    # 全ての統計量
    ds = df.describe()
    print(ds)
```

* 実行結果1

```bash
    height    171.8
    weight     64.6
    dtype: float64
    171.8
    64.6
            height     weight
    count    5.000000   5.000000
    mean   171.800000  64.600000
    std     10.034939   8.905055
    min    161.000000  55.000000
    25%    168.000000  59.000000
    50%    169.000000  63.000000
    75%    173.000000  68.000000
    max    188.000000  78.000000
```

</details>

<br>


* 参考 [pandas - docs](https://pandas.pydata.org/)
* 参考 [pandas - wikipedia](https://ja.wikipedia.org/wiki/Pandas)

---

## 問題97: DataFrameから列データを取得したい

### カラム名を指定する

![97-0](img/97_0.png)


### 問題

カラム名から列を取り出してみましょう。以下のコードブロックに、下記コードを記載し実行してみましょう。


```python
    import pandas as pd
    name = ["Yamada", "Suzuki", "Tanaka", "Watanabe", "Sato"]
    data = {
            "height": [161, 168, 173, 169, 188],
            "weight": [55,63,78,59,68]
            }
    df = pd.DataFrame(data, index=name)
    # データフレームを確認
    print(df, '\n')

    # heightで列を取得
    height = df["height"]
    print(height, '\n')

    # weightで列を取得
    weight = df.weight
    print(weight)
```

In [None]:
#コードを記述


列で指定したデータは、`Series`型で取得できるため、`index`を指定すると個別の値を抜き出すことができます。
以下のコードで、`index = Suzuki`の体重データを抜き出すことができます。

```python
    print(df.weight.Suzuki)
```

In [None]:
# コードを記述


さらに、列のデータをまるまる入れ替えることもできます。ただし、indexがDataFrameと一致していることが条件です。以下のコードブロックに記述して実行してみましょう。

```python
    new_data = [171, 178, 183, 179, 198]
    df["height"] = pd.Series(new_data, index=name)
    print(df)
```

In [None]:
# コードを記述


### 問題97 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

* コード1

```python
    import pandas as pd
    name = ["Yamada", "Suzuki", "Tanaka", "Watanabe", "Sato"]
    data = {
            "height": [161, 168, 173, 169, 188],
            "weight": [55,63,78,59,68]
            }
    df = pd.DataFrame(data, index=name)
    # データフレームを確認
    print(df, '\n')

    # heightで列を取得
    height = df["height"]
    print(height, '\n')

    # weightで列を取得
    weight = df.weight
    print(weight)
```

* 実行結果1

```bash
                height  weight
    Yamada       161      55
    Suzuki       168      63
    Tanaka       173      78
    Watanabe     169      59
    Sato         188      68 

    Yamada      161
    Suzuki      168
    Tanaka      173
    Watanabe    169
    Sato        188
    Name: height, dtype: int64 

    Yamada      55
    Suzuki      63
    Tanaka      78
    Watanabe    59
    Sato        68
    Name: weight, dtype: int64
```

* コード2

```python
    print(df.weight.Suzuki)
```

* 実行結果

```bash
    63
```

* コード3

```python
    new_data = [171, 178, 183, 179, 198]
    df["height"] = pd.Series(new_data, index=name)
    print(df)
```

* 実行結果

```bash
            height  weight
    Yamada       171      55
    Suzuki       178      63
    Tanaka       183      78
    Watanabe     179      59
    Sato         198      68
```

</details>

<br>

カラム名を指定して列を取り出す、そして値を更新する方法は、非常によく使うので、覚えておきましょう。


* 参考 [pandas - docs](https://pandas.pydata.org/)
* 参考 [Pandas でデータフレームから特定の行・列を取得する](https://pythondatascience.plavox.info/pandas/%E8%A1%8C%E3%83%BB%E5%88%97%E3%81%AE%E6%8A%BD%E5%87%BA)

---

## 問題98: DataFrameから行データを取得したい

### 行を取り出す方法

![98_0.png](img/98_0.png)

pandasでは、`loc` , `iloc` で行を取得することができます。`loc`はラベル名、つまり、indexを指定し、`iloc`は、integer-location、位置を表す整数で行にアクセスできます。以下のコードでは、`index`に名前が使用されたDataFrameのデータを `loc` , `iloc` で行にアクセスしています。

### 問題

早速、行を取り出す練習をしてみましょう。

```python
    import pandas as pd
    name = ["Yamada", "Suzuki", "Tanaka", "Watanabe", "Sato"]
    data = {
            "height": [161, 168, 173, 169, 188],
            "weight": [55,63,78,59,68]
            }
    df = pd.DataFrame(data, index=name)
    # データフレームを確認
    print(df, '\n')

    # locでindex="Sato"のデータを取得する
    sato = df.loc["Sato"]
    print(sato)

    # ilocでindex=3のデータを取得する
    watanabe = df.iloc[3]
    print(watanabe)
```

In [None]:
#コードを記述

列のケースと同様に、indexを指定すると、個別の値を取得することが出来ます。

```python
    print(sato.weight)
```

In [None]:
# コードを記述

行データを更新することもお可能です。コードブロックに以下のコードを記述して実行してみましょう。

```python
    update_yamada = pd.Series([171, 100], index=["height", "weight"])
    df.loc["Yamada"] = update_yamada
    print(df)
```

In [None]:
# コードを記述

### 問題98 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

* コード1

```python
    import pandas as pd
    name = ["Yamada", "Suzuki", "Tanaka", "Watanabe", "Sato"]
    data = {
            "height": [161, 168, 173, 169, 188],
            "weight": [55,63,78,59,68]
            }
    df = pd.DataFrame(data, index=name)
    # データフレームを確認
    print(df, '\n')

    # locでindex="Sato"のデータを取得する
    sato = df.loc["Sato"]
    print(sato)

    # ilocでindex=3のデータを取得する
    watanabe = df.iloc[3]
    print(watanabe)
```

* 実行結果1

```bash
                height  weight
    Yamada       161      55
    Suzuki       168      63
    Tanaka       173      78
    Watanabe     169      59
    Sato         188      68 

    height    188
    weight     68
    Name: Sato, dtype: int64
    height    169
    weight     59
    Name: Watanabe, dtype: int64
```

* コード2

```python
    print(sato.weight)
```

* 実行結果2

```bash
    68
```

* コード3

```python
    update_yamada = pd.Series([171, 100], index=["height", "weight"])
    df.loc["Yamada"] = update_yamada
    print(df)
```

* 実行結果3

```bash
              height  weight
    Yamada       171     100
    Suzuki       168      63
    Tanaka       173      78
    Watanabe     169      59
    Sato         188      68
```

</details>

<br>

列同様、行の取り出しも非常に重要なので、覚えておきましょう。


* 参考 [pandas - docs](https://pandas.pydata.org/)
* 参考 [Pandas でデータフレームから特定の行・列を取得する](https://pythondatascience.plavox.info/pandas/%E8%A1%8C%E3%83%BB%E5%88%97%E3%81%AE%E6%8A%BD%E5%87%BA)

---

## 問題99:DataFrameの行・列を指定してデータを取得したい

### 値を取り出す方法

![100_0.png](img/100_0.png)

`at`や`iat`で行列を指定して値を取得することができます。

### at

atはラベル名で値にアクセスできます。行、列の順で添え字に指定します。  
例えば、indexが`a`の行でカラムが`coll` のデータを取得する場合、以下のように記述します。

```python
    df.at["a", "coll"]
```

### iat

atと使用方法はほとんど同じです。integer-locationで指定します。例えば、1行1列目を指定する場合、以下のように記述します

```python
    df.iat[1,1]
```

### 問題

それでは、行列を指定して、データを取り出してみましょう。

```python
    import pandas as pd
    name = ["Yamada", "Suzuki", "Tanaka", "Watanabe", "Sato"]
    data = {
            "height": [161, 168, 173, 169, 188],
            "weight": [55,63,78,59,68]
            }
    df = pd.DataFrame(data, index=name)
    # データフレームを確認
    print(df, '\n')

    # at
    sato = df.at["Sato", "weight"]
    print(sato)

    # iat
    watanabe = df.iat[3, 1]
    print(watanabe)
```

In [None]:
#コードを記述


行列の値を更新することもできます。以下のコードをコードブロックに記述して実行してみましょう。

```python
    import pandas as pd
    name = ["Yamada", "Suzuki", "Sato", "Tanaka", "Watanabe"]
    data = {
        "height": [161, 168, 173, 169, 188],
        "weight": [55, 63, 78, 59, 68]
    }
    df = pd.DataFrame(data, index=name)

    df.at["Sato", "weight"] = 77
    print(df)
```

In [None]:
# コードを記述

### 問題99 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

* コード1

```python
    import pandas as pd
    name = ["Yamada", "Suzuki", "Tanaka", "Watanabe", "Sato"]
    data = {
            "height": [161, 168, 173, 169, 188],
            "weight": [55,63,78,59,68]
            }
    df = pd.DataFrame(data, index=name)
    # データフレームを確認
    print(df, '\n')

    # at
    sato = df.at["Sato", "weight"]
    print(sato)

    # iat
    watanabe = df.iat[3, 1]
    print(watanabe)
```

* 実行結果1

```bash
                 height  weight
    Yamada       161      55
    Suzuki       168      63
    Tanaka       173      78
    Watanabe     169      59
    Sato         188      68 

    68
    59
```

* コード2

```python
    import pandas as pd
    name = ["Yamada", "Suzuki", "Sato", "Tanaka", "Watanabe"]
    data = {
        "height": [161, 168, 173, 169, 188],
        "weight": [55, 63, 78, 59, 68]
    }
    df = pd.DataFrame(data, index=name)

    # データ更新
    df.at["Sato", "weight"] = 77
    print(df)
```

* 実行結果2

```bash
                height  weight
    Yamada       161      55
    Suzuki       168      63
    Sato         173      77
    Tanaka       169      59
    Watanabe     188      68
```

</details>

<br>



* 参考 [pandas - docs](https://pandas.pydata.org/)
* 参考 [Pandas でデータフレームから特定の行・列を取得する](https://pythondatascience.plavox.info/pandas/%E8%A1%8C%E3%83%BB%E5%88%97%E3%81%AE%E6%8A%BD%E5%87%BA)

---

## 問題100:DataFrameで欠損値を扱いたい

### pandasにおける欠損値

おそらく仕事で扱うデータで、**欠損値 (Not a Number: 非数)** が1つもないデータは、めったに存在しません。欠損値は、ExcelやCSVの場合空白を表していたり、データベースでは `NULL` 、他のプログラミング言語では、`NA` や `nil`などと表現されることがあります。**pandasでは、欠損値をNaNと表示します。**

### 欠損値を扱う方法

ここでは、欠損値の有無を判定する方法と、欠損値を除去する方法の2つをご紹介します。

![100_1.png](img/100_1.png)


### 欠損値の判定処理

pandasの`isnull`メソッドを使用すると、SeriesやDataFrame型に対し、欠損値かどうかを判定したbool型のSeries/DataFrameを取得することができます。

さらに、`any()`メソッドを使用することで、1つでも欠損値がある場合、Trueを得ることができます。

以下のコードは、身長と体重のDataFrameで、身長の列に欠損値が存在しています。次のコードブロックに記述し、実行して欠損値の判定してみましょう。

```python
    import pandas as pd
    data = {"height": [161, None, 172, 190, 188], "weight": [55,56,89,60,89]}
    df = pd.DataFrame(data)

    # 身長を表す列に対し欠損値判定
    print(pd.isnull(df.height).any())

    # 体重を表す列に対し欠損値判定
    print(pd.isnull(df.weight).any())
```

In [None]:
#コードを記述

### 欠損値の除去

続いて、`dropna`を使うと、SeriesやDataFrameの欠損行を除去することができます。以下のコードでは、先ほどのコードのDataFrameで欠損値除去を行っています。

```python
    # 先ほど使用したコード
    import pandas as pd
    data = {"height": [161, None, 172, 190, 188], "weight": [55,56,89,60,89]}
    df = pd.DataFrame(data)

    # 身長を表す列に対し欠損値判定
    print(pd.isnull(df.height).any())

    # 体重を表す列に対し欠損値判定
    print(pd.isnull(df.weight).any())

    print()

    # 以下からコードの続き
    height_series = df.height

    # heightの欠損値を除去する
    new_height = height_series.dropna()
    print(new_height)

    # DataFrameの欠損値がある行を除去する
    new_df = df.dropna()
    print(new_df)
```

In [None]:
# コードを記述


### 問題100 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

* コード1(欠損値判定)

```python
    import pandas as pd
    data = {"height": [161, None, 172, 190, 188], "weight": [55,56,89,60,89]}
    df = pd.DataFrame(data)

    # 身長を表す列に対し欠損値判定
    print(pd.isnull(df.height).any())

    # 体重を表す列に対し欠損値判定
    print(pd.isnull(df.weight).any())
```

* 実行結果1

```bash
    True
    False
```

* コード2

```python
    # 先ほど使用したコード
    import pandas as pd
    data = {"height": [161, None, 172, 190, 188], "weight": [55,56,89,60,89]}
    df = pd.DataFrame(data)

    # 身長を表す列に対し欠損値判定
    print(pd.isnull(df.height).any())

    # 体重を表す列に対し欠損値判定
    print(pd.isnull(df.weight).any())

    # 以下からコードの続き
    height_series = df.height

    # heightの欠損値を除去する
    new_height = height_series.dropna()
    print(new_height)

    # DataFrameの欠損値がある行を除去する
    new_df = df.dropna()
    print(new_df)
```

* 実行結果2

```bash
    True
    False

    0    161.0
    2    172.0
    3    190.0
    4    188.0
    Name: height, dtype: float64
    height  weight
    0   161.0      55
    2   172.0      89
    3   190.0      60
    4   188.0      89
```

</details>

<br>

上記のコードでは、身長の列の欠損値を判定して、その結果から欠損値を含む行を削除しました。欠損値の扱いは非常に重要なので、是非習得しておきましょう。

* 参考 [pandas - docs](https://pandas.pydata.org/)
* 参考 [pandasで欠損値NaNを除外（削除）・置換（穴埋め）・抽出](https://note.nkmk.me/python-pandas-nan-dropna-fillna/)

---

## 問題101:DataFrameの値を置換したい

### 値を置き換える

コードを置き換えるのは、`replace()`メソッドを使用します。

![101_0.png](img/101_0.png)

### 問題

以下のコードは、`Orange`としたいところを `Orangeee`としてしまいました。これを`replace`を使って、修正してみましょう。

```python
    import pandas as pd
    data = {"name": ["Apple", "Orangeee", "Banana"], "price": [110, 120, 130]}
    df = pd.DataFrame(data)
    df2 = df.replace("Orangeee", "Orange")
    print(df2)
```

In [None]:
#コードを記述


続いて、欠損値をゼロ埋めしてみましょう。

以下のコードを次のコードブロックに記述して、実行してみましょう。
```python
    import pandas as pd
    import numpy as np

    data = {"name": ["Apple", "Orange", "Banana"], "stock": [15, None, 30]}
    df = pd.DataFrame(data)
    df2 = df.replace(np.NaN, 0)
    print(df2)
```

In [None]:
# コードを記述する


### 問題101 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

* コード1

```python
    import pandas as pd
    data = {"name": ["Apple", "Orangeee", "Banana"], "price": [110, 120, 130]}
    df = pd.DataFrame(data)
    df2 = df.replace("Orangeee", "Orange")
    print(df2)
```

* 実行結果1

```bash
        name  price
    0   Apple    110
    1  Orange    120
    2  Banana    130
```

* コード2 (欠損値をゼロで埋める)

```python
    import pandas as pd
    import numpy as np

    data = {"name": ["Apple", "Orange", "Banana"], "stock": [15, None, 30]}
    df = pd.DataFrame(data)
    df2 = df.replace(np.NaN, 0)
    print(df2)
```

* 実行結果2

```bash
         name  stock
    0   Apple   15.0
    1  Orange    0.0
    2  Banana   30.0
```

</details>

<br>

値の置き換えも色々方法があるので、是非調べてみてください。

* 参考 [pandas - docs](https://pandas.pydata.org/)
* 参考 [pandas.DataFrame, Seriesの要素の値を置換するreplace](https://note.nkmk.me/python-pandas-replace/)

---

## 問題102:DataFrameをフィルタリングしたい

pandasのフィルタリングは、`[]` 内にindexと同じサイズのbool型のシーケンスを指定すると、Trueとなるものだけ抽出することができます。以下のコードでは、2行4列のDataFrameからindexが偶数つまり0, 2の行だけ抽出しています。

```python
    import pandas as pd
    data = {"A": [1,2,3,4], "B":[10,20,30,40]}
    df = pd.DataFrame(data)

    condition = [True, False, True, False]
    print(df[condition])
```

In [None]:
#コードを記述


DataFrameに対し、indexと同じサイズ、つまり行数と同じ要素数のbool型の条件リストを、dfの添え字に指定しています。条件のリストの0番目と2番目にTrueが設定されていますが、フィルター結果も同様に0番目と2番目に絞られていることが確認できます。

続いて、比較演算子を使用して、indexが偶数の列を表すシーケンスを指定したい場合は、以下のコードを実行してみましょう。先ほどと同じ結果になればOKです。

```python
    # 先ほどのコードの続き
    new_condition = (df.index % 2 == 0)
    print(new_condition)
    df[new_condition]
```

In [None]:
# コードを記述

その他のフィルタリング例として、完全一致と大小比較をやってみましょう。

以下のコードを実行してみてください。

### 完全一致

```python
    condtion = (df.A == 3)
    df[condition]
```

### 大小比較

```python
    condition = (10 < df.B)
    df[condtion]
```

In [None]:
# コードを記述
# 完全一致

# 大小関係


### 問題102 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

* コード1

```python
    import pandas as pd
    data = {"A": [1,2,3,4], "B":[10,20,30,40]}
    df = pd.DataFrame(data)

    condition = [True, False, True, False]
    print(df[condition])
```

* 実行結果1

```bash
        A   B
    0  1  10
    2  3  30
```

* コード2

```python
    # 先ほどのコードの続き
    new_condition = (df.index % 2 == 0)
    print(new_condition)
    df[new_condition]
```

* 実行結果2

```bash
    [ True False  True False]
        A	B
    0	1	10
    2	3	30
```

* コード3

```python
    # 完全一致
    condtion = (df.A == 3)
    df[condition]
    # 大小関係
    condition = (10 < df.B)
    df[condtion]
```

* 実行結果3

```bash
        A   B
    1  2  20
    2  3  30
    3  4  40

        A   B
    2  3  30
```

</details>

<br>

フィルタリングは便利な機能の一つなので、しっかり押さえておきましょう。

* 参考 [pandas - docs](https://pandas.pydata.org/)
* 参考 [[Pandas でデータフレームから特定の行・列を取得する](https://note.nkmk.me/python-pandas-query/)

---

## 問題103:DataFrameをGroupByで集計したい

### データをまとめて集計する

pandasでは、`groupby` メソッドを利用すると、DatFrameGroupByというオブジェクトを作って、各種統計量や集計を実行することができます。

* GroupByのメソッド一覧

| Syntax | 概要 |
| :----- | :--- |
| df.groupby([カラム]).min() | 最小値 |
| df.groupby([カラム]).max() | 最大値 |
| df.groupby([カラム]).sum() | 合計値 |
| df.groupby([カラム]).mean() | 平均値 |
| df.groupby([カラム]).var() | 分散 |
| df.groupby([カラム]).std() | 標準偏差 |

### 問題

とりあえず、トライしてみましょう。以下のコードは、学年、身長、体重のDataFrameに対して、学年ごとの身長、体重の平均を算出してみましょう。

```python
    import pandas as pd

    grade = [1,2,1,3,2,3]
    height = [162, 168, 173, 169, 188, 190]
    weight = [55, 63, 78, 50, 69, 88]
    data = {"grade": grade, "height": height, "weight": weight}
    df = pd.DataFrame(data)

    # 学年ごとの身長・体重の平均
    m = df.groupby("grade").mean()
    print(m)
```

In [None]:
#コードを記述


### 問題103 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

* コード1

```python
    import pandas as pd

    grade = [1,2,1,3,2,3]
    height = [162, 168, 173, 169, 188, 190]
    weight = [55, 63, 78, 50, 69, 88]
    data = {"grade": grade, "height": height, "weight": weight}
    df = pd.DataFrame(data)

    # 学年ごとの身長・体重の平均
    m = df.groupby("grade").mean()
    print(m)
```

* 実行結果1

```bash
            height  weight
    grade                
    1       167.5    66.5
    2       178.0    66.0
    3       179.5    69.0
```

</details>

<br>



* 参考 [pandas - docs](https://pandas.pydata.org/)
* 参考 [Pandas の groupby の使い方 - Qitta](https://qiita.com/propella/items/a9a32b878c77222630ae)

---

## 問題104:DataFrameをソートしたい

### DataFrameをソートする

pandasの`sort_values()`メソッドを使うと、DataFrameをソートすることができます。第1引数にソート対象のカラムリスト、`ascending` で昇順(True) / 降順(False)を指定します。

![104_0.png](img/104_0.png)


### 問題

以下のコードは、複数人の学生の身長・体重のDataFrameに対し、学年の昇順、体重の降順、身長の降順にソートしています。

```python
    import pandas as pd

    grade = [1,2,1,3,2,3]
    height = [162, 168, 173, 169, 188, 190]
    weight = [55, 63, 78, 50, 69, 88]
    data = {"grade": grade, "height": height, "weight": weight}
    df = pd.DataFrame(data)

    # 学年の昇順、体重の降順、身長の降順
    df2 = df.sort_values(["grade", "weight", "height"], ascending=[True, False, False])
    print(df2)
```

In [None]:
#コードを記述


### 問題104 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

* コード1

```python
    import pandas as pd

    grade = [1,2,1,3,2,3]
    height = [162, 168, 173, 169, 188, 190]
    weight = [55, 63, 78, 50, 69, 88]
    data = {"grade": grade, "height": height, "weight": weight}
    df = pd.DataFrame(data)

    # 学年の昇順、体重の降順、身長の降順
    df2 = df.sort_values(["grade", "weight", "height"], ascending=[True, False, False])
    print(df2)
```

* 実行結果1

```bash
      grade  height  weight
   2      1     173      78
   0      1     162      55
   4      2     188      69
   1      2     168      63
   5      3     190      88
   3      3     169      50
```

</details>

<br>

`sort_value()` の他には、indexでソートする`sort_index()`メソッドもあるので、是非使ってみてください。



* 参考 [pandas - docs](https://pandas.pydata.org/)
* 参考 [pandas.DataFrame, Seriesをソートするsort_values, sort_index - note.nkmk.me](https://note.nkmk.me/python-pandas-sort-values-sort-index/)

---

## PandasでExcel操作

ここからは、PurePythonから離れて、Pandasを使ってExcelを処理してみましょう。

### 使用するデータについて

今回使用するデータは、inputフォルダに、「**1-2-2021.xlsx**」 と 「**2-2-2021.xlsx**」を用意しました。

このデータは、資源エネルギー庁から引用したデータになります。

| No  | ファイル名     | 説明                                     |
| :-- | :------------ | :--------------------------------------- |
| 1   | 1-2-2021.xlsx | 都道府県別の発電所数と最大出力のデータ      |
| 2   | 2-2-2021.xlsx | 都道府県別の発電実績（電力量）のExcelデータ |

引用：https://www.enecho.meti.go.jp/statistics/electric_power/ep002/results.html

## 問題91: Excelデータを読み込んでみよう 

まずは、都道府県別のデータである **2-1-2021.xlsx** を読み込んでみましょう。

拡張子は、.xlsxはExcelファイルです。

読み込んだファイルは、先頭5行表示してみましょう。

また、末尾も読み込んでみましょう。

In [None]:
#コードを記述

In [None]:
# ファイルの末尾を確認する


### 問題の続き：不要なデータを整形する

先頭行の5行の出力結果を見ると、**Unnamed**のような列や、レコードにNaNが多く散見されます。

このデータを見ると、実際には、0~2行目までのデータが列名を表すもので、３行目が実際のデータになっています。

そして、末尾を見てみると,沖縄県までの行より下の行は、備考行と合計行が含まれています。

今回は、合計から下の業務削除してしまいましょう。

* 先頭から0~2行目は列名を表すため削除
* 末尾の合計行から全ては削除

<br>

それでは、以下のコードを移して、実行してみてください。

先頭行の不要な行は、ファイルを読み込んだ時点で削除してしまいましょう。

今回は、先頭４行目までをスキップするように引数に、`skiprows=4`を追加し、カラムを読み込まない `header=None`を追加しましょう。

```python
    data = pd.read_excel(excel_filename, skiprows=4, header=None)
```

続いて、末尾の処理は、`drop()`でデータを削除していきます。

```python
    data.drop(data.tail(4).index, inplace=True)
    print(data.tail())
```

`data.tail(4)` で、末尾4行のindexを取得し、dropで該当行の削除します。

In [None]:
# 不要な行を読み込まないようにreadする
## 先頭行

## 末尾

### 問題91 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    from pathlib import Path
    import pandas as pd

    excel_filename = Path("source/input/1-2-2021.xlsx")
    data = pd.read_excel(excel_filename)
    print("--- 先頭 ---")
    print(data.head())
    print("--- 末尾 ---")
    print(data.tail())

    # 不要な行を読み込まないようにreadする
    ## 先頭行
    data = pd.read_excel(excel_filename, skiprows=4, header=None)
    print(data.head())
    ## 末尾
    data.drop(data.tail(4).index, inplace=True)
    print(data.tail())
```

実行結果
```python
    長いので割愛
```

</details>

* 参考: [pandas.read_excel - pandas.pydata.org](https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html)
* 参考: [pandasでcsv/tsvファイル読み込み（read_csv, read_table）- note.nkmk.me](https://note.nkmk.me/python-pandas-read-csv-tsv/)

---

## 問題92: カラムを抽出してみよう

ここでは、データを使いやすくするために、カラム名の抽出・整形を行い、データに付与していきます。

カラム名の抽出の完成は以下の通りです。


カラム名の処理の手順は、
* ファイルの読み込み
* 行方向の欠損値(NaN)の処理
* 列方向の欠損値(NaN)の処理
* カラム名の不要文字列の削除
* カラムの修正と整形

カラム名のデータは、先ほど `skiprows=4` でスキップした行2行目のことです。

まずは、`col_data` としてExcelファイルを読み込み、カラムに該当する行のみを抽出してみましょう。

今回もheaderは無しで読み込んでください。その後、先頭3行を出力してみましょう。

In [None]:
#コードを記述

## ファイル名の読み込み

データを見ると、**NaN(欠損値)** の部分が非常に多いです。

よく見ると、

| 0   |  1  | 2   | 3   | 4   | 5   | 6   | 7   |  8  | 9   |
| :-- | :-- | :-- | :-- | :-- | :-- | :-- | :-- | :-- | :-- |
| 0   | 都道府県 | 水力発電所 | NaN  | 火力発電所 | NaN | 原子力発電所 | NaN | 新エネルギー等発電所 | NaN | NaN |   
| 1  | NaN  | NaN  | NaN | NaN | NaN | NaN | NaN | 風力 | NaN | 太陽光 |   
| 2  | NaN  | 発電所数 | 最大出力計 |  発電所数 | 最大出力計 | 発電所数 | 最大出力計 | 発電所数 | 最大出力計 | 発電所数 |

となっていおり、行方向によるセル結合と、列方向によるセル結合であることが分かります。

行方向で言えば、新エネルギー等発電所は、詳細の発電種類である"風力"があるのに対し、水力と火力は結合されています。

また、列方向であれば、水力発電所に対して、発電所数、最大出力計が本来であれば2つありますが、セル結合によって、最大出力計の部分が欠損しています。

### 行方向の欠損値処理

そこで、行方向の処理は、

* 1行目の欠損値に0行目の値を入れ、1行目に関しては発電所という文字列を除外する。
* 列方向：欠損値を埋めていきます。

```python
    # 行方向の変更
    col_data.iloc[1, 1:].fillna(col_data.iloc[0,1:], inplace=True)
    col_data.iloc[1, 1:] = col_data.iloc[1, 1:].str.replace('発電所', '')
    col_data
```

In [None]:
# 行方向の変更


### 列方向の欠損値処理

* 欠損している値を埋めていきます。
* 埋めていく方法は、欠損している値には左側の列の値を埋める

以下のようにコードを書いていきましょう。

```python
    #列方向の欠損値の処理
    for i in col_data.columns:
        if i < col_data.columns.max():
            col_data[i + 1].fillna(col_data[i], inplace=True)
    print(col_data)
```

In [None]:
#列方向の変更


### カラム名から不要な文字列を取り除く

先ほどの出力結果を見ると、バイオマス、廃棄物の部分に `〔〕`が含まれていますね。

これは不要なので、削除します。通常は正規表現で削除するのが一般的ですが、今回は2個(バイオマス/廃棄物)しかターゲットがないので、`replace` を使って削除します。

```python
    # 不要な文字を削除する
    col_data.replace("〔バイオマス〕", "バイオマス", inplace=True)
    col_data.replace("〔廃棄物〕", "廃棄物", inplace=True)
    col_data
```

In [None]:
## 不要な文字列を削除


### カラム名の修正・整形

続いて、カラム名を整形します。

各行に対して、0行目_1行目_2行目をアンダーバーでつなぎます。

例：新エネルギー等発電所_風力_発電所数

ただし、１列目でれば「都道府県」となるようにしたいので、欠損値を無視する処理も必要です。

```python
    cols = []
    for i in col_data.columns:
        tg_col = "_".join(list(col_data[i].dropna()))
        cols.append(tg_col)
    data.columns = cols
    print(data.head())
```

In [None]:
## カラム名の修正と欠損値の対応


### 問題92 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

回答コードの全文です。
```python
    from pathlib import Path
    import pandas as pd

    ## ファイル名の読み込み
    excel_filename = Path("source/input/1-2-2021.xlsx")
    col_data = pd.read_excel(excel_filename, skiprows=1, header=None)
    col_data = col_data.head(3)
    print(col_data)

    ## 行方向の欠損値の処理
    col_data.iloc[1, 1:].fillna(col_data.iloc[0,1:], inplace=True)
    col_data.iloc[1, 1:] = col_data.iloc[1, 1:].str.replace('発電所', '')
    print(col_data)

    ## 列方向の欠損値の処理
    for i in col_data.columns:
        if i < col_data.columns.max():
            col_data[i + 1].fillna(col_data[i], inplace=True)
    print(col_data)
    
    # 不要な文字を削除する
    col_data.replace("〔バイオマス〕", "バイオマス", inplace=True)
    col_data.replace("〔廃棄物〕", "廃棄物", inplace=True)
    print(col_data)

    ## カラム名の修正と欠損値の対応
    cols = []
    for i in col_data.columns:
        tg_col = "_".join(list(col_data[i].dropna()))
        cols.append(tg_col)
    data.columns = cols
    print(data.head())
```

</details>

<br>

ここまでの処理は、Excelの一番左のシートである4月のデータだけを処理しました。

pandasは、特定のシート名を指定しない場合、一番左のシートを読み込むを読み込む仕様になっています。一般的には、シートが１つしかないことは少ないです。今回のように月別でシートが分かれているケースは多々遭遇するはずです。

次の問題では、他のシートも全て読み込んで結合していきましょう。

* 参考 [pandasで欠損値NaNを削除（除外）するdropna - note.nkmk.me](https://note.nkmk.me/python-pandas-nan-dropna/)
* 参考 [pandasで欠損値NaNを置換（穴埋め）するfillna - note.nkmk.me](https://note.nkmk.me/python-pandas-nan-fillna/)
* 参考 [pandasで任意の位置の値を取得・変更するat, iat, loc, iloc - note.nkmk.me](https://note.nkmk.me/python-pandas-at-iat-loc-iloc/)

---

## 問題93 :  全シートのデータを読み込んでみよう

先ほどは、一つのシートに対して処理をおこないましたが、別シートにも問題92と同じ操作をしていきます。

処理の流れとしては、
* データを一つに結合していきます
* カラム名はどのシートも同じなので、縦に結合していきます。

### Excelシート名を取得する

準備として、Excelのシート名を取得していきましょう。

```python
    from pathlib import Path
    import pandas as pd

    excel_filename = Path("source/input/1-2-2021.xlsx")
    ##　シートを読み込み
    x1 = pd.ExcelFile(excel_filename)
    sheets = x1.sheet_names
    print(sheets)
```

pandasのExcelFileオブジェクトは、Excel内の全て情報を取得することができます。その結果から、sheet_namesを実行すると、シート名をリスト形式で取得することが出来ます。

In [None]:
#コードを記述

シートは12個読み込めていると思います。全シートに同じ処理をするにはfor文で実行します。

全てのシートに、問題92の処理を実行しましょう。

以下の処理は、加工したデータDataFrame形式のデータをdatasというリストに追加しています。

```python
    # 全てのシートに同じ処理を実行する
    datas = []
    for sheet in sheets:
        data = x1.parse(sheets[0], skiprows=4, header=None)
        data.drop(data.tail(4).index, inplace=True)
        # 問題92で実行したcolsを使用します
        data.columns = cols
        data["年月"] = sheet
        datas.append(data)
    print(data.head())
```

In [None]:
# 全てのシートに同じ処理を実行する


最後に `datas` に追加したデータを結合していきます。コードは以下の通りです。

pandasの `concat` は、縦にも横にも結合できるので覚えておきましょう。

`ignore_index` をTrueにすることで、縦に結合した際に、indexを振りなおしてくれます。

```python
    ## 全データを結合
    datas = pd.concat(datas, ignore_index=True)
    datas.head()
```

In [None]:
## 全データを結合

### 問題93 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    from pathlib import Path
    import pandas as pd

    excel_filename = Path("source/input/1-2-2021.xlsx")

    ##　シートを読み込み
    x1 = pd.ExcelFile(excel_filename)
    sheets = x1.sheet_names
    print(sheets)

    # 全てのシートに同じ処理を実行する
    datas = []
    for sheet in sheets:
        data = x1.parse(sheets[0], skiprows=4, header=None)
        data.drop(data.tail(4).index, inplace=True)
        # 問題92で実行したcolsを使用します
        data.columns = cols
        data["年月"] = sheet
        datas.append(data)
    print(data.head())

    ## 全データを結合
    datas = pd.concat(datas, ignore_index=True)
    datas.head()
```

</details>

<br>

これで、Excel内のすべてのデータの結合とクレンジングが出来ました。

* 参考: [pandas.DataFrame, Seriesを連結するconcat - note.nkmk.me](https://note.nkmk.me/python-pandas-concat/)
* 参考: [pandas.ExcelFile.parse - pandas.pydata.org](https://pandas.pydata.org/docs/reference/api/pandas.ExcelFile.parse.html#pandas-excelfile-parse)

---

## 問題94: データの値を計算で修正してみよう

問題93までで、データを全て結合できたと思います。

しかし、問題が1つあります。

**新エネルギー等発電所のバイオマス、廃棄物は、火力発電所の欄に記載されている電力量のうち、バイオマス、廃棄物に係る量を再掲していると備考に書かれています。**

つまり、火力発電所の値には、バイオマス、廃棄物の値が含まれているようです。

そこで、**火力発電所の値から、バイオマス、廃棄物の値を引いておく必要があります。**

発電所数・最大出力計の２つに対して処理を行いましょう。

<br>

コードは以下の通りです。変数は、問題93までに実行した値を使用しています。

```python
    # 発電所数: 火力発電所の値から、バイオマス、廃棄物の値を引く
    datas["火力発電所_火力_発電所数"] = \
            datas["火力発電所_火力_発電所数"] - \
            datas["新エネルギー等発電所_バイオマス_発電所数"] - \
            datas["新エネルギー等発電所_廃棄物_発電所数"]
    # 最大出力計: 火力発電所の値から、バイオマス、廃棄物の値を引く
    datas["火力発電所_火力_最大出力計"] = \
            datas["火力発電所_火力_最大出力計"] - \
            datas["新エネルギー等発電所_バイオマス_最大出力計"] - \
            datas["新エネルギー等発電所_廃棄物_最大出力計"]
    # データを出力
    datas.head()
```

In [None]:
#コードを記述

### 問題94 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    # 発電所数: 火力発電所の値から、バイオマス、廃棄物の値を引く
    datas["火力発電所_火力_発電所数"] = \
            datas["火力発電所_火力_発電所数"] - \
            datas["新エネルギー等発電所_バイオマス_発電所数"] - \
            datas["新エネルギー等発電所_廃棄物_発電所数"]
    # 最大出力計: 火力発電所の値から、バイオマス、廃棄物の値を引く
    datas["火力発電所_火力_最大出力計"] = \
            datas["火力発電所_火力_最大出力計"] - \
            datas["新エネルギー等発電所_バイオマス_最大出力計"] - \
            datas["新エネルギー等発電所_廃棄物_最大出力計"]
    # データを出力
    datas.head()
```

実行結果
```python
```

</details>

---

## 問題95:  必要なカラムだけに絞り込もう

問題94までで、データの読み込みから、データ修正、結合までPandasが使いやすいデータが出来ました。

ここからは、分析や可視化に向けてデータを加工していきます。

<br>

後々分析や可視化しやすい縦持ちのデータに変換していきます。ここで縦持ちのデータは、人間にとって見づらいデータですが、今は、どんなものかイメージできなくても問題ありません。

今回は、水力発電_水力_発電所数、火力発電所_火力_発電所数等を縦に持たせるデータを作成していきます。

<br>

まずは、縦持ち化に向けて、必要なカラムに絞り込んでいきます。

今回は、

* 合計_合計_発電所数
* 合計_合計_最大出力計
* 新エネルギー等発電所_計_発電所数
* 新エネルギー等発電所_計_最大出力計

を除外します。

コードは意外と簡単です。

`axis` に1を指定することで列を削除でき、0を指定すると行を削除できます。

リストでカラム名を指定することで、一度に複数の列を削除できます。(第一引数)

```python
    ## 合計列の除外
    datas.drop([
        '合計_合計_発電所数',
        '合計_合計_最大出力計',
        '新エネルギー等発電所_計_発電所数',
        '新エネルギー等発電所_計_最大出力計'
    ], axis=1, inplace=True)
    datas.head()
```

In [None]:
#コードを記述
    

### 問題95 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    ## 合計列の除外
    datas.drop([
        '合計_合計_発電所数',
        '合計_合計_最大出力計',
        '新エネルギー等発電所_計_発電所数',
        '新エネルギー等発電所_計_最大出力計'
    ], axis=1, inplace=True)
    datas.head()
```

</details>

<br>

* 参考: [pandas.DataFrameの行・列を指定して削除するdrop - note.nkmk.me](https://note.nkmk.me/python-pandas-drop/)
* 参考：[pandas.DataFrame.drop - pandas.pydata.org](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html)

---

## 問題96: 縦持ちのデータを作成しよう

縦持ちのデータへ変換をしましょう。

縦持ちデータを作る時に、「都道府県」と「年月」の列を指定して作成します。

分かりづらいと思うので、まず作成してみましょう。

```python
    datas_v = pd.melt(datas, id_vars=["都道府県", "年月"], var_name="変数名", value_name="値")
    datas_v.head()
```


In [None]:
#コードを記述


### 問題96 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    datas_v = pd.melt(datas, id_vars=["都道府県", "年月"], var_name="変数名", value_name="値")
    datas_v.head()
```

</details>

<br>

`melt` が縦持ちを行うメソッドになります。datasは対象データ、id_varsではキーとなる列である「都道府県」と「年月」を指定しています。出力結果を見ると、「水力発電所_水力_発電所数」が「変数名」の列に記載されており、値が実際の数字となっています。

現在は、先頭５行しか表示されていませんが、データ中盤には、火力発電所_火力_発電所数等もデータとして格納されているので、確認してみてください。


* 参考: [pandas.melt - pandas.pydata.org](https://pandas.pydata.org/docs/reference/api/pandas.melt.html)
* 参考：[【Python】pandas.meltで横持ちのデータを縦持ちにする - データアナリストのメモ帳](https://k2-tech.hatenablog.com/entry/2020/12/12/221620)

---

## 問題97: 縦持ちのデータを整形しよう

先ほど作成した縦持ちのデータで、列名「変数名」に入っているデータは、アンダーバーで区切っていますが、「発電所種別」「発電種別」「項目」の３つから構成されています。

> ex:  
> 新エネルギー等発電所_風力_発電所数  
> -->  新エネルギー等発電所、風力、発電所数

今から変数名に格納されたデータをアンダーバーで区切りそれぞれを列に格納していきます。

まず、列「変数名」の値を分解していきます。

`str.split`を使います。引数に`expland=True`を指定することで、列ごとに区切ってくれます。
ここを指定しないと、1つの列にリスト型が格納されてしまいます。

```python
    # 変数名の分割
    var_data = datas_var["変数名"].str.split("_", expand=True)
    var_data.head()
```

In [None]:
#コードを記述

分割したデータを取得できたかと思います。

次に、

* カラム名を代入してから、元のデータ `datas_v` と結合しましょう。
* また、結合した後に、不要となる「変数名」列は削除していきましょう。
* カラム名は、「発電所種別」「発電種別」「項目」とします。

```python
    # 分割した変数名の結合
    var_data.columns = ["発電所種別", "発電種別", "項目"]
    datas_v = pd.concat([datas_v, var_data], axis=1)
    datas_v.drop(["変数名"], axis=1, inplace=True)
    datas_v.head()
```

In [None]:
# 分割した変数名の結合


In [6]:
# テストコード
from pathlib import Path
import pandas as pd
excel_filename = Path("input/1-2-2021.xlsx")
data = pd.read_excel(excel_filename)
# 不要な行を読み込まないようにreadする
## 先頭行
data = pd.read_excel(excel_filename, skiprows=4, header=None)
## 末尾
data.drop(data.tail(4).index, inplace=True)

excel_filename = Path("input/1-2-2021.xlsx")
col_data = pd.read_excel(excel_filename, skiprows=1, header=None)
col_data = col_data.head(3)
## 行方向の欠損値の処理
col_data.iloc[1, 1:].fillna(col_data.iloc[0,1:], inplace=True)
col_data.iloc[1, 1:] = col_data.iloc[1, 1:].str.replace('発電所', '')
## 列方向の欠損値の処理
for i in col_data.columns:
    if i < col_data.columns.max():
        col_data[i + 1].fillna(col_data[i], inplace=True)

# 不要な文字を削除する
col_data.replace("〔バイオマス〕", "バイオマス", inplace=True)
col_data.replace("〔廃棄物〕", "廃棄物", inplace=True)
## カラム名の修正と欠損値の対応
cols = []
for i in col_data.columns:
    tg_col = "_".join(list(col_data[i].dropna()))
    cols.append(tg_col)
data.columns = cols

##　シートを読み込み
x1 = pd.ExcelFile(excel_filename)
sheets = x1.sheet_names
# 全てのシートに同じ処理を実行する
datas = []
for sheet in sheets:
    data = x1.parse(sheets[0], skiprows=4, header=None)
    data.drop(data.tail(4).index, inplace=True)
    # 問題92で実行したcolsを使用します
    data.columns = cols
    data["年月"] = sheet
    datas.append(data)
## 全データを結合
datas = pd.concat(datas, ignore_index=True)

# 発電所数: 火力発電所の値から、バイオマス、廃棄物の値を引く
datas["火力発電所_火力_発電所数"] = \
        datas["火力発電所_火力_発電所数"] - \
        datas["新エネルギー等発電所_バイオマス_発電所数"] - \
        datas["新エネルギー等発電所_廃棄物_発電所数"]
# 最大出力計: 火力発電所の値から、バイオマス、廃棄物の値を引く
datas["火力発電所_火力_最大出力計"] = \
        datas["火力発電所_火力_最大出力計"] - \
        datas["新エネルギー等発電所_バイオマス_最大出力計"] - \
        datas["新エネルギー等発電所_廃棄物_最大出力計"]
## 合計列の除外
datas.drop([
    '合計_合計_発電所数',
    '合計_合計_最大出力計',
    '新エネルギー等発電所_計_発電所数',
    '新エネルギー等発電所_計_最大出力計'
], axis=1, inplace=True)

datas_v = pd.melt(datas, id_vars=["都道府県", "年月"], var_name="変数名", value_name="値")

# 変数名の分割
var_data = datas_v["変数名"].str.split("_", expand=True)
var_data.head()
# 分割した変数名の結合
var_data.columns = ["発電所種別", "発電種別", "項目"]
datas_v = pd.concat([datas_v, var_data], axis=1)
datas_v.drop(["変数名"], axis=1, inplace=True)
datas_v.head()

Unnamed: 0,都道府県,年月,値,発電所種別,発電種別,項目
0,北海道,2021.4,98,水力発電所,水力,発電所数
1,青森県,2021.4,19,水力発電所,水力,発電所数
2,岩手県,2021.4,40,水力発電所,水力,発電所数
3,宮城県,2021.4,22,水力発電所,水力,発電所数
4,秋田県,2021.4,42,水力発電所,水力,発電所数


### 問題97 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    # 変数名の分割
    var_data = datas_v["変数名"].str.split("_", expand=True)
    var_data.head()
    # 分割した変数名の結合
    var_data.columns = ["発電所種別", "発電種別", "項目"]
    datas_v = pd.concat([datas_v, var_data], axis=1)
    datas_v.drop(["変数名"], axis=1, inplace=True)
    datas_v.head()
```

</details>

<br>

`concat()`で、`axis=1`を指定するのは、横方向の結合を意味します。`axis=0`は縦方向の結合を意味ます。

これで、変数名ではなく、発電種別等で絞り込みがしやすくなりました。

次の問題で、発電実績データの加工を実施データの加工もしてみましょう。

---

## 問題98: 発電実績データを加工しよう

発電実績データの加工を行います。

まずは発電実績のデータを読み込んでみましょう。その後、先頭と末尾の5行出力してみましょう。

```python
    from pathlib import Path
    import pandas as pd

    capa_excel_filename = Path("source/input/2-2-2021.xlsx")
    capacity_data = pd.read_excel("input/2-2-2021.xlsx")
    capacity_data.head()
    capacity_data.tail()
```

In [None]:
#コードを記述
from pathlib import Path
import pandas as pd

capa_excel_filename = Path("input/2-2-2021.xlsx")
capacity_data = pd.read_excel("input/2-2-2021.xlsx")
capacity_data.head()
capacity_data.tail()

基本的には、問題97までの処理と同じようにデータを処理出来そうです。

しかし、今回は前回のデータと違い、備考が2行にわたって記述されているので、末尾を４行削除しました。今回は、備考欄が1行しかないので、末尾の削除が3行となります。

また、カラム名が前回とは異なるので、データの読み込みからカラム名の取得まで一気に実行してみましょう。

```python
    # ファイルの読み込み
    capa_excel_filename = Path("input/2-2-2021.xlsx")
    col_ca_data = pd.read_excel(capa_excel_filename, skiprows=1, header=None)
    col_ca_data = col_ca_data.head(3)

    # 行方向の欠損値の削除と不要な文字削除
    col_ca_data.iloc[1,1:].fillna(col_ca_data.iloc[0,1:], inplcae=True)
    col_ca_data.iloc[1,1:] = col_ca_data.iloc[1, 1:].str.replcae("発電所", "")
    # 列方向の欠損値の補完と不要な文字削除
    for i in col_ca_data.columns:
        if i < col_ca_data.columns.max():
            col_ca_data[i+1].fillna(col_ca_data[i], inplace=True)
    col_ca_data.replace("〔廃棄物〕", "廃棄物", inplace=True)
    col_ca_data.replace("〔バイオマス〕", "バイオマス", inplace=True)

    # カラム名の取得
    cols_ca = []
    for i in col_ca_data.columns:
        tg_col = '_'.join(list(col_ca_data[i].dropna()))
        cols_ca.append(tg_col)
    cols_ca
```

In [None]:
# ファイルの読み込み

# 行方向の欠損値の削除と不要な文字削除

# 列方向の欠損値の補完と不要な文字削除

# カラム名の取得

カラム名が取得できたので、全シートのデータを結合したデータを作成しましょう。

問題93の復習です。そちらを参考にしながら構築してください。

```python
    # 欠損値の修正と不要な文字の削除
    capa_excel_filename = Path("input/2-2-2021.xlsx")
    xl_ca = pd.ExcelFile(capa_excel_filename)
    sheets = xl_ca.sheet_names
    ca_datas = []
    for sheet in sheets:
        capacity_data = xl_ca.parse(sheet, skiprows=4, header=None)
        capacity_data = capacity_data.head(47)
        capacity_data.cloumns = cols_ca
        capacity_data["年月"]  = sheet
        ca_datas.append(capacity_data)
    ca_datas = pd.concat(ca_datas, ignore_index=True)
    ca_datas.head()
```

In [None]:
# コードを記述

そして、最後に、以下の問題を参考に、発電実績データを作成していきましょう。

* 問題94「データの値を計算で修正してみよう」
* 問題95「必要なカラムだけに絞り込もう」
* 問題96「縦持ちのデータを作成しよう」
* 問題97「縦持ちのデータを整形しよう」

```python
    # 発電実績データの作成
    ca_datas['火力発電所_火力_電力量'] = \
        ca_datas['火力発電所_火力_電力量'] -\
        ca_datas['新エネルギー等発電所_バイオマス_電力量'] -\
        ca_datas['新エネルギー等発電所_廃棄物_電力量']

    ca_datas.drop(
        ['合計_合計_電力量','新エネルギー等発電所_計_電力量'],
        axis=1,
        inplace=True)
    ca_datas_v = pd.melt(
        ca_datas,
        id_vars=['都道府県','年月'],
        var_name="変数名",
        value_name="値")

    var_data = ca_datas_v['変数名'].str.split('_', expand=True)
    var_data.columns = ['発電所種別', '発電種別', '項目']
    ca_datas_v = pd.concat([ca_datas_v, var_data], axis=1)
    ca_datas_v.drop(['変数名'], axis=1, inplace=True)

    ca_datas_v.head()
```

In [None]:
# コードを記述

### 問題98 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python

# ファイルの読み込み
capa_excel_filename = Path("source/input/2-2-2021.xlsx")
col_ca_data = pd.read_excel(capa_excel_filename, skiprows=1, header=None)
col_ca_data = col_ca_data.head(3)

# 行方向の欠損値の削除と不要な文字削除
col_ca_data.iloc[1,1:].fillna(col_ca_data.iloc[0,1:], inplcae=True)
col_ca_data.iloc[1,1:] = col_ca_iloc[1, 1:].str.replcae("発電所", "")
# 列方向の欠損値の補完と不要な文字削除
for i in col_ca_data.columns:
    if i < col_ca_columns.max():
        col_ca_data[i+1].fillna(col_ca_data[i], inplace=True)
col_ca_data.replace("〔廃棄物〕", "廃棄物", inplace=True)
col_ca_data.replace("〔バイオマス〕", "バイオマス", inplace=True)

# カラム名の取得
cols_ca = []
for i in col_ca_data.columns:
    tg_col = '_'.join(list(col_ca_data[i].dropna()))
    cols_ca.append(tg_col)
cols_ca

# 欠損値の修正と不要な文字の削除
capa_excel_filename = Path("source/input/2-2-2021.xlsx")
xl_ca = pd.ExcelFile(capa_excel_filename)
sheets = xl_ca.sheet_names
ca_datas = []
for sheet in sheets:
    capacity_data = xl_ca.parse(sheet, skiprows=4, header=None)
    capacity_data = capacity_data.head(47)
    capacity_data.cloumns = cols_ca
    capacity_data["年月"]  = sheet
    ca_datas.append(capacity_data)
ca_datas = pd.concat(ca_datas, ignore_index=True)
ca_datas.head()

# 発電実績データの作成
ca_datas['火力発電所_火力_電力量'] = \
    ca_datas['火力発電所_火力_電力量'] -\
    ca_datas['新エネルギー等発電所_バイオマス_電力量'] -\
    ca_datas['新エネルギー等発電所_廃棄物_電力量']

ca_datas.drop(['合計_合計_電力量','新エネルギー等発電所_計_電力量'], axis=1, inplace=True)
ca_datas_v = pd.melt(ca_datas, id_vars=['都道府県','年月'], var_name="変数名",value_name="値")

var_data = ca_datas_v['変数名'].str.split('_', expand=True)
var_data.columns = ['発電所種別', '発電種別', '項目']
ca_datas_v = pd.concat([ca_datas_v, var_data], axis=1)
ca_datas_v.drop(['変数名'], axis=1, inplace=True)

ca_datas_v.head()
```

実行結果
```python
```

</details>

<br>

---

In [10]:
# テストコード
from pathlib import Path
import pandas as pd

capa_excel_filename = Path("input/2-2-2021.xlsx")
capacity_data = pd.read_excel("input/2-2-2021.xlsx")
capacity_data.head()
capacity_data.tail()

# # ファイルの読み込み
# capa_excel_filename = Path("input/2-2-2021.xlsx")
# col_ca_data = pd.read_excel(capa_excel_filename, skiprows=1, header=None)
# col_ca_data = col_ca_data.head(3)
# # 行方向の欠損値の削除と不要な文字削除
# col_ca_data.iloc[1,1:].fillna(col_ca_data.iloc[0,1:], inplcae=True)
# col_ca_data.iloc[1,1:] = col_ca_data.iloc[1, 1:].str.replcae("発電所", "")
# # 列方向の欠損値の補完と不要な文字削除
# for i in col_ca_data.columns:
#     if i < col_ca_data.columns.max():
#         col_ca_data[i+1].fillna(col_ca_data[i], inplace=True)
# col_ca_data.replace("〔廃棄物〕", "廃棄物", inplace=True)
# col_ca_data.replace("〔バイオマス〕", "バイオマス", inplace=True)
# # カラム名の取得
# cols_ca = []
# for i in col_ca_data.columns:
#     tg_col = '_'.join(list(col_ca_data[i].dropna()))
#     cols_ca.append(tg_col)
# cols_ca

# # 欠損値の修正と不要な文字の削除
# capa_excel_filename = Path("input/2-2-2021.xlsx")
# xl_ca = pd.ExcelFile(capa_excel_filename)
# sheets = xl_ca.sheet_names
# ca_datas = []
# for sheet in sheets:
#     capacity_data = xl_ca.parse(sheet, skiprows=4, header=None)
#     capacity_data = capacity_data.head(47)
#     capacity_data.cloumns = cols_ca
#     capacity_data["年月"]  = sheet
#     ca_datas.append(capacity_data)
# ca_datas = pd.concat(ca_datas, ignore_index=True)
# ca_datas.head()

# # 発電実績データの作成
# ca_datas['火力発電所_火力_電力量'] = \
#     ca_datas['火力発電所_火力_電力量'] -\
#     ca_datas['新エネルギー等発電所_バイオマス_電力量'] -\
#     ca_datas['新エネルギー等発電所_廃棄物_電力量']
# ca_datas.drop(
#     ['合計_合計_電力量','新エネルギー等発電所_計_電力量'],
#     axis=1,
#     inplace=True)
# ca_datas_v = pd.melt(
#     ca_datas,
#     id_vars=['都道府県','年月'],
#     var_name="変数名",
#     value_name="値")
# var_data = ca_datas_v['変数名'].str.split('_', expand=True)
# var_data.columns = ['発電所種別', '発電種別', '項目']
# ca_datas_v = pd.concat([ca_datas_v, var_data], axis=1)
# ca_datas_v.drop(['変数名'], axis=1, inplace=True)
# ca_datas_v.head()

## 問題99 : 可視化用データを仕上げよう

これまで問題で、最大出力計および発電所数のデータと発電実績データの2つが作成できました。

最後にこれらを結合して可視化用データの仕上げを行います。

最大出力計および発電所数のデータと発電実績データは、カラム名が同じであるため、縦の結合で加工は終わります。

まずは、2つのデータ( `datas_v` , `ca_datas_v` )を結合して、先頭・末尾を５行出力してみましょう。


```python
    datas_v_all = pd.concat([datas_v, ca_datas_v], ignore_index=True)
    display(datas_v_all.head())
    display(datas_v_all.tail())
```

In [None]:
#コードを記述
    

### 問題99 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    datas_v_all = pd.concat([datas_v, ca_datas_v], ignore_index=True)
    display(datas_v_all.head())
    display(datas_v_all.tail())
```

</details>

<br>

---

## 問題100 : データの分布をヒストグラムで可視化しよう

データが揃ったら、データの全体像を確認してみましょう。

この問題では、データの分布を見てみましょう。

ここで使用するライブラリは、**matplotlib** と **seaborn** を使用します。どちらも、pythonの可視化ライブラリです。どちらもよく使用されているライブラリです。

> Matplotlibの利用例  
> [Matplotlib: Visualization with Python - matplotlib.org](https://matplotlib.org/)  
> ![exsample_matplotlib](img/exsample_matplotlib.png)
>   
> seabornの利用例  
> [seaborn: statistical data visualization - seaborn.pydata.org](https://seaborn.pydata.org/)  
> ![exsample_seaborn](img/exsample_seaborn.png)



これらのライブラリを使って、まずは、発電量に絞ってヒストグラムを可視化してみます。

ヒストグラムのプロットは、`histplot` で描画可能です。

```python
    import matplotlib.pyplot as plt
    import japanize_matplotlib
    import seaborn as sns

    plt.figure(figsize=(20, 10))
    sns.histplot(datas_v_all.loc[datas_v_all['項目']=='発電所数'])
```

In [None]:
#コードを記述


出力された結果を見ると、発電所数が0が最もデータ件数が多く、裾を引いている分布になっています。

200を超えるデータもありますが、大半が10以下のデータです。

今回のデータにおいて、0は該当の発電所がないという意味です。その情報が分析対象であれば残します。

0を除外してみましょう。また、今回は、発電所数、最大出力計、電力量をまとめて描画してみましょう。

```python
    fig, axes = plt.subplots(1, 3, figsize=(30, 10))
    viz_data = datas_v_all.loc[datas_v_all['値']!=0]
    sns.histplot(viz_data.loc[viz_data['項目']=='発電所数'], ax=axes[0])
    sns.histplot(viz_data.loc[viz_data['項目']=='最大出力計'], ax=axes[1])
    sns.histplot(viz_data.loc[viz_data['項目']=='電力量'], ax=axes[2])
```

In [None]:
# コードを記述する
fig, axes = plt.subplots(1, 3, figsize=(30, 10))
viz_data = datas_v_all.loc[datas_v_all['値']!=0]
sns.histplot(viz_data.loc[viz_data['項目']=='発電所数'], ax=axes[0])
sns.histplot(viz_data.loc[viz_data['項目']=='最大出力計'], ax=axes[1])
sns.histplot(viz_data.loc[viz_data['項目']=='電力量'], ax=axes[2])

### 問題100 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    import matplotlib.pyplot as plt
    import japanize_matplotlib
    import seaborn as sns

    fig, axes = plt.subplots(1, 3, figsize=(30, 10))
    viz_data = datas_v_all.loc[datas_v_all['値']!=0]
    sns.histplot(viz_data.loc[viz_data['項目']=='発電所数'], ax=axes[0])
    sns.histplot(viz_data.loc[viz_data['項目']=='最大出力計'], ax=axes[1])
    sns.histplot(viz_data.loc[viz_data['項目']=='電力量'], ax=axes[2])
```

</details>

<br>

出力されたグラフは、左から、発電所数、最大出力計、電力量のヒストグラムになります。

今回は、データが0の場合は、除外していますので、一番左の発電所数のグラフが、先ほどの分布と少し異なっていることが分かります。

ヒストグラムは、土の数字が大体どの程度の範囲にどう分布しているかを押さえることができます。


* 参考: [Matplotlib: Visualization with Python - matplotlib.org](https://matplotlib.org/)
* 参考: [seaborn: statistical data visualization - seaborn.pydata.org](https://seaborn.pydata.org/)

---

## 問題101 : データの分布を箱ひげ図で可視化しよう

データの分布を見る際に、もう一つ可視化の方法があります。それが箱ひげ図です。

先ほどの分布だと、中央値(全データの真ん中の値)がどのあたりにあるか一目で分かりません。

そこで、利用されるのが箱ひげグラフです。

まずは、グラフ化していきましょう。

```python
    plt.figure(figsize=(10, 10))
    viz_data = datas_v_all.loc[
        (datas_v_all['項目']=='発電所数')&(datas_v_all['値']!=0)]
    sns.boxplot(y=viz_data['値'])
```

In [None]:
#コードを記述
plt.figure(figsize=(10, 10))
viz_data = datas_v_all.loc[(datas_v_all['項目']=='発電所数')&(datas_v_all['値']!=0)]
sns.boxplot(y=viz_data['値'])

青い箱が全データの25% ~ 75%を示しており、それぞれ第1四分位数、第3四分位数と呼びます。

青い箱にある線が中央値を示しています。

せっかくなので、発電種別ごとに箱ひげ図を出してみましょう。

```python
    plt.figure(figsize=(30, 10))
    sns.boxplot(x=viz_data['発電種別'], y=viz_data['値'])
```

In [None]:
# コードを記述
plt.figure(figsize=(30, 10))
sns.boxplot(x=viz_data['発電種別'], y=viz_data['値'])

### 問題101 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    # 発電所数の箱ひげを出力
    plt.figure(figsize=(10, 10))
    viz_data = datas_v_all.loc[(datas_v_all['項目']=='発電所数')&(datas_v_all['値']!=0)]
    sns.boxplot(y=viz_data['値'])
    # 発電種別ごとに図を表示
    plt.figure(figsize=(30, 10))
    sns.boxplot(x=viz_data['発電種別'], y=viz_data['値'])
```

</details>

<br>

グラフから分かることは、全体的に発電所数が多いと考えられるのは、水力・太陽光となっているのが分かります。どちらも中央値の線は同じぐらいですが、箱の大きさは太陽光の方が広くみえることから、太陽項の分布が比較的均一に分散していると考えられます。

データの特徴をある程度把握するには、箱ひげグラフは便利なため、使えるようにしておきましょう。

* 参考: [seaborn.boxplot - seaborn.pydata.org](https://seaborn.pydata.org/generated/seaborn.boxplot.html)
* 参考: [【Python】seabornのグラフを活用したデータ分析の手法メモ - Qitta](https://qiita.com/ryo111/items/bf24c8cf508ad90cfe2e)

---

## 問題102 : 最近の発電量を可視化してみよう

ここからは、データの分布ではなく特徴をつかむための可視化をしていきましょう。まずは、最近のデータだけに絞り込んで、どの発電種別や発電所の電力量が多いか見ていきましょう。

発電種別ごとの電力量を一目で把握したい場合に使用するのは、棒グラフがいいかとおもいます。

可視化の手順として、

* 年月が2021年1月かつ項目が電力量のデータに絞り込む
* 発電種別ごとに電力の集計を行います。

```python
    viz_data = datas_v_all[['発電種別','値']].loc[(datas_v_all['項目']=='電力量')&(datas_v_all['年月']=='2021.1')]
    viz_data = viz_data.groupby('発電種別', as_index=False).sum()
    viz_data
```

In [None]:
#コードを記述
viz_data = datas_v_all[['発電種別','値']].loc[(datas_v_all['項目']=='電力量')&(datas_v_all['年月']=='2021.1')]
viz_data = viz_data.groupby('発電種別', as_index=False).sum()
viz_data

### 問題102 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    viz_data = datas_v_all[['発電種別','値']].loc[(datas_v_all['項目']=='電力量')&(datas_v_all['年月']=='2021.1')]
    viz_data = viz_data.groupby('発電種別', as_index=False).sum()
    viz_data
```

実行結果
```python
```

</details>

<br>

項目と年月を指定の条件で絞り込むために、pandasのlocでデータを抽出しています。

その際に、今回使用する発電種別と値のみにカラムを絞っていきます。

その後、`groupby()` 用いて発電種別ごとに値を合計しています。

* 参考 [Pandas の groupby の使い方 - Qitta](https://qiita.com/propella/items/a9a32b878c77222630ae)

---

## 問題103 : 電力の時系列変化を可視化してみよう

In [None]:
#コードを記述
    

### 問題103 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
```

実行結果
```python
```

</details>

<br>

* 参考

---

## 問題100 :

In [None]:
#コードを記述
    

### 問題100 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
```

実行結果
```python
```

</details>

<br>

* 参考

---

## 問題100 :

In [None]:
#コードを記述
    

### 問題100 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
```

実行結果
```python
```

</details>

<br>

* 参考

---

## 問題100 :

In [None]:
#コードを記述
    

### 問題100 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
```

実行結果
```python
```

</details>

<br>

* 参考

---

## 問題100 :

In [None]:
#コードを記述
    

### 問題100 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
```

実行結果
```python
```

</details>

<br>

* 参考

---

## 問題100 :

In [None]:
#コードを記述
    

### 問題100 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
```

実行結果
```python
```

</details>

<br>

* 参考

---

## 問題100 :

In [None]:
#コードを記述
    

### 問題100 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
```

実行結果
```python
```

</details>

<br>

* 参考

---

## 問題100 :

In [None]:
#コードを記述
    

### 問題100 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
```

実行結果
```python
```

</details>

<br>

* 参考

---