# Chapter04: 

## 問題84: ファイルを操作する

テキストファイルやCSVファイルなど、Office関連ファイル(Word, Excelなど)を読み込んで処理したい時があると思います。

ここからは、実際にファイルを読み込ん処理してみましょう。

### ファイルを開く手順

1. ファイルを開く
2. ファイルデータを読み込む
3. ファイルを閉じる

ファイルを開く構文

![58-0](img/58-0.png)


### 問題

実際にファイルを読み込んで、ファイルの内容を出力してみましょう。

読み込むファイルは、`input` フォルダのに保存されている `sample84.txt` を読み込んでみましょう。

以下のコードを書いて実行してみましょう。

```python
    from pathlib  import Path

    # pathlib.Pathは異なるOSでPathを扱いため
    filepath = Path("input/sample84.txt")
    # Step1: ファイルを開く
    fileobj = open(filepath, mode="r")
    # Step2: ファイルを読み込む
    text = fileobj.read()
    # Step3: ファイルを閉じる
    fileobj.close()
    # ファイルの内容を表示する
    print(text)
```

In [None]:
#コードを記述

### 問題84 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    from pathlib import Path

    # pathlib.Pathは異なるOSでPathを扱いため
    filepath = Path("input/sample84.txt")
    # Step1: ファイルを開く
    fileobj = open(filepath, mode="r")
    # Step2: ファイルを読み込む
    text = fileobj.read()
    # Step3: ファイルを閉じる
    fileobj.close()
    # ファイルの内容を表示する
    print(text)
```

実行結果
```python
    これはサンプルテキストです。問題58で使用します。
```

</details>

ファイル処理は、基本の基本であるためしっかり習得しておきましょう。また、ファイルの `mode` と、`encoding` は以下のとおりです。

* モード(引数 `mode` )について
  
  | mode | 説明 |
  | :--- | :--- |
  | "r"  | 読み込み専用で開く(デフォルト) |
  | "w"  | 書き込み用で開く。ファイルが存在する場合は上書き保存 |
  | "x"  | 排他的な生成で開く。ファイルが存在する場合は失敗する |
  | "a"  | 書き込み用で開く。ファイルが存在する場合は追記      |
  | "b"  | バイナリモードで開く。画像など                   |
  | "t"  | テキストモードで開く。(デフォルト)               |
  | "+"  | 読み込み・書き込みモードで開く                   |

<br>

* エンコーディング(引数 `encoding`)について
  
  | encoding     | 説明       |
  | :----------- | :-------- |
  | "utf-8"      | UTF-8     |
  | "euc_jp"     | 日本語EUC  |
  | "iso2022_jp" | JIS       |
  | "shift-jis"  | SHift JIS |
 
<br>

* 参考 [open() - docs.python.org](https://docs.python.org/ja/3/library/functions.html#open)
* 参考 [Pythonでファイルの読み込み、書き込み（作成・追記） - note.nkmk.me](https://note.nkmk.me/python-file-io-open-with/)

---

## 問題85: ファイルへ書き込む

同様の手順で、ファイルに何か書き込んでみましょう。

ファイルへ書き込みを実行する関数は、`write()`で任意の内容をファイルに書き込むことができます。

### ファイルへ書き込む手順

1. ファイルを開く
2. ファイルデータを書き込む
3. ファイルを閉じる


### 問題

以下の変数の内容を、`output/sample_plain_text.txt` を作成し書き込んでみましょう。

```python
contents = "Hello Python! これはファイル書き込み練習です。"
```

以下のコードを写して書いて実行してみましょう。

```python
    from pathlib  import Path

    # pathlib.Pathは異なるOSでPathを扱いため
    filepath = Path("input/sample_plain_text.txt")
    # 書き込む内容
    contents = "Hello Python! これはファイル書き込み練習です。"
    # Step1: ファイルを開く
    fileobj = open(filepath, mode="w")
    # Step2: ファイルを読み込む
    fileobj.write(contents)
    # Step3: ファイルを閉じる
    fileobj.close()
    # ファイルの内容を確認してみましょう。
```

In [4]:
#コードを記述


### 問題85 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    from pathlib  import Path

    # pathlib.Pathは異なるOSでPathを扱いため
    filepath = Path("output/sample_plain_text.txt")
    # 書き込む内容
    contents = "Hello Python! これはファイル書き込み練習です。"
    # Step1: ファイルを開く
    fileobj = open(filepath, mode="w")
    # Step2: ファイルを読み込む
    fileobj.write(contents)
    # Step3: ファイルを閉じる
    fileobj.close()
    # ファイルの内容を確認してみましょう。
```

実行結果
```python
    実際にoutputフォルダを確認してみましょう。
```

`read()` を `write()` に変更するぐらいで特に問題なかったですね。

もし書き込みたい内容に改行等を入れたい場合、エスケープシーケンスや複数行で文字列を定義するといいと思います。

* モード(引数 `mode` )について
  
  | mode  | 説明             |
  | :---- | :-------------- |
  | "\n"  | 改行コードを入れる |
  | "\t"  | 水平タブを入れる   |
  | "\r"  | キャリッジリターン |

<br>

例：複数行文字を書き込む

```python
    from pathlib  import Path

    # pathlib.Pathは異なるOSでPathを扱いため
    filepath = Path("output/sample_plain_text.txt")
    # 書き込む内容
    contents = '''Hello Python!
    これはファイル書き込み練習です
    複数行を書き込む練習です。シングルクォーテーションを3つで囲むことで
    複数行書き込めます。
    '''
    # Step1: ファイルを開く
    fileobj = open(filepath, mode="w")
    # Step2: ファイルを読み込む
    fileobj.write(contents)
    # Step3: ファイルを閉じる
    fileobj.close()
    # ファイルの内容を確認してみましょう。
```

</details>

* 参考 [open() - docs.python.org](https://docs.python.org/ja/3/library/functions.html#open)
* 参考 [Pythonでファイルの読み込み、書き込み（作成・追記） - note.nkmk.me](https://note.nkmk.me/python-file-io-open-with/)

---

## 問題86: ファイルをwith構文を使って操作する

先ほどは、以下の手順でファイルを操作しました。

1. ファイルを開く
2. ファイルを読む/書く
3. ファイルを閉じる

これがファイル操作の鉄則とお伝えしましたが、これには少し欠点があります。

プログラムを書いていると、ファイルを開いて、ファイル操作時に、エラーが発生することがしばしばあります。

すると、ファイルが開きっぱなしのまま、エラーの発生と処理の中断がされてしまうと、ファイルを閉じる操作を行われず処理が終了してしまうプロセスとして残り続けてしまう可能性があります。そうすると、PCの処理としても大きい負荷となります。

<br>

そこで、そのような処理を省く `with`ステートメントを利用します。ファイルを開く時は、これがデファクトスタンダードであるため、必ず使えるようにしておきましょう。

![with](img/with.png)

以下のコードを実行して、ファイルを読み込んでみましょう。処理内容は、前回のコードと一緒です。

```python
    from pathlib  import Path

    # pathlib.Pathは異なるOSでPathを扱いため
    filepath = Path("input/sample84.txt")
    # Step1: ファイルを開く
    with open(filepath, mode="r") as fileobj:
        # Step2: ファイルを読み込む
        text = fileobj.read()
    # Step3: インデント(字下げ)が終わるとファイルを自動的に閉じる
    # ファイルの内容を表示する
    print(text)
```



In [None]:
#コードを記述

### 問題86 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    from pathlib  import Path
    # pathlib.Pathは異なるOSでPathを扱いため
    filepath = Path("input/sample84.txt")
    # Step1: ファイルを開く
    with open(filepath, mode="r") as fileobj:
        # Step2: ファイルを読み込む
        text = fileobj.read()
    # Step3: インデント(字下げ)が終わるとファイルを自動的に閉じる
    # ファイルの内容を表示する
    print(text)
```

実行結果
```python
    これはサンプルテキストです。問題58で使用します。
```

</details>

<br>

* 参考 [open() - docs.python.org](https://docs.python.org/ja/3/library/functions.html#open)
* 参考 [Pythonでファイルの読み込み、書き込み（作成・追記） - note.nkmk.me](https://note.nkmk.me/python-file-io-open-with/)

---

## 問題87: with構文の理解とベンチマークツールの改良

with文を少しだけ掘り下げてみましょう。

with文では、ブロック開始前にオブジェクトの `__enter__()` が呼び出され、ブロックの終了時に `__exit__()` が呼び出されます。

例えば、

```python
    with obj as xx:
        ...
```

というwith文は、おおよそ、以下のような仕組みで動作します。(PEP-343参照)

```python
    xx = obj.__enter__()
    try:
        ...
    except Exception:
        # sys.exc_info()はいかの説明を参照
        if not obj.__exit__(*sys.exc_info()):
            raise #例外を再送
    else:
        obj.__exit__(None, None, None)
```
`sys.exc_info()` は、直近に発生した例外のデータ`(例外クラス, 例外オブジェクト, トレースバック)`をタプルで返します。 

このことから、with文の正体は、結局のところ、`try`文なのです。

* `__exit__()` の戻り値が「as xx」のxに入る
* `__exit__()` で例外が発生すると、with文のブロックは実行されない
* with文のブロックで例外が発生すると、「`__exit__()`」に例外データが渡される。例外が発生しないと、Noneが３つタプルで渡される。
* 通常なら発生した例外は再送されるが、「`__exit__()`」が真偽を返すと再送されない。

<br>

しかし、毎回 `__enter__()` と `__exit__()` を書いていては、めんどくさいです。

そこで上記特殊メソッドをもった `contextmanager`が用意されています。これを使ってベンチマークツールを改良してみましょう。

以下のようなコードが動作するように、ベンチマークツール`bench()`を作成してみましょう。

```python
    ## 実行例
    strings = ("A"*10, "B"*10, "C"*10, "D"*10, "E"*10)
    N = 1000000

    with bench("'+' operator"):
        s1, s2, s3, s4, s5 = strings
        for _ in range(N):
            result = s1 + s2 + s3 + s4 + s5

    ## 実行結果
    '+' operator    0.355 sec
```

> 参考: [contextlib --- with 文コンテキスト用ユーティリティ](https://docs.python.org/ja/3/library/contextlib.html#contextlib.contextmanager)

In [None]:
#コードを記述


### 問題88 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    from time import time
    from contextlib import contextmanager

    @contextmanager
    def bench(title):
        start = time()
        yield
        elapsed = time() - start
        print("%-20s %6.3f sec" % (title, elapsed))

    ## 使用例
    strings = ("A"*10, "B"*10, "C"*10, "D"*10, "E"*10)
    N = 1000000

    with bench("'+' operator"):
        s1, s2, s3, s4, s5 = strings
        for _ in range(N):
            result = s1 + s2 + s3 + s4 + s5

    with bench("'%' operator"):
        s1, s2, s3, s4, s5 = strings
        for _ in range(N):
            result = "%s%s%s%s%s" % (s1, s2, s3, s4, s5)

    with bench('"".join(tuple)'):
        s1, s2, s3, s4, s5 = strings
        for _ in range(N):
            result = "".join((s1, s2, s3, s4, s5))
```

実行結果
```python
    '+' operator          0.275 sec
    '%' operator          0.288 sec
    "".join(tuple)        0.191 sec
```

</details>

with文の仕組みが少しは理解できたかと思います。実装してみると、with文の役割が、**「対象の処理の前処理と後処理を実行する」** ということが理解できると思います。

<br>

* 参考: [contextlib --- with 文コンテキスト用ユーティリティ](https://docs.python.org/ja/3/library/contextlib.html#contextlib.contextmanager)

---

## 問題88: CSVを読み込む

続いて、CSVファイルを読み込んでみましょう。

csvを開く構文は、以下の通りです。

![88-0.png](img/88-0.png)

csvを扱うときは、csvモジュールを利用します。

> [csv --- CSV ファイルの読み書き - docs.python.org](https://docs.python.org/ja/3/library/csv.html#module-csv)

csvの読み取りでは、`reader()` メソッドを使用します。

`input` フォルダの `sample.csv` を開き、1行ずつ出力してみましょう。

`sample.csv`の内容は以下の通りです。

```csv
    1,2,3,4,5,6,7,8,9
    a,b,c,d,e,f,g,h
```

以下のコードを写して実行してみましょう。

```python
    import csv
    from pathlib  import Path

    # pathlib.Pathは異なるOSでPathを扱いため
    filepath = Path("input/sample.csv")

    with open(filepath) as f:
        reader = csv.reader(f)
        for row in reader:
            print(row)
```


In [None]:
#コードを記述

### 問題88 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    import csv
    from pathlib  import Path

    # pathlib.Pathは異なるOSでPathを扱いため
    filepath = Path("input/sample.csv")
    with open(filepath) as f:
        reader = csv.reader(f)
        for row in reader:
            print(row)
```

実行結果
```python
    ['1', '2', '3', '4', '5', '6', '7', '8', '9']
    ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']
```

</details>

csvを使って読み出すと、csvファイルの内容が1行ずつリストで出力されたかと思います。csvファイルは、Excel同様、よく利用されるファイルだと思うので、ぜひ `csv` モジュールは使えるようにしておきましょう。

* 参考 [open() - docs.python.org](https://docs.python.org/ja/3/library/functions.html#open)
* 参考 [csv --- CSV ファイルの読み書き - docs.python.org](https://docs.python.org/ja/3/library/csv.html#module-csv)
* 参考 [Pythonでファイルの読み込み、書き込み（作成・追記） - note.nkmk.me](https://note.nkmk.me/python-file-io-open-with/)

---

## 問題89: CSVを編集して書き込む方法 

今度は、csvファイルを編集して、書き込んでみましょう。

同様に`csv`モジュールを使用します。csvモジュール標準モジュールであるため、`pip`でのインストールは不要です。

csvへ書き込むための構文は以下の通りです。

![89-0.png](img/89-0.png)

以下の内容を、`output/output_sample.csv` を新規に作成して書き込んでみましょう。

```csv
    No, 名前, 年齢, 住所
    1, Mike, 10, Tokyo
    2, Hana, 20, Aichi
```

```python
    import csv
    from pathlib  import Path

    # 書きこむ内容を定義
    header = ["No", "名前", "年齢", "住所"]
    mike = ["1", "Mike", "10", "Tokyo"]
    hana = ["2", "Hana", "20", "Aichi"]
    namelist = [header, mike, hana]
    print(f"書きこむ内容: {namelist}")

    # pathlib.Pathは異なるOSでPathを扱いため
    filepath = Path("output/output_sample.csv")
    with open(filepath, mode="w") as f:
        reader = csv.writer(f)
        reader.writerowss(namelist)
    #以下のprint()はいらない
    print("outputフォルダを見てみましょう。")
```

In [None]:
#コードを記述

### 問題89 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    import csv
    from pathlib  import Path

    # 書きこむ内容を定義
    header = ["No", "名前", "年齢", "住所"]
    mike = ["1", "Mike", "10", "Tokyo"]
    hana = ["2", "Hana", "20", "Aichi"]
    namelist = [header, mike, hana]
    print(f"書きこむ内容: {namelist}")

    # pathlib.Pathは異なるOSでPathを扱いため
    filepath = Path("output/output_sample.csv")
    with open(filepath, mode="w") as f:
        reader = csv.writer(f)
        reader.writerows(namelist)
    #以下のprint()はいらない
    print("outputフォルダを見てみましょう。")
```

実行結果
```python
    書きこむ内容: [['No', '名前', '年齢', '住所'], ['1', 'Mike', '10', 'Tokyo'], ['2', 'Hana', '20', 'Aichi']]
    outputフォルダを見てみましょう。
```

</details>

<br>

書き込みする際の注意点は、1行ずつ書きこむ場合は`writerow()` を使用して、複数行を書きこむ場合、`writerows()`を使用します。

書き込むことも多々処理の中では発生してくるので、ぜひ使えるようにしておきたいですね。

* 参考 [open() - docs.python.org](https://docs.python.org/ja/3/library/functions.html#open)
* 参考 [csv --- CSV ファイルの読み書き - docs.python.org](https://docs.python.org/ja/3/library/csv.html#module-csv)
* 参考 [Pythonでファイルの読み込み、書き込み（作成・追記） - note.nkmk.me](https://note.nkmk.me/python-file-io-open-with/)

---

## 問題90: サイズが大きいCSVファイルを読み取るコツ 

仕事をしていると、比較的大きいサイズのCSVファイルに出くわすことがあります。

ここで大きいサイズと言っているのは、5000行、10000行程で、かつ数MBなどあるファイルです。

例えば、100000行かつ500MBあるcsv `sample_L100000_500MB.csv`の内容を取得する関数を定義したとしましょう。

```python
    import csv

    def get_large_csv_contents():
        with open("sample_L100000_500MB.csv", mode="r") as f:
            return csv.reader(f)
```

おそらくこれを実行すると、確実にメモリ不足で、処理が停止してしまいます。

そこで、よく利用される手法は、ジェネレーター(yield)を使用する方法です。

ジェネレーター`yield`は、呼び出されるまで処理を停止できる遅延処理ができるので、メモリ消費削減ができます。

それでは、上記の関数を `yield`で1行ずつ出力できるように変更しましょう。

使用するcsvは、ビックデータではないですが、`input`フォルダの `sample90.csv`をお使いください。

In [None]:
#コードを記述


### 問題90 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    import csv
    import pathlib

    file = pathlib.Path("input/sample90.csv")

    def get_large_csv_contents():
        with open(file, mode="r") as f:
            for i in csv.reader(f):
                yield i

    gen = get_large_csv_contents()
    print(next(gen)) # 1行目
    print(next(gen)) # 2行目
    print(next(gen)) # 3行目
```

実行結果
```python
    ['No', ' title', ' author', ' year']
    ['1', ' 入門Python3', 'Bill Lubanovic', '2021/3/22']
    ['2', ' Python 実践データ分析 100本ノック 第2版', '下山 輝昌', '2022/06/15']
```

</details>

<br>

* 参考 [7.7. yield 文 - docs.pytho.org](https://docs.python.org/ja/3/reference/simple_stmts.html#the-yield-statement)
* 参考 [csv --- CSV ファイルの読み書き - docs.pytho.org](https://docs.python.org/ja/3/library/csv.html#module-csv)

---

## PandasでExcel操作

ここからは、PurePythonから離れて、Pandasを使ってExcelを処理してみましょう。

### 使用するデータについて

今回使用するデータは、inputフォルダに、「**1-2-2021.xlsx**」 と 「**2-2-2021.xlsx**」を用意しました。

このデータは、資源エネルギー庁から引用したデータになります。

| No  | ファイル名     | 説明                                     |
| :-- | :------------ | :--------------------------------------- |
| 1   | 1-2-2021.xlsx | 都道府県別の発電所数と最大出力のデータ      |
| 2   | 2-2-2021.xlsx | 都道府県別の発電実績（電力量）のExcelデータ |

引用：https://www.enecho.meti.go.jp/statistics/electric_power/ep002/results.html

## 問題91: Excelデータを読み込んでみよう 

まずは、都道府県別のデータである **2-1-2021.xlsx** を読み込んでみましょう。

拡張子は、.xlsxはExcelファイルです。

読み込んだファイルは、先頭5行表示してみましょう。

また、末尾も読み込んでみましょう。

In [None]:
#コードを記述

In [None]:
# ファイルの末尾を確認する


### 問題の続き：不要なデータを整形する

先頭行の5行の出力結果を見ると、**Unnamed**のような列や、レコードにNaNが多く散見されます。

このデータを見ると、実際には、0~2行目までのデータが列名を表すもので、３行目が実際のデータになっています。

そして、末尾を見てみると,沖縄県までの行より下の行は、備考行と合計行が含まれています。

今回は、合計から下の業務削除してしまいましょう。

* 先頭から0~2行目は列名を表すため削除
* 末尾の合計行から全ては削除

<br>

それでは、以下のコードを移して、実行してみてください。

先頭行の不要な行は、ファイルを読み込んだ時点で削除してしまいましょう。

今回は、先頭４行目までをスキップするように引数に、`skiprows=4`を追加し、カラムを読み込まない `header=None`を追加しましょう。

```python
    data = pd.read_excel(excel_filename, skiprows=4, header=None)
```

続いて、末尾の処理は、`drop()`でデータを削除していきます。

```python
    data.drop(data.tail(4).index, inplace=True)
    print(data.tail())
```

`data.tail(4)` で、末尾4行のindexを取得し、dropで該当行の削除します。

In [None]:
# 不要な行を読み込まないようにreadする
## 先頭行

## 末尾

### 問題91 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    from pathlib import Path
    import pandas as pd

    excel_filename = Path("source/input/1-2-2021.xlsx")
    data = pd.read_excel(excel_filename)
    print("--- 先頭 ---")
    print(data.head())
    print("--- 末尾 ---")
    print(data.tail())

    # 不要な行を読み込まないようにreadする
    ## 先頭行
    data = pd.read_excel(excel_filename, skiprows=4, header=None)
    print(data.head())
    ## 末尾
    data.drop(data.tail(4).index, inplace=True)
    print(data.tail())
```

実行結果
```python
    長いので割愛
```

</details>

* 参考: [pandas.read_excel - pandas.pydata.org](https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html)
* 参考: [pandasでcsv/tsvファイル読み込み（read_csv, read_table）- note.nkmk.me](https://note.nkmk.me/python-pandas-read-csv-tsv/)

---

## 問題92: カラムを抽出してみよう

ここでは、データを使いやすくするために、カラム名の抽出・整形を行い、データに付与していきます。

カラム名の抽出の完成は以下の通りです。


カラム名の処理の手順は、
* ファイルの読み込み
* 行方向の欠損値(NaN)の処理
* 列方向の欠損値(NaN)の処理
* カラム名の不要文字列の削除
* カラムの修正と整形

カラム名のデータは、先ほど `skiprows=4` でスキップした行2行目のことです。

まずは、`col_data` としてExcelファイルを読み込み、カラムに該当する行のみを抽出してみましょう。

今回もheaderは無しで読み込んでください。その後、先頭3行を出力してみましょう。

In [None]:
#コードを記述

## ファイル名の読み込み

データを見ると、**NaN(欠損値)** の部分が非常に多いです。

よく見ると、

| 0   |  1  | 2   | 3   | 4   | 5   | 6   | 7   |  8  | 9   |
| :-- | :-- | :-- | :-- | :-- | :-- | :-- | :-- | :-- | :-- |
| 0   | 都道府県 | 水力発電所 | NaN  | 火力発電所 | NaN | 原子力発電所 | NaN | 新エネルギー等発電所 | NaN | NaN |   
| 1  | NaN  | NaN  | NaN | NaN | NaN | NaN | NaN | 風力 | NaN | 太陽光 |   
| 2  | NaN  | 発電所数 | 最大出力計 |  発電所数 | 最大出力計 | 発電所数 | 最大出力計 | 発電所数 | 最大出力計 | 発電所数 |

となっていおり、行方向によるセル結合と、列方向によるセル結合であることが分かります。

行方向で言えば、新エネルギー等発電所は、詳細の発電種類である"風力"があるのに対し、水力と火力は結合されています。

また、列方向であれば、水力発電所に対して、発電所数、最大出力計が本来であれば2つありますが、セル結合によって、最大出力計の部分が欠損しています。

### 行方向の欠損値処理

そこで、行方向の処理は、

* 1行目の欠損値に0行目の値を入れ、1行目に関しては発電所という文字列を除外する。
* 列方向：欠損値を埋めていきます。

```python
    # 行方向の変更
    col_data.iloc[1, 1:].fillna(col_data.iloc[0,1:], inplace=True)
    col_data.iloc[1, 1:] = col_data.iloc[1, 1:].str.replace('発電所', '')
    col_data
```

In [None]:
# 行方向の変更


### 列方向の欠損値処理

* 欠損している値を埋めていきます。
* 埋めていく方法は、欠損している値には左側の列の値を埋める

以下のようにコードを書いていきましょう。

```python
    #列方向の欠損値の処理
    for i in col_data.columns:
        if i < col_data.columns.max():
            col_data[i + 1].fillna(col_data[i], inplace=True)
    print(col_data)
```

In [None]:
#列方向の変更


### カラム名から不要な文字列を取り除く

先ほどの出力結果を見ると、バイオマス、廃棄物の部分に `〔〕`が含まれていますね。

これは不要なので、削除します。通常は正規表現で削除するのが一般的ですが、今回は2個(バイオマス/廃棄物)しかターゲットがないので、`replace` を使って削除します。

```python
    # 不要な文字を削除する
    col_data.replace("〔バイオマス〕", "バイオマス", inplace=True)
    col_data.replace("〔廃棄物〕", "廃棄物", inplace=True)
    col_data
```

In [None]:
## 不要な文字列を削除


### カラム名の修正・整形

続いて、カラム名を整形します。

各行に対して、0行目_1行目_2行目をアンダーバーでつなぎます。

例：新エネルギー等発電所_風力_発電所数

ただし、１列目でれば「都道府県」となるようにしたいので、欠損値を無視する処理も必要です。

```python
    cols = []
    for i in col_data.columns:
        tg_col = "_".join(list(col_data[i].dropna()))
        cols.append(tg_col)
    data.columns = cols
    print(data.head())
```

In [None]:
## カラム名の修正と欠損値の対応


### 問題92 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

回答コードの全文です。
```python
    from pathlib import Path
    import pandas as pd

    ## ファイル名の読み込み
    excel_filename = Path("source/input/1-2-2021.xlsx")
    col_data = pd.read_excel(excel_filename, skiprows=1, header=None)
    col_data = col_data.head(3)
    print(col_data)

    ## 行方向の欠損値の処理
    col_data.iloc[1, 1:].fillna(col_data.iloc[0,1:], inplace=True)
    col_data.iloc[1, 1:] = col_data.iloc[1, 1:].str.replace('発電所', '')
    print(col_data)

    ## 列方向の欠損値の処理
    for i in col_data.columns:
        if i < col_data.columns.max():
            col_data[i + 1].fillna(col_data[i], inplace=True)
    print(col_data)
    
    # 不要な文字を削除する
    col_data.replace("〔バイオマス〕", "バイオマス", inplace=True)
    col_data.replace("〔廃棄物〕", "廃棄物", inplace=True)
    print(col_data)

    ## カラム名の修正と欠損値の対応
    cols = []
    for i in col_data.columns:
        tg_col = "_".join(list(col_data[i].dropna()))
        cols.append(tg_col)
    data.columns = cols
    print(data.head())
```

</details>

<br>

ここまでの処理は、Excelの一番左のシートである4月のデータだけを処理しました。

pandasは、特定のシート名を指定しない場合、一番左のシートを読み込むを読み込む仕様になっています。一般的には、シートが１つしかないことは少ないです。今回のように月別でシートが分かれているケースは多々遭遇するはずです。

次の問題では、他のシートも全て読み込んで結合していきましょう。

* 参考 [pandasで欠損値NaNを削除（除外）するdropna - note.nkmk.me](https://note.nkmk.me/python-pandas-nan-dropna/)
* 参考 [pandasで欠損値NaNを置換（穴埋め）するfillna - note.nkmk.me](https://note.nkmk.me/python-pandas-nan-fillna/)
* 参考 [pandasで任意の位置の値を取得・変更するat, iat, loc, iloc - note.nkmk.me](https://note.nkmk.me/python-pandas-at-iat-loc-iloc/)

---

## 問題93 :  全シートのデータを読み込んでみよう

先ほどは、一つのシートに対して処理をおこないましたが、別シートにも問題92と同じ操作をしていきます。

処理の流れとしては、
* データを一つに結合していきます
* カラム名はどのシートも同じなので、縦に結合していきます。

### Excelシート名を取得する

準備として、Excelのシート名を取得していきましょう。

```python
    from pathlib import Path
    import pandas as pd

    excel_filename = Path("source/input/1-2-2021.xlsx")
    ##　シートを読み込み
    x1 = pd.ExcelFile(excel_filename)
    sheets = x1.sheet_names
    print(sheets)
```

pandasのExcelFileオブジェクトは、Excel内の全て情報を取得することができます。その結果から、sheet_namesを実行すると、シート名をリスト形式で取得することが出来ます。

In [None]:
#コードを記述

シートは12個読み込めていると思います。全シートに同じ処理をするにはfor文で実行します。

全てのシートに、問題92の処理を実行しましょう。

以下の処理は、加工したデータDataFrame形式のデータをdatasというリストに追加しています。

```python
    # 全てのシートに同じ処理を実行する
    datas = []
    for sheet in sheets:
        data = x1.parse(sheets[0], skiprows=4, header=None)
        data.drop(data.tail(4).index, inplace=True)
        # 問題92で実行したcolsを使用します
        data.columns = cols
        data["年月"] = sheet
        datas.append(data)
    print(data.head())
```

In [None]:
# 全てのシートに同じ処理を実行する


最後に `datas` に追加したデータを結合していきます。コードは以下の通りです。

pandasの `concat` は、縦にも横にも結合できるので覚えておきましょう。

`ignore_index` をTrueにすることで、縦に結合した際に、indexを振りなおしてくれます。

```python
    ## 全データを結合
    datas = pd.concat(datas, ignore_index=True)
    datas.head()
```

In [None]:
## 全データを結合

### 問題93 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    from pathlib import Path
    import pandas as pd

    excel_filename = Path("source/input/1-2-2021.xlsx")

    ##　シートを読み込み
    x1 = pd.ExcelFile(excel_filename)
    sheets = x1.sheet_names
    print(sheets)

    # 全てのシートに同じ処理を実行する
    datas = []
    for sheet in sheets:
        data = x1.parse(sheets[0], skiprows=4, header=None)
        data.drop(data.tail(4).index, inplace=True)
        # 問題92で実行したcolsを使用します
        data.columns = cols
        data["年月"] = sheet
        datas.append(data)
    print(data.head())

    ## 全データを結合
    datas = pd.concat(datas, ignore_index=True)
    datas.head()
```

</details>

<br>

これで、Excel内のすべてのデータの結合とクレンジングが出来ました。

* 参考: [pandas.DataFrame, Seriesを連結するconcat - note.nkmk.me](https://note.nkmk.me/python-pandas-concat/)
* 参考: [pandas.ExcelFile.parse - pandas.pydata.org](https://pandas.pydata.org/docs/reference/api/pandas.ExcelFile.parse.html#pandas-excelfile-parse)

---

## 問題94: データの値を計算で修正してみよう

問題93までで、データを全て結合できたと思います。

しかし、問題が1つあります。

**新エネルギー等発電所のバイオマス、廃棄物は、火力発電所の欄に記載されている電力量のうち、バイオマス、廃棄物に係る量を再掲していると備考に書かれています。**

つまり、火力発電所の値には、バイオマス、廃棄物の値が含まれているようです。

そこで、**火力発電所の値から、バイオマス、廃棄物の値を引いておく必要があります。**

発電所数・最大出力計の２つに対して処理を行いましょう。

<br>

コードは以下の通りです。変数は、問題93までに実行した値を使用しています。

```python
    # 発電所数: 火力発電所の値から、バイオマス、廃棄物の値を引く
    datas["火力発電所_火力_発電所数"] = \
            datas["火力発電所_火力_発電所数"] - \
            datas["新エネルギー等発電所_バイオマス_発電所数"] - \
            datas["新エネルギー等発電所_廃棄物_発電所数"]
    # 最大出力計: 火力発電所の値から、バイオマス、廃棄物の値を引く
    datas["火力発電所_火力_最大出力計"] = \
            datas["火力発電所_火力_最大出力計"] - \
            datas["新エネルギー等発電所_バイオマス_最大出力計"] - \
            datas["新エネルギー等発電所_廃棄物_最大出力計"]
    # データを出力
    datas.head()
```

In [None]:
#コードを記述

### 問題94 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    # 発電所数: 火力発電所の値から、バイオマス、廃棄物の値を引く
    datas["火力発電所_火力_発電所数"] = \
            datas["火力発電所_火力_発電所数"] - \
            datas["新エネルギー等発電所_バイオマス_発電所数"] - \
            datas["新エネルギー等発電所_廃棄物_発電所数"]
    # 最大出力計: 火力発電所の値から、バイオマス、廃棄物の値を引く
    datas["火力発電所_火力_最大出力計"] = \
            datas["火力発電所_火力_最大出力計"] - \
            datas["新エネルギー等発電所_バイオマス_最大出力計"] - \
            datas["新エネルギー等発電所_廃棄物_最大出力計"]
    # データを出力
    datas.head()
```

実行結果
```python
```

</details>

---

## 問題95:  必要なカラムだけに絞り込もう

問題94までで、データの読み込みから、データ修正、結合までPandasが使いやすいデータが出来ました。

ここからは、分析や可視化に向けてデータを加工していきます。

<br>

後々分析や可視化しやすい縦持ちのデータに変換していきます。ここで縦持ちのデータは、人間にとって見づらいデータですが、今は、どんなものかイメージできなくても問題ありません。

今回は、水力発電_水力_発電所数、火力発電所_火力_発電所数等を縦に持たせるデータを作成していきます。

<br>

まずは、縦持ち化に向けて、必要なカラムに絞り込んでいきます。

今回は、

* 合計_合計_発電所数
* 合計_合計_最大出力計
* 新エネルギー等発電所_計_発電所数
* 新エネルギー等発電所_計_最大出力計

を除外します。

コードは意外と簡単です。

`axis` に1を指定することで列を削除でき、0を指定すると行を削除できます。

リストでカラム名を指定することで、一度に複数の列を削除できます。(第一引数)

```python
    ## 合計列の除外
    datas.drop([
        '合計_合計_発電所数',
        '合計_合計_最大出力計',
        '新エネルギー等発電所_計_発電所数',
        '新エネルギー等発電所_計_最大出力計'
    ], axis=1, inplace=True)
    datas.head()
```

In [None]:
#コードを記述
    

### 問題95 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    ## 合計列の除外
    datas.drop([
        '合計_合計_発電所数',
        '合計_合計_最大出力計',
        '新エネルギー等発電所_計_発電所数',
        '新エネルギー等発電所_計_最大出力計'
    ], axis=1, inplace=True)
    datas.head()
```

</details>

<br>

* 参考: [pandas.DataFrameの行・列を指定して削除するdrop - note.nkmk.me](https://note.nkmk.me/python-pandas-drop/)
* 参考：[pandas.DataFrame.drop - pandas.pydata.org](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html)

---

## 問題96: 縦持ちのデータを作成しよう

縦持ちのデータへ変換をしましょう。

縦持ちデータを作る時に、「都道府県」と「年月」の列を指定して作成します。

分かりづらいと思うので、まず作成してみましょう。

```python
    datas_v = pd.melt(datas, id_vars=["都道府県", "年月"], var_name="変数名", value_name="値")
    datas_v.head()
```


In [None]:
#コードを記述


### 問題96 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    datas_v = pd.melt(datas, id_vars=["都道府県", "年月"], var_name="変数名", value_name="値")
    datas_v.head()
```

</details>

<br>

`melt` が縦持ちを行うメソッドになります。datasは対象データ、id_varsではキーとなる列である「都道府県」と「年月」を指定しています。出力結果を見ると、「水力発電所_水力_発電所数」が「変数名」の列に記載されており、値が実際の数字となっています。

現在は、先頭５行しか表示されていませんが、データ中盤には、火力発電所_火力_発電所数等もデータとして格納されているので、確認してみてください。


* 参考: [pandas.melt - pandas.pydata.org](https://pandas.pydata.org/docs/reference/api/pandas.melt.html)
* 参考：[【Python】pandas.meltで横持ちのデータを縦持ちにする - データアナリストのメモ帳](https://k2-tech.hatenablog.com/entry/2020/12/12/221620)

---

## 問題97: 縦持ちのデータを整形しよう

先ほど作成した縦持ちのデータで、列名「変数名」に入っているデータは、アンダーバーで区切っていますが、「発電所種別」「発電種別」「項目」の３つから構成されています。

> ex:  
> 新エネルギー等発電所_風力_発電所数  
> -->  新エネルギー等発電所、風力、発電所数

今から変数名に格納されたデータをアンダーバーで区切りそれぞれを列に格納していきます。

まず、列「変数名」の値を分解していきます。

`str.split`を使います。引数に`expland=True`を指定することで、列ごとに区切ってくれます。
ここを指定しないと、1つの列にリスト型が格納されてしまいます。

```python
    # 変数名の分割
    var_data = datas_var["変数名"].str.split("_", expand=True)
    var_data.head()
```

In [None]:
#コードを記述

分割したデータを取得できたかと思います。

次に、

* カラム名を代入してから、元のデータ `datas_v` と結合しましょう。
* また、結合した後に、不要となる「変数名」列は削除していきましょう。
* カラム名は、「発電所種別」「発電種別」「項目」とします。

```python
    # 分割した変数名の結合
    var_data.columns = ["発電所種別", "発電種別", "項目"]
    datas_v = pd.concat([datas_v, var_data], axis=1)
    datas_v.drop(["変数名"], axis=1, inplace=True)
    datas_v.head()
```

In [None]:
# 分割した変数名の結合


In [6]:
# テストコード
from pathlib import Path
import pandas as pd
excel_filename = Path("input/1-2-2021.xlsx")
data = pd.read_excel(excel_filename)
# 不要な行を読み込まないようにreadする
## 先頭行
data = pd.read_excel(excel_filename, skiprows=4, header=None)
## 末尾
data.drop(data.tail(4).index, inplace=True)

excel_filename = Path("input/1-2-2021.xlsx")
col_data = pd.read_excel(excel_filename, skiprows=1, header=None)
col_data = col_data.head(3)
## 行方向の欠損値の処理
col_data.iloc[1, 1:].fillna(col_data.iloc[0,1:], inplace=True)
col_data.iloc[1, 1:] = col_data.iloc[1, 1:].str.replace('発電所', '')
## 列方向の欠損値の処理
for i in col_data.columns:
    if i < col_data.columns.max():
        col_data[i + 1].fillna(col_data[i], inplace=True)

# 不要な文字を削除する
col_data.replace("〔バイオマス〕", "バイオマス", inplace=True)
col_data.replace("〔廃棄物〕", "廃棄物", inplace=True)
## カラム名の修正と欠損値の対応
cols = []
for i in col_data.columns:
    tg_col = "_".join(list(col_data[i].dropna()))
    cols.append(tg_col)
data.columns = cols

##　シートを読み込み
x1 = pd.ExcelFile(excel_filename)
sheets = x1.sheet_names
# 全てのシートに同じ処理を実行する
datas = []
for sheet in sheets:
    data = x1.parse(sheets[0], skiprows=4, header=None)
    data.drop(data.tail(4).index, inplace=True)
    # 問題92で実行したcolsを使用します
    data.columns = cols
    data["年月"] = sheet
    datas.append(data)
## 全データを結合
datas = pd.concat(datas, ignore_index=True)

# 発電所数: 火力発電所の値から、バイオマス、廃棄物の値を引く
datas["火力発電所_火力_発電所数"] = \
        datas["火力発電所_火力_発電所数"] - \
        datas["新エネルギー等発電所_バイオマス_発電所数"] - \
        datas["新エネルギー等発電所_廃棄物_発電所数"]
# 最大出力計: 火力発電所の値から、バイオマス、廃棄物の値を引く
datas["火力発電所_火力_最大出力計"] = \
        datas["火力発電所_火力_最大出力計"] - \
        datas["新エネルギー等発電所_バイオマス_最大出力計"] - \
        datas["新エネルギー等発電所_廃棄物_最大出力計"]
## 合計列の除外
datas.drop([
    '合計_合計_発電所数',
    '合計_合計_最大出力計',
    '新エネルギー等発電所_計_発電所数',
    '新エネルギー等発電所_計_最大出力計'
], axis=1, inplace=True)

datas_v = pd.melt(datas, id_vars=["都道府県", "年月"], var_name="変数名", value_name="値")

# 変数名の分割
var_data = datas_v["変数名"].str.split("_", expand=True)
var_data.head()
# 分割した変数名の結合
var_data.columns = ["発電所種別", "発電種別", "項目"]
datas_v = pd.concat([datas_v, var_data], axis=1)
datas_v.drop(["変数名"], axis=1, inplace=True)
datas_v.head()

Unnamed: 0,都道府県,年月,値,発電所種別,発電種別,項目
0,北海道,2021.4,98,水力発電所,水力,発電所数
1,青森県,2021.4,19,水力発電所,水力,発電所数
2,岩手県,2021.4,40,水力発電所,水力,発電所数
3,宮城県,2021.4,22,水力発電所,水力,発電所数
4,秋田県,2021.4,42,水力発電所,水力,発電所数


### 問題97 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    # 変数名の分割
    var_data = datas_v["変数名"].str.split("_", expand=True)
    var_data.head()
    # 分割した変数名の結合
    var_data.columns = ["発電所種別", "発電種別", "項目"]
    datas_v = pd.concat([datas_v, var_data], axis=1)
    datas_v.drop(["変数名"], axis=1, inplace=True)
    datas_v.head()
```

</details>

<br>

`concat()`で、`axis=1`を指定するのは、横方向の結合を意味します。`axis=0`は縦方向の結合を意味ます。

これで、変数名ではなく、発電種別等で絞り込みがしやすくなりました。

次の問題で、発電実績データの加工を実施データの加工もしてみましょう。

---

## 問題98: 発電実績データを加工しよう

発電実績データの加工を行います。

まずは発電実績のデータを読み込んでみましょう。その後、先頭と末尾の5行出力してみましょう。

```python
    from pathlib import Path
    import pandas as pd

    capa_excel_filename = Path("source/input/2-2-2021.xlsx")
    capacity_data = pd.read_excel("input/2-2-2021.xlsx")
    capacity_data.head()
    capacity_data.tail()
```

In [None]:
#コードを記述
from pathlib import Path
import pandas as pd

capa_excel_filename = Path("input/2-2-2021.xlsx")
capacity_data = pd.read_excel("input/2-2-2021.xlsx")
capacity_data.head()
capacity_data.tail()

基本的には、問題97までの処理と同じようにデータを処理出来そうです。

しかし、今回は前回のデータと違い、備考が2行にわたって記述されているので、末尾を４行削除しました。今回は、備考欄が1行しかないので、末尾の削除が3行となります。

また、カラム名が前回とは異なるので、データの読み込みからカラム名の取得まで一気に実行してみましょう。

```python
    # ファイルの読み込み
    capa_excel_filename = Path("input/2-2-2021.xlsx")
    col_ca_data = pd.read_excel(capa_excel_filename, skiprows=1, header=None)
    col_ca_data = col_ca_data.head(3)

    # 行方向の欠損値の削除と不要な文字削除
    col_ca_data.iloc[1,1:].fillna(col_ca_data.iloc[0,1:], inplcae=True)
    col_ca_data.iloc[1,1:] = col_ca_data.iloc[1, 1:].str.replcae("発電所", "")
    # 列方向の欠損値の補完と不要な文字削除
    for i in col_ca_data.columns:
        if i < col_ca_data.columns.max():
            col_ca_data[i+1].fillna(col_ca_data[i], inplace=True)
    col_ca_data.replace("〔廃棄物〕", "廃棄物", inplace=True)
    col_ca_data.replace("〔バイオマス〕", "バイオマス", inplace=True)

    # カラム名の取得
    cols_ca = []
    for i in col_ca_data.columns:
        tg_col = '_'.join(list(col_ca_data[i].dropna()))
        cols_ca.append(tg_col)
    cols_ca
```

In [None]:
# ファイルの読み込み

# 行方向の欠損値の削除と不要な文字削除

# 列方向の欠損値の補完と不要な文字削除

# カラム名の取得

カラム名が取得できたので、全シートのデータを結合したデータを作成しましょう。

問題93の復習です。そちらを参考にしながら構築してください。

```python
    # 欠損値の修正と不要な文字の削除
    capa_excel_filename = Path("input/2-2-2021.xlsx")
    xl_ca = pd.ExcelFile(capa_excel_filename)
    sheets = xl_ca.sheet_names
    ca_datas = []
    for sheet in sheets:
        capacity_data = xl_ca.parse(sheet, skiprows=4, header=None)
        capacity_data = capacity_data.head(47)
        capacity_data.cloumns = cols_ca
        capacity_data["年月"]  = sheet
        ca_datas.append(capacity_data)
    ca_datas = pd.concat(ca_datas, ignore_index=True)
    ca_datas.head()
```

In [None]:
# コードを記述

そして、最後に、以下の問題を参考に、発電実績データを作成していきましょう。

* 問題94「データの値を計算で修正してみよう」
* 問題95「必要なカラムだけに絞り込もう」
* 問題96「縦持ちのデータを作成しよう」
* 問題97「縦持ちのデータを整形しよう」

```python
    # 発電実績データの作成
    ca_datas['火力発電所_火力_電力量'] = \
        ca_datas['火力発電所_火力_電力量'] -\
        ca_datas['新エネルギー等発電所_バイオマス_電力量'] -\
        ca_datas['新エネルギー等発電所_廃棄物_電力量']

    ca_datas.drop(
        ['合計_合計_電力量','新エネルギー等発電所_計_電力量'],
        axis=1,
        inplace=True)
    ca_datas_v = pd.melt(
        ca_datas,
        id_vars=['都道府県','年月'],
        var_name="変数名",
        value_name="値")

    var_data = ca_datas_v['変数名'].str.split('_', expand=True)
    var_data.columns = ['発電所種別', '発電種別', '項目']
    ca_datas_v = pd.concat([ca_datas_v, var_data], axis=1)
    ca_datas_v.drop(['変数名'], axis=1, inplace=True)

    ca_datas_v.head()
```

In [None]:
# コードを記述

### 問題98 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python

# ファイルの読み込み
capa_excel_filename = Path("source/input/2-2-2021.xlsx")
col_ca_data = pd.read_excel(capa_excel_filename, skiprows=1, header=None)
col_ca_data = col_ca_data.head(3)

# 行方向の欠損値の削除と不要な文字削除
col_ca_data.iloc[1,1:].fillna(col_ca_data.iloc[0,1:], inplcae=True)
col_ca_data.iloc[1,1:] = col_ca_iloc[1, 1:].str.replcae("発電所", "")
# 列方向の欠損値の補完と不要な文字削除
for i in col_ca_data.columns:
    if i < col_ca_columns.max():
        col_ca_data[i+1].fillna(col_ca_data[i], inplace=True)
col_ca_data.replace("〔廃棄物〕", "廃棄物", inplace=True)
col_ca_data.replace("〔バイオマス〕", "バイオマス", inplace=True)

# カラム名の取得
cols_ca = []
for i in col_ca_data.columns:
    tg_col = '_'.join(list(col_ca_data[i].dropna()))
    cols_ca.append(tg_col)
cols_ca

# 欠損値の修正と不要な文字の削除
capa_excel_filename = Path("source/input/2-2-2021.xlsx")
xl_ca = pd.ExcelFile(capa_excel_filename)
sheets = xl_ca.sheet_names
ca_datas = []
for sheet in sheets:
    capacity_data = xl_ca.parse(sheet, skiprows=4, header=None)
    capacity_data = capacity_data.head(47)
    capacity_data.cloumns = cols_ca
    capacity_data["年月"]  = sheet
    ca_datas.append(capacity_data)
ca_datas = pd.concat(ca_datas, ignore_index=True)
ca_datas.head()

# 発電実績データの作成
ca_datas['火力発電所_火力_電力量'] = \
    ca_datas['火力発電所_火力_電力量'] -\
    ca_datas['新エネルギー等発電所_バイオマス_電力量'] -\
    ca_datas['新エネルギー等発電所_廃棄物_電力量']

ca_datas.drop(['合計_合計_電力量','新エネルギー等発電所_計_電力量'], axis=1, inplace=True)
ca_datas_v = pd.melt(ca_datas, id_vars=['都道府県','年月'], var_name="変数名",value_name="値")

var_data = ca_datas_v['変数名'].str.split('_', expand=True)
var_data.columns = ['発電所種別', '発電種別', '項目']
ca_datas_v = pd.concat([ca_datas_v, var_data], axis=1)
ca_datas_v.drop(['変数名'], axis=1, inplace=True)

ca_datas_v.head()
```

実行結果
```python
```

</details>

<br>

---

In [10]:
# テストコード
from pathlib import Path
import pandas as pd

capa_excel_filename = Path("input/2-2-2021.xlsx")
capacity_data = pd.read_excel("input/2-2-2021.xlsx")
capacity_data.head()
capacity_data.tail()

# # ファイルの読み込み
# capa_excel_filename = Path("input/2-2-2021.xlsx")
# col_ca_data = pd.read_excel(capa_excel_filename, skiprows=1, header=None)
# col_ca_data = col_ca_data.head(3)
# # 行方向の欠損値の削除と不要な文字削除
# col_ca_data.iloc[1,1:].fillna(col_ca_data.iloc[0,1:], inplcae=True)
# col_ca_data.iloc[1,1:] = col_ca_data.iloc[1, 1:].str.replcae("発電所", "")
# # 列方向の欠損値の補完と不要な文字削除
# for i in col_ca_data.columns:
#     if i < col_ca_data.columns.max():
#         col_ca_data[i+1].fillna(col_ca_data[i], inplace=True)
# col_ca_data.replace("〔廃棄物〕", "廃棄物", inplace=True)
# col_ca_data.replace("〔バイオマス〕", "バイオマス", inplace=True)
# # カラム名の取得
# cols_ca = []
# for i in col_ca_data.columns:
#     tg_col = '_'.join(list(col_ca_data[i].dropna()))
#     cols_ca.append(tg_col)
# cols_ca

# # 欠損値の修正と不要な文字の削除
# capa_excel_filename = Path("input/2-2-2021.xlsx")
# xl_ca = pd.ExcelFile(capa_excel_filename)
# sheets = xl_ca.sheet_names
# ca_datas = []
# for sheet in sheets:
#     capacity_data = xl_ca.parse(sheet, skiprows=4, header=None)
#     capacity_data = capacity_data.head(47)
#     capacity_data.cloumns = cols_ca
#     capacity_data["年月"]  = sheet
#     ca_datas.append(capacity_data)
# ca_datas = pd.concat(ca_datas, ignore_index=True)
# ca_datas.head()

# # 発電実績データの作成
# ca_datas['火力発電所_火力_電力量'] = \
#     ca_datas['火力発電所_火力_電力量'] -\
#     ca_datas['新エネルギー等発電所_バイオマス_電力量'] -\
#     ca_datas['新エネルギー等発電所_廃棄物_電力量']
# ca_datas.drop(
#     ['合計_合計_電力量','新エネルギー等発電所_計_電力量'],
#     axis=1,
#     inplace=True)
# ca_datas_v = pd.melt(
#     ca_datas,
#     id_vars=['都道府県','年月'],
#     var_name="変数名",
#     value_name="値")
# var_data = ca_datas_v['変数名'].str.split('_', expand=True)
# var_data.columns = ['発電所種別', '発電種別', '項目']
# ca_datas_v = pd.concat([ca_datas_v, var_data], axis=1)
# ca_datas_v.drop(['変数名'], axis=1, inplace=True)
# ca_datas_v.head()

## 問題99 : 可視化用データを仕上げよう

これまで問題で、最大出力計および発電所数のデータと発電実績データの2つが作成できました。

最後にこれらを結合して可視化用データの仕上げを行います。

最大出力計および発電所数のデータと発電実績データは、カラム名が同じであるため、縦の結合で加工は終わります。

まずは、2つのデータ( `datas_v` , `ca_datas_v` )を結合して、先頭・末尾を５行出力してみましょう。


```python
    datas_v_all = pd.concat([datas_v, ca_datas_v], ignore_index=True)
    display(datas_v_all.head())
    display(datas_v_all.tail())
```

In [None]:
#コードを記述
    

### 問題99 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    datas_v_all = pd.concat([datas_v, ca_datas_v], ignore_index=True)
    display(datas_v_all.head())
    display(datas_v_all.tail())
```

</details>

<br>

---

## 問題100 : データの分布をヒストグラムで可視化しよう

データが揃ったら、データの全体像を確認してみましょう。

この問題では、データの分布を見てみましょう。

ここで使用するライブラリは、**matplotlib** と **seaborn** を使用します。どちらも、pythonの可視化ライブラリです。どちらもよく使用されているライブラリです。

> Matplotlibの利用例  
> [Matplotlib: Visualization with Python - matplotlib.org](https://matplotlib.org/)  
> ![exsample_matplotlib](img/exsample_matplotlib.png)
>   
> seabornの利用例  
> [seaborn: statistical data visualization - seaborn.pydata.org](https://seaborn.pydata.org/)  
> ![exsample_seaborn](img/exsample_seaborn.png)



これらのライブラリを使って、まずは、発電量に絞ってヒストグラムを可視化してみます。

ヒストグラムのプロットは、`histplot` で描画可能です。

```python
    import matplotlib.pyplot as plt
    import japanize_matplotlib
    import seaborn as sns

    plt.figure(figsize=(20, 10))
    sns.histplot(datas_v_all.loc[datas_v_all['項目']=='発電所数'])
```

In [None]:
#コードを記述


出力された結果を見ると、発電所数が0が最もデータ件数が多く、裾を引いている分布になっています。

200を超えるデータもありますが、大半が10以下のデータです。

今回のデータにおいて、0は該当の発電所がないという意味です。その情報が分析対象であれば残します。

0を除外してみましょう。また、今回は、発電所数、最大出力計、電力量をまとめて描画してみましょう。

```python
    fig, axes = plt.subplots(1, 3, figsize=(30, 10))
    viz_data = datas_v_all.loc[datas_v_all['値']!=0]
    sns.histplot(viz_data.loc[viz_data['項目']=='発電所数'], ax=axes[0])
    sns.histplot(viz_data.loc[viz_data['項目']=='最大出力計'], ax=axes[1])
    sns.histplot(viz_data.loc[viz_data['項目']=='電力量'], ax=axes[2])
```

In [None]:
# コードを記述する
fig, axes = plt.subplots(1, 3, figsize=(30, 10))
viz_data = datas_v_all.loc[datas_v_all['値']!=0]
sns.histplot(viz_data.loc[viz_data['項目']=='発電所数'], ax=axes[0])
sns.histplot(viz_data.loc[viz_data['項目']=='最大出力計'], ax=axes[1])
sns.histplot(viz_data.loc[viz_data['項目']=='電力量'], ax=axes[2])

### 問題100 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    import matplotlib.pyplot as plt
    import japanize_matplotlib
    import seaborn as sns

    fig, axes = plt.subplots(1, 3, figsize=(30, 10))
    viz_data = datas_v_all.loc[datas_v_all['値']!=0]
    sns.histplot(viz_data.loc[viz_data['項目']=='発電所数'], ax=axes[0])
    sns.histplot(viz_data.loc[viz_data['項目']=='最大出力計'], ax=axes[1])
    sns.histplot(viz_data.loc[viz_data['項目']=='電力量'], ax=axes[2])
```

</details>

<br>

出力されたグラフは、左から、発電所数、最大出力計、電力量のヒストグラムになります。

今回は、データが0の場合は、除外していますので、一番左の発電所数のグラフが、先ほどの分布と少し異なっていることが分かります。

ヒストグラムは、土の数字が大体どの程度の範囲にどう分布しているかを押さえることができます。


* 参考: [Matplotlib: Visualization with Python - matplotlib.org](https://matplotlib.org/)
* 参考: [seaborn: statistical data visualization - seaborn.pydata.org](https://seaborn.pydata.org/)

---

## 問題101 : データの分布を箱ひげ図で可視化しよう

データの分布を見る際に、もう一つ可視化の方法があります。それが箱ひげ図です。

先ほどの分布だと、中央値(全データの真ん中の値)がどのあたりにあるか一目で分かりません。

そこで、利用されるのが箱ひげグラフです。

まずは、グラフ化していきましょう。

```python
    plt.figure(figsize=(10, 10))
    viz_data = datas_v_all.loc[
        (datas_v_all['項目']=='発電所数')&(datas_v_all['値']!=0)]
    sns.boxplot(y=viz_data['値'])
```

In [None]:
#コードを記述
plt.figure(figsize=(10, 10))
viz_data = datas_v_all.loc[(datas_v_all['項目']=='発電所数')&(datas_v_all['値']!=0)]
sns.boxplot(y=viz_data['値'])

青い箱が全データの25% ~ 75%を示しており、それぞれ第1四分位数、第3四分位数と呼びます。

青い箱にある線が中央値を示しています。

せっかくなので、発電種別ごとに箱ひげ図を出してみましょう。

```python
    plt.figure(figsize=(30, 10))
    sns.boxplot(x=viz_data['発電種別'], y=viz_data['値'])
```

In [None]:
# コードを記述
plt.figure(figsize=(30, 10))
sns.boxplot(x=viz_data['発電種別'], y=viz_data['値'])

### 問題101 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    # 発電所数の箱ひげを出力
    plt.figure(figsize=(10, 10))
    viz_data = datas_v_all.loc[(datas_v_all['項目']=='発電所数')&(datas_v_all['値']!=0)]
    sns.boxplot(y=viz_data['値'])
    # 発電種別ごとに図を表示
    plt.figure(figsize=(30, 10))
    sns.boxplot(x=viz_data['発電種別'], y=viz_data['値'])
```

</details>

<br>

グラフから分かることは、全体的に発電所数が多いと考えられるのは、水力・太陽光となっているのが分かります。どちらも中央値の線は同じぐらいですが、箱の大きさは太陽光の方が広くみえることから、太陽項の分布が比較的均一に分散していると考えられます。

データの特徴をある程度把握するには、箱ひげグラフは便利なため、使えるようにしておきましょう。

* 参考: [seaborn.boxplot - seaborn.pydata.org](https://seaborn.pydata.org/generated/seaborn.boxplot.html)
* 参考: [【Python】seabornのグラフを活用したデータ分析の手法メモ - Qitta](https://qiita.com/ryo111/items/bf24c8cf508ad90cfe2e)

---

## 問題102 : 最近の発電量を可視化してみよう

ここからは、データの分布ではなく特徴をつかむための可視化をしていきましょう。まずは、最近のデータだけに絞り込んで、どの発電種別や発電所の電力量が多いか見ていきましょう。

発電種別ごとの電力量を一目で把握したい場合に使用するのは、棒グラフがいいかとおもいます。

可視化の手順として、

* 年月が2021年1月かつ項目が電力量のデータに絞り込む
* 発電種別ごとに電力の集計を行います。

```python
    viz_data = datas_v_all[['発電種別','値']].loc[(datas_v_all['項目']=='電力量')&(datas_v_all['年月']=='2021.1')]
    viz_data = viz_data.groupby('発電種別', as_index=False).sum()
    viz_data
```

In [None]:
#コードを記述
viz_data = datas_v_all[['発電種別','値']].loc[(datas_v_all['項目']=='電力量')&(datas_v_all['年月']=='2021.1')]
viz_data = viz_data.groupby('発電種別', as_index=False).sum()
viz_data

### 問題102 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
    viz_data = datas_v_all[['発電種別','値']].loc[(datas_v_all['項目']=='電力量')&(datas_v_all['年月']=='2021.1')]
    viz_data = viz_data.groupby('発電種別', as_index=False).sum()
    viz_data
```

実行結果
```python
```

</details>

<br>

項目と年月を指定の条件で絞り込むために、pandasのlocでデータを抽出しています。

その際に、今回使用する発電種別と値のみにカラムを絞っていきます。

その後、`groupby()` 用いて発電種別ごとに値を合計しています。

* 参考 [Pandas の groupby の使い方 - Qitta](https://qiita.com/propella/items/a9a32b878c77222630ae)

---

## 問題103 : 電力の時系列変化を可視化してみよう

In [None]:
#コードを記述
    

### 問題103 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
```

実行結果
```python
```

</details>

<br>

* 参考

---

## 問題100 :

In [None]:
#コードを記述
    

### 問題100 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
```

実行結果
```python
```

</details>

<br>

* 参考

---

## 問題100 :

In [None]:
#コードを記述
    

### 問題100 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
```

実行結果
```python
```

</details>

<br>

* 参考

---

## 問題100 :

In [None]:
#コードを記述
    

### 問題100 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
```

実行結果
```python
```

</details>

<br>

* 参考

---

## 問題100 :

In [None]:
#コードを記述
    

### 問題100 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
```

実行結果
```python
```

</details>

<br>

* 参考

---

## 問題100 :

In [None]:
#コードを記述
    

### 問題100 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
```

実行結果
```python
```

</details>

<br>

* 参考

---

## 問題100 :

In [None]:
#コードを記述
    

### 問題100 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
```

実行結果
```python
```

</details>

<br>

* 参考

---

## 問題100 :

In [None]:
#コードを記述
    

### 問題100 の回答・実行例

<details>
<summary> > 回答と実行例を表示する</summary>

```python
```

実行結果
```python
```

</details>

<br>

* 参考

---