In [1]:
# plt.show()で可視化されない人はこのセルを実行してください。
%matplotlib inline

In [22]:
# 初めの一回だけこのセルを実行してください、データセットをダウンロードして展開します
# 一回実行すれば、データセットはダウンロードされたままなので、再起動後等再び実行する必要はありません
import urllib.request
import zipfile
import os

# URLを指定
url = "https://storage.googleapis.com/tutor-contents-dataset/4050_cleansing_data.zip"
save_name = url.split('/')[-1]

# ダウンロードする
mem = urllib.request.urlopen(url).read()

# ファイルへ保存
with open(save_name, mode='wb') as f:
    f.write(mem)

# zipファイルをカレントディレクトリに展開する
zfile = zipfile.ZipFile(save_name)
zfile.extractall('.')
# ディレクトリ名を変更
os.rename('4050_cleansing_data','4050_data_cleansing_data')

#  DataFrameを用いたデータクレンジング


- **[2.1 CSV](#2.1-CSV)**
    - **[2.1.1 Pandasを用いたCSVの読み込み](#2.1.1-Pandasを用いたCSVの読み込み)**
    - **[2.1.2 CSVライブラリを用いたCSVの作成](#2.1.2-CSVライブラリを用いたCSVの作成)**
    - **[2.1.3 Pandasを用いたCSVの作成](#2.1.3-Pandasを用いたCSVの作成)**
<br><br>
- **[2.2 DataFrameの復習](#2.2-DataFrameの復習)**
    - **[2.2.1 DataFrameの復習](#2.2.1-DataFrameの復習)**
<br><br>
- **[2.3 欠損値](#2.3-欠損値)**
    - **[2.3.1 リストワイズ削除/ペアワイズ削除](#2.3.1-リストワイズ削除/ペアワイズ削除)**
    - **[2.3.2 欠損値の補完](#2.3.2-欠損値の補完)**
    - **[2.3.3 欠損値の補完（平均値代入法）](#2.3.3-欠損値の補完（平均値代入法）)**
<br><br>
- **[2.4 データ集約](#2.4-データ集約)**
    - **[2.4.1 キーごとの統計量の算出](#2.4.1-キーごとの統計量の算出)**
    - **[2.4.2 重複データ](#2.4.2-重複データ)**
    - **[2.4.3 マッピング](#2.4.3-マッピング)**
    - **[2.4.4 ビン分割](#2.4.4-ビン分割)**
<br><br>
- **[2.5 まとめ問題（提出不要）](#2.5-まとめ問題（提出不要）)**

***

## 2.1 CSV

### 2.1.1 Pandasを用いたCSVの読み込み

このセクションでは`CSV`と呼ばれるデータ形式を扱います。`CSV`は値をカンマで区切って羅列したファイルで、データ分析等において非常に扱いやすいので、一般的によく使われます。<br>
<br>
Pandasでcsvファイルを読み込むには、<b style='color:#AA0000'>read_csv()</b>関数を用います。
```Python
read_csv("csvファイルが置いてあるファイルパス", header=)
```
headerオプションを省略すると読み込んだファイルの1行目を列名とし、`header=None`を指定するとPandasが適当な列名を割り当てます。また、`header=1`のように行番号を指定すると、読み込んだファイルの2行目のデータを列名とし、それ以降の行から読み込みを開始します。なお、行番号は0から開始するのでデータの1行目の行番号は0になります。<br>
<br>
例えば、列名の情報を持たないワインのデータセットをディレクトリから読み込みます。そのままでは数値が何を表しているのか分からないので、値の内容を示す列名（カラム）を追加します。

```Python
import pandas as pd

df = pd.read_csv("./4050_data_cleansing_data/wine.csv", header=None)

# それぞれの数値が何を表しているのかカラムを追加します
df.columns = ["", "Alcohol", "Malic acid", "Ash", "Alcalinity of ash", "Magnesium","Total phenols", "Flavanoids", "Nonflavanoid phenols", "Proanthocyanins","Color intensity", "Hue", "OD280/OD315 of diluted wines", "Proline"]
df
```

ファイルパスの`./`はカレントディレクトリを示しています。カレントディレクトリとは、現在Pythonを実行している作業ディレクトリのことです。<br>
<br>
※ 最終行の`df`について<br>
Aidemyの学習環境では、生成したDataFrameの変数名を最終行に記述すると、自動でHTMLとして装飾し描画するように設定しているため、print文を使用しなくてもDataFrameの内容が表示できます。

<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4050_data_cleansing/cleansing_chap2_10.png" width=600>

<b><center>図2.1.1 読み込み後にカラムを追加したワインのデータセット</center></b>

#### 問題

- オンラインでアヤメのデータ(`./4050_data_cleansing_data/iris.csv`)をCSV形式で取得し、PandasのDataFrame形式で出力してください。
- カラムを左の列から順に`"sepal length", "sepal width", "petal length", "petal width", "class"`と指定してください。

In [None]:
import pandas as pd
# ここに解答を記述してください


#### ヒント

- csvファイルの読み込みは`read_csv("ファイルのパス", header=)` を用います。
- Aidemyの学習環境では、DataFrameの変数名を指定するだけでDataFrameを出力できます。

#### 解答例

In [None]:
import pandas as pd

df = pd.read_csv("./4050_data_cleansing_data/iris.csv", header=None)
df.columns = ["sepal length", "sepal width", "petal length", "petal width", "class"] 
df

In [None]:
execute_index()
index_code_contains("read_csv\(","read_csv()関数を使ってください")
index_output_contains("     sepal length  sepal width  petal length  petal width           class\
0             5.1          3.5           1.4          0.2     Iris-setosa\
1             4.9          3.0           1.4          0.2     Iris-setosa\
2             4.7          3.2           1.3          0.2     Iris-setosa\
3             4.6          3.1           1.5          0.2     Iris-setosa\
4             5.0          3.6           1.4          0.2     Iris-setosa\
5             5.4          3.9           1.7          0.4     Iris-setosa\
6             4.6          3.4           1.4          0.3     Iris-setosa\
7             5.0          3.4           1.5          0.2     Iris-setosa\
8             4.4          2.9           1.4          0.2     Iris-setosa\
9             4.9          3.1           1.5          0.1     Iris-setosa\
10            5.4          3.7           1.5          0.2     Iris-setosa\
11            4.8          3.4           1.6          0.2     Iris-setosa\
12            4.8          3.0           1.4          0.1     Iris-setosa\
13            4.3          3.0           1.1          0.1     Iris-setosa\
14            5.8          4.0           1.2          0.2     Iris-setosa\
15            5.7          4.4           1.5          0.4     Iris-setosa\
16            5.4          3.9           1.3          0.4     Iris-setosa\
17            5.1          3.5           1.4          0.3     Iris-setosa\
18            5.7          3.8           1.7          0.3     Iris-setosa\
19            5.1          3.8           1.5          0.3     Iris-setosa\
20            5.4          3.4           1.7          0.2     Iris-setosa\
21            5.1          3.7           1.5          0.4     Iris-setosa\
22            4.6          3.6           1.0          0.2     Iris-setosa\
23            5.1          3.3           1.7          0.5     Iris-setosa\
24            4.8          3.4           1.9          0.2     Iris-setosa\
25            5.0          3.0           1.6          0.2     Iris-setosa\
26            5.0          3.4           1.6          0.4     Iris-setosa\
27            5.2          3.5           1.5          0.2     Iris-setosa\
28            5.2          3.4           1.4          0.2     Iris-setosa\
29            4.7          3.2           1.6          0.2     Iris-setosa\
..            ...          ...           ...          ...             ...\
120           6.9          3.2           5.7          2.3  Iris-virginica\
121           5.6          2.8           4.9          2.0  Iris-virginica\
122           7.7          2.8           6.7          2.0  Iris-virginica\
123           6.3          2.7           4.9          1.8  Iris-virginica\
124           6.7          3.3           5.7          2.1  Iris-virginica\
125           7.2          3.2           6.0          1.8  Iris-virginica\
126           6.2          2.8           4.8          1.8  Iris-virginica\
127           6.1          3.0           4.9          1.8  Iris-virginica\
128           6.4          2.8           5.6          2.1  Iris-virginica\
129           7.2          3.0           5.8          1.6  Iris-virginica\
130           7.4          2.8           6.1          1.9  Iris-virginica\
131           7.9          3.8           6.4          2.0  Iris-virginica\
132           6.4          2.8           5.6          2.2  Iris-virginica\
133           6.3          2.8           5.1          1.5  Iris-virginica\
134           6.1          2.6           5.6          1.4  Iris-virginica\
135           7.7          3.0           6.1          2.3  Iris-virginica\
136           6.3          3.4           5.6          2.4  Iris-virginica\
137           6.4          3.1           5.5          1.8  Iris-virginica\
138           6.0          3.0           4.8          1.8  Iris-virginica\
139           6.9          3.1           5.4          2.1  Iris-virginica\
140           6.7          3.1           5.6          2.4  Iris-virginica\
141           6.9          3.1           5.1          2.3  Iris-virginica\
142           5.8          2.7           5.1          1.9  Iris-virginica\
143           6.8          3.2           5.9          2.3  Iris-virginica\
144           6.7          3.3           5.7          2.5  Iris-virginica\
145           6.7          3.0           5.2          2.3  Iris-virginica\
146           6.3          2.5           5.0          1.9  Iris-virginica\
147           6.5          3.0           5.2          2.0  Iris-virginica\
148           6.2          3.4           5.4          2.3  Iris-virginica\
149           5.9          3.0           5.1          1.8  Iris-virginica","dfを出力してください。")



***

### 2.1.2 CSVライブラリを用いたCSVの作成

Python3に標準で搭載されているCSVライブラリを用いてCSVデータファイルを作成します。<br>
<br>
過去10回分のオリンピック開催の都市、開催の年、季節のデータをCSVデータファイルとして出力します。
```Python
import csv

# with文を用います
# csv0.csvファイルを変数csvfileとして、書き込みモード （"w"）で開きます
with open("./4050_data_cleansing_data/csv0.csv", "w") as csvfile:
    # writerメソッドには引数として、変数csvfileと改行コード（\n）を指定します
    writer = csv.writer(csvfile, lineterminator="\n")
    # writerow（リスト）を用いて行を追加します
    writer.writerow(["city", "year", "season"])
    writer.writerow(["Nagano", 1998, "winter"])
    writer.writerow(["Sydney", 2000, "summer"])
    writer.writerow(["Salt Lake City", 2002, "winter"])
    writer.writerow(["Athens", 2004, "summer"])
    writer.writerow(["Torino", 2006, "winter"])
    writer.writerow(["Beijing", 2008, "summer"])
    writer.writerow(["Vancouver", 2010, "winter"])
    writer.writerow(["London", 2012, "summer"])
    writer.writerow(["Sochi", 2014, "winter"])
    writer.writerow(["Rio de Janeiro", 2016, "summer"])
    
# 出力
# csv0.csvファイルを変数csvfileとして、読み込みモード("r")で開きます
with open("./4050_data_cleansing_data/csv0.csv", "r") as csvfile:
    print(csvfile.read())
```
実行するとcsv0.csvというCSVデータファイルが作成され、データの内容が表示されます。

<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4050_data_cleansing/cleansing_chap2_20.png">

なお、CSVデータファイルを作成した場所を調べるには、`import os`を行い、`print(os.getcwd())`を実行します。

#### 問題

- csvモジュールを使って、フォルダ`4050_data_cleansing_data`の中にcsvファイル`csv０.csv`を作成してください。

ファイルに書き込む内容は任意に決めて構いません。

In [None]:
import csv
# ここに解答を記述してください


#### ヒント

- 行を追加するには`writerow(リスト型)`が使えます

#### 解答例

In [None]:
import csv

with open("./4050_data_cleansing_data/csv0.csv", "w") as csvfile:
    writer = csv.writer(csvfile, lineterminator="\n")
    writer.writerow(["city", "year", "season"])
    writer.writerow(["Nagano", 1998, "winter"])
    writer.writerow(["Sydney", 2000, "summer"])
    writer.writerow(["Salt Lake City", 2002, "winter"])
    writer.writerow(["Athens", 2004, "summer"])
    writer.writerow(["Torino", 2006, "winter"])
    writer.writerow(["Beijing", 2008, "summer"])
    writer.writerow(["Vancouver", 2010, "winter"])
    writer.writerow(["London", 2012, "summer"])
    writer.writerow(["Sochi", 2014, "winter"])
    writer.writerow(["Rio de Janeiro", 2016, "summer"])

with open("./4050_data_cleansing_data/csv0.csv", "r") as csvfile:
    print(csvfile.read())

In [None]:
execute_index()
index_code_contains("writerow", failure_msg="行を追加するにはwriterowを用います。")
index_code_contains("csv", failure_msg="問題文にしたがってください。")

***

### 2.1.3 Pandasを用いたCSVの作成

CSVライブラリを用いずに <b>Pandasを用いてもCSVデータを作成</b> することができます。PandasDataFrame形式のデータをCSVデータにする時はPandasを用いた方が便利です。<br>
<br>
Pandasでcsvファイルを作成するには、<b style='color: #AA0000'>to_csv()</b>関数を用います。

```Python
to_csv("作成するcsvファイル名")
```

<br>
DataFrameの例として先のサンプルと同様、過去10回分のオリンピック開催の都市、開催の年、季節のデータをCSVデータファイルとして出力します。

```Python
import pandas as pd

data = {"city": ["Nagano", "Sydney", "Salt Lake City", "Athens", "Torino", "Beijing", "Vancouver", "London", "Sochi", "Rio de Janeiro"], 
        "year": [1998, 2000, 2002, 2004, 2006, 2008, 2010, 2012, 2014, 2016],
        "season": ["winter", "summer", "winter", "summer", "winter", "summer", "winter", "summer", "winter", "summer"]}

df = pd.DataFrame(data)

df.to_csv("4050_data_cleansing_data/csv1.csv")
```  
これを実行すると`csv1.csv`というファイルが`cleansing_dataディレクトリ`に作成されます。
<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4050_data_cleansing/cleansing_chap2_30.png">

#### 問題

- PandasのDataFrame`data`を`OSlist.csv`というファイル名のCSVデータ形式で出力してください。

In [None]:
import pandas as pd

data = {"OS": ["Machintosh", "Windows", "Linux"],
        "release": [1984, 1985, 1991],
        "country": ["US", "US", ""]}
# ここに解答を記述してください


#### ヒント

- CSVデータファイルを作成するには、to_csv("ファイル名")関数を用います。

#### 解答例

In [None]:
import pandas as pd

data = {"OS": ["Machintosh", "Windows", "Linux"],
        "release": [1984, 1985, 1991],
        "country": ["US", "US", ""]}

df = pd.DataFrame(data)

df.to_csv("OSlist.csv")

In [None]:
execute_index()
index_code_contains("OSlist.csv", failure_msg="問題文にしたがってください。")
index_code_contains("to_csv", failure_msg="to_csv(ファイル名)を用います。")

***

## 2.2 DataFrameの復習

### 2.2.1 DataFrameの復習

DataFrameについては <a href='/courses/4010' target='_blank'>ライブラリ「Pandas」基礎（表計算）</a> の「2.2 DataFrameの連結」で詳しく解説しています。<br>
ここでは簡単な問題を解いて基本を確認します。

#### 問題

- `attri_data_frame1`へ`attri_data_frame2`の行を追加し出力してください。ただし、行を追加した後のDataFrameは`ID`で昇順になるようにし、行番号も昇順になるようにしてください。
- 出力には`print`を使用せず、DataFrame名をそのまま記述してください。

In [None]:
import pandas as pd
from pandas import Series, DataFrame

attri_data1 = {"ID": ["100", "101", "102", "103", "104", "106", "108", "110", "111", "113"],
               "city": ["Tokyo", "Osaka", "Kyoto", "Hokkaido", "Tokyo", "Tokyo", "Osaka", "Kyoto", "Hokkaido", "Tokyo"],
               "birth_year": [1990, 1989, 1992, 1997, 1982, 1991, 1988, 1990, 1995, 1981],
               "name": ["Hiroshi", "Akiko", "Yuki", "Satoru", "Steeve", "Mituru", "Aoi", "Tarou", "Suguru", "Mitsuo"]}
attri_data_frame1 = DataFrame(attri_data1)

attri_data2 = {"ID": ["107", "109"],
               "city": ["Sendai", "Nagoya"],
               "birth_year": [1994, 1988]}
attri_data_frame2 = DataFrame(attri_data2)

# ここに解答を記述してください



#### ヒント

- 行の追加には `append(行を追加したいDataFrameの変数名)`を用います。
- データの並び替えには`sort_values(by="列の名前")`を用います。
- 行番号を振り直すには`reset_index(drop=True)`を用います。

#### 解答例

In [None]:
import pandas as pd
from pandas import Series, DataFrame

attri_data1 = {"ID": ["100", "101", "102", "103", "104", "106", "108", "110", "111", "113"],
               "city": ["Tokyo", "Osaka", "Kyoto", "Hokkaido", "Tokyo", "Tokyo", "Osaka", "Kyoto", "Hokkaido", "Tokyo"],
               "birth_year": [1990, 1989, 1992, 1997, 1982, 1991, 1988, 1990, 1995, 1981],
               "name": ["Hiroshi", "Akiko", "Yuki", "Satoru", "Steeve", "Mituru", "Aoi", "Tarou", "Suguru", "Mitsuo"]}
attri_data_frame1 = DataFrame(attri_data1)

attri_data2 = {"ID": ["107", "109"],
               "city": ["Sendai", "Nagoya"],
               "birth_year": [1994, 1988]}
attri_data_frame2 = DataFrame(attri_data2)

# ここに解答を記述してください
show_data = attri_data_frame1.append(attri_data_frame2).sort_values(
    by="ID", ascending=True).reset_index(drop=True)
show_data

In [None]:
execute_index()
check_output_match()

***

## 2.3 欠損値

### 2.3.1 リストワイズ削除/ペアワイズ削除

このセクションでは欠損値の扱いについて学びます。<br>
<br>
読み込んだデータに空白などがあると欠損値`NaN`（Not a Number）であると認識されます。データの精度を高めるために、欠損値`NaN`を削除するには<b style='color:#AA0000'>dropna()</b>関数を用います。<br>
<br>
まずは、わざと表の一部を欠損させた表をランダムに作成します。<br>

```Python
import numpy as np
from numpy import nan as NA
import pandas as pd

sample_data_frame = pd.DataFrame(np.random.rand(10, 4))

# 一部のデータをわざと欠損させます
sample_data_frame.iloc[1, 0] = NA
sample_data_frame.iloc[2, 2] = NA
sample_data_frame.iloc[5:, 3] = NA

sample_data_frame
```

次のようなDataFrameが生成されます。

<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4050_data_cleansing/cleansing_chap2_40.png" >

データ欠損のある行や列（NaNを含む行）をまるごと消去することを`リストワイズ削除`といいます。`dropna()`関数を用いて、1つでもNaNを含む行をすべて取り除きます。また、引数に`axis=1`を指定すると1つでもNaNを含む列を取り除きます。

```Python
sample_data_frame.dropna()
```

<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4050_data_cleansing/cleansing_chap2_50.png" >

リストワイズ法で欠損のある行をすべて削除してしまうとデータが少なすぎる場合、利用可能なデータのみを用いる方法もあります。欠損の少ない列（例えば、0列目と1列目）を残し、そこからNaNを含む行を消去することを`ペアワイズ削除`といいます。

```Python
sample_data_frame[[0, 1]].dropna()
```
<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4050_data_cleansing/cleansing_chap2_60.png" >

#### 問題

- DataFrame `sample_data_frame` の0列と2列を残し、NaNを含む行をすべて削除して出力してください。

In [None]:
import numpy as np
from numpy import nan as NA
import pandas as pd
np.random.seed(0)

sample_data_frame = pd.DataFrame(np.random.rand(10, 4))

sample_data_frame.iloc[1, 0] = NA
sample_data_frame.iloc[2, 2] = NA
sample_data_frame.iloc[5:, 3] = NA

# ここに解答を記述してください


#### ヒント

- ペアワイズ削除の考え方を用います。最初に0列と2列を残して削除し、その後でNaNを含む行を削除します。
```
sample_data_frame[[0, 2]].dropna()
```

#### 解答例

In [None]:
import numpy as np
from numpy import nan as NA
import pandas as pd
np.random.seed(0)

sample_data_frame = pd.DataFrame(np.random.rand(10, 4))

sample_data_frame.iloc[1, 0] = NA
sample_data_frame.iloc[2, 2] = NA
sample_data_frame.iloc[5:, 3] = NA

# ここに解答を記述してください
sample_data_frame[[0, 2]].dropna()

In [None]:
execute_index()
check_output_match()

***

### 2.3.2 欠損値の補完

データの精度を高めるには欠損値を削除する以外に、代替データを欠損値に代入する方法もあります。<br>
欠損値NaNに代替データを代入（置き換え）するには<b style='color:#AA0000'>fillna()</b>関数を用います。<br>
<br>
わざと表の一部を欠損させた表をランダムに作成します。

```Python
import numpy as np
from numpy import nan as NA
import pandas as pd

sample_data_frame = pd.DataFrame(np.random.rand(10, 4))

# 一部のデータをわざと欠損させます
sample_data_frame.iloc[1, 0] = NA
sample_data_frame.iloc[2, 2] = NA
sample_data_frame.iloc[5:, 3] = NA
```

`fillna()`関数を用いると、引数として与えた数をNaNの部分に代入します。今回は0で埋めてみます。

```Python
sample_data_frame.fillna(0)
```

<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4050_data_cleansing/cleansing_chap2_70.png" >

`method`に`ffill`を指定すると前行の値で埋めることができます。

```Python
sample_data_frame.fillna(method="ffill")
```

<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4050_data_cleansing/cleansing_chap2_80.png" >

#### 問題

- DataFrame `sample_data_frame` のNaNを前行の値で埋めて出力してください。

In [None]:
import numpy as np
from numpy import nan as NA
import pandas as pd
np.random.seed(0)

sample_data_frame = pd.DataFrame(np.random.rand(10, 4))

sample_data_frame.iloc[1, 0] = NA
sample_data_frame.iloc[6:, 2] = NA

# ここに解答を記述してください


#### ヒント

- 前行の値で埋める場合は、`method`に`fillna`を指定します。

#### 解答例

In [None]:
import numpy as np
from numpy import nan as NA
import pandas as pd
np.random.seed(0)

sample_data_frame = pd.DataFrame(np.random.rand(10, 4))

sample_data_frame.iloc[1, 0] = NA
sample_data_frame.iloc[6:, 2] = NA

# ここに解答を記述してください
sample_data_frame.fillna(method="ffill")

In [None]:
execute_index()
check_output_match()

***

### 2.3.3 欠損値の補完（平均値代入法）

欠損値をその列（または行）の平均値によって穴埋めをする方法を<b style='color: #AA0000'>平均値代入法</b>といいます。<br>
平均値は`mean()`関数を用いて算出します。
```Python
import numpy as np
from numpy import nan as NA
import pandas as pd

sample_data_frame = pd.DataFrame(np.random.rand(10, 4))

# 一部のデータをわざと欠損させます
sample_data_frame.iloc[1, 0] = NA
sample_data_frame.iloc[2, 2] = NA
sample_data_frame.iloc[5:, 3] = NA

# fillnaを用いてNaNの部分にその列の平均値を代入します
sample_data_frame.fillna(sample_data_frame.mean())
```
<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4050_data_cleansing/cleansing_chap2_90.png" >

**<center>図2.3.3-1 平均値を代入したあとのデータの様子</center>**


#### 問題

- DataFrame `sample_data_frame` のNaNを列の平均値で埋めて出力してください。

In [None]:
import numpy as np
from numpy import nan as NA
import pandas as pd
np.random.seed(0)

sample_data_frame = pd.DataFrame(np.random.rand(10, 4))

sample_data_frame.iloc[1, 0] = NA
sample_data_frame.iloc[6:, 2] = NA
# ここに解答を記述してください


#### ヒント

- 値を代入するには`fillna`を用います。
- 平均値は`mean()`関数を用います。

#### 解答例

In [None]:
import numpy as np
from numpy import nan as NA
import pandas as pd
np.random.seed(0)

sample_data_frame = pd.DataFrame(np.random.rand(10, 4))

sample_data_frame.iloc[1, 0] = NA
sample_data_frame.iloc[6:, 2] = NA

sample_data_frame.fillna(sample_data_frame.mean())

In [None]:
execute_index()
check_output_match()

***

## 2.4 データ集約

### 2.4.1 キーごとの統計量の算出

このセクションではデータの集約について学びます。<br>
<br>
統計量は代表値と散布度に区分できます。代表値とはデータの基本的な特徴を表す値のことで、例えば、平均値、最大値、最小値などのことです。<br>
<a href='/courses/4050/exercises/SkCUK3LoLeG' target='_blank'>2.1.1 Pandasを用いたCSVの読み込み</a>で用いたワインのデータセットを読み込んでキーごとの平均値を算出してみます。
```Python
import pandas as pd

df = pd.read_csv("./4050_data_cleansing_data/wine.csv", header=None)
df.columns=["", "Alcohol", "Malic acid", "Ash", "Alcalinity of ash", "Magnesium","Total phenols", "Flavanoids", "Nonflavanoid phenols", "Proanthocyanins","Color intensity", "Hue", "OD280/OD315 of diluted wines", "Proline"]

# DataFrame `df` のキー"Alcohol"の平均値を算出します
df["Alcohol"].mean()
```
```Python
# 出力結果
13.000617977528091
```

#### 問題

- 解説で使用したワインのデータセットを読み込み、"Magnesium"の平均値を出力してください。

In [None]:
import pandas as pd

df = pd.read_csv("./4050_data_cleansing_data/wine.csv", header=None)
df.columns = ["", "Alcohol", "Malic acid", "Ash", "Alcalinity of ash", "Magnesium", "Total phenols", "Flavanoids",
              "Nonflavanoid phenols", "Proanthocyanins", "Color intensity", "Hue", "OD280/OD315 of diluted wines", "Proline"]
# ここに解答を記述してください


#### ヒント

- "Magnesium"の列を抽出し、`mean()`メソッドを用いて平均値を求めます。

#### 解答例

In [None]:
import pandas as pd

df = pd.read_csv("./4050_data_cleansing_data/wine.csv", header=None)
df.columns = ["", "Alcohol", "Malic acid", "Ash", "Alcalinity of ash", "Magnesium", "Total phenols", "Flavanoids",
              "Nonflavanoid phenols", "Proanthocyanins", "Color intensity", "Hue", "OD280/OD315 of diluted wines", "Proline"]

df["Magnesium"].mean()

In [None]:
execute_index()
index_output_contains("99\.74","出力が違います")

***

### 2.4.2 重複データ

データの重複がある場合、そのデータを削除してデータの精度を高めます。<br>
実際にデータの重複があるDataFrameを用意して、重複データの抽出や削除を行ってみます。
```Python
import pandas as pd
from pandas import DataFrame

dupli_data = DataFrame({"col1":[1, 1, 2, 3, 4, 4, 6, 6]
                       ,"col2":["a", "b", "b", "b", "c", "c", "b", "b"]})
dupli_data
```
<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4050_data_cleansing/cleansing_chap2_100.png" >

**<center>図2.4.2-1 生成された直後のデータ</center>**

<b style='color: #AA0000'>duplicated()</b>メソッドを用いると、重複がある行に`True`を返すSeries型のデータを生成し、重複データを抽出します。
```Python
# 重複データを抽出します
dupli_data.duplicated()
```
```Python
# 出力結果
0    False
1    False
2    False
3    False
4    False
5     True
6    False
7     True
dtype: bool
```
`dtype`とは "Data Type" のことで、要素のデータ型を示します。<br>
<br>
`drop_duplicates()`メソッドを用いると、重複するデータを削除します。
```Python
dupli_data.drop_duplicates()
```
<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4050_data_cleansing/cleansing_chap2_110.png" >

**<center>図2.4.2-2 重複を除いたあとのデータ</center>**


#### 問題

- DataFrame `dupli_data` には重複したデータがあります。重複データを削除して新たなDataFrameを出力してください。

In [None]:
import pandas as pd
from pandas import DataFrame

dupli_data = DataFrame({"col1":[1, 1, 2, 3, 4, 4, 6, 6, 7, 7, 7, 8, 9, 9]
                       ,"col2":["a", "b", "b", "b", "c", "c", "b", "b", "d", "d", "c", "b", "c", "c"]})
# ここに解答を記述してください


#### ヒント

- 重複データの削除には`drop_duplicates()`メソッドを用います。

#### 解答例

In [None]:
import pandas as pd
from pandas import DataFrame

dupli_data = DataFrame({"col1":[1, 1, 2, 3, 4, 4, 6, 6, 7, 7, 7, 8, 9, 9]
                       ,"col2":["a", "b", "b", "b", "c", "c", "b", "b", "d", "d", "c", "b", "c", "c"]})

dupli_data.drop_duplicates()

In [None]:
execute_index()
index_code_contains("drop_duplicates()", failure_msg="重複データの削除はdrop_duplicates()を用います")
check_output_match()

***

### 2.4.3 マッピング

マッピングとは共通のキーを持つデータに対して、別のテーブルからキーに対応する値を参照する処理です。<br>
実際にDataFrameを用意して、マッピング処理を行ってみます。
```Python
import pandas as pd
from pandas import DataFrame

attri_data1 = {"ID": ["100", "101", "102", "103", "104", "106", "108", "110", "111", "113"]
        ,"city": ["Tokyo", "Osaka", "Kyoto", "Hokkaido", "Tokyo", "Tokyo", "Osaka", "Kyoto", "Hokkaido", "Tokyo"]
        ,"birth_year" :[1990, 1989, 1992, 1997, 1982, 1991, 1988, 1990, 1995, 1981]
        ,"name" :["Hiroshi", "Akiko", "Yuki", "Satoru", "Steeve", "Mituru", "Aoi", "Tarou", "Suguru", "Mitsuo"]}
attri_data_frame1 = DataFrame(attri_data1)

attri_data_frame1
```
<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4050_data_cleansing/cleansing_chap2_120.png" >

**<center>図2.4.3-1 生成された直後のデータ</center>**

cityに対応する地域名を持つ、辞書型のデータを作成します。
```Python
city_map ={"Tokyo":"Kanto"
          ,"Hokkaido":"Hokkaido"
          ,"Osaka":"Kansai"
          ,"Kyoto":"Kansai"}
city_map
```
はじめに用意した`attri_data_frame1`のcityカラムをキーに、`city_map`から対応する地域名データを参照して、新しいカラムに追加します。これがマッピング処理です。Excelに詳しい方であればvlookup関数のような処理をイメージしてください。<br>
`map()`関数を用いてマッピング処理を行い、新しいカラムとして`region`を`attri_data_frame1`に追加します。
```Python
attri_data_frame1["region"] = attri_data_frame1["city"].map(city_map)
attri_data_frame1
```
出力結果を見ると、regionカラムに地域名が追加されているのが分かります。<br>
対応するデータが`city_map`に存在しない要素には`NaN`が埋められます。
<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4050_data_cleansing/cleansing_chap2_130.png" >

**<center>図2.4.3-2 regionカラムが追加されたデータ</center>**


#### 問題

- `Tokyo`、`Hokkaido`の要素が`east` 、`Osaka`、`Kyoto`の要素が`west`である辞書を新たに作成してください。<br>
辞書名は任意です。
- DataFrame`attri_data1`の`city`をキーに上で作成した辞書を参照して新しい列`WE`を追加し、その結果を出力してください。

In [None]:
import pandas as pd
from pandas import DataFrame

attri_data1 = {"ID": ["100", "101", "102", "103", "104", "106", "108", "110", "111", "113"]
        ,"city": ["Tokyo", "Osaka", "Kyoto", "Hokkaido", "Tokyo", "Tokyo", "Osaka", "Kyoto", "Hokkaido", "Tokyo"]
        ,"birth_year" :[1990, 1989, 1992, 1997, 1982, 1991, 1988, 1990, 1995, 1981]
        ,"name" :["Hiroshi", "Akiko", "Yuki", "Satoru", "Steeve", "Mituru", "Aoi", "Tarou", "Suguru", "Mitsuo"]}
attri_data_frame1 = DataFrame(attri_data1)
# ここに解答を記述してください


#### ヒント

- データを参照するには`map()`関数を用います。

#### 解答例

In [None]:
import pandas as pd
from pandas import DataFrame

attri_data1 = {"ID": ["100", "101", "102", "103", "104", "106", "108", "110", "111", "113"]
        ,"city": ["Tokyo", "Osaka", "Kyoto", "Hokkaido", "Tokyo", "Tokyo", "Osaka", "Kyoto", "Hokkaido", "Tokyo"]
        ,"birth_year" :[1990, 1989, 1992, 1997, 1982, 1991, 1988, 1990, 1995, 1981]
        ,"name" :["Hiroshi", "Akiko", "Yuki", "Satoru", "Steeve", "Mituru", "Aoi", "Tarou", "Suguru", "Mitsuo"]}
attri_data_frame1 = DataFrame(attri_data1)

WE_map = {"Tokyo":"east"
          ,"Hokkaido":"east"
          ,"Osaka":"west"
          ,"Kyoto":"west"}

attri_data_frame1["WE"] = attri_data_frame1["city"].map(WE_map)

attri_data_frame1

In [None]:
execute_index()
check_output_match()

***

### 2.4.4 ビン分割

ビン分割とは、数値データを大まかに区切ってカテゴリ分けをする処理のことです。例えば、年齢を0～9歳、10～19歳、20～29歳のように分ける処理です。あらかじめビン分割したリストを用意してpandasの`cut()`関数を用いて処理を行います。<br>
例えば、<a href='/courses/4050/exercises/HkvPKnLi8gM' target='_blank'>2.4.3 マッピング</a>で用いたデータセットを使用してビン分割を行ってみます。
```Python
import pandas as pd
from pandas import DataFrame

attri_data1 = {"ID": [100,101,102,103,104,106,108,110,111,113]
        ,"city": ["Tokyo", "Osaka", "Kyoto", "Hokkaido", "Tokyo", "Tokyo", "Osaka", "Kyoto", "Hokkaido", "Tokyo"]
        ,"birth_year" :[1990, 1989, 1992, 1997, 1982, 1991, 1988, 1990, 1995, 1981]
        ,"name" :["Hiroshi", "Akiko", "Yuki", "Satoru", "Steeve", "Mituru", "Aoi", "Tarou", "Suguru", "Mitsuo"]}
attri_data_frame1 = DataFrame(attri_data1)
```
分割の粒度をリストで指定し、ビン分割を実施します。ここでは`birth_year`に着目します。
```Python
# 分割の粒度のリストを作成します
birth_year_bins = [1980,1985,1990,1995,2000]

#ビン分割を行いします
birth_year_cut_data = pd.cut(attri_data_frame1.birth_year,birth_year_bins)
birth_year_cut_data
```
```Python
# 出力結果
0    (1985, 1990]
1    (1985, 1990]
2    (1990, 1995]
3    (1995, 2000]
4    (1980, 1985]
5    (1990, 1995]
6    (1985, 1990]
7    (1985, 1990]
8    (1990, 1995]
9    (1980, 1985]
Name: birth_year, dtype: category
Categories (4, interval[int64]): [(1980, 1985] < (1985, 1990] < (1990, 1995] < (1995, 2000]]
```
"()"はその値を含まず、"[]"はその値を含むことを意味します。例えば `(1985, 1990]` の場合、1985年は含まず，1990年は含まれます。<br>
<br>
それぞれのビンの数を集計したい場合は、`value_counts()`メソッドを用います。
```Python
pd.value_counts(birth_year_cut_data)
```
```Python
# 出力結果
(1985, 1990]    4
(1990, 1995]    3
(1980, 1985]    2
(1995, 2000]    1
Name: birth_year, dtype: int64
```
それぞれのビンに名前をつけることも可能です。
```Python
group_names = ["first1980", "second1980", "first1990", "second1990"]
birth_year_cut_data = pd.cut(attri_data_frame1.birth_year,birth_year_bins,labels = group_names)
pd.value_counts(birth_year_cut_data)
```
```Python
# 出力結果
second1980    4
first1990     3
first1980     2
second1990    1
Name: birth_year, dtype: int64
```
あらかじめ分割数を指定して分割することも可能です。これを用いると、ほぼ同じサイズのビンを作成することができます。`cut()`関数の第2引数に分割数を指定します。
```Python
pd.cut(attri_data_frame1.birth_year,2)
```
```Python
# 出力結果
0      (1989.0, 1997.0]
1    (1980.984, 1989.0]
2      (1989.0, 1997.0]
3      (1989.0, 1997.0]
4    (1980.984, 1989.0]
5      (1989.0, 1997.0]
6    (1980.984, 1989.0]
7      (1989.0, 1997.0]
8      (1989.0, 1997.0]
9    (1980.984, 1989.0]
Name: birth_year, dtype: category
Categories (2, interval[float64]): [(1980.984, 1989.0] < (1989.0, 1997.0]]
```

#### 問題

- DataFrame`attri_data1`をIDで2つにビン分割して出力してください。

In [10]:
import pandas as pd
from pandas import DataFrame

attri_data1 = {"ID":[100,101,102,103,104,106,108,110,111,113]
        ,"city":["Tokyo","Osaka","Kyoto","Hokkaido","Tokyo","Tokyo","Osaka","Kyoto","Hokkaido","Tokyo"]
        ,"birth_year":[1990,1989,1992,1997,1982,1991,1988,1990,1995,1981]
        ,"name":["Hiroshi","Akiko","Yuki","Satoru","Steeve","Mituru","Aoi","Tarou","Suguru","Mitsuo"]}
attri_data_frame1 = DataFrame(attri_data1)
# ここに解答を記述してください


#### ヒント

- 分割数を指定して分割する場合、`cut()`関数の第2引数に分割数を渡します。

#### 解答例

In [11]:
import pandas as pd
from pandas import DataFrame

attri_data1 = {"ID":[100,101,102,103,104,106,108,110,111,113]
        ,"city":["Tokyo","Osaka","Kyoto","Hokkaido","Tokyo","Tokyo","Osaka","Kyoto","Hokkaido","Tokyo"]
        ,"birth_year":[1990,1989,1992,1997,1982,1991,1988,1990,1995,1981]
        ,"name":["Hiroshi","Akiko","Yuki","Satoru","Steeve","Mituru","Aoi","Tarou","Suguru","Mitsuo"]}
attri_data_frame1 = DataFrame(attri_data1)

pd.cut(attri_data_frame1.ID, 2)

0    (99.987, 106.5]
1    (99.987, 106.5]
2    (99.987, 106.5]
3    (99.987, 106.5]
4    (99.987, 106.5]
5    (99.987, 106.5]
6     (106.5, 113.0]
7     (106.5, 113.0]
8     (106.5, 113.0]
9     (106.5, 113.0]
Name: ID, dtype: category
Categories (2, interval[float64]): [(99.987, 106.5] < (106.5, 113.0]]

In [None]:
execute_index()
check_output_match()

***

## 2.5 まとめ問題（提出不要）

今までの復習をします。

#### 問題

以下のコメントアウトの下にコードを書いてください。

In [None]:
import pandas as pd
import numpy as np
from numpy import nan as NA


df = pd.read_csv("./4050_data_cleansing_data/wine.csv", header=None)
#カラムにそれぞれの数値が何を表しているかを追加します
df.columns=["", "Alcohol", "Malic acid", "Ash", "Alcalinity of ash", "Magnesium",
            "Total phenols", "Flavanoids", "Nonflavanoid phenols", "Proanthocyanins",
            "Color intensity", "Hue", "OD280/OD315 of diluted wines", "Proline"]

#変数dfの上から１０行を変数df_tenに代入し、表示する操作です
df_ten = df.head(10)
print(df_ten)

#データの一部を欠損させてください
df_ten.iloc[1,0] = 
df_ten.iloc[2,3] = 
df_ten.iloc[4,8] = 
df_ten.iloc[7,3] = 
print(df_ten)

#fillnaを用いてNaNの部分にその列の平均値を代入しください
df_ten = 
print(df_ten)

#重複している行を削除してください
df_ten = df_ten.append(df_ten.loc[3])
df_ten = df_ten.append(df_ten.loc[6])
df_ten = df_ten.append(df_ten.loc[9])
df_ten = 
print(df_ten)

#Alcohol列の分割の粒度リストを作成してください
alcohol_bins = [0,5,10,15,20,25]
alcoholr_cut_data = 

#ビン数を集計し出力ください
print()

#### ヒント

- このチャプターで学んだことを確認しましょう。2.3では欠損値の補完を、2.4では重複の削除・ビン分割などを学びました。
- 登場する `.head()` という関数は、DataFrameの上から指定した数の行を取り出してくれるものです。

#### 解答例

In [None]:
import pandas as pd
import numpy
from numpy import nan as NA

df = pd.read_csv("./4050_data_cleansing_data/wine.csv", header=None)
#カラムにそれぞれの数値が何を表しているかを追加します
df.columns=["", "Alcohol", "Malic acid", "Ash", "Alcalinity of ash", "Magnesium",
            "Total phenols", "Flavanoids", "Nonflavanoid phenols", "Proanthocyanins",
            "Color intensity", "Hue", "OD280/OD315 of diluted wines", "Proline"]

#変数dfの上から１０行を変数df_tenに代入し、表示する操作です
df_ten = df.head(10)
print(df_ten)

#データの一部を欠損させてください
df_ten.iloc[1,0] = NA
df_ten.iloc[2,3] = NA
df_ten.iloc[4,8] = NA
df_ten.iloc[7,3] = NA
print(df_ten)

#fillnaを用いてNaNの部分にその列の平均値を代入しください
df_ten = df_ten.fillna(df_ten.mean())
print(df_ten)

#"Alcohol"列の平均を出力してください
print(df_ten["Alcohol"].mean())

#重複している行を削除してください
df_ten = df_ten.append(df_ten.loc[3])
df_ten = df_ten.append(df_ten.loc[6])
df_ten = df_ten.append(df_ten.loc[9])
df_ten = df_ten.drop_duplicates()
print(df_ten)

#Alcohol列の分割の粒度リストを作成してください
alcohol_bins = [0,5,10,15,20,25]
alcoholr_cut_data = pd.cut(df_ten["Alcohol"],alcohol_bins)

#ビン数の集計
print(pd.value_counts(alcoholr_cut_data))

DataFrameに関する基本的な事項は、不安な点があればPandasの教材も参考にしてみましょう。

***