#  DataFrameを用いたデータクレンジング


- **[2.1 CSV](#2.1-CSV)**
    - **[2.1.1 CSVの読み込み](#2.1.1-CSVの読み込み)**
    - **[2.1.2 CSVの作成](#2.1.2-CSVの作成)**
    - **[2.1.3 書き込み](#2.1.3-書き込み)**
<br><br>
- **[2.2 DataFrameの復習](#2.2-DataFrameの復習)**
    - **[2.2.1 DataFrameの復習](#2.2.1-DataFrameの復習)**
<br><br>
- **[2.3 欠損値](#2.3-欠損値)**
    - **[2.3.1 リストワイズ/ペアワイズ削除](#2.3.1-リストワイズ/ペアワイズ削除)**
    - **[2.3.2 欠損値の補完](#2.3.2-欠損値の補完)**
    - **[2.3.3 欠損値の補完（平均値代入法）](#2.3.3-欠損値の補完（平均値代入法）)**
<br><br>
- **[2.4 データ集約](#2.4-データ集約)**
    - **[2.4.1 キーごとの統計量の算出](#2.4.1-キーごとの統計量の算出)**
    - **[2.4.2 重複データ](#2.4.2-重複データ)**
    - **[2.4.3 マッピング](#2.4.3-マッピング)**
    - **[2.4.4 ビン分割](#2.4.4-ビン分割)**
<br><br>
- **[2.5 添削問題](#2.5-添削問題)**

***

## 2.1 CSV

### 2.1.1 Pandasを用いたCSVの読み込み

ここではCSVと呼ばれるデータ形式を扱っていきます。CSVは値をカンマ区切りで格納したファイルであり、データ分析等において非常に扱いやすいので、一般的によく使われます。pandasを用いてCSVを読み込みそれをDataFrameにしてみましょう。今回はデータセットとしてワインのデータセットをオンラインでCSV形式で取得してみます。そのままでは数値が何を表しているのかわからないので、その情報を表すカラムを追加します。

```python
import pandas as pd

df = pd.read_csv("http://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data", header=None)
#カラムにそれぞれの数値が何を表しているかを追加します
df.columns=["", "Alcohol", "Malic acid", "Ash", "Alcalinity of ash", "Magnesium","Total phenols", "Flavanoids", "Nonflavanoid phenols", "Proanthocyanins","Color intensity", "Hue", "OD280/OD315 of diluted wines", "Proline"]
df
```

<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4050_data_cleansing/cleansing_chap2_10.png" >


#### 問題

- オンラインでアヤメのデータ(パスは、cleansing_data/iris.csv )をCSV形式で取得し、PandasのDataFrame形式で出力してください。カラムとして左の列から順に`"sepal length", "sepal width", "petal length", "petal width", "class"`を指定してください。

In [None]:
import pandas as pd
# ここに解答を記述してください


#### ヒント

- 最後の行にはDataFrameを格納した変数を入力してください。
- Aidemyの学習環境では、最終行に設置された Pandas の DataFrame を自動的に HTML として装飾して描画するように設定しているため、print文を使わなくても最終行にDataFrameを格納した変数を記述するだけで綺麗に表示されます。

#### 解答例

In [None]:
import pandas as pd

df = pd.read_csv("cleansing_data/iris.csv", header=None)
df.columns = ["sepal length", "sepal width", "petal length", "petal width", "class"] 
df


***

### 2.1.2 CSVライブラリを用いたCSVの作成

Python3に標準で搭載されているCSVライブラリを用いてCSVデータを作成してみます。過去10回分のオリンピックについてのデータを表にしてみます。
```python
import csv

#with文を用いて実行します
with open("./cleansing_data/csv0.csv", "w") as csvfile:
    #writerメソッドには引数としてここではcsvfileと改行コード（\n）を指定します
    writer = csv.writer(csvfile, lineterminator="\n")
    #writerow（リスト）を用いて行を追加していきます
    writer.writerow(["city", "year", "season"])
    writer.writerow(["Nagano", 1998, "winter"])
    writer.writerow(["Sydney", 2000, "summer"])
    writer.writerow(["Salt Lake City", 2002, "winter"])
    writer.writerow(["Athens", 2004, "summer"])
    writer.writerow(["Torino", 2006, "winter"])
    writer.writerow(["Beijing", 2008, "summer"])
    writer.writerow(["Vancouver", 2010, "winter"])
    writer.writerow(["London", 2012, "summer"])
    writer.writerow(["Sochi", 2014, "winter"])
    writer.writerow(["Rio de Janeiro", 2016, "summer"])
```
これを実行するとcsv0.csvというCSVデータが作成されていることがわかります。

<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4050_data_cleansing/cleansing_chap2_20.png">

#### 問題

- 自分で一つcsvデータを作成して出力してください。

In [None]:
import csv
# ここに解答を記述してください


#### ヒント

- 行を追加するにはwriterow(リスト)を用います。
- import os をした後にprint(os.getcwd())とするとcsvが格納された場所がわかります。

#### 解答例

In [None]:
import csv

with open("./cleansing_data/csv0.csv", "w") as csvfile:
    writer = csv.writer(csvfile, lineterminator="\n")
    writer.writerow(["city", "year", "season"])
    writer.writerow(["Nagano", 1998, "winter"])
    writer.writerow(["Sydney", 2000, "summer"])
    writer.writerow(["Salt Lake City", 2002, "winter"])
    writer.writerow(["Athens", 2004, "summer"])
    writer.writerow(["Torino", 2006, "winter"])
    writer.writerow(["Beijing", 2008, "summer"])
    writer.writerow(["Vancouver", 2010, "winter"])
    writer.writerow(["London", 2012, "summer"])
    writer.writerow(["Sochi", 2014, "winter"])
    writer.writerow(["Rio de Janeiro", 2016, "summer"])


***

### 2.1.3 Pandasを用いたCSVの作成

なお、CSVライブラリを用いず、 **Pandasを用いてCSVデータを作成** することもできます。PandasDataFrame形式のものをCSVにする時はこの形式のほうが便利でしょう。DataFrameの例としてオリンピック開催の都市、年、季節をまとめて、それをCSVにしてみます。

```python
import pandas as pd

data = {"city": ["Nagano", "Sydney", "Salt Lake City", "Athens", "Torino", "Beijing", "Vancouver", "London", "Sochi", "Rio de Janeiro"], 
        "year": [1998, 2000, 2002, 2004, 2006, 2008, 2010, 2012, 2014, 2016],
        "season": ["winter", "summer", "winter", "summer", "winter", "summer", "winter", "summer", "winter", "summer"]}

df = pd.DataFrame(data)

df.to_csv("cleansing_data/csv1.csv")
```

これを実行するとcleansing_data/csv1.csvというCSVデータが同じディレクトリに作成されます。

<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4050_data_cleansing/cleansing_chap2_30.png ">

#### 問題

- コード中のPandasのDataFrameを"OSlist.csv"というファイル名のCSV形式にして出力してください。

In [None]:
import pandas as pd

data = {"OS": ["Machintosh", "Windows", "Linux"],
        "release": [1984, 1985, 1991],
        "country": ["US", "US", ""]}
# ここに解答を記述してください


#### ヒント

- to_csv("ファイル名")メソッドを用います。

#### 解答例

In [None]:
import pandas as pd

data = {"OS": ["Machintosh", "Windows", "Linux"],
        "release": [1984, 1985, 1991],
        "country": ["US", "US", ""]}

df = pd.DataFrame(data)

df.to_csv("OSlist.csv")

***

## 2.2 DataFrameの復習

### 2.2.1 DataFrameの復習

DataFrameについてはPandasの「DataFrameの連結」で扱いました。ここでは簡単な問題を解いて復習してみましょう。

#### 問題

- `attri_data_frame1`へ`attri_data_frame2`の行を追加し出力してください。ただし行を追加した後のDataFrameはIDの昇順になるようにし、行番号も昇順になるようにしてください。
- 出力には`print`を使用せずDataFrameをそのまま記述してください。

In [None]:
import pandas as pd
from pandas import Series, DataFrame

attri_data1 = {"ID": ["100", "101", "102", "103", "104", "106", "108", "110", "111", "113"],
               "city": ["Tokyo", "Osaka", "Kyoto", "Hokkaido", "Tokyo", "Tokyo", "Osaka", "Kyoto", "Hokkaido", "Tokyo"],
               "birth_year": [1990, 1989, 1992, 1997, 1982, 1991, 1988, 1990, 1995, 1981],
               "name": ["Hiroshi", "Akiko", "Yuki", "Satoru", "Steeve", "Mituru", "Aoi", "Tarou", "Suguru", "Mitsuo"]}
attri_data_frame1 = DataFrame(attri_data1)

attri_data2 = {"ID": ["107", "109"],
               "city": ["Sendai", "Nagoya"],
               "birth_year": [1994, 1988]}
attri_data_frame2 = DataFrame(attri_data2)

# ここに解答を記述してください


#### ヒント

- 行の追加には `append(行を追加したいDataFrameが格納された変数)`を用います。
- データの並び替えには`sort_values(by="列の名前")`を用います。
- 行番号を振り直すには`reset_index(drop=True)`を用います。

#### 解答例

In [None]:
import pandas as pd
from pandas import Series, DataFrame

attri_data1 = {"ID": ["100", "101", "102", "103", "104", "106", "108", "110", "111", "113"],
               "city": ["Tokyo", "Osaka", "Kyoto", "Hokkaido", "Tokyo", "Tokyo", "Osaka", "Kyoto", "Hokkaido", "Tokyo"],
               "birth_year": [1990, 1989, 1992, 1997, 1982, 1991, 1988, 1990, 1995, 1981],
               "name": ["Hiroshi", "Akiko", "Yuki", "Satoru", "Steeve", "Mituru", "Aoi", "Tarou", "Suguru", "Mitsuo"]}
attri_data_frame1 = DataFrame(attri_data1)

attri_data2 = {"ID": ["107", "109"],
               "city": ["Sendai", "Nagoya"],
               "birth_year": [1994, 1988]}
attri_data_frame2 = DataFrame(attri_data2)

attri_data_frame1.append(attri_data_frame2).sort_values(
    by="ID", ascending=True).reset_index(drop=True)

***

## 2.3 欠損値

### 2.3.1 リストワイズ/ペアワイズ削除

2.3では欠損値の扱いについて学びます。まずはランダムに表を作成し、わざと表の一部を欠損させてみます。

```python
import numpy as np
from numpy import nan as NA
import pandas as pd

sample_data_frame = pd.DataFrame(np.random.rand(10,4))

#一部のデータをわざと欠損させます
sample_data_frame.iloc[1,0] = NA
sample_data_frame.iloc[2,2] = NA
sample_data_frame.iloc[5:,3] = NA

sample_data_frame
```

次のようなDataFrameが生成されます。

<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4050_data_cleansing/cleansing_chap2_40.png" >

このときデータ欠損のある行（NaNを含む行）をまるごと消去することをリストワイズ削除といいます。dropnaを用いると、NaNのある行を全て取り除いてくれます。
```python
sample_data_frame.dropna()
```

<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4050_data_cleansing/cleansing_chap2_50.png" >

また、利用可能なデータのみ用いるという方法もあります。欠損の少ない列（例: 0列目と1列目）だけを残すことを考えます。これをペアワイズ削除といいます。
```python
sample_data_frame[[0,1]].dropna()
```

<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4050_data_cleansing/cleansing_chap2_60.png" >

#### 問題

- 問題文中のDataFrameの第0列と第2列を残し、NaNを含む行を削除して出力してください。

In [None]:
import numpy as np
from numpy import nan as NA
import pandas as pd
np.random.seed(0)

sample_data_frame = pd.DataFrame(np.random.rand(10, 4))

sample_data_frame.iloc[1, 0] = NA
sample_data_frame.iloc[2, 2] = NA
sample_data_frame.iloc[5:, 3] = NA

#ここに解答を記述してください


#### ヒント

- ペアワイズ削除の考え方を用います。最初に第0列と第2列を残し、その後でNaNを含む行を削除します。

#### 解答例

In [None]:
import numpy as np
from numpy import nan as NA
import pandas as pd
np.random.seed(0)

sample_data_frame = pd.DataFrame(np.random.rand(10, 4))

sample_data_frame.iloc[1, 0] = NA
sample_data_frame.iloc[2, 2] = NA
sample_data_frame.iloc[5:, 3] = NA

sample_data_frame[[0, 2]].dropna()

***

### 2.3.2 欠損値の補完

前セクションでは欠損値のある列や行を削除しましたが、ここでは代替するデータをNaNの部分に代入してみます。
```python
import numpy as np
from numpy import nan as NA
import pandas as pd

sample_data_frame = pd.DataFrame(np.random.rand(10,4))

#一部のデータをわざと欠損させます
sample_data_frame.iloc[1,0] = NA
sample_data_frame.iloc[2,2] = NA
sample_data_frame.iloc[5:,3] = NA
```

fillna()を用いると、引数として与えた数をNaNの部分に代入します。今回は0で埋めてみます。
```python
sample_data_frame.fillna(0)
```

<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4050_data_cleansing/cleansing_chap2_70.png" >

methodにffillを指定することで前の値で埋めることができます。
```python
sample_data_frame.fillna(method="ffill")
```

<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4050_data_cleansing/cleansing_chap2_80.png" >


#### 問題

- 問題文中のDataFrameのNaNの部分を前の値で埋めて出力してください。

In [None]:
import numpy as np
from numpy import nan as NA
import pandas as pd
np.random.seed(0)

sample_data_frame = pd.DataFrame(np.random.rand(10, 4))

sample_data_frame.iloc[1, 0] = NA
sample_data_frame.iloc[6:, 2] = NA

#ここに解答を記述してください


#### ヒント

- fillnaでmethodを指定してください。

#### 解答例

In [1]:
import numpy as np
from numpy import nan as NA
import pandas as pd
np.random.seed(0)

sample_data_frame = pd.DataFrame(np.random.rand(10, 4))

sample_data_frame.iloc[1, 0] = NA
sample_data_frame.iloc[6:, 2] = NA

sample_data_frame.fillna(method="ffill")

Unnamed: 0,0,1,2,3
0,0.548814,0.715189,0.602763,0.544883
1,0.548814,0.645894,0.437587,0.891773
2,0.963663,0.383442,0.791725,0.528895
3,0.568045,0.925597,0.071036,0.087129
4,0.020218,0.83262,0.778157,0.870012
5,0.978618,0.799159,0.461479,0.780529
6,0.118274,0.639921,0.461479,0.944669
7,0.521848,0.414662,0.461479,0.774234
8,0.45615,0.568434,0.461479,0.617635
9,0.612096,0.616934,0.461479,0.68182


***

### 2.3.3 欠損値の補完（平均値代入法）

欠損値をその列（または行）の平均値によって穴埋めをする方法を平均値代入法といいます。
```python
import numpy as np
from numpy import nan as NA
import pandas as pd

sample_data_frame = pd.DataFrame(np.random.rand(10, 4))

#一部のデータをわざと欠損させます
sample_data_frame.iloc[1, 0] = NA
sample_data_frame.iloc[2, 2] = NA
sample_data_frame.iloc[5:, 3] = NA

#fillnaを用いてNaNの部分にその列の平均値を代入します
sample_data_frame.fillna(sample_data_frame.mean())
```

<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4050_data_cleansing/cleansing_chap2_90.png" >

#### 問題

- 問題文中のDataFrameのNaNの部分を列の平均値で埋めて出力してください。

In [None]:
import numpy as np
from numpy import nan as NA
import pandas as pd
np.random.seed(0)

sample_data_frame = pd.DataFrame(np.random.rand(10, 4))

sample_data_frame.iloc[1, 0] = NA
sample_data_frame.iloc[6:, 2] = NA

# ここに解答を記述してください


#### ヒント

- fillnaを用います。

#### 解答例

In [None]:
import numpy as np
from numpy import nan as NA
import pandas as pd
np.random.seed(0)

sample_data_frame = pd.DataFrame(np.random.rand(10, 4))

sample_data_frame.iloc[1, 0] = NA
sample_data_frame.iloc[6:, 2] = NA

sample_data_frame.fillna(sample_data_frame.mean())

***

## 2.4 データ集約

### 2.4.1 キーごとの統計量の算出

キーごとに統計量を算出します。同Chapter「**CSVの読み込み**」で用いたワインのデータセットをここでも利用して、列の平均値を算出して見ましょう。
```python
import pandas as pd

df = pd.read_csv("http://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data", header=None)
df.columns=["", "Alcohol", "Malic acid", "Ash", "Alcalinity of ash", "Magnesium","Total phenols", "Flavanoids", "Nonflavanoid phenols", "Proanthocyanins","Color intensity", "Hue", "OD280/OD315 of diluted wines", "Proline"]
df["Alcohol"].mean()
# 出力結果
13.000617977528083
```
となります。


#### 問題

- 解説文のワインのデータセットでMagnesiumの平均値を出力してください。

In [None]:
import pandas as pd

df = pd.read_csv("cleansing_data/wine.csv", header=None)
df.columns = ["", "Alcohol", "Malic acid", "Ash", "Alcalinity of ash", "Magnesium", "Total phenols", "Flavanoids",
              "Nonflavanoid phenols", "Proanthocyanins", "Color intensity", "Hue", "OD280/OD315 of diluted wines", "Proline"]

# ここに解答を記述してください


#### ヒント

- Magnesiumの列を抽出し、meanメソッドを使ってその平均値を求めてください。

#### 解答例

In [None]:
import pandas as pd

df = pd.read_csv(
    "cleansing_data/wine.csv", header=None)
df.columns = ["", "Alcohol", "Malic acid", "Ash", "Alcalinity of ash", "Magnesium", "Total phenols", "Flavanoids",
              "Nonflavanoid phenols", "Proanthocyanins", "Color intensity", "Hue", "OD280/OD315 of diluted wines", "Proline"]

df["Magnesium"].mean()

***

### 2.4.2 重複データ

ここでは重複するデータがある場合にそのデータを削除する方法を学びます。重複のあるデータを作成してみます。
```python
import pandas as pd
from pandas import DataFrame

dupli_data = DataFrame({"col1":[1, 1, 2, 3, 4, 4, 6, 6]
                       ,"col2":["a", "b", "b", "b", "c", "c", "b", "b"]})
dupli_data
```

<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4050_data_cleansing/cleansing_chap2_100.png" >

duplicatedを用いると、重複のある行にTrueと表示してくれます。出力結果は、今まで扱ってきたDataFrame型とは違うSeries型となっており、見た目が異なっています。
```python
dupli_data.duplicated()
# 出力結果
0    False
1    False
2    False
3    False
4    False
5     True
6    False
7     True
dtype: bool
```
dtype とは "Data Type" のことで、要素の型を示しています。  
drop_duplicatesを用いると、重複したデータの削除後のデータを表示します。
```python
dupli_data.drop_duplicates()
```

<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4050_data_cleansing/cleansing_chap2_110.png" >

#### 問題

- 問題文中のDataFrameには重複したデータがあります。それを削除して新たなDataFrameを出力してください。

In [None]:
import pandas as pd
from pandas import DataFrame

dupli_data = DataFrame({"col1":[1, 1, 2, 3, 4, 4, 6, 6, 7, 7, 7, 8, 9, 9]
                       ,"col2":["a", "b", "b", "b", "c", "c", "b", "b", "d", "d", "c", "b", "c", "c"]})

# ここに解答を記述してください


#### ヒント

- drop_duplicatesを用いてください。

#### 解答例

In [None]:
import pandas as pd
from pandas import DataFrame

dupli_data = DataFrame({"col1":[1, 1, 2, 3, 4, 4, 6, 6, 7, 7, 7, 8, 9, 9]
                       ,"col2":["a", "b", "b", "b", "c", "c", "b", "b", "d", "d", "c", "b", "c", "c"]})


dupli_data.drop_duplicates()

***

### 2.4.3 マッピング

マッピングとは共通のキーとなるデータに対して、テーブルからそのキーに対応するデータをもってくる処理です。説明だけでは実体が掴みづらいので実際の操作を通して学んでいきましょう。
```python
import pandas as pd
from pandas import DataFrame

attri_data1 = {"ID": ["100", "101", "102", "103", "104", "106", "108", "110", "111", "113"]
        ,"city": ["Tokyo", "Osaka", "Kyoto", "Hokkaido", "Tokyo", "Tokyo", "Osaka", "Kyoto", "Hokkaido", "Tokyo"]
        ,"birth_year" :[1990, 1989, 1992, 1997, 1982, 1991, 1988, 1990, 1995, 1981]
        ,"name" :["Hiroshi", "Akiko", "Yuki", "Satoru", "Steeve", "Mituru", "Aoi", "Tarou", "Suguru", "Mitsuo"]}
attri_data_frame1 = DataFrame(attri_data1)

attri_data_frame1
```

<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4050_data_cleansing/cleansing_chap2_120.png" >

ではここで新しい辞書を作成します。
```python
city_map ={"Tokyo":"Kanto"
          ,"Hokkaido":"Hokkaido"
          ,"Osaka":"Kansai"
          ,"Kyoto":"Kansai"}
city_map
```

はじめに用意したattri_data_frame1のcityカラムをベースとして、上の参照データに対応する地域名データをもってきて、新しいカラムを追加していきます。これがマッピング処理です。Excelに詳しい方であればvlookupのような処理といえばわかりやすいかと思います。
```python
# 新しいカラムとしてregionを追加します。対応するデータがない場合はNaNとなります
attri_data_frame1["region"] = attri_data_frame1["city"].map(city_map)
attri_data_frame1
```
出力結果です。regionカラムに地方名が追加されているのがわかります。

<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4050_data_cleansing/cleansing_chap2_130.png" >


#### 問題

- 問題文中のDataFrameで`city`が `Tokyo、Hokkaido`のものを`east` 、`Osaka、Kyoto`のものを`west`となるようにして、新しい列を追加し、その結果を出力してください。カラム名はWEにしてください。

In [None]:
import pandas as pd
from pandas import DataFrame

attri_data1 = {"ID": ["100", "101", "102", "103", "104", "106", "108", "110", "111", "113"]
        ,"city": ["Tokyo", "Osaka", "Kyoto", "Hokkaido", "Tokyo", "Tokyo", "Osaka", "Kyoto", "Hokkaido", "Tokyo"]
        ,"birth_year" :[1990, 1989, 1992, 1997, 1982, 1991, 1988, 1990, 1995, 1981]
        ,"name" :["Hiroshi", "Akiko", "Yuki", "Satoru", "Steeve", "Mituru", "Aoi", "Tarou", "Suguru", "Mitsuo"]}
attri_data_frame1 = DataFrame(attri_data1)

# ここに解答を記述してください


#### ヒント

- mapを例のように用いてください。

#### 解答例

In [None]:
import pandas as pd
from pandas import DataFrame

attri_data1 = {"ID": ["100", "101", "102", "103", "104", "106", "108", "110", "111", "113"]
        ,"city": ["Tokyo", "Osaka", "Kyoto", "Hokkaido", "Tokyo", "Tokyo", "Osaka", "Kyoto", "Hokkaido", "Tokyo"]
        ,"birth_year" :[1990, 1989, 1992, 1997, 1982, 1991, 1988, 1990, 1995, 1981]
        ,"name" :["Hiroshi", "Akiko", "Yuki", "Satoru", "Steeve", "Mituru", "Aoi", "Tarou", "Suguru", "Mitsuo"]}
attri_data_frame1 = DataFrame(attri_data1)

WE_map = {"Tokyo":"east"
          ,"Hokkaido":"east"
          ,"Osaka":"west"
          ,"Kyoto":"west"}

attri_data_frame1["WE"] = attri_data_frame1["city"].map(WE_map)

attri_data_frame1

***

### 2.4.4 ビン分割

ビン分割とは、ある離散的な範囲にデータを分割して集計したい場合に用いる便利な機能です。あらかじめビン分割したリストを用意してpandasのcut関数を使って、処理します。"マッピング"と同じDataFrameを用いてみましょう。
```python
import pandas as pd
from pandas import DataFrame

attri_data1 = {"ID": ["100", "101", "102", "103", "104", "106", "108", "110", "111", "113"]
        ,"city": ["Tokyo", "Osaka", "Kyoto", "Hokkaido", "Tokyo", "Tokyo", "Osaka", "Kyoto", "Hokkaido", "Tokyo"]
        ,"birth_year" :[1990, 1989, 1992, 1997, 1982, 1991, 1988, 1990, 1995, 1981]
        ,"name" :["Hiroshi", "Akiko", "Yuki", "Satoru", "Steeve", "Mituru", "Aoi", "Tarou", "Suguru", "Mitsuo"]}
attri_data_frame1 = DataFrame(attri_data1)
```
分割の粒度をリストで指定し、ビン分割を実施します。ここでは`birth_year`に着目したいと思います。
```python
#分割の粒度リストを作成します。
birth_year_bins = [1980,1985,1990,1995,2000]
#ビン分割を実施します
birth_year_cut_data = pd.cut(attri_data_frame1.birth_year,birth_year_bins)
birth_year_cut_data
```
出力結果は以下のようになります。"()"はその値を含まず、"[]"はその値を含むことを意味します。例えば `(1985, 1990]` の場合、1985年は含まず，1990年は含まれます。
```python
0    (1985, 1990]
1    (1985, 1990]
2    (1990, 1995]
3    (1995, 2000]
4    (1980, 1985]
5    (1990, 1995]
6    (1985, 1990]
7    (1985, 1990]
8    (1990, 1995]
9    (1980, 1985]
Name: birth_year, dtype: category
Categories (4, interval[int64]): [(1980, 1985] < (1985, 1990] < (1990, 1995] < (1995, 2000]]
```
それぞれのビンの数を集計したい場合は、value_countsを使います。
```python
pd.value_counts(birth_year_cut_data)
# 出力結果
(1985, 1990]    4
(1990, 1995]    3
(1980, 1985]    2
(1995, 2000]    1
Name: birth_year, dtype: int64
```
それぞれのビンに名前をつけることも可能です。
```python
group_names = ["first1980", "second1980", "first1990", "second1990"]
birth_year_cut_data = pd.cut(attri_data_frame1.birth_year,birth_year_bins,labels = group_names)
pd.value_counts(birth_year_cut_data)
# 出力結果
second1980    4
first1990     3
first1980     2
second1990    1
Name: birth_year, dtype: int64
```
あらかじめ分割数を指定して分割することも可能です。これを用いればほぼ同じサイズのビンを作成することができます。cutの第2引数に分割数を渡します。
```python
pd.cut(attri_data_frame1.birth_year,2)
# 出力結果
0      (1989.0, 1997.0]
1    (1980.984, 1989.0]
2      (1989.0, 1997.0]
3      (1989.0, 1997.0]
4    (1980.984, 1989.0]
5      (1989.0, 1997.0]
6    (1980.984, 1989.0]
7      (1989.0, 1997.0]
8      (1989.0, 1997.0]
9    (1980.984, 1989.0]
Name: birth_year, dtype: category
Categories (2, interval[float64]): [(1980.984, 1989.0] < (1989.0, 1997.0]]
```


#### 問題

- 問題文中のDataFrameをIDで2つにビン分割して出力してください。

In [None]:
import pandas as pd
from pandas import DataFrame

attri_data1 = {"ID":[100,101,102,103,104,106,108,110,111,113]
        ,"city":["Tokyo","Osaka","Kyoto","Hokkaido","Tokyo","Tokyo","Osaka","Kyoto","Hokkaido","Tokyo"]
        ,"birth_year":[1990,1989,1992,1997,1982,1991,1988,1990,1995,1981]
        ,"name":["Hiroshi","Akiko","Yuki","Satoru","Steeve","Mituru","Aoi","Tarou","Suguru","Mitsuo"]}
attri_data_frame1 = DataFrame(attri_data1)

# ここに解答を記述してください


#### ヒント

- cutの第2引数に分割数を渡します。

#### 解答例

In [None]:
import pandas as pd
from pandas import DataFrame

attri_data1 = {"ID":[100,101,102,103,104,106,108,110,111,113]
        ,"city":["Tokyo","Osaka","Kyoto","Hokkaido","Tokyo","Tokyo","Osaka","Kyoto","Hokkaido","Tokyo"]
        ,"birth_year":[1990,1989,1992,1997,1982,1991,1988,1990,1995,1981]
        ,"name":["Hiroshi","Akiko","Yuki","Satoru","Steeve","Mituru","Aoi","Tarou","Suguru","Mitsuo"]}
attri_data_frame1 = DataFrame(attri_data1)

pd.cut(attri_data_frame1.ID, 2)

***

## 1.5 添削問題

今までの復習をします

#### 問題

以下のコメントアウトの下にコードを書いてください。

In [None]:
import pandas as pd
import numpy as np
from numpy import nan as NA


df = pd.read_csv("http://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data", header=None)
#カラムにそれぞれの数値が何を表しているかを追加します
df.columns=["", "Alcohol", "Malic acid", "Ash", "Alcalinity of ash", "Magnesium",
            "Total phenols", "Flavanoids", "Nonflavanoid phenols", "Proanthocyanins",
            "Color intensity", "Hue", "OD280/OD315 of diluted wines", "Proline"]

#変数dfの上から１０行を変数df_tenに代入し、表示してください
df_ten = 
print(df_ten)

#データの一部を欠損させてください
df_ten.iloc[1,0] = 
df_ten.iloc[2,3] = 
df_ten.iloc[4,8] = 
df_ten.iloc[7,3] = 
print(df_ten)

#fillnaを用いてNaNの部分にその列の平均値を代入しください
print()
print(df_ten)

#重複している行を削除してください
df_ten.append(df_ten.loc[3])
df_ten.append(df_ten.loc[6])
df_ten.append(df_ten.loc[9])
df_ten = 
print(df_ten)

#Alcohol列の分割の粒度リストを作成してください
alcohol_bins = [0,5,10,15,20,25]
alcoholr_cut_data = 

#ビン数の集計し出力ください
print()

#### ヒント

このチャプターで学んだことを確認しましょう。

#### 解答例

In [None]:
import pandas as pd

df = pd.read_csv("http://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data", header=None)
#カラムにそれぞれの数値が何を表しているかを追加します
df.columns=["", "Alcohol", "Malic acid", "Ash", "Alcalinity of ash", "Magnesium",
            "Total phenols", "Flavanoids", "Nonflavanoid phenols", "Proanthocyanins",
            "Color intensity", "Hue", "OD280/OD315 of diluted wines", "Proline"]

#変数dfの上から１０行を変数df_tenに代入し、表示してください
df_ten = df.head(10)
print(df_ten)

#データの一部を欠損させてください
df_ten.iloc[1,0] = NA
df_ten.iloc[2,3] = NA
df_ten.iloc[4,8] = NA
df_ten.iloc[7,3] = NA
print(df_ten)

#fillnaを用いてNaNの部分にその列の平均値を代入しください
df_ten.fillna(df_ten.mean())
print(df_ten)

#"Alcohol"列の平均を出力してください
print(df_ten["Alcohol"].mean())

#重複している行を削除してください
df_ten.append(df_ten.loc[3])
df_ten.append(df_ten.loc[6])
df_ten.append(df_ten.loc[9])
df_ten = df_ten.drop_duplicates()
print(df_ten)

#マッピングの問題

#Alcohol列の分割の粒度リストを作成してください
alcohol_bins = [0,5,10,15,20,25]
alcoholr_cut_data = pd.cut(df_ten["Alcohol"],alcohol_bins)

#ビン数の集計
print(pd.value_counts(alcoholr_cut_data))

***