# 表データとPandasを使いこなそう

今回は、データ分析と言えば、避けては通れないPandas の使い方を学び、
表データの操作を練習します。



## Pandas とは

Pandas とは、表データを扱うPython モジュールで、表計算ソフト (Excel)やリレーショナルデータベースの操作を Python から手軽に行えるようにしてくれます。 

次のように`pandas`モジュールをインポートして使います。


In [1]:
import pandas as pd

Pandas は、とても高機能です。

本講義では、Pandas でデータ分析をする必須の機能だけ紹介し、ハンズオン演習で体験します。

* 暗記するものではありません。
* どういうデータ処理や操作ができるか、覚えましょう。
* 使うときは、Google 等で調べながら使ってください。

### データの用意

Pandas の使い方に慣れるために、小さな練習用のデータを作成して、
そちらを使って演習していきます。

ファイル書き込み機能(`%%file`)を使って、Colab上でCSVファイル `arashi.csv`を作ります。


In [2]:
%%file arashi.csv
名前,出身,生年,身長,血液型
相葉雅紀,千葉,1982,175,AB
松本潤,東京都,1983,172,A
二宮和也,東京都,1983,168,A
大野智,東京都,1980,166,A
櫻井翔,東京都,1982,171,A

Overwriting arashi.csv


<div class="alert alert-warning">

データが間違っている？

一部間違っていると指摘をよく受けます。
どうぞ、各自でご自由に、ご修正して練習にお使いください。

</div>

CSV ファイルは、表計算ソフト(Excel)のファイルをデータ処理しやすく、カンマ区切り形式のテキストで出力したものです。当然、Excel 等の表計算ソフトで開いてみることができます。

<img src="https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/57754/0dd26ba4-bbfb-a468-6547-56968d575ce0.png" width="60%"/>

もうひとつ、あとから表データの結合をする練習で用いる `junk.csv` (わざと少し壊れたファイル）も作っておきましょう。

In [3]:
%%file junk.csv
name,height,weight
大野智,166,52.0
相葉雅紀,176,58.0
二宮和也,168,52.0
松本潤,173,62.0
カビゴン,210,460.0

Overwriting junk.csv



<div class="alert alert-info">

Let's try

ちゃんと`arashi.csv`が作成されているか、表計算ソフトで確認してみよう。

</div>


## 基本操作

Pandas は、表データを効率よく操作できます。

Pandas 用語では、表データのことをデータフレーム(DataFrame)と呼びますが、本資料では表データと呼びます。

![dataframe-fs8.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/57754/b9d6f05e-df40-4680-a8ad-a1b3f9ee3665.png)

<div class="alert alert-info">

__覚えておこう：Pandas用語__

* カラム: 行方向のデータ
* インデックス: 列方向のデータ

</div>


### CSVファイルの読み込み

Pandas では、`pd.read_csv()`を用いると、CSVファイルから表データを読み込めます。


In [4]:
data = pd.read_csv('arashi.csv')
data.head()  # 最初の5行のみ表示

Unnamed: 0,名前,出身,生年,身長,血液型
0,相葉雅紀,千葉,1982,175,AB
1,松本潤,東京都,1983,172,A
2,二宮和也,東京都,1983,168,A
3,大野智,東京都,1980,166,A
4,櫻井翔,東京都,1982,171,A


読み込んで表データは、`data`という名前にしてあります。

表データへの操作は、`data.head()`のようにメソッドで操作します。


### 属性名からカラム(列)を取り出す

Pandas では、属性ごとのデータ処理が多くなります。
まず、属性名`'名前'`のデータを取り出してみましょう。


In [5]:
data['名前']

0    相葉雅紀
1     松本潤
2    二宮和也
3     大野智
4     櫻井翔
Name: 名前, dtype: object

取り出した属性データは、Pythonの列(シーケンス）として、`for`文などで処理できます。

In [6]:
for name in data['名前']:
  print(name)

相葉雅紀
松本潤
二宮和也
大野智
櫻井翔


### 属性(列データ）の追加

新しい属性、つまり列データを追加してみましょう。

表データ中には、５人分のデータがあるため、リストとして５人分のデータを代入すると、
新しい属性を追加することができます。

__例. 性別を追加する__


In [7]:
data['性別'] = ['男性', '男性', '男性', '男性', '男性']  # ['男性'] * 5 

data #表示

Unnamed: 0,名前,出身,生年,身長,血液型,性別
0,相葉雅紀,千葉,1982,175,AB,男性
1,松本潤,東京都,1983,172,A,男性
2,二宮和也,東京都,1983,168,A,男性
3,大野智,東京都,1980,166,A,男性
4,櫻井翔,東京都,1982,171,A,男性



<div class="alert alert-info">

上級者向け: 列に数式を適用する

`apply`を使えば、各列データに関数やラムダ式を適用した列がえられます。

```
data['年齢'] = data['生年'].apply(lambda x: 2021 - x)
```



</div>




### n行目のデータを取り出す

表データの列ごとへのアクセスは、`.iloc`プロパティを通して行ます。

In [8]:
data.iloc[0]

名前     相葉雅紀
出身       千葉
生年     1982
身長      175
血液型      AB
性別       男性
Name: 0, dtype: object

In [9]:
for values in data.iloc[0]:
  print(values)

相葉雅紀
千葉
1982
175
AB
男性


### セルの値
インデックスと属性の組み合わせで、表データをセルの値を指定して取り出すことができます。


In [10]:
data.iloc[0]['出身']  # data['出身'][0]と書いてもよい

'千葉'

### 表データの出力

Pandas で操作した表データは、`.to_csv()`でCSVファイルに保存できます。


In [11]:
data.to_csv('arashi2.csv', index=False)  #インデックスなしで出力

In [12]:
!cat data.csv

名前,出身,生年,身長,血液型,性別
相葉雅紀,千葉,1982,175,AB,男性
松本潤,東京都,1983,172,A,男性
二宮和也,東京都,1983,168,A,男性
大野智,東京都,1980,166,A,男性
櫻井翔,東京都,1983,171,A,男性


## リレーショナル代数

Pandas の[リレーショナル代数](https://ja.wikipedia.org/wiki/%E9%96%A2%E4%BF%82%E4%BB%A3%E6%95%B0_(%E9%96%A2%E4%BF%82%E3%83%A2%E3%83%87%E3%83%AB))の操作をみていきましょう。

データベース実習を履修している人は、SQLを思い出しながら試していきましょう。

<div class="alert alert-warning">

リレーショナル代数って何？

SQLの元になったデータ操作を集合論をベースに定義した代数系です。
Pandas の操作を覚えるときは、Excel や SQL などの操作と対応付けながら、
マスターしていきましょう。

</div>


### 選択(selection)

選択は、指定した条件に合う行を取り出します。データを抽出するフィルターの役割になります。

__例__
```sql
SELECT * FROM data WHERE '身長 >= 170'
```


In [13]:
data[data['身長'] >= 170]

Unnamed: 0,名前,出身,生年,身長,血液型,性別
0,相葉雅紀,千葉,1982,175,AB,男性
1,松本潤,東京都,1983,172,A,男性
4,櫻井翔,東京都,1982,171,A,男性


複雑な条件は、`.query()`メソッドを用いて与えることもできます。

In [14]:
data.query('身長 >= 170 and 血液型 == "A"')

Unnamed: 0,名前,出身,生年,身長,血液型,性別
1,松本潤,東京都,1983,172,A,男性
4,櫻井翔,東京都,1982,171,A,男性


### 射影(projection)

射影（projection）は、表データから属性を限定した表データを返します。
Pandasでは、抽出したい属性名をリストにして渡します。

__SQL例__

```sql
SELECT 名前,生年,血液型 FROM data
```


In [15]:
data[['名前', '生年', '血液型']]

Unnamed: 0,名前,生年,血液型
0,相葉雅紀,1982,AB
1,松本潤,1983,A
2,二宮和也,1983,A
3,大野智,1980,A
4,櫻井翔,1982,A


### 表の連結

複数のファイルに入っている表データをまとめてひとつにしたいことがあります。


今度は、最初に作ったもう一つのCSVファイル junk.csvを読み込んで、連結してみます。

In [16]:
data2 = pd.read_csv('junk.csv')
data2

Unnamed: 0,name,height,weight
0,大野智,166,52.0
1,相葉雅紀,176,58.0
2,二宮和也,168,52.0
3,松本潤,173,62.0
4,カビゴン,210,460.0


単純に縦方向に連結したいときは、`pd.concat()`を使って連結します。
（属性名が異なるので、綺麗につながりません）

In [17]:
pd.concat([data, data2]) 

Unnamed: 0,名前,出身,生年,身長,血液型,性別,name,height,weight
0,相葉雅紀,千葉,1982.0,175.0,AB,男性,,,
1,松本潤,東京都,1983.0,172.0,A,男性,,,
2,二宮和也,東京都,1983.0,168.0,A,男性,,,
3,大野智,東京都,1980.0,166.0,A,男性,,,
4,櫻井翔,東京都,1982.0,171.0,A,男性,,,
0,,,,,,,大野智,166.0,52.0
1,,,,,,,相葉雅紀,176.0,58.0
2,,,,,,,二宮和也,168.0,52.0
3,,,,,,,松本潤,173.0,62.0
4,,,,,,,カビゴン,210.0,460.0


横方向に連結したいときは、`axis=1`のオプションをつけます。


In [18]:
pd.concat([data, data2], axis=1)  #横方向に連結

Unnamed: 0,名前,出身,生年,身長,血液型,性別,name,height,weight
0,相葉雅紀,千葉,1982,175,AB,男性,大野智,166,52.0
1,松本潤,東京都,1983,172,A,男性,相葉雅紀,176,58.0
2,二宮和也,東京都,1983,168,A,男性,二宮和也,168,52.0
3,大野智,東京都,1980,166,A,男性,松本潤,173,62.0
4,櫻井翔,東京都,1982,171,A,男性,カビゴン,210,460.0


### 表データの結合(join)

表データの結合は、ふたつの表データのある属性をキーにして、キーが同じ値であれば一つの行にまとめる操作です。

Pandasでは、`pd.merge()`で結合します。

__`名前`と`name`をキーにする__


In [19]:
pd.merge(data, data2, left_on='名前', right_on='name')


Unnamed: 0,名前,出身,生年,身長,血液型,性別,name,height,weight
0,相葉雅紀,千葉,1982,175,AB,男性,相葉雅紀,176,58.0
1,松本潤,東京都,1983,172,A,男性,松本潤,173,62.0
2,二宮和也,東京都,1983,168,A,男性,二宮和也,168,52.0
3,大野智,東京都,1980,166,A,男性,大野智,166,52.0


ふたつの表データは結合されましたが、データが一部消えてしまいました。
これは、Pandas では何も指定しなければ、一番条件の厳しい内部結合が用いられるためです。

__結合の方法__
* 内部結合 `inner`: 両方にキーが存在するとき結合
* 外部結合 `outer`: どちらか一方にキーが存在するとき結合
* 左外部結合 `left`: 左側にキーが存在するとき 
* 右外部結合 `right`: 右側にキーが存在するとき

`left`が良さそうですが、`outer`で結合してみます。

In [20]:
pd.merge(data, data2, left_on='名前', right_on='name', how='outer')

Unnamed: 0,名前,出身,生年,身長,血液型,性別,name,height,weight
0,相葉雅紀,千葉,1982.0,175.0,AB,男性,相葉雅紀,176.0,58.0
1,松本潤,東京都,1983.0,172.0,A,男性,松本潤,173.0,62.0
2,二宮和也,東京都,1983.0,168.0,A,男性,二宮和也,168.0,52.0
3,大野智,東京都,1980.0,166.0,A,男性,大野智,166.0,52.0
4,櫻井翔,東京都,1982.0,171.0,A,男性,,,
5,,,,,,,カビゴン,210.0,460.0


また、属性名が英語だったり、日本だったり不統一です。
少し整頓しておきましょう。


In [21]:
# data, data2を外部結合した表データを新しく data とする
data = pd.merge(data, data2, left_on='名前', right_on='name', how='outer')

data.drop('name', axis=1, inplace=True)
data.drop('height', axis=1, inplace=True)
data.drop(5, axis=0, inplace=True)  #index=5を消す
data.rename(columns={'weight': '体重'}, inplace=True)

data

Unnamed: 0,名前,出身,生年,身長,血液型,性別,体重
0,相葉雅紀,千葉,1982.0,175.0,AB,男性,58.0
1,松本潤,東京都,1983.0,172.0,A,男性,62.0
2,二宮和也,東京都,1983.0,168.0,A,男性,52.0
3,大野智,東京都,1980.0,166.0,A,男性,52.0
4,櫻井翔,東京都,1982.0,171.0,A,男性,


<div class="alert alert-warning">

pandas の表操作は書き換えない

pandas の表操作は、新しい表データを返すようになっています。
だから、別の変数名で別の表データとして操作することもできます。

```python
# 新しい表を data2 として操作する 
data2 = data.drop('name', axis=1)
```

だから、同じ変数名で置き換えることもできます。

```python
data = data.drop('name', axis=1)
```

データを直接、書き換えたいときは、`inplace=True`をつけます。

```
data.drop('name', axis=1, inplace=True)
```

</div>

<div class="alert alert-info">

Let's try

Google で調べて、
`data`のカラムの順番を`名前	性別	出身	生年	身長	体重    血液型`に変更してみよう。

（Google で調べて、操作できるようになれば、OKです。）
</div>



## データ分析の準備

次回からPandas を用いて、より本格的なデータ分析を始めます。

### 欠損値のチェック

世の中のデータは、データ値が欠けていることがあります。
今回の練習データでは、`NaN`と表示されている値が、欠損値になります。
データ件数が少ない場合は、目視でみつかる場合がありますが、
データ件数が多くなると、手作業で探すのは無理です。

欠損値をチェックすることが必要になります。



In [22]:
data.isnull().sum()

名前     0
出身     0
生年     0
身長     0
血液型    0
性別     0
体重     1
dtype: int64


欠損値が見つかったときは、
欠損値を処理するアプローチとしては：

* `dropna()`：データが欠損している行や列を削除する
* `fillna()`：データが欠損している要素を別の値で穴埋めする

どのように処理するかは、データ分析の目的によって異なります。
今回は、メンバーを消してしまったら、大変なことになりますので、
__欠損値の値を平均値で補完する__ことで対応してみます。


In [23]:
data.fillna(data.mean(), inplace=True)
data

Unnamed: 0,名前,出身,生年,身長,血液型,性別,体重
0,相葉雅紀,千葉,1982.0,175.0,AB,男性,58.0
1,松本潤,東京都,1983.0,172.0,A,男性,62.0
2,二宮和也,東京都,1983.0,168.0,A,男性,52.0
3,大野智,東京都,1980.0,166.0,A,男性,52.0
4,櫻井翔,東京都,1982.0,171.0,A,男性,56.0



<div class="alert alert-info">

欠損値の補完

データ分析では、欠損値は何かの嫌がらせかと思うほど、頻繁に生じます。
色々な補完方法がありますので、適切な方法を選んでください。

```
data['体重'].fillna(50.0)                 # 体重の欠損値を50.0で穴埋め
data['体重'].fillna(data['体重'].mean())   # 体重の欠損値を体重の平均値で穴埋め
data['体重'].fillna(data['体重'].median()) # 体重の欠損値を体重の中央値で穴埋め
data['体重'].fillna(data['体重'].mode())   # 体重の欠損値を体重の最頻値で穴埋め
```

</div>

### グループごとの集計

`groupby()` は、同じ値を持つデータをまとめて、統計処理を行いときに使います。

__例. 血液型ごとに平均(mean)をとる__

In [24]:
data.groupby('血液型').mean()

Unnamed: 0_level_0,生年,身長,体重
血液型,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,1982.0,169.25,55.5
AB,1982.0,175.0,58.0


__`describe()`: 基礎統計量を全てみたいとき__

In [29]:
data.groupby('血液型').describe()

Unnamed: 0_level_0,生年,生年,生年,生年,生年,生年,生年,生年,身長,身長,身長,身長,身長,体重,体重,体重,体重,体重,体重,体重,体重
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
血液型,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
A,4.0,1982.0,1.414214,1980.0,1981.5,1982.5,1983.0,1983.0,4.0,169.25,...,171.25,172.0,4.0,55.5,4.725816,52.0,52.0,54.0,57.5,62.0
AB,1.0,1982.0,,1982.0,1982.0,1982.0,1982.0,1982.0,1.0,175.0,...,175.0,175.0,1.0,58.0,,58.0,58.0,58.0,58.0,58.0


`groupby()`は、グループごとに集計して操作するときに、重宝します。
ただし、返されるのはGroupByオブジェクトで表データとして使えません。

ピボットテーブルを用いると、集計結果を表データに変換して取り出せるようになります。


In [25]:
pd.pivot_table(data, index="血液型")

Unnamed: 0_level_0,体重,生年,身長
血液型,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,55.5,1982.0,169.25
AB,58.0,1982.0,175.0


<div class="alert alert-info">

ピボットテーブルとクロス集計

ピボットテーブルは、クロス集計に使われる便利ツールです。

* `index`: 縦軸に展開するカラムを指定
* `columns`: 横軸に展開するカラムを指定
* `values`: 集約する値カラムを指定
* `aggfunc`: 集約方法を指定

</div>

ぜひ使えるようになりたいところですが、今回のサンプルはデータ件数が少なすぎます。
余力がある人は、次の時系列データで練習してみてください。


## 時系列データ

時系列データとは、時間の順番に並んだデータです。
**コンピュータが記録するデータ（ログ）**は、時系列データになっていることが多く、
データ分析を始める前に理解しやすい形に集計しなおす必要があります。

__データの入手__

UNIXコマンド `wget`で以下のURLから取り寄せてください。

```
!wget https://KuramitsuLab.github.io/data/oj2018.csv
```


In [30]:
data = pd.read_csv('oj2018.csv')
data.head()

Unnamed: 0,name,date,problem,point
0,Victoria,2018/5/2 2:35,1,1
1,Victoria,2018/5/2 2:46,2,1
2,Victoria,2018/5/2 2:49,3,1
3,Victoria,2018/5/2 2:53,4,1
4,Victoria,2018/5/2 3:12,5,1


データの内容は、E-ラーニング教材の学習ログです。

* 解答者(name)
* 解答した時間(date)
* 問題番号(problem)
* 得点（point)

__解答者一覧と回答数__

In [53]:
data['name'].value_counts()

Chloe       220
Victoria    164
Zoe         162
Maria       138
Adalynn      90
Name: name, dtype: int64


### 日付

学習ログの日付は、文字列として記録されています。
このまま処理しても構いませんが、扱いやすいようにpandas の日付データに変換しておきます。

In [32]:
data['date'] = pd.to_datetime(data['date'])
data.head()

Unnamed: 0,name,date,problem,point
0,Victoria,2018-05-02 02:35:00,1,1
1,Victoria,2018-05-02 02:46:00,2,1
2,Victoria,2018-05-02 02:49:00,3,1
3,Victoria,2018-05-02 02:53:00,4,1
4,Victoria,2018-05-02 03:12:00,5,1


すると、日付はメソッド操作で様々な値に変換しやすくなります。

In [33]:
print('日付', data['date'][0])
print('年', data['date'][0].year)
print('エポック秒', int(data['date'][0].timestamp()))

日付 2018-05-02 02:35:00
年 2018
エポック秒 1525228500.0


エポック秒とは、UNIX上で使われる1970年1月1日を起点にした秒です。
整数値として、日付が処理しやすくなります。
エポック秒に変換したカラムを作っておきましょう。


In [34]:
data['epoch'] = data['date'].map(pd.Timestamp.timestamp).astype(int)
data

Unnamed: 0,name,date,problem,point,epoch
0,Victoria,2018-05-02 02:35:00,1,1,1525228500
1,Victoria,2018-05-02 02:46:00,2,1,1525229160
2,Victoria,2018-05-02 02:49:00,3,1,1525229340
3,Victoria,2018-05-02 02:53:00,4,1,1525229580
4,Victoria,2018-05-02 03:12:00,5,1,1525230720
...,...,...,...,...,...
769,Chloe,2018-09-09 12:01:00,187,1,1536494460
770,Chloe,2018-09-09 12:14:00,166,1,1536495240
771,Chloe,2018-09-17 10:32:00,132,1,1537180320
772,Chloe,2018-09-17 10:35:00,133,0,1537180500


ここから、2018年５月１日を起点に、一週間ごとにデータを区切って、各週ごとの学習状況をみてみたいと思います。

__2018年5月1日のエポック秒__

In [35]:
import datetime
import time
d = datetime.datetime(2018, 5, 1, 0, 0, 0) # 2018/05/01 のエポック秒
int(time.mktime(d.timetuple()))

1525100400

一週間の秒数から、区切りの境界になるエポック秒をリスト化します。


In [41]:
epoch_of_week = 7 * 24 * 60 * 60
bins = [1525132800 + i * epoch_of_week for i in range(0, 21)]
print(bins)


[1525132800, 1525737600, 1526342400, 1526947200, 1527552000, 1528156800, 1528761600, 1529366400, 1529971200, 1530576000, 1531180800, 1531785600, 1532390400, 1532995200, 1533600000, 1534204800, 1534809600, 1535414400, 1536019200, 1536624000, 1537228800]


<div class="alert alert-info">

ビン分割（ビニング処理）

連続値を任意の境界値で区切りカテゴリ分けして離散値に変換する処理のこと

</div>

Pandasでは、`pd.cut()`でビン分割します。ラベルは、第１週を1とします。

In [43]:
data['week'] = pd.cut(data['epoch'], bins, labels=list(range(1,21))).astype(int)
data

Unnamed: 0,name,date,problem,point,epoch,week
769,Chloe,2018-09-09 12:01:00,187,1,1536494460,19
770,Chloe,2018-09-09 12:14:00,166,1,1536495240,19
771,Chloe,2018-09-17 10:32:00,132,1,1537180320,20
772,Chloe,2018-09-17 10:35:00,133,0,1537180500,20
773,Chloe,2018-09-17 10:37:00,132,1,1537180620,20


### クロス集計

週単位でビン分割できたので、各週ごとの集計ができるようになりました。

__週ごとの得点集計__

In [49]:
data.groupby('week')['point'].sum()

week
1     147
2     108
3      22
4      25
5      17
6      16
7      28
8      15
9       9
10     12
11     10
12     15
13      8
14     18
15      8
16     28
17      3
19      3
20      2
Name: point, dtype: int64

ピボット表を用いると横軸も指定できます。

__各週ごとに各個人の得点集計__

In [51]:
pd.pivot_table(data, index="week", columns="name", values="point", aggfunc=sum)

name,Adalynn,Chloe,Maria,Victoria,Zoe
week,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,3.0,32.0,27.0,67.0,18.0
2,4.0,15.0,19.0,43.0,27.0
3,6.0,5.0,3.0,3.0,5.0
4,1.0,13.0,4.0,6.0,1.0
5,4.0,9.0,2.0,,2.0
6,3.0,2.0,1.0,,10.0
7,3.0,11.0,3.0,,11.0
8,3.0,2.0,4.0,,6.0
9,4.0,1.0,,,4.0
10,4.0,7.0,,,1.0


軸を変えてみましょう。
縦軸を個人ごとに変更し、横軸に各問題ごとの解答状況を並べてみます。


In [52]:
pd.pivot_table(data, index='name', columns='problem', values='point', aggfunc=max)

problem,1,2,3,4,5,6,7,8,9,10,...,122,125,132,133,137,151,162,163,166,187
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Adalynn,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,...,,,,,,,,,,
Chloe,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,...,,1.0,1.0,0.0,0.0,1.0,1.0,1.0,1.0,1.0
Maria,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,...,,,,,,,,,,
Victoria,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,...,,,,,,,,,,
Zoe,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,...,1.0,,,,,,,,,


少し早足でしたが、時系列データを参考にクロス集計を試してみました。
パラメータを変更しながら、どのように変わるかみて、理解を深めてください。

## コースワーク

コースワークは、pandasを使ったデータ操作の練習です。

<div class="admonition tip">

**演習（BMI.CSV）**

野球選手(B)、サッカー選手(F)、相撲(W)に関するCSVファイルをまとめ、
次の属性からなるCSVファイルにしよう。

```
名前    身長    体重    職業    BMI
```

1. `職業`は、野球選手`B`、サッカー`F`、相撲`W`とする
2. `BMI` は`身長`と`体重`から計算する
3. 身長の高い順にソートして、`bmi.csv`として保存する
4. 各職業ごとに、`身長`と`体重`の分布図を描画する
5. 各職業ごとにグループ集約し、身長と体重の統計量を求める

</div>

__データの入手先__

鈴木 雅也、渡辺 将人、井上 史斗.
「[数式をプログラムするってつまりこういうこと](https://github.com/massongit/math-program-book)」より、公開データを使わせてもらいます。

データをダウンロードするコマンド
```
!wget https://raw.githubusercontent.com/massongit/math-program-book/master/9_data/サッカー/Jリーグ選手身長体重.csv
!wget https://raw.githubusercontent.com/massongit/math-program-book/master/9_data/プロ野球/プロ野球選手身長体重.csv
!wget https://raw.githubusercontent.com/massongit/math-program-book/master/9_data/相撲/力士身長体重.csv
```


