# Pythonによるデータ解析と可視化

version 0.4 (2021/7/5)

教材作成：一関高専　小池 敦

## 第1章 NumPyを用いた基本統計処理

### 1.1 NumPy

* NumPy：基本的なデータ分析のためのPythonパッケージ
    * 配列に対する処理の高速化
    * 様々な線形代数処理をサポート
* [NumPyドキュメント](https://www.numpy.org)

* 【実習】 NumPyパッケージの読み込み
    * NumPyには`np`という名前をつけるのが慣習となっている

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
import numpy as np
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

### 1.2 NumPyによる1次元配列

* 1変量データを扱う場合はNumPyアレイを使うと便利

* 【実習】NumPyアレイにより架空の年齢データを保持する

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
ages = np.array([23, 10, 15, 16, 32, 14, 18, 41, 35, 26])
ages
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

### 1.3 配列のデータ数（標本数）

* 【実習】年齢データのデータ数を求める

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
len(ages)
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

### 1.4 最大値，最小値

* 【実習】年齢の最大値を求める

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
np.max(ages)
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】年齢の最小値を求める

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
np.min(ages)
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

### 1.5 合計

* 【実習】全員の年齢の合計値を求める

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
np.sum(ages)
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

### 1.6 平均値

* 平均値は下記の式で定義される
$$\mu = \frac{1}{N}\sum_{i=1}^N x_i$$
    * $\mu$: データの平均値  
    * $N$: 標本数  
    * $x_i$: データ
  

* 【実習】全員の年齢の平均値を計算する

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
np.mean(ages)
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】全員の年齢の平均値を自分で計算する
    * NumPy関数で計算した結果と同じになることを確認する

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
np.sum(ages) / len(ages)
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

### 1.7 分散

* 分散は「各データが平均値からどれほど離れているか」を表す指標
* 「標本分散」と「不偏分散」の2つの定義があるが，本講義では「標本分散」を扱う

* （標本）分散は下記の式で定義される
    * 分散が大きいほど，各データが平均値から大きくズレていることを表す
$$\sigma^2 = \frac{1}{N}\sum_{i=1}^N (x_i - \mu)^2$$
        * $\sigma^2$: 分散
        * $N$: 標本数
        * $\mu$: 持っているデータの平均値
        * $x_i$: データ
    * 上記式の分母を$N-1$にすると不偏分散となる

* 【実習】年齢データの分散を計算する

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
np.var(ages)
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

### 1.8 標準偏差

* 分散の平方根
    * 平方根を取ることで単位が元のデータと同じになる
    * 分散として本講義では標本分散を使う（不偏分散を使うこともある）
    * 数式で書くと以下のようになる
$$\sigma = \sqrt{\frac{1}{N}\sum_{i=1}^N (x_i - \mu)^2}$$
        * $\sigma$: 標準偏差
        * $N$: 標本数
        * $\mu$: 持っているデータの平均値
        * $x_i$: データ
* 各データの平均値からのズレの大きさを表す指標
* しばしばSDと表記される(英語だとStandard Deviationのため)


* 【実習】年齢データの標準偏差を求める
    * 年齢データの平均値からのズレは10歳くらいであると言える

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
np.std(ages)
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

### 1.9 中央値

* データを大きい順に並び替えた時に，真ん中にくるデータの値
    * データ数が偶数の時は真ん中二つのデータの平均値となる

* 【実習】年齢データの中央値を求める
    * 真ん中の値は18と23なので，それらの平均値（20.5）になる

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
np.median(ages)
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

### 1.10 欠損値がある時の処理

* データ収集で一部のデータが入手できなかった場合など，一部のデータが欠落することがある．  
このような欠落した値を欠損値という．
* NumPyでは欠損値を`np.nan`と表す
* NumPyでは欠損値を含んだNumPyアレイ(ndarray)に対する基本統計処理の関数が用意されている
    * 従来の関数名の前に`nan`をつける

| 統計値 | 欠損値なし | 欠損値あり |
|-------------|--------------------|--------------------|
| 最大値 | `max`         | `nanmax` |
| 最小値 | `min`          | `nanmin`  |
| 合計     | `sum`         | `nansum` |
| 平均     | `mean`      | `nanmean` |
| 分散     | `var`           | `nanvar`   |
| 標準偏差 | `std`       | `nanstd`   |
| 中央値 | `median`   | `nanmedian` |

* 【実習】5つのバイトの時給はそれぞれ，1013, 790, 810, n/a, 1500である(n/aは入手不可; not available)．このデータについて，基本統計量を求める

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
pay = np.array([1013, 790, 810, np.nan, 1500])
print("Max: ", np.nanmax(pay))
print("Min: ", np.nanmin(pay))
print("Sum: ", np.nansum(pay))
print("Average: ", np.nanmean(pay))
print("Var: ", np.nanvar(pay))
print("SD: ", np.nanstd(pay))
print("Median:", np.nanmedian(pay))
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

### 1.11 演習1（例題）

* 【実習】5人の数学のテストの点数は72, 65, 60, 81, 78だった．この時，5人の平均点，標準偏差，中央値を求めよ．

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
score_math = np.array([72, 65, 60, 81, 78])
print("Average:", np.mean(score_math))
print("SD:", np.std(score_math))
print("Median:", np.median(score_math))
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

### 1.12 演習2

* 【実習】5人の英語のテストの点数は28, 96, 40, 70, 52だった．この時，5人の平均点，標準偏差，中央値を求めよ．
    * プログラミングする前に，標準偏差が演習1に比べて大きくなるか小さくなるかを予想してみよう

### 1.13 演習3

* 【実習】5人の歴史のテストの点数は100, 100, 100, 100, 100だった．この時，5人の平均点，標準偏差，中央値を求めよ．
    * プログラミングする前に，それぞれの値がいくつになるかを予想してみよう

### 1.14 演習4

* 【実習】5人の経済のテストの点数は8, 4, 9, 95, 7だった．この時，5人の平均点，標準偏差，中央値を求めよ．
    * プログラミングする前に平均値と中央値のどちらが大きい値になるかを予想してみよう

### 1.15 演習3,4まとめ

* すべてのデータが同じ値の時，標準偏差は0になる
* 一部の値のみ極端に大きい場合，平均値はそれに引っ張られて大きくなるが，中央値は変わらない

### 1.16 演習5

* 【実習】5人の地理のテストの点数は79, n/a, 85, 95, n/aだった（2名は未受験）．この時，受験者の最高点，最低点，平均点を求めよ．

## 第2章 pandasを用いた多変量データ解析

### 2.1 整然データ

* 1つのサンプルが複数の変数を持つ時の統計を扱う
* 以下のような形式のデータを整然データ（tidy data）と呼ぶ．
    * 1つの行は1つのサンプルを表す
    * 1つの列は1つの変数を表す
* 整然データの例（ある高校の生徒数）

| 学年     | 学科       | 生徒数        |
|-------------|--------------|--------------------|
| 1年       | 普通科   | 121              |
| 1年       | 理数科   | 40                |
| 2年       | 普通科   | 119             |
| 2年       | 理数科   | 39                |
| 3年       | 普通科   | 120              |
| 3年       | 理数科   | 41                |

* 整然データでない例

| 生徒数  | 普通科   | 理数科      |
|--------------|--------------|-----------------|
| **1年** | 121        | 40              |
| **2年** | 119        | 39              |
| **3年** | 120        | 41              |


* データが整然データの形式になっていると解析がしやすくなる
* 整然データの形式になっていないデータは，まず整然データの形式に変換してから解析する
* 整然データ形式でないデータ形式で保存されるデータを雑然データ（messy data）と呼ぶ
* [整然データとは何か](https://id.fnshr.info/2017/01/09/tidy-data-intro/)


### 2.2 pandasによる多変量データ管理

* 整然データを扱う際はpandasパッケージを使うのが便利
    * Dataframeと呼ばれるデータ構造に解析したいデータを読み込んで使用する
    * [pandas.Dataframe](https://pandas.pydata.org/pandas-docs/version/0.23.4/generated/pandas.DataFrame.html)
    * pandasでは2次元データはDataframe，1次元データはSeriesというデータ構造を使用する
    * [Python用データ分析ライブラリ「pandas」の読み方(発音)](https://shirabeta.net/How-to-pronounce-pandas.html)

* 日本の5都市の2018年1月と8月の気象データを解析してみる
    * 気象庁 | [過去の気象データ](https://www.data.jma.go.jp/gmd/risk/obsdl/)

| 都市名 | 月 | 日照時間(時間)  | 降水量(mm) | 日最低気温0℃未満日数(日) | 日最高気温30℃以上日数(日) |  最高気温(℃) | 最低気温(℃) |
|-------------|-----|---------------------------|----------------------|-------------------------------------------------|-------------------------------------------------|-----------------------|-----------------------|
| 八戸      | 1月     | 141.3 |   14.0 | 28 |   0 |   9.3 |  -9.6 |
| 八戸      | 8月     | 146.6 | 239.5 |   0 |   6 | 34.0 | 13.0 |
| 仙台      | 1月     | 158.4 |   50.0 | 26 |   0 | 12.2 |  -6.7 |
| 仙台      | 8月     | 161.8 | 272.5 |   0 | 14 | 37.3 | 15.7 |
| 東京      | 1月     | 206.1 | 48.5   | 13 |   0 | 16.0 |  -4.0 |
| 東京      | 8月     | 217.4 | 86.5   |   0 | 25 | 37.3 | 18.3 |
| 大阪      | 1月     | 172.7 | 51.5   |   8 |   0 | 14.9 |  -2.5 |
| 大阪      | 8月     | 260.7 | 41.5   |   0 | 31 | 37.6 | 19.9 |
| 那覇      | 1月     |   74.9 | 150.5 |   0 |   0 | 24.1 |   9.3 |
| 那覇      | 8月     | 203.4 | 310    |   0 | 27 | 32.4 | 24.2 |



* 【実習】pandasとNumPyを読み込む
    * pandasには`pd`という名前をつけるのが慣習となっている

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
import pandas as pd
import numpy as np
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】5都市の気象データをデータフレームに格納する（ソースをコピペして良い）
    * 列ごとにデータを用意し最後に結合する

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
name = ["八戸", "八戸", "仙台", "仙台", "東京", "東京", "大阪", "大阪", "那覇", "那覇"]
month = ["1月", "8月", "1月", "8月", "1月", "8月", "1月", "8月", "1月", "8月"]
sunshine = [141.3, 146.6, 158.4, 161.8, 206.1, 217.4, 172.7, 260.7, 74.9, 203.4]
rainfall = [14.0, 239.5, 50.0, 272.5, 48.5, 86.5, 51.5, 41.5, 150.5, 310]
under0 = [28, 0, 26, 0, 13, 0, 8, 0, 0, 0]
over30 = [0, 6, 0, 14, 0, 25, 0, 31, 0, 27]
max_temp = [9.3, 34.0, 12.2, 37.3, 16.0, 37.3, 14.9, 37.6, 24.1, 32.4]
min_temp = [-9.6, 13.0, -6.7, 15.7, -4.0, 18.3, -2.5, 19.9, 9.3, 24.2]
df = pd.DataFrame(
    {"name" : name, "month" : month, "sunshine" : sunshine, "rainfall" : rainfall, 
     "under0" : under0, "over30" : over30, "max_temp" : max_temp, "min_temp" : min_temp})
df
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】気象データの先頭だけ表示する

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
df.head()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

【実習】気象データの先頭3行だけ表示する

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
df.head(3)
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

【実習】気象データの末尾だけ表示する

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
df.tail()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】データフレームの概要を確認する
    * 行数，列数，各列の型，欠損値の数がわかる

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
df.info()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

### 2.3 データから一部分を取り出す処理

* 詳細は[pandasドキュメント](https://pandas.pydata.org/pandas-docs/version/0.23.4/indexing.html#indexing)参照
* 特定の列を取り出す際は`df[列ラベル]`とする

* 【実習】気象データから最高気温の列を取り出す
    * この方法で取り出すとpandasのSeriesデータ（1次元用のデータ構造）として取り出される

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
df["max_temp"]
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


* 【実習】気象データから最高気温の列をNumPyアレイ（ndarray）として取り出す

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
print(type(df["max_temp"].values))  # 動作確認用
df["max_temp"].values
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 複数の列をデータフレームとして取り出す際は`df[列ラベルのリスト]`とする

* 【実習】気象データから最高気温と最低気温の列を取り出す

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
df[["max_temp", "min_temp"]]
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


* Dataframeから行と列を指定してデータを取り出すには`df.loc[行ラベル,列ラベル]`とする
    * ラベルの代わりにラベルのリストでも良い
    * スライスも使えるが通常のスライスとは仕様が異なるので注意すること
        * 「開始ラベル : 最終ラベル」と指定すると開始ラベルから最終ラベルまで（終了ラベル含む）が選択される

* 【実習】気象データから行ラベル1，列ラベルnameの要素を取り出す

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
df.loc[1,"name"]
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 行全体を取り出すには列の指定を「:」にする

* 【実習】行ラベルが1の行を取り出す

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
df.loc[1,:]
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】行ラベルが1と3の行を取り出す

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
df.loc[[1,3],:]
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 指定条件を満たす行のみを取り出すことができる
    * 正確には，Dataframeに論理値からなるリストを渡すことで値がTrueの行のみを取り出すことができる

* 【実習】nameが八戸の行のみを取り出す

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
print(df["name"] == "八戸") # 動作確認用
df[df["name"] == "八戸"]
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】最低気温がマイナスになっている行のみを取り出す

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
df[df["min_temp"] < 0]
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


### 2.4 各列に対する統計量の計算

* pandasでもNumPyと同様の統計量計算関数が用意されている
    * 標準の関数名を使うと，デフォルトで欠損値が無視される

* 【実習】データフレームの各列について平均をとる
    * NumPyと同名の関数`mean`が使える
    * 文字データ等の平均は算出されない

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
df.mean()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】データフレームの各列について各種統計量を計算する
    * 文字データ等の統計量は算出されない

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
df.describe()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

### 2.5 グループ別の統計量

* 上記において，1月と8月は分けて解析したい
    * 特定条件（今回は月）でデータをグループ化することができる

* 【実習】気象データを月ごとにグループ化し，グループ一覧を表示する

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
g = df.groupby("month")
g.groups
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】グループ数をチェックする

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
len(g.groups)
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】グループ化された気象データから1月のデータのみを取り出す

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
g.get_group("1月")
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】月ごとに各列の平均値を求める

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
g.mean()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】月ごとに各列の各種統計量を計算する

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
g.describe()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

### 2.6 共分散と分散共分散行列

* 二つの変数の関係性をみるために使われる統計量で，ざっくりとは下記の値をとる
    * 正の値：片方の値が大きくなるともう片方も大きくなる傾向
    * 負の値：片方の値が大きくなるともう片方は小さくなる傾向
    * 0: 変数同士に関係性が見られない
* 分散と同様，値の大きさについては解釈しづらい
    

* 変数$\boldsymbol{x}=\begin{bmatrix} x_1 \\ \vdots \\ x_N \end{bmatrix}$と変数$\boldsymbol{y}=\begin{bmatrix} y_1 \\ \vdots \\ y_N \end{bmatrix}$の共分散は下記の式で定義される
    * $\mathrm{Cov}(\boldsymbol{x}, \boldsymbol{y}) = \frac{1}{N}\sum_{i=1}^N (x_i - \mu_x)(y_i - \mu_y)$
        * $\mathrm{Cov}(\boldsymbol{x},\boldsymbol{y})$: $\boldsymbol{x}$と$\boldsymbol{y}$の共分散
        * $\mu_x$: 変数$\boldsymbol{x}$の平均値
        * $\mu_y$: 変数$\boldsymbol{y}$の平均値

* 分散共分散行列：以下のように分散と共分散を一つの行列で表したもの
    * 以下，3種類のデータ$x,y,z$の分散共分散行列
$$\mathrm{Cov}=\begin{bmatrix}
\sigma_x^2 & \mathrm{Cov}(x,y) & \mathrm{Cov}(x,z) \\
\mathrm{Cov}(x,y) & \sigma_y^2 & \mathrm{Cov}(y,z) \\
\mathrm{Cov}(x,z) & \mathrm{Cov}(y,z) & \sigma_z^2\\
\end{bmatrix}  $$
    * 記号
        * $\mathrm{Cov}$: 分散共分散行列
        * $\sigma_x^2$: 変数$x$の分散
        * $\mathrm{Cov}(x,y)$: 変数$x$と変数$y$の共分散

* 【実習】共分散を図解する（コードをコピペして実行すること）

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

mean = np.array([0, 0]) # 平均を指定。
cor = [-1, -0.8, 0, 0.8, 1]

plt.figure(figsize=(16, 3))
plt.axes().set_aspect('equal')
for i in range(len(cor)):
    cov = np.array([[1, cor[i]], [cor[i], 1]])
    x, y = np.random.multivariate_normal(mean, cov, 2000).T
    plt.subplot(1, 5, i+1)
    plt.title("Negative" if i == 0 else "0" if i == 2 else "Positive" if i == 4 else "")
    plt.plot(x, y, 'x')
    plt.axis("equal")
    plt.grid(which="major")
plt.show()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

### 2.7 相関係数と相関行列

* 共分散を最大値1，最小値-1になるように標準化したもの
    * 正の値：２つの変数に正の相関がある（最大値1）
    * 負の値：２つの変数に負の相関がある（最小値-1）
    * 0: 変数間に相関がない

* 変数$\boldsymbol{x}=\begin{bmatrix} x_1 \\ \vdots \\ x_N \end{bmatrix}$と変数$\boldsymbol{y}=\begin{bmatrix} y_1 \\ \vdots \\ y_N \end{bmatrix}$の相関係数は下記の式で定義される
    * $\rho_{\boldsymbol{x}\boldsymbol{y}} = \frac{\mathrm{Cov}(\boldsymbol{x}, \boldsymbol{y})}{\sigma_x^2 \sigma_y^2}$
        * $\rho_{\boldsymbol{x}\boldsymbol{y}}$: $\boldsymbol{x}$と$\boldsymbol{y}$の相関係数
        * $\mathrm{Cov}(\boldsymbol{x},\boldsymbol{y})$: $\boldsymbol{x}$と$\boldsymbol{y}$の共分散
        * $\sigma_x^2$: 変数$\boldsymbol{x}$の分散
        * $\sigma_y^2$: 変数$\boldsymbol{y}$の分散


* 他の定義もあるが上記が一般的（この定義はピアソンの積率相関係数と呼ばれる）

* ２変数の間に何らかに関係性があったとしても，それが直線的な関係でない時は相関係数が0になってしまうことがあるので注意

* 相関係数行列：以下のように複数変数の相関係数を一つの行列で表したもの
    * 以下，3種類のデータ$\boldsymbol{x},\boldsymbol{y},\boldsymbol{z}$の相関行列
$$\mathrm{C}=\begin{bmatrix}
1 & \rho_{xy} & \rho_{xz} \\
\rho_{xy} & 1 & \rho_{yz} \\
\rho_{xz} & \rho_{yz} & 1 \\
\end{bmatrix}  $$
    * 記号
        * $\mathrm{C}$: 相関行列
        * $\rho_{xy}$: 変数$\boldsymbol{x}$と変数$\boldsymbol{y}$の相関係数

* 【実習】相関係数を図解する（コードをコピペして実行すること）

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

mean = np.array([0, 0])
cor = [-2, -1.5, 0, 1.5, 2]

plt.figure(figsize=(16, 3))
plt.axes().set_aspect('equal')
for i in range(len(cor)):
    cov = np.array([[1, cor[i]], [cor[i], 4]])
    x, y = np.random.multivariate_normal(mean, cov, 2000).T
    plt.subplot(1, 5, i+1)
    plt.title("Correlation coef.: " + str(round(cor[i]/2, 2)))
    plt.plot(x, y, 'x')
    plt.axis("equal")
    plt.grid(which="major")
plt.show()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】気象データの相関行列を計算する
    * プログラム実行前にどの変数間の相関が強そうか予想してみよう

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
df.corr()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】最高気温と最低気温で散布図を書く
    * 相関が大きいことを確認する

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
import matplotlib.pyplot as plt   # 実行済みなら不要
%matplotlib inline

plt.scatter(df["max_temp"], df["min_temp"])
plt.xlabel("max temp")
plt.ylabel("min temp")
plt.show()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


* 【実習】日照時間と降水量で散布図を書く
    * 相関が小さいことを確認する

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
plt.scatter(df["sunshine"], df["rainfall"])
plt.xlabel("sunshine")
plt.ylabel("rainfall")
plt.show()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

### 2.8 外部からのファイル読み込み

* 自分の持っているファイルをColaboratoryで使用する場合，Googleドライブを活用する
    * __手順1__：ファイルをGoogleドライブに置く
    * __手順2__：ColaboratoryでGoogleドライブを読めるようにする（マウントする）
    * __手順3__：ファイルを読み込む
* 詳細は[Colaboratoryのドキュメント](https://colab.research.google.com/notebooks/io.ipynb#scrollTo=u22w3BFiOveA)を参照のこと
* 以下，2018気象データ（5都市）をColaboratoryで読み込む


* 【実習】__手順1__：[このリンクをクリック](https://drive.google.com/file/d/17ih74EOYkkCQ3wA42fV5egRmx9XFXyp_/view?usp=sharing)した後，画面右上のダウンロードボタンをクリックすることでweather5cities.xlsxをダウンロードし，それを自分のGoogleドライブのMy Drive直下に置く
    * Colabと同じGoogleアカウントを使用すること
    * ファイルを置くにはブラウザにファイルをドラッグ&ドロップすれば良い

* 【実習】__手順2__：自分のGoogleドライブを/content/driveにマウントする．
    * プログラム実行後，リンクが表示されるのでクリックして，認証を行う
    * 認証完了後に表示される認証コードをColaboratoryの入力フォームに入力する

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
from google.colab import drive
drive.mount('/content/drive')
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】__手順3__：pandasを使ってエクセルファイルを読み込む
    * GoogleドライブのファイルはColab画面左の「目次」タブを「ファイル」タブに切り換えたのち，/content/drive/My Driveを開くことで確認することができる
    * Excelファイルを読み込むにはpandasの[`read_excel()`関数](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html)を使う
    * 追加された列について
        * latitude: 都市の緯度情報（北に行くほど値が大きくなる）
        * longitude: 経度（東に行くほど値が大きくなる）

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
import pandas as pd  # 実行済みであればこの行は不要

weather = pd.read_excel("/content/drive/My Drive/weather5cities2018.xlsx")
weather.head(30)
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】読み込んだデータの概要情報を確認する

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
weather.info()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


### 2.9 演習

* 【実習】__演習__：読み込んだデータの各種基本統計量を確認してください（describe関数を使う）

* 【実習】__演習__：最高気温が35度以上になっている行を取り出してください

* 【実習】__演習__：このデータ（の数値データ）の相関行列を求めてください

* 【実習】__演習__：このデータを使って最高気温と最低気温で散布図を書いてください

* 【実習】__演習__：読み込んだデータの月ごとの各種基本統計量を確認してください（groupby関数とdescribe関数を使う）

## 第3章 matplotlibを用いたデータ可視化

### 3.1 データ可視化ライブラリ

* データ可視化（グラフ描画）のライブラリとして標準的にmatplotlibが使われている
    * [matplotlib](https://matplotlib.org/index.html)
* しかし，書き方がやや複雑でわかりづらいため，matplotlibを簡単に使えるようにするライブラリがいくつか提供されている
    * [pandas](https://pandas.pydata.org)：データ解析用ライブラリだが，matplotlibを使ったデータ可視化を簡単に使えるようにする機能も持っている
    * [seaborn](https://seaborn.pydata.org)：matplotlibのグラフを簡単に美しく書けるようにするためのライブラリ
* 今回は基本的にmatplotlibを使うが，必要に応じてpandasの描画機能やseabornを用いることにする
    * pandasの描画機能の詳細は[描画関数のドキュメント](https://pandas.pydata.org/pandas-docs/stable/reference/frame.html#plotting)を参照のこと
* 日本語を使えるようにするのはやや面倒なので，今回は日本語は使用しない

* 【実習】ライブラリのインポート
    * matplotlib.pyplot（matplotlibの描画機能）には`plt`という名前をつけるのが慣習となっている
    * 最後の`%matplotlib inline`はJupyter Notebook内でグラフを描画するためのおまじない．Colaboratoryでは不要だが，念の為書いておく

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

### 3.2 データの準備

* 今回は2.8節で読み込んだ気象データのうち，八戸のデータのみを使用する

* 【実習】2.8節（外部からのデータ読み込み）の手順で気象データを読み込む（読み込み済みの場合は不要）


* 【実習】気象データから八戸の行を取り出す

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
hachinohe = weather[weather["name"]=="八戸"]
hachinohe
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

### 3.3 折れ線グラフ

* `plt.plot()`関数で描画したのち，`plt.show()`で表示する
    * [`plot()`関数のドキュメント](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.plot.html)

* 【実習】八戸の各月の最高気温をプロットする

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
plt.plot(hachinohe["max_temp"])
plt.show()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】x軸の値をmonth列の値にする

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
plt.plot(hachinohe["month"], hachinohe["max_temp"])
plt.show()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】色々情報を付け加えてみる

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
plt.plot(hachinohe["month"], hachinohe["max_temp"])
plt.xlabel("Month")
plt.ylabel("Degree")
plt.title("Highest temperature at Hachinohe in 2018")
plt.show()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】最高気温と最低気温を同時にプロットする
    * 2つのデータを区別するためにラベルをつけておく
    * [`legend()`関数](https://matplotlib.org/3.1.1/api/_as_gen/matplotlib.pyplot.legend.html)を呼ぶことで凡例を表示できる

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
plt.plot(hachinohe["month"], hachinohe["max_temp"], label="max temp")
plt.plot(hachinohe["month"], hachinohe["min_temp"], label="min temp")
plt.legend()
plt.show()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】pandasではもう少し簡単に描画できる
    * [`plot.line()`ドキュメント](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.line.html)

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
hachinohe.plot.line(x="month", y=["max_temp", "min_temp"])
plt.show()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

### 3.4 棒グラフ

* 【実習】最高気温と最低気温について棒グラフを書く
    * `plot()`を`bar()`に変える
    * [`bar()`関数のドキュメント](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.bar.html)

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
plt.bar(hachinohe["month"], hachinohe["max_temp"], label="max temp")
plt.bar(hachinohe["month"], hachinohe["min_temp"], label="min temp")
plt.legend()
plt.show()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】pandasではもう少し簡単に描画できる
    * [`plot.bar()`ドキュメント](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.bar.html)

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
hachinohe.plot.bar(x="month", y=["max_temp", "min_temp"])
plt.show()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

### 3.5 ヒストグラム

* 【実習】最高気温に関するヒストグラムを描画する
    * [`hist()`関数のドキュメント](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.hist.html)

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
plt.hist(hachinohe["max_temp"])
plt.show()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


* 【実習】最高気温と最低気温のヒストグラムを同時に描画する
    * 最高気温のデータの一部が最低気温のデータで見えなくなっているが一応描画できている

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
plt.hist(hachinohe["max_temp"], label="max temp")
plt.hist(hachinohe["min_temp"], label="min temp")
plt.legend()
plt.show()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


* 【実習】もう少し見やすくする
    * 棒の色を半透明にする（alphaは透過率）
    * 最小値を-10, 最大値を40にし，5度刻みで集計する(ビンの数(集計する区分の数)を10個にする)
    * x軸とy軸の説明を追加する

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
plt.hist(hachinohe["max_temp"], label="max temp", alpha=0.5, range=(-10, 40), bins=10)
plt.hist(hachinohe["min_temp"], label="min temp", alpha=0.5, range=(-10, 40), bins=10)
plt.xlabel("Degree")
plt.ylabel("Frequency")
plt.legend()
plt.show()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


* 【実習】pandasの関数を使用してヒストグラムを作成する
    * pandasではもう少し簡単にヒストグラムを描画できる
    * [`plot.hist()`ドキュメント](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.hist.html)

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
hachinohe[["max_temp", "min_temp"]].plot.hist(alpha=0.5)
plt.show()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

### 3.6 箱ひげ図

* データの中央値と四分位点（25%, 75%）と最大値，最小値を表す

* 【実習】最高気温と最低気温に関して箱ひげ図を作成する
    * [`boxplot()`ドキュメント](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.boxplot.html)

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
plt.boxplot([hachinohe["max_temp"], hachinohe["min_temp"]], labels=["max temp", "min temp"])
plt.show()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】pandasではもう少し簡単に描画できる
    * [`plot.box()`ドキュメント](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.box.html)

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
hachinohe[["max_temp", "min_temp"]].plot.box()
plt.show()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

### 3.7 散布図

* 【実習】最高気温と最低気温に関して散布図を作成する
    * [`scatter()`ドキュメント](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.scatter.html)

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
plt.scatter(hachinohe["max_temp"], hachinohe["min_temp"])
plt.show()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】グラフに情報を付加する

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
plt.scatter(hachinohe["max_temp"], hachinohe["min_temp"])
plt.xlabel("max temp (degree)")
plt.ylabel("min temp (degree)")
plt.title("max temp vs min temp")
plt.show()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】pandasではもう少し簡単に描画できる
    * [`plot.scatter()`ドキュメント](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.scatter.html)

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
hachinohe.plot.scatter(x="max_temp", y="min_temp")
plt.show()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

### 3.8 seabornの活用

* seabornをセットするだけで，自動で見た目を美しくしてくれる

* 【実習】searbornをセットする
    * seabornには`sns`という名前をつけるのが慣習となっている
    * [`set()`ドキュメント](https://seaborn.pydata.org/generated/seaborn.set.html)
        * 引数で`context="talk"`や`context="poster"`を指定すると，フォントが大きくなる


```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
import seaborn as sns
sns.set()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】これまでに実行したグラフ描画プログラムを再実行する
    * 見た目が変わっているはず

### 3.9 ペアプロット

* 複数の変数間の相関関係を可視化する際に使用される
* seabornを利用してペアプロットを作成する
* seabornの[ペアプロット描画関数](https://seaborn.pydata.org/generated/seaborn.pairplot.html)は概ね以下の形式となる。
    * `vars`を指定しないとすべての列が使用される
    
```
sns.pairplot(
    "データフレーム名",
    vars = "列名のリスト",
    その他オプション
)
```


* 【実習】八戸の気象データのペアプロットを作成する
    * seabornの[`pairplot()`関数](https://seaborn.pydata.org/generated/seaborn.pairplot.html)を利用する

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
sns.pairplot(hachinohe)
plt.show()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】ペアプロットに回帰直線（データの傾向を表す直線）を入れる

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
sns.pairplot(hachinohe, kind="reg")
plt.show()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】5都市分の気象データに対して，都市ごとに色分けしてペアプロット図を作成する
    * 日本語が扱えないので，最初に都市名のローマ字表記の列を追加する
        * 列を追加するには新しい名前で列を指定して値を代入すれば良い
        * ある列の各行の要素に対して変換処理を行うには[`map()`関数](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.map.html#pandas.Series.map)を使用する
        * 参考まで，各要素に関数を適用するには[`apply()関数`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.apply.html#pandas.Series.apply)を使う
    * `hue`で指定した列の値で色分けする

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
weather["english_name"] = weather["name"].map(
    {"八戸" : "Hachinohe", "仙台" : "Sendai", "東京" : "Tokyo", "大阪" : "Osaka", "那覇" : "Naha"}) 
weather
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
sns.pairplot(weather[["sunshine", "rainfall", "under0", "over30","max_temp", "min_temp", "english_name"]], hue="english_name")
plt.show()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

### 3.10 描画した図のダウンロード

* プログラム実行時に自動でダウンロードさせたい場合は，以下の手順を行う
    1. 描画した図をmatplotlibの[savefig()関数](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.savefig.html)を使って画像ファイルとして保存
        * `plt.show()`を呼ばずに`plt.savefig("ファイル名")`を呼ぶ
    2. google.colabのライブラリを使用して画像ファイルをダウンロードする
* 手動ダウンロードでよければ，グラフ表示後，画像を右クリックして画像を保存するだけでよい

* 【実習】八戸の気象データに対するペアプロット図をダウンロードする
   * エラーが出た場合，もう一回試すとうまくいくことがある

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
from google.colab import files

sns.pairplot(hachinohe)
plt.savefig("pairplot.png")
files.download("pairplot.png")
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


 ## 第4章 総合演習1

* これまで学習した知識を利用してタイタニックデータの解析を行う
* タイタニックデータ：沈没したタイタニック号の乗客データ
    * [データの説明](https://www.kaggle.com/c/titanic/data)
* タイタニックに関する情報
    * [Wikipedia](https://ja.wikipedia.org/wiki/タイタニック_(客船))
    * [Wikipedia（映画）](https://ja.wikipedia.org/wiki/タイタニック_(1997年の映画))
    * Youtube
        * [Titanic号](https://youtu.be/3lyiZMeTKIo)
        * [映画Titanic](https://www.youtube.com/watch?v=1YGfrGKK9Mo)
        * [Titanic号沈没](https://www.youtube.com/watch?v=tTJhOHXxa6w)

### 4.1 データの準備

* 【実習】タイタニックデータ読み込み

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
import seaborn as sns
titanic = sns.load_dataset('titanic')
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】読み込んだデータの型を確認する

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
type(titanic)
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】データフレームの概要情報を確認する

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
titanic.info()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】データフレームの先頭データを表示する

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
titanic.head()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】読み込んだデータの基本統計情報を表示する
    * `survived`の平均値が生存率を意味することに注意

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
titanic.describe()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

### 4.2 データ解析

* 【実習】__演習__：乗客の年齢分布を図示してください

* 【実習】__演習__：性別（`sex`）ごとの基本統計情報を出力してください
    * 性別により生存率に違いがあるでしょうか？

* 【実習】__演習__：チケットの等級（`pclass`）ごとの基本統計情報を出力してください
    * チケット等級により生存率に違いがあるでしょうか？

* 【実習】__演習__：乗船地（`embark_town`）ごとの基本統計情報を出力してください
    * 乗船地により生存率に違いがあるのでしょうか？
    * 乗船地により，チケット等級に違いがあるでしょうか

* 【実習】__演習__：数値データに関する相関行列を求めてください
    * 生存率と相関が大きい数値データはどれでしょうか？

* 【実習】__演習__：本データセットに含まれる10歳未満の乗客の数を求めてください

* 【実習】__演習__：本データセットに含まれる10歳未満の乗客の生存率を求めてください

## 第5章 scikit-learnを用いた線形回帰

### 5.1 機械学習ライブラリ 

* Pythonの機械学習ライブラリとして[scikit-learn](https://scikit-learn.org/stable/)がある
* 今回はscikit-learnの[線形回帰の関数](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html)を使用する

### 5.2 データの準備

* 2.8節で読み込んだ気象データを使用する
* 今回はその中の1月のデータのみを使用する

* 【実習】2.8節（外部からのデータ読み込み）の手順で気象データを読み込む（読み込み済みの場合は不要）

* 【実習】気象データから1月のデータのみを取り出す

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
import numpy as np
jan = weather[weather["month"]=="Jan"]
jan
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

### 5.3 データの概要確認

* 【実習】1月の気象データについて基本統計量を計算する

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
jan.describe()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】1月の気象データについて相関行列を求める

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
jan.corr()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】緯度と最高気温に関して散布図を作成する
    * [`scatter()`ドキュメント](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.scatter.html)

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
import matplotlib.pyplot as plt
plt.scatter(jan["latitude"], jan["max_temp"])
plt.xlabel("latitude")
plt.ylabel("max temp")
plt.title("Jan. 2018")
plt.show()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

### 5.4 線形回帰

* 線形回帰を用いて，緯度から最高気温を求める関数を作る
* scikit-learnの[線形回帰の関数](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html)を使用する
    * x（説明変数）の指定の仕方がやや特殊なので注意する
        * `df["列名"]`でなく，`df[["列名"]]`とする
        * `df["列名"]`とするとSeriesというデータ構造でデータ取り出されるが，今回は1列からなるDataframeをライブラリに渡す必要があるため，このような書き方になる（`df[リスト]`と指定するとデータフレームが返される）

* 【実習】緯度情報だけからなるDataframeを作成する

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
jan[["latitude"]]
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】最高気温の情報を取り出す（こちらは通常どおりDataframeから1列を取り出す）

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
jan["max_temp"]
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】緯度から最高気温を予測する線形関数を作る
    * つまり`最高気温 = a * 緯度 + b`という関数を作り，`a`,`b`を求める
    * scikit-learn LinearRegressionの[fit()関数](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression.fit)を使用して学習する
    * 学習後，説明変数の係数`a`が`model.coef_`に，切片`b`が`model.intercept_`に格納される
        * 説明変数が複数指定されることもあるので，`model.coef_`はリストになっている
    
    


```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(jan[["latitude"]], jan["max_temp"])
aa = model.coef_
b = model.intercept_
print("aa = ", aa)
print("b = ", b)
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】八戸（緯度=40.512449）での最高気温の予測値を求める（自分で計算する）

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
aa[0] * 40.512449 + b
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】[`predict()`関数](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression.predict)を使って八戸（緯度=40.512449）の最高気温の予測値を求める
    * これも引数の指定方法がやや特殊なので注意する
    * リストに複数の入力を入れると，各入力に対する予測値を計算してくれる．各入力値はリストで指定される

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
model.predict([[40.512449]])
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】[`predict()`関数](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression.predict)を使って仙台（緯度=38.268201）と那覇（緯度=26.212378）の最高気温の予測値を求める

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
model.predict([[38.268201], [26.212378]])
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】学習した直線を描画する
    * 各都市の緯度（`jan["latitude"]`）に対する最高気温の予測値（`model.predict(jan[["latitude"]])`）を計算し，それらを直線でつなぐ

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
plt.scatter(jan["latitude"], jan["max_temp"])
plt.plot(jan["latitude"], model.predict(jan[["latitude"]]), "red")
plt.xlabel("latitude")
plt.ylabel("max temp")
plt.title("Jan. 2018")
plt.show()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】一関（緯度=38.93469）の最高気温を予測する
    * 実際は10.6度だった

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
model.predict([[38.93469]])
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

## 第6章 scikit-learnを用いた分類

* 2.8節の気象データのうち，1月と5月のデータのみを使用する
* 最低気温と緯度の情報から各行が1月のデータなのか5月のデータなのかを推定する
    * 1月ならTrue，5月ならFalseを返す分類器を作る
* 機械学習のライブラリとして今回もscikit-learnを使用する

### 6.1 データの準備

* 【実習】2.8節（外部からのデータ読み込み）の手順で気象データを読み込む（読み込み済みの場合は不要）

* 【実習】列（列名:isJan）を追加し，1月ならTrue，そうでなければFalseを格納する
    * 最低気温と緯度からこの値を予測することにする

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
weather["isJan"] = (weather["month"] == "Jan")
weather.head(15)
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】気象データから1月と5月のデータのみを取り出す

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
weather2 = weather[(weather["month"] == "Jan") | (weather["month"] == "May")]
weather2
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

### 6.2 ロジスティック回帰

* scikit-learnの[LogisticRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html)を使う

* まずは，最低気温だけから1月か否かを分類する

* 【実習】最低気温とisJan（1月か否か）を描画してみる
    * 閾値で分類でしても程度はうまくいきそう

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
import matplotlib.pyplot as plt

plt.scatter(weather2["min_temp"],weather2["isJan"])
plt.xlabel("min temp")
plt.ylabel("isJan")
plt.show()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】ロジスティック回帰を用いて，最低気温から1月か否かを推定するモデルを作る
    * scikit-learn LogisticRegressionの[fit()関数](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression.fit)を使用して学習する


```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
from sklearn.linear_model import LogisticRegression
model1 = LogisticRegression()
model1.fit(weather2[["min_temp"]], weather2["isJan"])
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】大阪の1月の最低気温（-2.5度）を入れて，これが1月のデータか否かを判定する
    * [`predict()`関数](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression.predict)を使う

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
model1.predict([[-2.5]])
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】一関のある月の最低気温（5.4度）を入れて，これが1月のデータか否かを判定する
    * 実際は5月のデータ

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
model1.predict([[5.4]])
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】那覇の1月の最低気温（9.3度）を入れて，これが1月のデータか否かを判定する
   * これは間違えてしまう．最低気温だけから月を推定するのは難しい．

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
model1.predict([[9.3]])
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】作成したモデルを描画する

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
x2 = np.linspace(-20, 20, 100)
y2 = 1 / (1 + np.exp(-(model1.coef_[0,0] * x2 + model1.intercept_[0])))
plt.plot(weather2["min_temp"],weather2["isJan"], "o")
plt.plot(x2,y2)
plt.xlabel("min temp")
plt.ylabel("isJan")
plt.show()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 次に最低気温と緯度の情報からそのデータが1月のものか否かを判定することを考える

* 【実習】サンプルごとの最低気温と緯度を描画してみる（●：1月データ，×：5月データ）
    * 斜めに線を引けば，うまく分類できそう

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
plt.scatter(weather2[weather2["isJan"]==True]["min_temp"], weather2[weather2["isJan"]==True]["latitude"], marker="o")
plt.scatter(weather2[weather2["isJan"]==False]["min_temp"], weather2[weather2["isJan"]==False]["latitude"], marker="x")
plt.xlabel("min temp")
plt.ylabel("latitude")
plt.show()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】ロジスティック回帰を用いて，最低気温と緯度から1月か否かを推定するモデルを作る
    * `C`はモデルの複雑度を制御するパラメータ．今回は複雑で良いので値を大きくする．詳細は[ドキュメント](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression.fit)を参照のこと．

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
from sklearn.linear_model import LogisticRegression
model2 = LogisticRegression()
model2.fit(weather2[["min_temp", "latitude"]], weather2["isJan"])
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】那覇の1月の最低気温（9.3度）と緯度（26.212378）を入れて，これが1月のデータか否かを判定する
    * [`predict()`関数](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression.predict)を使う
    * 正しく推定できたはず

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
model2.predict([[9.3, 26.212378]])
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】一関のある月の最低気温（5.4度）と緯度（38.93469）を入れて，これが1月のデータか否かを判定する
    * 実際は5月のデータ

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
model2.predict([[5.4, 38.93469]])
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】分類の境界線を描画する（コピペすること）

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
w0 = model2.intercept_[0]
w1 = model2.coef_[0,0]
w2 = model2.coef_[0,1]

import numpy as np
import matplotlib.pyplot as plt
x = np.array([-10,20])
y = (-w1 * x - w0)/w2
plt.plot(x, y, "red")
plt.scatter(weather2[weather2["isJan"]==True]["min_temp"], weather2[weather2["isJan"]==True]["latitude"], marker="o")
plt.scatter(weather2[weather2["isJan"]==False]["min_temp"], weather2[weather2["isJan"]==False]["latitude"], marker="x")
plt.xlabel("min temp")
plt.ylabel("latitude")
plt.show()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

### 6.3 サポートベクターマシン

* scikit-leanの[SVC](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html)を使う

* 【実習】[SVC](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html)を使ってサポートベクターマシン（線形カーネル）による分類モデルを作る
    * `kernel`（カーネル：境界線の決め方）を`linear`（線形関数で分離）にする
    * scikit-learn SVCの[fit()関数](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC.fit)を使用して学習する


```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
from sklearn.svm import SVC
svm_linear = SVC(kernel = "linear")
svm_linear.fit(weather2[["min_temp", "latitude"]], weather2["isJan"])
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】那覇の1月の最低気温（9.3度）と緯度（26.212378）を入れて，これが1月のデータか否かを判定する
    * [`predict()`関数](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC.predict)を使う
    * 正しく推定できたはず

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
svm_linear.predict([[9.3, 26.212378]])
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


* 【実習】分類の境界線を描画する（コピペすること）

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
xx, yy = np.meshgrid(np.linspace(-10, 20, 100), np.linspace(20, 50, 100))
xy = np.vstack([xx.ravel(), yy.ravel()]).T
p = svm_linear.decision_function(xy).reshape(100,100)
plt.contour(xx, yy, p, levels=[0], linestyles=["-"], colors=["red"])
plt.scatter(weather2[weather2["isJan"]==True]["min_temp"], weather2[weather2["isJan"]==True]["latitude"], marker="o")
plt.scatter(weather2[weather2["isJan"]==False]["min_temp"], weather2[weather2["isJan"]==False]["latitude"], marker="x")
plt.show()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】[SVC](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html)を使ってサポートベクターマシン（ガウスカーネル）による分類モデルを作る
    * `kernel`（カーネル：境界線の決め方）を`rbf`にする
    * `rbf`がデフォルト値なので，何も指定しない場合も`rbf`になる
    * scikit-learn SVCの[fit()関数](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC.fit)を使用して学習する


```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
svm_rbf = SVC(kernel = "rbf", C = 10)
svm_rbf.fit(weather2[["min_temp", "latitude"]], weather2["isJan"])
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】那覇の1月の最低気温（9.3度）と緯度（26.212378）を入れて，これが1月のデータか否かを判定する
    * [`predict()`関数](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC.predict)を使う
   * 正しく推定できたはず

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
svm_rbf.predict([[9.3, 26.212378]])
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】一関のある月の最低気温（5.4度）と緯度（38.93469）を入れて，これが1月のデータか否かを判定する
    * 実際は5月のデータ

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
svm_rbf.predict([[5.4, 38.93469]])
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】分類の境界線を描画する（コピペすること）
    * ガウスカーネルでは出力が0となるデータの周りに境界線を作る（ノンパラメトリックモデルの一種）

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
xx, yy = np.meshgrid(np.linspace(-10, 20, 100), np.linspace(20, 45, 100))
xy = np.vstack([xx.ravel(), yy.ravel()]).T
p = svm_rbf.decision_function(xy).reshape(100,100)
plt.contour(xx, yy, p, levels=[0], linestyles=["-"], colors=["red"])
plt.scatter(weather2[weather2["isJan"]==True]["min_temp"], weather2[weather2["isJan"]==True]["latitude"], marker="o")
plt.scatter(weather2[weather2["isJan"]==False]["min_temp"], weather2[weather2["isJan"]==False]["latitude"], marker="x")
plt.show()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

### 6.4 決定木

* scikit-learnの[DecisionTreeClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier)を使って，決定木による分類を行う
* 使い方の詳細は[ここ](https://scikit-learn.org/stable/modules/tree.html#classification)を参照のこと
* 次節で説明するランダムフォレストは決定木をたくさん使用することで性能を向上させる手法

* 【実習】[DecisionTreeClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier)を使って決定木による分類モデルを作る
    * `max_depth`は木の深さ指定．木が深くなりすぎないようにするために使用する
    * scikit-learn DecisionTreeClassifierの[fit()関数](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier.fit)を使用して学習する


```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
from sklearn.tree import DecisionTreeClassifier
dtree = DecisionTreeClassifier(max_depth = 3)
dtree.fit(weather2[["min_temp", "latitude"]], weather2["isJan"])
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】那覇の1月の最低気温（9.3度）と緯度（26.212378）を入れて，これが1月のデータか否かを判定する
    * [`predict()`関数](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier.predict)を使う
   * 正しく推定できたはず

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
dtree.predict([[9.3, 26.212378]])
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】一関のある月の最低気温（5.4度）と緯度（38.93469）を入れて，これが1月のデータか否かを判定する
    * 実際は5月のデータ

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
dtree.predict([[5.4, 38.93469]])
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】決定木を描画してダウンロードする（ソースをコピペすること）
   * エラーが出た場合，もう一回試すとうまくいくことがある
   * `gini`はジニ不純度で，どれくらい複数クラスのサンプルが混じった状態かを示す

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
from pydotplus import graph_from_dot_data
from sklearn.tree import export_graphviz
dot_data = export_graphviz(dtree, filled=True, rounded=True, class_names=["May", "Jan"], 
                          feature_names=["min_temp", "latitude"], out_file=None)
graph = graph_from_dot_data(dot_data)
graph.write_png("tree.png")

from google.colab import files
files.download("tree.png")
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

### 6.5 ランダムフォレスト

* scikit-learnの[RandomForestClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html#sklearn.ensemble.RandomForestClassifier)を使って，ランダムフォレストによる分類を行う
    * 複数の決定木の多数決により予測を行う
* 使い方の詳細は[ここ](https://scikit-learn.org/stable/modules/ensemble.html#forest)を参照のこと
* 高性能のため，よく使用される
    * しかし現在では[勾配ブースティング](https://scikit-learn.org/stable/modules/ensemble.html#gradient-boosting)の方が高性能らしい

* 【実習】[RandomForestClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html#sklearn.ensemble.RandomForestClassifier)を使って決定木による分類モデルを作る
    * `n_estimators`は使用する決定木の数．多いほど高性能だが計算に時間がかかる
    * scikit-learn RandomForestClassifierの[fit()関数](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html#sklearn.ensemble.RandomForestClassifier.fit)を使用して学習する


```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
from sklearn.ensemble import RandomForestClassifier
forest = RandomForestClassifier(n_estimators = 100)
forest.fit(weather2[["min_temp", "latitude"]], weather2["isJan"])
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】那覇の1月の最低気温（9.3度）と緯度（26.212378）を入れて，これが1月のデータか否かを判定する
    * [`predict()`関数](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html#sklearn.ensemble.RandomForestClassifier.predict)を使う
   * 正しく推定できたはず

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
forest.predict([[9.3, 26.212378]])
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】一関のある月の最低気温（5.4度）と緯度（38.93469）を入れて，これが1月のデータか否かを判定する
    * 実際は5月のデータ

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
forest.predict([[5.4, 38.93469]])
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

## 第7章 総合演習2

* タイタニックデータを使って，生存者の分類モデルを作る

### 7.1 データの準備

* 一部のデータで学習を行った後，学習に使用しなかったデータで性能を評価する
    * 今回は8割のデータで学習し，残り2割のデータで評価を行う

* 【実習】タイタニックデータを読み込む

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
titanic = sns.load_dataset('titanic')
titanic.head()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】性別を数値に変換する（female:0, male:1）
    * ある列の各行の要素に対して変換処理を行うには[`map()`関数](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.map.html)を使用する


```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
titanic["gender"] = titanic["sex"].map({"female" : 0, "male" : 1})
titanic.head()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】データセットから入力として使用する列(X)を抜き取る
    * 他の列を抜き取っても良い

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
X = titanic[["pclass", "gender", "age", "sibsp", "parch", "fare"]]
X.head()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】データから出力(y)を抜き取る

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
y = titanic["survived"]
y.head()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】タイタニックデータを学習データ（8割）と評価データ（2割）に分割する
    * ランダムに抽出してくれる

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)
X_train.describe()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

* 【実習】学習データの概要を確認する

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
X_train.info()
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


* 【実習】学習データの欠損値を平均値で埋める

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
X_train.fillna(X_train.mean(), inplace=True)
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

### 7.2 生存条件の学習

* 【実習】ロジスティック回帰モデルを用いて学習する

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
from sklearn.linear_model import LogisticRegression
model_logistic = LogisticRegression()
model_logistic.fit(X_train, y_train)
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


* 【実習】テストデータを使って学習したモデルを評価する
    * テストデータに対する正解率を求める
    * テストデータにも欠損値があるので，学習データの平均値を埋める

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
model_logistic.score(X_test.fillna(X_train.mean()), y_test)
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


* 【実習】__演習__: 他のやり方で分類してみよう（異なるモデルを使う等）