In [None]:
import numpy as np
from sklearn import datasets

import pandas as pd

## ライブラリの解説
### scikit-learnとは

scikit-learn (sklearn)とは、Pythonの機械学習ライブラリのde facto standardだと言える有名なライブラリです。

このライブラリには、有名な機械学習手法を実装したクラスだけでなく、データをダウンロードして読み込む関数や、データの前処理を行う関数などが含まれています。


### pandasとは

pandasはデータ解析・機械学習のためのデータ形式を提供するライブラリです。

特に使うのはDataFrameです。  
DataFrameは行列を扱うクラスで、DataFrameを使えばExcelのSpreadsheetのように見やすいデータ解析ができます。

## データの読み込み
### sklearnからデータを読み込む

sklearnのデータ読み込みモジュールはdatasetsという名前です。

このモジュールの中にはload_\*という関数がいくつか用意されていて、これらの関数を使うとデータセットを読み込むことができます。  
また、この関数で得られるデータセットは辞書型になっています。

- data: データ本体が入っています。型はnp.arrayです。
- target: データのlabel（クラス）が入っています。
- target_names: labelの本当の名前が入っています。
- feature_names: 特徴の名前が入っています。

In [None]:
iris = datasets.load_iris()
iris

### データセットをDataFrameに変形

最も簡単にデータフレームを作るには、np.arrayを渡すだけでOKです。

In [None]:
df = pd.DataFrame(iris.data)
df

毎回こんなに大きいデータフレームを表示するのは格好が悪いので、先頭5行だけを表示するようにします。

In [None]:
df.head()

df.head()はデフォルトで5行、引数に数字を渡すとその分だけ表示する事ができます。

In [None]:
df.head(3)

ちなみにデータフレームの後ろから取ってくる場合はdf.tail()です。

In [None]:
df.tail()

では、データフレームらしい使い方をしていきましょう。

まずは、特徴がデフォルト機能により勝手にナンバリングされています。  
これを特徴の名前で置き換えましょう。

In [None]:
df.columns = iris.feature_names

df.head()

どうでしょうか。よりわかりやすい表になりましたね。  

また、この表にlabelを追加することもできます。

In [None]:
df2 = df.copy()
df2["label"]=iris.target
df2.head()

この表のlabelが数字になっているのは、少しさびしい感じがします。  
数字が実際に表しているlabelの名前を代入してみましょう。

In [None]:
df2["label"] = [iris.target_names[i] for i in iris.target]
df2.head()

ここで使った
```python
[iris.target_names[i] for i in iris.target]
```

という記述。

これはリスト内包表記です。  
リストの中でfor文を書いてリストの要素を生成します。  
普通のfor文の書き方とは違い、forの前に普通for文内で作る要素を書きます。

## データの可視化

### seabornで可視化

pandasのDataFrameは様々な別のライブラリと協調できます。  
データフレームを引数に取る可視化ライブラリ、seabornを使ってみましょう。

In [None]:
import seaborn as sns

seabornはsnsというあだ名にするのが慣例です。

sns.pairplotを使えば、特徴を二つずつセットにして、散布図が作れます。  
hueはクラスを指定します。  
クラスに当たる列の名前を渡しましょう。

In [None]:
sns.pairplot(df2, hue="label")

### df.plotによる可視化

df.plotメソッドで簡単にプロットができます。

seabornは統計学に特化した可視化ツールですが、plotメソッドでも一般的な可視化ができます。

kind引数に作りたいグラフの名前を入れてあげればOKです。  
ちなみに引数がない場合は曲線になります。  

In [None]:
df2.plot(
    kind="bar",      # グラフの種類
    subplots=True,   # subplotsをTrueにすると、列ごとに別のグラフを作れます。この引数を書かなければ一つにまとめられます。
    figsize=(10,10)  # figsizeでプロットサイズを指定できます。この引数を書かなくても適当なサイズで表示されます。
)

## 統計量を計算

### 要約統計量

In [None]:
df2.describe()

### 相関行列

In [None]:
df2.corr()

In [None]:
df2.corr().plot(kind="bar")

### 共分散行列

In [None]:
df2.cov()

In [None]:
df2.cov().plot(kind="bar")