# irisデータセット

## 1. 特徴量ファイルを見る

scikit-learnで提供されているirisデータセットの特徴量を見てみる。

pip installでscikit-learnをインストールすると、以下にirisデータセットの特徴量csvファイルがコピーされる。

```
~/AppData/local/Programs/Python/Python313/Lib/sitepackages/sklearn/datasets/data/iris.csv
```

これを手動でdataディレクトリ下にコピーする。

pandasで読み込み、上位５行と下位５行を表示すると以下のようになる。

In [None]:
import pandas as pd
iris = pd.read_csv('data/iris.csv', header=None)  # ヘッダはカラムのラベルでないとする
print(iris.head(5))
print()
print(iris.tail(5))

* 先頭行はカラムのラベルではなく、２行目以降のデータ内容を示している
* `setosa`、`versicolor`、`virginica`はアヤメ属の種類であり、データセットはこの３種のデータを含む
* `150`は特徴量のデータ数を示す
* データの種類は`4`つ（これは別途決まっていること）
    * がくの長さ（sepal length [cm]）
    * がくの幅（sepal width [cm]）
    * 花弁の長さ（petal length [cm]）
    * 花弁の幅（petal width [cm]）
* カラム4は、アヤメ属３種（0,1,2）のいずれかを示す教師データ

irisデータセットは、３つのアヤメを機械学習で判定するために使用する。

## 2. irisデータセットを読み込む

scikit_learnには、irisデータセットを読み込むAPIがある。

targetの値はそれぞれアヤメの種類に対応している。

* `0`: setosa
* `1`: versicolor
* `2`: virginica

In [None]:
import numpy as np
from sklearn.datasets import load_iris

iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)

name_map = {0: 'setosa', 1: 'versicolor', 2: 'verinica'}
df['target'] = [name_map[n] for n in iris.target]
# df['target'] = iris.target
df

describe()メソッドで、DataFrameの大まかな傾向を表示することができる。

In [None]:
df.describe()

データセットの`DESCR`には詳細なドキュメントが文字列で格納されている。

In [None]:
print(iris.DESCR)

seabornパッケージを使うと、特徴量の散布図を表示することができる。

In [None]:
import seaborn as sns

sns.pairplot(df, hue="target")

特徴量データを、学習データと評価データに分割する（デフォルトで7:3の割合）。

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(df, iris.target)

取り出した変数の値は、それぞれ以下の通り。

* **X_train**: 学習用の特徴量データ
* **y_train**: 学習用のラベル（教師データ）
* **X_test**: 評価用の特徴量データ
* **y_test**: 評価用のラベル（教示データ）

それぞれの中を見てみる。

まずは学習用データ。

In [None]:
# 学習用の特徴量データ
X_train

In [None]:
# 学習用のラベル（教師データ）
y_train

次に評価用データ。

In [None]:
# 評価用の特徴量データ
X_test

In [None]:
# 評価用のラベル（教師データ）
y_test