# IrisのデータをXGBoostで回帰分析

### 方針

- パッケージの読み込み
- データセットの読み込み
- クラス分類の時と変わってアヤメの種類をOne Hot表現にエンコードした。

- データセットを学習と評価用に分ける
- ハイパーパラメータ探索しつつ学習する
- 評価する（RMSE）
- 予測と実測の可視化
- 変数の重要度を可視化

In [1]:
import xgboost as xgb
from sklearn import datasets
from sklearn import model_selection
from sklearn.metrics import confusion_matrix, mean_squared_error
import sklearn.preprocessing as sp
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import statsmodels.api as sm
import seaborn as sns
sns.set(style="darkgrid")


ModuleNotFoundError: No module named 'xgboost'

In [None]:
# データセット読み込み

iris = datasets.load_iris()
iris_df = pd.DataFrame(iris.data)
iris_df = iris_df.rename(columns={
    0: 'sepal_length',
    1: 'sepal_width',
    2: 'petal_length',
    3: 'petal_width'})
iris_df['target'] = iris.target

# 数字のカテゴリをカテゴリ名に埋めなおしている
for i, name in enumerate(iris.target_names):
    iris_df['target'] = iris_df['target'].where(iris_df['target'] != i, name)
display(iris_df.head())


In [None]:
iris_setosa=iris_df[iris_df.target=='setosa']

In [None]:
iris_setosa.shape

In [None]:
iris_setosa.head()

In [None]:
iris_df.plot(kind='density')

In [None]:
iris_df.plot(kind='bar')

In [None]:
iris_df.plot(kind='hist')

In [None]:
iris_setosa.plot(kind='density')

In [None]:
iris_setosa.plot(kind='hist')

In [None]:
iris_setosa.plot(kind='line')

In [None]:
iris_setosa.iloc[:5]

In [None]:
iris_setosa.index

In [None]:
iris_setosa.columns

In [None]:
# iris_setosa重回帰

X = iris_setosa.iloc[:,[1,2,3]]
y = iris_setosa.iloc[:,0]


#全要素が1の列を説明変数の先頭に追加,切片をつけるために必ず必要
X = sm.add_constant(X)

#モデルの設定
model = sm.OLS(y, X)

#回帰分析の実行
results = model.fit()

#結果の詳細を表示
results.summary()

In [None]:
type(iris_setosa.iloc[:,0])

In [None]:
# sepal_widthとsepal_lengthの単回帰をする

In [None]:
setosa_lw = iris_setosa.iloc[:,[0,1]]

In [None]:
setosa_lw.plot(kind='density')

In [None]:
setosa_lw.plot()

In [None]:
# こうしちゃうとただのラインとなにもかわらない
sns.scatterplot(data =setosa_lw)

In [None]:
sns.scatterplot('sepal_length', 'sepal_width',data =setosa_lw)

In [None]:
# DFも持ってた
setosa_lw.plot.scatter('sepal_length', 'sepal_width')

In [None]:
iris_setosa.sepal_length.iloc[:5]

In [None]:
iris_setosa.sepal_length.mean()

In [None]:
iris_setosa.sepal_width.mean()

In [None]:
iris_setosa.sepal_length.count()

In [None]:
iris_setosa.loc[:,'wid_dev'] = iris_setosa.sepal_width - iris_setosa.sepal_width.mean()

In [None]:
iris_setosa.iloc[:5]