# IRIS 데이터를 이용한 예측 모델 실습

# 학습 데이터 세팅하기

In [1]:
import pandas as pd
import numpy as np

In [3]:
iris = pd.read_csv('data/iris_nan_sample.csv')
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,,1.4,0.2,setosa


In [5]:
# sepal_width 결측치 개수 카운트
iris.isnull().sum() # iris['sepal_width'].isnull().sum()

sepal_length     0
sepal_width     28
petal_length     0
petal_width      0
species          0
dtype: int64

In [7]:
# 문제 및 정답 데이터 분류하기(null 여부 구분 x)
iris_x = iris[['sepal_length', 'petal_length', 'petal_width']].copy()
iris_y = iris['sepal_width']

In [13]:
# 학습용 / 시험용
# 조건 색인을 이용해서 sepal_width인 인덱스 번호를 리스트로 저장
nan_idx = iris[iris['sepal_width'].isnull()].index # v
nan_idx

Int64Index([  4,   5,   7,  10,  17,  20,  26,  30,  34,  38,  45,  46,  78,
             82,  83,  85,  87,  91,  92,  93,  96, 104, 117, 122, 123, 129,
            131, 133],
           dtype='int64')

In [14]:
# 조건 색인을 이용해서 sepal_width가 null이 아닌 인덱스 번호를 리스트로 저장한다
not_nan_idx = iris[iris['sepal_width'].notnull()].index # not_nan_idx = iris[~iris['sepal_width'].isnull()].index
not_nan_idx

Int64Index([  0,   1,   2,   3,   6,   8,   9,  11,  12,  13,
            ...
            140, 141, 142, 143, 144, 145, 146, 147, 148, 149],
           dtype='int64', length=122)

In [43]:
# 팬시 인덱싱을 이용해서 train_x, train_y에 각각 nan가 아닌 문제, 정답을 저장
train_x = iris_x.iloc[not_nan_idx]
train_y = iris_y.iloc[not_nan_idx]

In [39]:
train_x

Unnamed: 0,sepal_length,petal_length,petal_width
0,5.1,1.4,0.2
1,4.9,1.4,0.2
2,4.7,1.3,0.2
3,4.6,1.5,0.2
6,4.6,1.4,0.3
...,...,...,...
145,6.7,5.2,2.3
146,6.3,5.0,1.9
147,6.5,5.2,2.0
148,6.2,5.4,2.3


In [44]:
train_y

0      3.5
1      3.0
2      3.2
3      3.1
6      3.4
      ... 
145    3.0
146    2.5
147    3.0
148    3.4
149    3.0
Name: sepal_width, Length: 122, dtype: float64

In [33]:
# 팬시 인덱싱을 이용해서 nan인 문제를 test_x에 저장
test_x = iris_x.iloc[nan_idx]

## 특정 속성의 결측치 예측

- 사용데이터 : train_x, train_y, text_x
- 예측 모델 : 특정 속성의 결측치 예측
    - LinearRegression
    - Decision Tree Regressor
    - RandomForestRegressor
    - XGBoostRegressor

- 결정계수, MSE 값 비교하여 가장 성능이 좋은 모델 확인
- {'linear_reg':[0000, 0000]}

In [34]:
# 라이브러리 설치하기 : pip install xgboost
# 수치 예측 시는 Regressor 계열을, 분류시는 Classifier 계열을 사용합니다.
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from xgboost import XGBRegressor

In [35]:
# 변수 4개 생성
linear_reg = LinearRegression()
dt_reg = DecisionTreeRegressor()
rf_reg = RandomForestRegressor()
xgb_reg = XGBRegressor()

In [36]:
answer = pd.read_csv('data/iris_answer.csv')

In [37]:
answer.drop('Unnamed: 0', axis=1, inplace=True)

In [45]:
# 선형회귀를 통한 학습 및 예측
# linear_reg를 이용해 학습
linear_reg.fit(train_x, train_y)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

In [46]:
linear_reg.score(train_x, train_y)

0.5327479906532779

In [48]:
linear_reg.predict(train_x)

array([3.42107017, 3.31337246, 3.26423694, 3.09326373, 3.21232264,
       3.0441282 , 3.19431355, 3.14239925, 3.19902688, 3.10546916,
       3.91513649, 3.80659456, 3.76217236, 3.62897347, 3.42300472,
       3.48350145, 3.38607462, 3.42687382, 2.96671272, 3.25009696,
       3.41635684, 3.47491902, 3.0885504 , 3.64504801, 3.35586011,
       3.63646557, 3.48434567, 3.69502775, 3.25287573, 3.36250799,
       3.48628022, 3.21703596, 3.10269038, 3.49208388, 3.24925273,
       3.15182591, 3.47020569, 3.36722131, 3.23760723, 3.09213521,
       3.12713075, 2.77931297, 3.08742188, 2.59419978, 2.98165873,
       2.68466492, 3.02027727, 2.73682532, 2.62138941, 2.99857748,
       2.86706704, 2.75296756, 3.06741054, 3.25174721, 2.66134439,
       2.70080716, 2.9844375 , 2.77073054, 2.8286946 , 3.10240608,
       2.80403764, 2.6319741 , 3.0882661 , 3.19789836, 3.07134735,
       3.08186433, 2.99833137, 2.77544387, 2.77350931, 2.55364669,
       3.13655741, 2.77459964, 2.77931297, 2.48456753, 2.71603

In [49]:
# 테스트 데이터에 대해 수치를 예측
linear_reg.predict(test_x)

array([3.36722131, 3.52792365, 3.30865914, 3.52405454, 3.4815669 ,
       3.40693019, 3.37109042, 3.14239925, 3.25481028, 3.10269038,
       3.32002034, 3.30394581, 2.8767398 , 2.93892497, 2.58586346,
       2.93723653, 2.97585507, 2.81152974, 2.8803628 , 2.73851377,
       2.76988632, 2.80815285, 2.92727947, 2.80628601, 2.98552783,
       2.82211443, 3.08967025, 2.68691328])

In [50]:
# 테스트 데이터에 대한 성능 평가
linear_reg.score(test_x, answer)

0.4379978332553496

In [71]:
# 디시전트리를 이용한 학습 및 예측
# max_depth에 다른 차이가 있는지도 체크
dt_reg = DecisionTreeRegressor(max_depth=3)

In [72]:
# 학습
dt_reg.fit(train_x, train_y)

DecisionTreeRegressor(criterion='mse', max_depth=3, max_features=None,
                      max_leaf_nodes=None, min_impurity_decrease=0.0,
                      min_impurity_split=None, min_samples_leaf=1,
                      min_samples_split=2, min_weight_fraction_leaf=0.0,
                      presort=False, random_state=None, splitter='best')

In [73]:
# 학습데이터 성능평가
dt_reg.score(train_x, train_y)

0.6917288436959343

In [74]:
# 테스트 예측
dt_reg.predict(test_x)

array([3.27647059, 3.625     , 3.27647059, 3.625     , 3.625     ,
       3.625     , 3.27647059, 3.27647059, 3.27647059, 2.85      ,
       3.27647059, 3.625     , 2.862     , 2.64      , 2.862     ,
       2.862     , 2.862     , 2.862     , 2.64      , 2.375     ,
       2.862     , 3.1047619 , 3.1047619 , 2.862     , 2.862     ,
       2.862     , 2.862     , 2.862     ])

In [75]:
# 테스트 데이터 성능 평가
dt_reg.score(test_x, answer)

0.5365886041658414

In [129]:
# 랜덤포레스트를 활용한 예측
# n_estimators를 조절해서 성능차이를 확인
rf_reg = RandomForestRegressor(n_estimators=75)

In [130]:
# 학습 데이터 학습
rf_reg.fit(train_x, train_y)

RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=None,
                      max_features='auto', max_leaf_nodes=None,
                      min_impurity_decrease=0.0, min_impurity_split=None,
                      min_samples_leaf=1, min_samples_split=2,
                      min_weight_fraction_leaf=0.0, n_estimators=75,
                      n_jobs=None, oob_score=False, random_state=None,
                      verbose=0, warm_start=False)

In [131]:
# 학습 데이터 성능 평가
rf_reg.score(train_x, train_y)

0.9312137104785696

In [132]:
# 테스트 데이터 예측
rf_reg.predict(test_x)

array([3.248     , 3.62533333, 3.20666667, 3.708     , 3.73733333,
       3.67066667, 3.412     , 3.32533333, 3.12933333, 3.124     ,
       3.36266667, 3.432     , 2.84266667, 2.79333333, 2.728     ,
       2.92666667, 2.90133333, 2.796     , 2.74514286, 2.22      ,
       2.808     , 2.95733333, 2.888     , 2.85733333, 2.876     ,
       2.99333333, 2.91333333, 2.68133333])

In [133]:
# 테스트 데이터 성능 평가
rf_reg.score(test_x, answer)

0.450151765033499

In [134]:
# XGBoost를 이용한 학습 및 예측
# XGBoost는 DecisionTree와 RandomForest의 장점을 취하기 위해 나온 모델
# 기본 동작은 RandomForest와 비슷하게 작동
# XGBoost는 RandomForest와 달리 순차적 평균을 내는 게 아닌 병렬 형태로 평균을 낸다.
# 병렬 형태 평균을 내면서 중간에 가중치를 계산에 반영
xgb_reg = XGBRegressor(n_estimators=50)

In [135]:
# 학습
xgb_reg.fit(train_x, train_y)

XGBRegressor(base_score=0.5, booster=None, colsample_bylevel=1,
             colsample_bynode=1, colsample_bytree=1, gamma=0, gpu_id=-1,
             importance_type='gain', interaction_constraints=None,
             learning_rate=0.300000012, max_delta_step=0, max_depth=6,
             min_child_weight=1, missing=nan, monotone_constraints=None,
             n_estimators=50, n_jobs=0, num_parallel_tree=1,
             objective='reg:squarederror', random_state=0, reg_alpha=0,
             reg_lambda=1, scale_pos_weight=1, subsample=1, tree_method=None,
             validate_parameters=False, verbosity=None)

In [136]:
# 학습 데이터 정확도 측정
xgb_reg.score(train_x, train_y)

0.9952742499243965

In [137]:
# 테스트 데이터 예측
xgb_reg.predict(test_x)

array([3.215938 , 3.470333 , 3.061521 , 3.5864966, 3.8320389, 3.5286806,
       3.4206614, 3.3704922, 2.9913592, 3.170235 , 3.4160802, 3.399568 ,
       2.7010279, 2.7956011, 2.749527 , 2.8645318, 2.8354354, 2.7900724,
       2.6922848, 2.188562 , 2.8058646, 2.7533448, 2.924753 , 2.904423 ,
       2.8882475, 3.231039 , 2.9016764, 2.4358552], dtype=float32)

In [138]:
# 테스트 데이터 정확도 측정
xgb_reg.score(test_x, answer)

0.35004569532266827