## Modeling Basic

In [1]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
import pandas as pd
import numpy as np

In [4]:
#iris data 불러오기
iris = load_iris()
iris_data = iris.data
iris_label = iris.target
iris_df = pd.DataFrame(data = iris.data, columns = iris.feature_names)

# 데이터셋 정의
iris_df['y'] = iris_label

### Train, Test 데이터 분리

In [5]:
# 데이터 분리
from sklearn.model_selection import train_test_split

# train, text 데이터셋 분리
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label, test_size = 0.3, random_state = 111)

- random_state : 같은 데이터셋으로 정하고 가는 개념 숫자 통일
- random_seed 와 같은 난수 지정

In [6]:
y_test

array([0, 0, 2, 2, 1, 0, 0, 2, 2, 1, 2, 0, 2, 2, 2, 0, 2, 1, 0, 2, 1, 2,
       1, 1, 2, 0, 0, 1, 0, 2, 0, 1, 0, 0, 1, 2, 2, 1, 0, 1, 1, 1, 1, 1,
       2])

In [7]:
y_train

array([1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0, 2, 0, 0, 2, 1, 1, 2, 0, 1, 2,
       2, 0, 2, 0, 1, 2, 1, 2, 2, 1, 1, 2, 1, 2, 0, 2, 2, 0, 0, 1, 1, 2,
       2, 0, 2, 2, 0, 1, 1, 1, 1, 2, 2, 0, 1, 0, 1, 2, 2, 2, 2, 0, 0, 2,
       1, 0, 0, 2, 2, 1, 0, 1, 2, 0, 0, 2, 0, 1, 1, 2, 2, 1, 0, 1, 0, 1,
       2, 0, 1, 0, 0, 0, 2, 0, 0, 0, 0, 2, 1, 0, 1, 2, 1])

### 모델 불러오기

In [8]:
# 모델링은 불러오기만 하면 된다.

df_clf = DecisionTreeClassifier(random_state = 111)

# dt 모델을 불러옴

In [9]:
df_clf

### 학습
- train 데이터로 학습하고, test 데이터로 검증한다
- 학습할 때 사용하는 함수는 fit

In [10]:
df_clf.fit(X_train, y_train)

- test 데이터를 검증해야 한다. test와 어떤 걸 가지고 검증해야 할까
- 머신에게 예측을 해봐! 예측값을 가지고 실제값과 예측값의 차이를 비교하는 것

- X_train, y_train : 학습을 위한
- X_test, y_test : 검증을 위한
- y_test, ????? : 누구랑 비교를 할 것인가

머신이 예측한 값을 y_test 비교한다!
- 예측값을 머신을 통해 출력(y_pred)            

### 예측

In [11]:
train_pred = df_clf.predict(X_train)

In [12]:
train_pred

array([1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0, 2, 0, 0, 2, 1, 1, 2, 0, 1, 2,
       2, 0, 2, 0, 1, 2, 1, 2, 2, 1, 1, 2, 1, 2, 0, 2, 2, 0, 0, 1, 1, 2,
       2, 0, 2, 2, 0, 1, 1, 1, 1, 2, 2, 0, 1, 0, 1, 2, 2, 2, 2, 0, 0, 2,
       1, 0, 0, 2, 2, 1, 0, 1, 2, 0, 0, 2, 0, 1, 1, 2, 2, 1, 0, 1, 0, 1,
       2, 0, 1, 0, 0, 0, 2, 0, 0, 0, 0, 2, 1, 0, 1, 2, 1])

- train으로 예측

In [16]:
from sklearn.metrics import accuracy_score

print('Dt train 정확도 : {0:.4f}'.format(accuracy_score(y_train, train_pred)))

Dt train 정확도 : 1.0000


- test로 예측

In [18]:
test_pred = df_clf.predict(X_test)

In [19]:
test_pred

array([0, 0, 2, 2, 2, 0, 0, 2, 2, 1, 2, 0, 1, 2, 2, 0, 2, 1, 0, 2, 1, 2,
       1, 1, 2, 0, 0, 2, 0, 2, 0, 1, 0, 0, 1, 2, 2, 1, 0, 1, 1, 1, 1, 1,
       2])

In [21]:
print('Dt train 정확도 : {0:.4f}'.format(accuracy_score(y_train, train_pred)))
print('Dt test 정확도 : {0:.4f}'.format(accuracy_score(y_test, test_pred)))

Dt train 정확도 : 1.0000
Dt test 정확도 : 0.9333


- 100% train 과적합 > 문제가 있다. train 너무 핏한 모델
- 다양한 방법으로 해당 내용들을 과적합 되지 않게 진행해야 한다

### DT의 하이퍼파라미터를 조정하여 과적합 방지

In [23]:
# 모델링은 불러오기만 하면 된다.

df_clf1 = DecisionTreeClassifier(max_depth = 2,random_state = 111)
df_clf1.fit(X_train, y_train)

In [24]:
train_pred_1 = df_clf1.predict(X_train)

- 학습 데이터셋 정확도

In [25]:
print('Dt train 정확도 : {0:.4f}'.format(accuracy_score(y_train, train_pred_1)))

Dt train 정확도 : 0.9714


- 과적합을 막기 위해서 > 하이퍼 파라미터 튜닝 > 100% -> 97% 정도로 잡았다
- 이렇게 하는 이유는 모델링에 대한 일반화를 막기 위해서 이런 작업을 하는 것