### Model Selecion 모듈

- 훈련/테스트 데이터로 분리하지 않고 머신러닝 수행

In [1]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier

In [2]:
iris = load_iris()
dtc = DecisionTreeClassifier()
dtc.fit(iris.data, iris.target)
dtc.score(iris.data, iris.target)

1.0

In [3]:
# train_test size
# 파라메타 test_size 와 train_size 뭘 써도 상관 없
# train_size 를 주로 씀 디폴드 0.25
# 모듈 부분 강의자료에서 한번씩 보기 

- cross_validate() 
- k 폴드 교차검증

In [4]:
from sklearn.model_selection import cross_validate

In [6]:
dtc = DecisionTreeClassifier()
cross_validate(dtc,iris.data, iris.target)

# 5개 분리해서 한 번 돌릴 때마다의 결과 
# 많이 사용X 이런 게 있구나~ 

{'fit_time': array([0.00099754, 0.        , 0.00099707, 0.        , 0.00099802]),
 'score_time': array([0.       , 0.0009973, 0.       , 0.0009954, 0.       ]),
 'test_score': array([0.96666667, 0.96666667, 0.9       , 0.96666667, 1.        ])}

- cross_val_score()

In [7]:
# cross_validate 과정 한번에 
from sklearn.model_selection import cross_val_score

In [11]:
cross_val_score(dtc, iris.data, iris.target, scoring='accuracy', cv=5)        # 옵션으로 준 scoring / cv는 전체 데이터 150개를 나누는 n
# cv = 3으로도 해보고
# cross_validate와같은지 보고 


array([0.96666667, 0.96666667, 0.9       , 0.96666667, 1.        ])

- GridSearchCV 클래스 : 하이퍼 파라메터 튜닝 + 교차검증 (예측 성능을 비약적으로 향상)

In [12]:
# Train/Test Dataset 분리 
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
    iris.data, iris.target, stratify=iris.target, test_size=0.2, random_state=2021
)

In [13]:
# 하이퍼 파라메터의 종류 
dtc = DecisionTreeClassifier(random_state=2021)
dtc.get_params()

# 모델마다 파람스하면 하이퍼 파라메타 보여줌 


{'ccp_alpha': 0.0,
 'class_weight': None,
 'criterion': 'gini',
 'max_depth': None,
 'max_features': None,
 'max_leaf_nodes': None,
 'min_impurity_decrease': 0.0,
 'min_impurity_split': None,
 'min_samples_leaf': 1,
 'min_samples_split': 2,
 'min_weight_fraction_leaf': 0.0,
 'random_state': 2021,
 'splitter': 'best'}

In [None]:
# params = {
    'max_depth' : [2,4,6],      # 위 파라메타 중 가져와서 max_depth로 쓸 수 있는 값 지정해주기 
    'min_samples_leaf' : [1,3,5]
    'min_samples_split': [2,4,6]

}

# 나올 수 있는 경우의 수는 27가지 
# 그 안에 가장 적합한 경우가 있을 것 

In [16]:
params = {
    'max_depth' : [2,3,4],      
    'min_samples_split': [2,3,4]

}

# 책 

In [19]:
from sklearn.model_selection import GridSearchCV

grid_dt = GridSearchCV(dtc, param_grid=params, scoring = 'accuracy', cv = 5 )

In [20]:
grid_dt.fit(X_train, y_train)

GridSearchCV(cv=5, estimator=DecisionTreeClassifier(random_state=2021),
             param_grid={'max_depth': [2, 3, 4],
                         'min_samples_split': [2, 3, 4]},
             scoring='accuracy')

In [21]:
# 최적 파라메터 
grid_dt.best_params_

# 결과 조건일 때 최고 성능을 발휘했다 

{'max_depth': 4, 'min_samples_split': 2}

In [24]:
# (그 때의) 최적 스코어 
grid_dt.best_score_

0.9666666666666668

In [26]:
# 학습된 최적 분류기(Classxifier)
best_dt = grid_dt.best_estimator_
best_dt.score(X_test, y_test) 

# 위와 같은 조건으로 학습된 
# 가장 최적화된 ... 

0.9

In [27]:
# 하이퍼 파라메타는 한번에 X 
# 하이퍼 파라메타 튜닝을 계속해나가며 파라메타 범위를 줄여가야 함 
# 그렇게 가장 최적합하고 반박할 수 없는 

- 하이퍼 파라메터 튜닝은 한번으로 끝내는 것이 아니라
- 범위를 좁혀가며 여러번 수행하는 작업임 

In [32]:
params2 = {
    'max_depth' : [3,4,5,6],      
    'min_samples_split': [2,3]
}

In [33]:
grid_dt2 = GridSearchCV(dtc, param_grid=params2, scoring='accuracy', cv=5)
grid_dt2.fit(X_train, y_train)

GridSearchCV(cv=5, estimator=DecisionTreeClassifier(random_state=2021),
             param_grid={'max_depth': [3, 4, 5, 6],
                         'min_samples_split': [2, 3]},
             scoring='accuracy')

In [34]:
grid_dt2.best_params_

{'max_depth': 4, 'min_samples_split': 2}

In [35]:
# 에스티메이터 가 뭐야 