# 과적합과 일반화

- **Generalization (일반화)**
    - 모델이 새로운 데이터셋(테스트 데이터)에 대하여 정확히 예측하면 이것을 (훈련데이터에서 테스트데이터로) 일반화 되었다고 말한다. 
    - 모델이 훈련 데이터로 평가한 결과와 테스트 데이터로 평가한 결과의 차이가 거의 없고 좋은 평가지표를 보여준다.
- **Overfitting (과대적합)**
    - 모델이 훈련 데이터에 대한 예측성능은 **너무** 좋지만 일반성이 떨어져 새로운 데이터(테스트 데이터)에 대해선 성능이 좋지 않은 것을 Overfitting이라고 한다. 
    - 이는 모델이 훈련 데이터 세트의 특징을 너무 맞춰서 학습 되었기 때문에 일반화 되지 않아 새로운 데이터셋(테스트세트)에 대한 예측 성능이 떨져 발생한다.        
- **Underfitting (과소적합)**
    - 모델이 훈련 데이터과 테스트 데이터셋 모두에서 성능이 안좋은 것을 말한다.
    - 모델이 너무 간단하여 훈련 데이터에 대해 충분히 학습하지 못해 데이터셋의 패턴들을 다 찾아내지 못해서 발생한다.

![image.png](attachment:image.png)  

## Overfitting(과대적합)의 원인
- 학습 데이터 양에 비해 모델이 너무 복잡한 경우 발생.
    - 데이터의 양을 늘린다. 
        - 시간과 돈이 들기 때문에 현실적으로 어렵다.
    - 모델을 좀더 단순하게 만든다.
        - 사용한 모델보다 좀더 단순한 모델을 사용한다.
        - 모든 모델은 모델의 복잡도를 변경할 수 있는 **규제와 관련된 하이퍼파라미터**를 제공하는데 이것을 조절한다.

## Underfitting(과소적합)의 원인
- 데이터 양에 비해서 모델이 너무 단순한 경우 발생
    - 좀더 복잡한 모델을 사용한다.
    - 모델이 제공하는 규제 하이퍼파라미터를 조절한다.

## 규제 하이퍼파라미터란?
- 모델의 복잡도를 규제하는 하이퍼파라미터로 Overfitting이나 Underfitting이 난 경우 이 값을 조정하여 모델이 일반화 되도록 도와준다.
- 이 규제 하이퍼파라미터들은 모든 머신러닝 모델마다 있다.

> ### 하이퍼파라미터란
>- **하이퍼파라미터 (Hyper Parameter)**
>    - 모델의 성능에 영향을 끼치는 파라미터 값으로 모델 생성시 사람이 직접 지정해 주는 값(파라미터)
>- **하이퍼파라미터 튜닝(Hyper Parameter Tunning)**
>    - 모델의 성능을 가장 높일 수 있는 하이퍼 파라미터를 찾는 작업
>- **파라미터(Parameter)**
>    - 머신러닝에서 파라미터는 모델이 데이터 학습을 통해 직접 찾아야 하는 값을 말한다.

### 위스콘신 유방암 데이터셋 모델링

##### 데이터 로딩 및 train/test set 분리

In [None]:
from sklearn.datasets import load_breast_cancer, load_iris
from sklearn.model_selection import train_test_split

cancer = load_breast_cancer()

X = cancer.data
y = cancer.target
X_train, X_test, y_train, y_test = train_test_split(X,y,stratify=y, random_state=0)

##### 모델 생성 , 학습, 추론
- DecisionTreeClassifier

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC

# 모델생성
tree = DecisionTreeClassifier(random_state=0)

# 학습
tree.fit(X_train, y_train)

# 추론
pred_train = tree.predict(X_train)
pred_test = tree.predict(X_test)

##### 평가

In [None]:
from sklearn.metrics import accuracy_score

In [None]:
print('max depth: None')
print("Train 정확도 : ", accuracy_score(y_train, pred_train))
print("Test 정확도 : ", accuracy_score(y_test, pred_test))

##### 트리 구조 시각화 - graphviz 이용

In [None]:
from sklearn.tree import export_graphviz
from graphviz import Source
graph = Source(export_graphviz(tree, 
                               out_file=None, 
                               feature_names=cancer.feature_names, 
                               class_names=cancer.target_names, 
                               rounded=True, filled=True))
graph

## Decision Tree 복잡도 제어(규제 파라미터)
- Decision Tree 모델을 복잡하게 하는 것은 노드가 너무 많이 만들어 지는 것이다. 
    - 노드가 많이 만들어 질수록 훈련데이터셋에 Overfitting 된다.
- 적절한 시점에 트리 생성을 중단해야 한다.

- 모델의 복잡도 관련 주요 하이퍼파라미터
    - **max_depth**: 트리의 최대 깊이
    - **max_leaf_nodes** : 리프노드 개수
    - **min_samples_leaf** : leaf 노드가 되기위한 최소 샘플수 
    - **min_samples_split** : 나누는 최소 샘플수

# 최적의 하이퍼파라미터 찾기

## 최적의 max_depth 찾기

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

In [None]:
max_depth_candidates = range(1,6)

train_acc_list = []
test_acc_list = []

for depth in max_depth_candidates:
    tree = DecisionTreeClassifier(max_depth=depth, random_state=0)
    tree.fit(X_train, y_train)
    
    pred_train = tree.predict(X_train)
    pred_test = tree.predict(X_test)
    
    train_acc_list.append(accuracy_score(y_train, pred_train))
    test_acc_list.append(accuracy_score(y_test, pred_test))

##### 결과확인

In [None]:
import pandas as pd
result_df = pd.DataFrame({'Train Acc':train_acc_list, 
                          'Test Acc':test_acc_list}, 
                         index=max_depth_candidates
                        )
result_df.rename_axis('Max Depth', inplace=True)
result_df

In [None]:
result_df.plot(figsize=(8,7))
plt.show()

# Grid Search 를 이용한 [하이퍼파라미터](#하이퍼파라미터란) 튜닝
- 모델의 성능을 가장 높게 하는 최적의 하이퍼파라미터를 찾는 방법.
- 하이퍼파라미터 후보들을 하나씩 입력해 모델의 성능이 가장 좋게 만드는 값을 찾는다.

## 종류
1. **Grid Search 방식**
    - sklearn.model_selection.**GridSearchCV**
        - 시도해볼 하이퍼파라미터들을 지정하면 모든 조합에 대해 교차검증 후 제일 좋은 성능을 내는 하이퍼파라미터 조합을 찾아준다.
        - 적은 수의 조합의 경우는 괜찮지만 시도할 하이퍼파라미터와 값들이 많아지면 너무 많은 시간이 걸린다.

1. **Random Search 방식**
    - sklearn.model_selection.**RandomizedSearchCV**
        - GridSeach와 동일한 방식으로 사용한다.
        - 모든 조합을 다 시도하지 않고 임의로 몇개의 조합만 테스트 한다.

### [GridSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html) 매개변수및 결과조회
- **Initializer 매개변수**
    - **estimator:** 모델객체 지정
    - **params :** 하이퍼파라미터 목록을 dictionary로 전달 '파라미터명':[파라미터값 list] 형식
    - **scoring:** 평가 지표
        - 평가지표문자열: https://scikit-learn.org/stable/modules/model_evaluation.html
        - 생략시 분류는 **accuracy**, 회귀는 **$R^2$** 를 기본 평가지표로 설정한다.
        - 여러개일 경우 List로 묶어서 지정
    - **refit:** best parameter를 정할 때 사용할 평가지표
        - scoring에 여러개의 평가지표를 설정한 경우 refit을 반드시 설정해야 한다.
    - **cv:** 교차검증시 fold 개수. 
    - **n_jobs:** 사용할 CPU 코어 개수 (None:1(기본값), -1: 모든 코어 다 사용)

- **메소드**
    - **fit(X, y):** 학습
    - **predict(X):** 분류-추론한 class. 회귀-추론한 값
        - 제일 좋은 성능을 낸 모델로 predict()
    - **predict_proba(X):** 분류문제에서 class별 확률을 반환
        - 제일 좋은 성능을 낸 모델로 predict_proba() 호출

- **결과 조회 속성**
    - fit() 후에 호출 할 수 있다.
    - **cv_results_:** 파라미터 조합별 평가 결과를 Dictionary로 반환한다.
    - **best_params_:** 가장 좋은 성능을 낸 parameter 조합을 반환한다.
    - **best_estimator_:** 가장 좋은 성능을 낸 모델을 반환한다.
    - **best_score_:** 가장 좋은 점수 반환한다.

##### 데이터셋 로드 및 train/test set 나누기

In [None]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
cancer = load_breast_cancer()
X = cancer.data
y = cancer.target
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=0)

##### GridSearchCV 생성

In [None]:
from sklearn.model_selection import GridSearchCV
from sklearn.tree import DecisionTreeClassifier

tree = DecisionTreeClassifier(random_state=0)
param_grid = {'max_depth':[None, 1, 2, 3, 4, 5],
              'max_leaf_nodes':[3,5,7,9]
             }

grid_search = GridSearchCV(tree, 
                           param_grid=param_grid,
                           scoring='accuracy',
                           cv=5, 
                           n_jobs=-1)

##### 학습

In [None]:
grid_search.fit(X_train, y_train)

##### 결과 확인

In [None]:
grid_search.cv_results_

In [None]:
import pandas as pd
df = pd.DataFrame(grid_search.cv_results_)#.sort_values('rank_test_score')#.filter(like='rank')
df.columns

In [None]:
df[df.columns[6:]].sort_values('rank_test_score')

In [None]:
print("가장 좋은 평가점수: ",grid_search.best_score_)

In [None]:
print("가장 좋은 파라미터 조합:",grid_search.best_params_)

##### best model을 이용해 Test set 최종평가

In [None]:
best_model = grid_search.best_estimator_
best_model

In [None]:
accuracy_score(y_test, best_model.predict(X_test))

In [None]:
accuracy_score(y_test, grid_search.predict(X_test))

##### 여러 성능지표를 확인
- 여러 성능지표는 확인할 수 있지만 최적의 파라미터를 찾기 위해서는 하나의 지표만 사용한다. 
    - scoring에 리스트로 평가지표들 묶어서 설정
    - refit에 최적의 파라미터 찾기 위한 평가지표 설정

##### GridSearchCV 생성

In [None]:
tree = DecisionTreeClassifier(random_state=0)
param_grid = {'max_depth':[None, 1, 2, 3, 4, 5],
              'max_leaf_nodes':[3,5,7,9]
             }
grid_search = GridSearchCV(tree, 
                           param_grid=param_grid,
                           scoring=['accuracy', 'recall', 'precision','roc_auc', 'f1'], 
                           refit='accuracy',
                           cv=5, 
                           n_jobs=-1)

##### 학습

In [None]:
grid_search.fit(X_train,y_train)

##### 결과확인

In [None]:
df2 = pd.DataFrame(grid_search.cv_results_)
df2.columns

In [None]:
df2[df2.columns[6:]].sort_values('rank_test_accuracy')

In [None]:
grid_search.best_score_

In [None]:
grid_search.best_params_

##### best model을 이용해 Test set 최종평가

In [None]:
best_model = grid_search.best_estimator_
accuracy_score(y_test, best_model.predict(X_test))

In [None]:
accuracy_score(y_test, grid_search.predict(X_test)) 

### [RandomizedSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.RandomizedSearchCV.html)
- **Initializer 매개변수**
    - **estimator:** 모델객체 지정
    - **param_distributions:** 하이퍼파라미터 목록을 dictionary로 전달 '파라미터명':[파라미터값 list] 형식
    - **<font color='red'>n_iter</font>:** 전체 조합중 몇개의 조합을 테스트 할지 개수 설정
    - **scoring:** 평가 지표
    - **refit:** best parameter를 정할 때 사용할 평가지표. Scoring에 여러개의 평가지표를 설정한 경우 설정.
    - **cv:** 교차검증시 fold 개수. 
    - **n_jobs:** 사용할 CPU 코어 개수 (None:1(기본값), -1: 모든 코어 다 사용)

- **메소드**
    - **fit(X, y):** 학습
    - **predict(X):** 분류-추론한 class. 회귀-추론한 값
        - 제일 좋은 성능을 낸 모델로 predict()
    - **predict_proba(X):** 분류문제에서 class별 확률을 반환
        - 제일 좋은 성능을 낸 모델로 predict_proba() 호출

- **결과 조회 속성**
    - fit() 후에 호출 할 수 있다.
    - **cv_results_:** 파라미터 조합별 평가 결과를 Dictionary로 반환한다.
    - **best_params_:** 가장 좋은 성능을 낸 parameter 조합을 반환한다.
    - **best_estimator_:** 가장 좋은 성능을 낸 모델을 반환한다.
    - **best_score_:** 가장 좋은 점수 반환한다.

##### 데이터셋 로드 및 train/test set 나누기

In [None]:
import numpy as np

from sklearn.model_selection import RandomizedSearchCV
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

X, y = load_iris(return_X_y=True)

X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y)

##### RandomizedSearchCV 생성

In [None]:
tree = DecisionTreeClassifier(random_state=0)
param_grid = {
    "max_depth":range(1,11),
    "max_leaf_nodes":range(3,31,3),
    "criterion":["gini", "entropy"]
}

n_iter_search = 50 
random_search = RandomizedSearchCV(tree, 
                                   param_distributions=param_grid,
                                   n_iter=n_iter_search, 
                                   cv=10,
                                   n_jobs=-1)


##### 학습

In [None]:
random_search.fit(X_train, y_train)

##### 결과확인

In [None]:
# 전체 결과 확인
result_dict = random_search.cv_results_
result_dict

In [None]:
result_df = pd.DataFrame(result_dict)
print(result_df.shape)
result_df.head()

In [None]:
result_df[result_df.columns[7:]].sort_values('rank_test_score')

In [None]:
random_search.best_score_

In [None]:
random_search.best_params_

##### best model을 이용해 Test set 최종평가

In [None]:
best_model = random_search.best_estimator_
best_model

In [None]:
accuracy_score(y_test, best_model.predict(X_test))

In [None]:
accuracy_score(y_test, random_search.predict(X_test))

# 파이프라인 (Pipeline)
- 개요
    - 여러 단계의 머신러닝 프로세스 (전처리의 각 단계, 모델생성, 학습) 처리 과정을 설정하여 한번에 처리되도록 한다.
- 파이프라인은 여러개의 변환기와 마지막에 변환기 또는 추정기를 넣을 수 있다. (추정기-Estimator는 마지막에만 올 수 있다.)
- 전처리 작업 파이프라인
    - 변환기들로만 구성
- 전체 프로세스 파이프 라인
    - 마지막에 추정기를 넣는다

## Pipeline 생성
- (이름, 변환기) 를 리스트로 묶어서 전달한다.
- 마지막에는 추정기가 올 수있다.

## Pipeline 을 이용한 학습
- pipeline.fit() 
    - 각 순서대로 각 변환기의 fit_transform()이 실행되고 결과가 다음 단계로 전달된다. 마지막 단계에서는 fit()만 호출한다.
    - 마지막이 추정기일때 사용
- pipeline.fit_transform()
    - fit()과 동일하나 마지막 단계에서도 fit_transform()이 실행된다.
    - 전처리 작업 파이프라인(모든 단계가 변환기)일 때  사용
- 마지막이 추정기(모델) 일 경우
    - predict(X), predict_proba(X)
    - 추정기를 이용해서 X에 대한 결과를 추론
    - 모델 앞에 있는 변환기들을 이용해서 transform() 그 처리결과를 다음 단계로 전달

![image.png](attachment:image.png)

##### 데이터셋 로드, train/test set 분리

In [None]:
from sklearn.svm import SVC
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score

from sklearn.pipeline import Pipeline

X, y = load_breast_cancer(return_X_y=True)

X_train,X_test,y_train,y_test = train_test_split(X, y, stratify=cancer.target, random_state=0)

##### Pipeline 생성

In [None]:
order = [
    ('scaler', StandardScaler()),
    ('svm',SVC())
]
pipeline = Pipeline(order, verbose=True)
print(pipeline.steps)

##### 학습

In [None]:
pipeline.fit(X_train, y_train)

##### 추론 및 평가

In [None]:
pred_train = pipeline.predict(X_train)
pred_test = pipeline.predict(X_test)

In [None]:
accuracy_score(y_train, pred_train), accuracy_score(y_test, pred_test)

##### 새로운 데이터에 대한 추론

In [None]:
new_data = X_test[:3]
new_data.shape

In [None]:
pipeline.predict(new_data) 

## GridSearch에서 Pipeline 사용
- 하이퍼파라미터 지정시 파이프라인 `프로세스이름__하이퍼파라미터` 형식으로 지정한다.
1. Pipeline 생성
2. GridSearchCV의 estimator에 pipeline 등록

In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import Pipeline

##### Pipeline 생성

In [None]:
order = [
    ('scaler', StandardScaler()),
    ('svc', SVC(random_state=0))
]
pipeline = Pipeline(order)

##### GridSearchCV 생성
- model에 Pipeline을 설정한다.

In [None]:
param = {
    "svc__C":[0.001, 0.01, 0.1, 1, 10],
    "svc__gamma":[0.001, 0.01, 0.1, 1, 10]
}
gs = GridSearchCV(pipeline, 
                  param, 
                  scoring='accuracy', 
                  cv=4, 
                  n_jobs=-1)

##### 학습

In [None]:
gs.fit(X_train, y_train)

##### 결과확인

In [None]:
print(gs.best_params_)
print(gs.best_score_)

In [None]:
df = pd.DataFrame(gs.cv_results_)
df[df.columns[6:]].sort_values('rank_test_score')

## make_pipeline() 함수를 이용한 파이프라인 생성을 편리하게 하기
- make_pipeline(변환기객체, 변환기객체, ....., 추정기객체): Pipeline 
- 프로세스의 이름을 프로세스클래스이름(소문자로변환)으로 해서 Pipeline을 생성.

In [None]:
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import MinMaxScaler
pipeline2 = make_pipeline(MinMaxScaler(), SVC(C=100))

print(pipeline2.steps)
print(type(pipeline2))

In [None]:
pipeline2.fit(X_train, y_train).score(X_test, y_test)