## Part 04 머신러닝 - 1장 지도 학습 모형

- 사이킷런 패키지에서 사용할 수 있는 지도학습 모형 종류
- ```sklearn.서브패키지명.클래스명``` 으로 모형 객체를 생성한 후, 모형 객체의 메소드 ```fit()```를 통해 모델을 학습하고, ```predict()``` 또는 ```predict_proba()``` 메소드 등을 통해 결과를 예측
- 불러오기: ```from sklearn.서브패키지 improt 클래스```
- 지도학습 모형은 예측할 값의 형태에 따라 분류(이진/다지), 회귀로 구분할 수 있으며, 이진분류는 이진형(0 또는 1) 데이터, 다지분류는 이산형 데이터, 회귀는 연속형 데이터인 경우를 말함

<br>

| 모             형 | 서브패키지            | 클래스 (이진분류 모델)     | 클래스 (다지분류 모델) | 클래스 (회귀모델)             |
|-------------------|----------------------|--------------------------|----------------------|-------------------------------|
| 선형모델          | linear_model          | LogisticRegression      | -                    | LinearRegression              |
| 서포트백터머신     | svm                   | SVC                     | LinearSVC           | SVR 또는 LinearSVR             |
| 나이브베이즈       | navie_bayes           | BernoulliNB             | MultinomialNB       | GaussianNB                    |
| k-최근접이웃       | neighbors             | KNeighborsClassifier    | -                   | KNeighborsRegressor           |
| 인공신경망         | neural_network        | MLPClassifier           | -                   | MLPRegressor                  |
| 의사결정나무       | tree                  | DecisionTreeClassifier  | -                  | DecisionTreeRegressor         |
| 배깅              | ensemble              | BaggingClassifier       | -                   | BaggingRegressor              |
| 랜덤포레스트       | ensemble              | RandomForestClassifier  | -                   | RandomForestRegressor         |
| AdaBoost          | ensemble              | AdaBoostClassifier      | -                   | AdaBoostRegressor             |
| GradientBoosting  | ensemble              | GradientBoostingClassifier  | -               | GradientBoostingRegressor     |


### 1절: 데이터 분할

- 파이썬에서 데이터를 분할하는 방법

#### **1) 홀드아웃**
- 파이썬에서 홀드아웃을 수행하는 방법은 사이킷런의 ```model_selection``` 서브패키지 내 함수 ```train_test_split()```로 사용할 수 있음
- ```sklearn.model_selection.train_test_split(arrays, test_size = 0.25, shuffle = True, stratify = None)```  
   - **arrays**: 분할할 데이터를 입력 (리스트, 배열, 데이터프레임 등)
   - **test_size**: 분할시 평가 데이터의 비율로 실수형 0.0 ~ 1.0 사이의 값을 입력함 (default = 0.25)
   - **shuffle**: 분할하기 전 데이터를 섞을 지에 대한 여부 (default = True)
   - **stratify**: 층화추출 (여러 층으로 분할한 후 각 층별로 데이터를 랜덤 추출)하는 것으로 목표 레이블 비율에 맞게 데이터를 분할하고자 할 경우 사용 (default = None)

<br>
<div align='center'>
<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fc93Fnm%2FbtqCLcJFFfv%2FeAa9sdTrNXyRgy8EOJVwRK%2Fimg.png" alt="hold-out1" width="400">
<br>
<br>
<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FR3OZR%2FbtqCLMql9Xi%2FFxunJuaRdrWmhJZipT0De0%2Fimg.png" alt="hold-out2" width="400">
</div>

#### Q.
사이킷런 패키지 내 breast_cancer 데이터를 호출한 후 학습 데이터와 평가 데이터로 분할하기. (단, 분할 시 breast_cancer 내의 data에 대하여 셔플을 진행하고 학습, 평가 데이터는 각각 X_train, y_train에 할당하고 target에 대해서는 X_test, y_test에 할당하고 학습 데이터와 평가 데이터의 비율은 7:3으로 가정)

In [1]:
# 데이터셋 불러오기
from sklearn.datasets import load_breast_cancer
breast_cancer = load_breast_cancer()
data = breast_cancer.data
target = breast_cancer.target

In [2]:
# train_test_split 함수 호출
from sklearn.model_selection import train_test_split

In [9]:
# arrays에 data와 target을 둘 다 넣을 경우, X와 y에 대해 train과 test가 분할된 데이터셋들을 반환함
# cf) data만 입력하면 X에 대한 train, test를 분할해서 반환
# random_state를 특정 숫자로 입력할 경우 계속해서 동일한 데이터셋으로 분할
X_train, X_test, y_train, y_test = train_test_split(data,                   # 분할할 데이터
                                                    target,                 # 레이블 또는 타겟 변수
                                                    test_size = 0.3,        # 모델이 예측할 출력 값 (실수형 0.0 ~ 1.0), 여기서는 7:3 
                                                    random_state = 2022)

print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

(398, 30) (171, 30) (398,) (171,)


In [10]:
# stratify = target은 원래의 target 컬럼의 0과 1 비율을 반영하여 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(data,
                                                    target,
                                                    test_size = 0.3,   # 7:3
                                                    random_state = 2022,
                                                    stratify = target)

print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

(398, 30) (171, 30) (398,) (171,)


#### **2) K-fold**
- 파이썬에서 K-fold를 수행하는 방법은 사이킷런의 ```model_selection``` 서브패키지 내 클래스 ```KFold()```를 사용해 객체를 생성한 후 메소드 ```split()```을 통해 학습 데이터와 평가 데이터를 분할하기 위한 인덱스 번호를 생성하는 방법으로 진행됨
- ```sklearn.model_selection.KFold(n_splits = 5, shuffle = False, ...)```  
   - **n_splits**: fold의 수(k를 말함) (default = 5)
   - **shuffle**: 분할하기 전 데이터를 섞을 지에 대한 여부 (default = False)

<br>
<div align='center'>
<img src="https://www.baeldung.com/wp-content/uploads/sites/4/2022/02/kfold.png" alt="kfold" width="800">
</div>

#### Q.
길이가 10인 임의의 넘파이 배열을 생성한 후, 클래스 KFold()를 통해 k = 5인 k-fold 시행 시 데이터셋이 어떻게 분할되는지 확인하기

In [12]:
# 넘파이 배열 생성
import numpy as np

In [14]:
X = np.arange(10)
X

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [15]:
# KFold 클래스 호출
from sklearn.model_selection import KFold

In [16]:
kfold = KFold(n_splits = 5)     # k =5 
kfold

KFold(n_splits=5, random_state=None, shuffle=False)

In [17]:
# 메소드 .split은 학습, 평가 데이터의 인덱스를 생성함
for train_idx, test_idx in kfold.split(X) :
    print("학습: ", train_idx, "평가: ", test_idx)   # 인덱스 번호

학습:  [2 3 4 5 6 7 8 9] 평가:  [0 1]
학습:  [0 1 4 5 6 7 8 9] 평가:  [2 3]
학습:  [0 1 2 3 6 7 8 9] 평가:  [4 5]
학습:  [0 1 2 3 4 5 8 9] 평가:  [6 7]
학습:  [0 1 2 3 4 5 6 7] 평가:  [8 9]


- 홀드아웃에서와 같이 **라벨의 비율에 맞게** K-fold를 수행하고자 할 경우, 사이킷런의 ```model_selection``` 서브패키지 내 클래스 ```StratifiedKFold()```를 사용해 객체를 생성하고 메소드 ```split()```을 통해 학습 데이터와 평가 데이터를 분할하기 위한 인덱스 번호를 생성하면 됨
- ```sklearn.model_selection.StratifiedKFold(n_splits = 5, shuffle = False, ...)```
   - **n_splits**: fold의 수(k를 말함) (default = 5)
   - **shuffle**: 분할하기 전 데이터를 섞을 지에 대한 여부 (default = False)

#### Q.
길이가 15인 임의의 넘파이 배열 X와 0, 1, 2의 비율이 각각 2:1:2인 리스트 y를 생성한 후, 클래스 StratifiedKFold()를 통하여 y의 비율을 반영하여 k = 3인 k-fold 시행 시 데이터셋이 어떻게 분할되는지 확인하기

In [18]:
import numpy as np

In [19]:
X = np.arange(15)   # 넘파이 배열 생성
X

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [20]:
y = [0] * 6 + [1] * 3 + [2] * 6    # 리스트 생성, [0, 0, 0, 0, 0, 0, 1, 1, 1, 2, 2, 2, 2, 2, 2]와 같음
y

[0, 0, 0, 0, 0, 0, 1, 1, 1, 2, 2, 2, 2, 2, 2]

In [22]:
# StratifiedKFold 클래스 호출
from sklearn.model_selection import StratifiedKFold
kfold = StratifiedKFold(n_splits = 3)
kfold

StratifiedKFold(n_splits=3, random_state=None, shuffle=False)

In [23]:
# 메소드 .split은 학습, 평가 데이터의 인덱스를 생성해줌
# 동시에 y의 0, 1, 2 비율도 함께 고려
for train_idx, test_idx in kfold.split(X, y):
    print("학습: ", train_idx, "평가: ", test_idx)   # 인덱스 번호

학습:  [ 2  3  4  5  7  8 11 12 13 14] 평가:  [ 0  1  6  9 10]
학습:  [ 0  1  4  5  6  8  9 10 13 14] 평가:  [ 2  3  7 11 12]
학습:  [ 0  1  2  3  6  7  9 10 11 12] 평가:  [ 4  5  8 13 14]


<br><br><br>
<hr>

### 2절: 성과분석

- 지도학습 모형의 성능을 평가하는 성과분석 방법
- 사이킷런의 서브패키지 metrics 내의 여러 함수들을 통해 성과분석을 수행할 수 있음 (이진분류, 다지분류, 회귀에 따라 성과분석에 사용되는 측도가 상이함)

<br>

#### **1) 분류지표**

#### **1-1) 혼동 행렬을 이용한 평가 지표**
- 혼동행렬(Confusion Matrix)은 사이킷런의 서브패키지 ```metrics``` 내 함수 ```confusion_matrix()```를 통해 구할 수 있음
- ```sklearn.metrics.confusion_matrix(y_true, y_pred, labels=None, ...)```  
   - **y_true**: 실제값
   - **y_pred**: 모형객체에서 반환된 예측값
   - **labels**: 인덱싱할 레이블 목록으로, default는 None으로 한 번 이상 나타나는 값의 정렬된 순서가 반환됨

#### Q.
임의의 리스트 y_true와 y_pred를 생성한 후, 함수 confusion_matrix()를 통하여 이진분류와 다지분류인 경우 혼동행렬을 구하는 코드 작성하기

In [24]:
# 함수 호출
from sklearn.metrics import confusion_matrix

In [25]:
# 이진분류
y_true = [0, 0, 0, 1, 1, 1]
y_pred = [0, 1, 0, 1, 1, 1]

confusion_matrix(y_true, y_pred)

array([[2, 1],
       [0, 3]], dtype=int64)

In [26]:
# 이진분류 (레이블로 되어있는 경우)
y_true = ['A', 'A', 'A', 'B', 'B', 'B']
y_pred = ['A', 'B', 'A', 'B', 'B', 'B']

confusion_matrix(y_true, y_pred, labels=['A', 'B'])   # 레이블 구분

array([[2, 1],
       [0, 3]], dtype=int64)

In [27]:
# 다지분류 (레이블: 0, 1, 2)
y_true = [0, 0, 0, 1, 1, 2, 2, 2, 2]
y_pred = [0, 1, 1, 1, 0, 0, 1, 2, 2]

confusion_matrix(y_true, y_pred)

array([[1, 2, 0],
       [1, 1, 0],
       [1, 1, 2]], dtype=int64)

- 혼동행렬을 이용한 평가지표는 지표별로 사이킷런의 서브패키지에 metrics 내 함수를 제공함
- 제공하는 대표적인 평가지표들:
   - **정확도(Accuracy)** : ```metrics.accuracy_score(y_true, y_pred, ...)```
   - **재현율(Recall)** : ```metrics.recall_score(y_true, y_pred, ...)```
   - **정밀도(Precision)** : ```metrics.precision_score(y_true, y_pred, ...)```
   - **F1-Score** : ```metrics.f1_score(y_true, y_pred, ...)```

#### Q.
임의의 리스트 y_true와 y_pred를 생성한 후, 이진분류에 대하여 Accuracy, Recall, Precision, F1-score를 구하는 코드 작성하기

In [28]:
# 함수 호출
from sklearn.metrics import accuracy_score, recall_score, precision_score, f1_score

In [29]:
# 이진분류
y_true = [0, 0, 0, 1, 1, 1]
y_pred = [0, 1, 0, 1, 1, 1]

In [30]:
# 정확도 (Accuracy)
acc = accuracy_score(y_true, y_pred)
acc

0.8333333333333334

In [31]:
# 재현율 (Recall)
recall = recall_score(y_true, y_pred)
recall

1.0

In [32]:
# 정밀도 (precision)
pre = precision_score(y_true, y_pred)
pre

0.75

In [33]:
# f-1 score
f1 = f1_score(y_true, y_pred)
f1

0.8571428571428571

- 함수 **```metrics.classification_report(y_true, y_pre, ...)```** 는 분류(이진/다지)의 대표적인 평가 지표를 표의 형태로 제공함

In [35]:
from sklearn.metrics import classification_report

In [38]:
report = classification_report(y_true, y_pred)
print(report)

              precision    recall  f1-score   support

           0       1.00      0.67      0.80         3
           1       0.75      1.00      0.86         3

    accuracy                           0.83         6
   macro avg       0.88      0.83      0.83         6
weighted avg       0.88      0.83      0.83         6



<br>
<br>
<br>

#### **1-2) AUC**
- AUC는 사이킷런의 서브패키지 ```metrics``` 내 함수 ```roc_auc_score()```를 통해 FPR(거짓긍정률)과 TPR(참긍정률)을 반환받아 함수 ```auc()```의 인자에 입력하여 구함  

<br>

- ```roc_auc_score()``` 함수 사용법
   - ```sklearn.metrics.roc_auc_score(y_true, y_score, ...)```
      - **y_true**: 실제값
      - **y_pred**: 모형객체에서 반환된 목표 점수(target scores), 예측 확률이 입력됨

<br>

- ```auc()``` 함수 사용법
   - ```sklearn.metrics.auc(x, y)```
      - **x**: x좌표 (FPR이 입력됨)
      - **y**: y좌표 (TPR이 입력됨)

#### Q.
임의의 리스트 y_true와 y_score를 생성한 후, 이진분류에 대하여 AUC를 구하는 코드 작성하기

In [45]:
# 함수 호출
from sklearn.metrics import roc_curve, auc

In [46]:
# 이진 분류
y_true = [0, 0, 0, 1, 1, 1]
y_score = [0.1, 0.75, 0.35, 0.92, 0.81, 0.68]

In [49]:
# ROC
# 함수 roc_curve()는 FPR, TPR, thresholds 세 가지를 반환함
fpr, tpr, thresholds = roc_curve(y_true, y_score)
print("FPR: ", fpr)
print("TPR: ", tpr)
print("thresholds: ", thresholds)

FPR:  [0.         0.         0.         0.33333333 0.33333333 1.        ]
TPR:  [0.         0.33333333 0.66666667 0.66666667 1.         1.        ]
thresholds:  [ inf 0.92 0.81 0.75 0.68 0.1 ]


In [50]:
# AUC
AUC = auc(fpr, tpr)  # roc_curve에서 반환된 fpr > x축, tpr > y축
AUC

0.888888888888889

<br><br><br>

#### **2) 예측지표**
- 목푯값이 연속형인 모델의 대표적인 평가지표
   - **MSE** : ```metrics.mean_squared_error(y_true, y_pred, ...)```
      - 예측 값과 실제 값 간의 차이의 제곱의 평균
      - 값이 클수록 모델의 예측이 실제 값과 많이 다르다는 것 의미
   - **MAE** : ```metrics.mean_absolute_error(y_true, y_pred, ...)```
      - 예측 값과 실제 값 간의 절대 차이의 평균
      - 값이 클수록 모델의 예측이 실제값과 많이 다르다는 것 의미
      - MSE보다 해석하기 쉬움
   - **MAPE** : ```metrics.mean_absolute_percentage_error(y_true, y_pred, ...)```
      - 예측 값과 실제 값 간의 절대 오차의 백분율 평균
      - 값이 클수록 모델의 예측이 실제 값과 많이 다르다는 것 의미

#### Q.
임의의 리스트 y_true와 y_pred를 생성한 후, 목푯값이 연속형인 모델의 평가지표 MSE, MAE, MAPE를 구하는 코드 작성하기

In [59]:
# 함수 호출
from sklearn.metrics import mean_squared_error, mean_absolute_error, mean_absolute_percentage_error

In [60]:
# 연속형 데이터 만들기
# 균일분포 (0, 1)에서 임의의 난수 생성
import numpy as np
np.random.seed(123)   # 난수 고정

In [61]:
y_true = np.random.random_sample(5)   # 균일분포 (0, 1)에서 5개 랜덤 추출
y_true

array([0.69646919, 0.28613933, 0.22685145, 0.55131477, 0.71946897])

In [62]:
y_pred = np.random.random_sample(5)   # 균일분포 (0, 1)에서 5개 랜덤 추출
y_pred

array([0.42310646, 0.9807642 , 0.68482974, 0.4809319 , 0.39211752])

In [64]:
# MSE
mse = mean_squared_error(y_true, y_pred)
mse

0.17581754220802784

In [65]:
# MAE >> 예측 값이 실제 값에서 평균적으로 약 0.364만큼 벗어났다는 것을 의미함
mae = mean_absolute_error(y_true, y_pred)
mae

0.36474003862364796

In [66]:
# MAPE >> 모델의 예측값이 실제 값에서 평균적으로 86% 벗어났다는 것 의미
mape = mean_absolute_percentage_error(y_true, y_pred)
mape

1.0843148337483364