### PART 04) 머신러닝

## 1장. 지도학습모형

### 1절. 데이터 분할

#### 1. 홀드아웃

In [3]:
# breast_cancer 데이터셋 호출
from sklearn.datasets import load_breast_cancer
breast_cancer = load_breast_cancer()
data = breast_cancer.data
target = breast_cancer.target

# train_test_split 함수 호출
from sklearn.model_selection import train_test_split

# arrays에 아래와 같이 data와 target을 둘 다 넣을 경우,
# X와 y에 대해 train과 test가 분할된 데이터셋들을 반환함
# cf) data만 입력하면 X에 대한 train, test를 분할해서 반환함
# random_state를 특정 숫자로 입력할 경우, 계속해서 동일한 데이터셋으로 분할됨
X_train, X_test, y_train, y_test = train_test_split(data, target, test_size = 0.3, random_state = 2022)
print(X_train.shape, X_test.shape,y_train.shape, y_test.shape)

(398, 30) (171, 30) (398,) (171,)


In [4]:
# stratify = target은 원래의 target 컬럼의 0과 1의 비율을 반영하여 데이터를 분할
X_train, X_test, y_train, y_test = train_test_split(data, target, test_size = 0.3, random_state = 2022, stratify = target)
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

(398, 30) (171, 30) (398,) (171,)


#### 2. K-fold

In [5]:
# 넘파이 배열 생성
import numpy as np
X = np.arange(10)

# KFold 클래스 호출
from sklearn.model_selection import KFold
kfold = KFold(n_splits = 5) # k = 5

# 메소드 .split은 학습, 평가 데이터의 인덱스를 생성해줌
for train_idx, test_idx in kfold.split(X) :
    print("학습 :", train_idx, "평가 :", test_idx) # 인덱스번호

학습 : [2 3 4 5 6 7 8 9] 평가 : [0 1]
학습 : [0 1 4 5 6 7 8 9] 평가 : [2 3]
학습 : [0 1 2 3 6 7 8 9] 평가 : [4 5]
학습 : [0 1 2 3 4 5 8 9] 평가 : [6 7]
학습 : [0 1 2 3 4 5 6 7] 평가 : [8 9]


In [6]:
import numpy as np
X = np.arange(15) # 넘파이 배열 생성
y = [0] * 6 + [1] * 3 + [2] * 6 # 리스트 생성

# y = [0,0,0,0,0,0,1,1,1,2,2,2,2,2,2]로 해도 됨
# StratifiedKFold 클래스 호출
from sklearn.model_selection import StratifiedKFold
kfold = StratifiedKFold(n_splits = 3) # k = 3

# 메소드 .split은 학습, 평가 데이터의 인덱스를 생성해줌
# 동시에 y의 0,1,2 비율도 함께 고려함
for train_idx, test_idx in kfold.split(X, y) :
    print("학습 :", train_idx, "평가 :", test_idx) # 인덱스번호

학습 : [ 2  3  4  5  7  8 11 12 13 14] 평가 : [ 0  1  6  9 10]
학습 : [ 0  1  4  5  6  8  9 10 13 14] 평가 : [ 2  3  7 11 12]
학습 : [ 0  1  2  3  6  7  9 10 11 12] 평가 : [ 4  5  8 13 14]


---

### 2절. 성과분석

#### 1. 분류 지표

In [14]:
# 함수 confusion_matrix() 호출
from sklearn.metrics import confusion_matrix

# 이진분류
y_true = [0, 0, 0, 1, 1, 1]
y_pred = [0, 1, 0, 1, 1, 1]
confusion_matrix(y_true, y_pred) # 혼동행렬

array([[2, 1],
       [0, 3]], dtype=int64)

In [15]:
# 이진분류(레이블로 되어있을 경우)
y_true = ['A', 'A', 'A', 'B', 'B', 'B']
y_pred = ['A', 'B', 'A', 'B', 'B', 'B']
confusion_matrix(y_true, y_pred, labels = ['A', 'B']) # 혼동행렬(레이블구분)

array([[2, 1],
       [0, 3]], dtype=int64)

In [16]:
# 다지분류(레이블:0,1,2)
y_true = [0, 0, 0, 1, 1, 2, 2, 2, 2]
y_pred = [0, 1, 1, 1, 0, 0, 1, 2, 2]
confusion_matrix(y_true, y_pred) # 혼동행렬

array([[1, 2, 0],
       [1, 1, 0],
       [1, 1, 2]], dtype=int64)

In [17]:
# 함수 호출
from sklearn.metrics import accuracy_score, recall_score, precision_score, f1_score

# 이진분류
y_true = [0, 0, 0, 1, 1, 1]
y_pred = [0, 1, 0, 1, 1, 1]

# 정분류율(Accuracy)
accuracy = accuracy_score(y_true, y_pred)
print(accuracy)

# 재현율(Recall)
recall = recall_score(y_true, y_pred)
print(recall)

0.8333333333333334
1.0


In [18]:
# 정밀도(Precision)
precision = precision_score(y_true, y_pred)
print(precision)

# f1-score
f1 = f1_score(y_true, y_pred)
print(f1)

0.75
0.8571428571428571


In [19]:
# 함수 호출
from sklearn.metrics import roc_curve, auc

# 이진분류
y_true = [0, 0, 0, 1, 1, 1]
y_score = [0.1, 0.75, 0.35, 0.92, 0.81, 0.68]

# ROC
# 함수 roc_curve()는 fpr, tpr, thresholds 세 가지를 반환함
fpr, tpr, thresholds = roc_curve(y_true, y_score)

# AUC
AUC = auc(fpr, tpr) # roc_curve()에서 반환된 fpr을 x축, tpr을 y축
print(AUC)

0.888888888888889


#### 2. 예측 지표

In [23]:
# 함수 호출
from sklearn.metrics import mean_squared_error, mean_absolute_error, mean_absolute_percentage_error

# 연속형 데이터
# 균일분포 (0,1)에서 임의의 난수 생성
import numpy as np
np.random.seed(123) # 난수 고정

y_true = np.random.random_sample(5) # 균일분포 (0,1)에서 5개 랜덤 추출
print(y_true)

y_pred = np.random.random_sample(5) # 균일분포 (0,1)에서 5개 랜덤 추출
print(y_pred)

[0.69646919 0.28613933 0.22685145 0.55131477 0.71946897]
[0.42310646 0.9807642  0.68482974 0.4809319  0.39211752]


In [24]:
# MSE
mse = mean_squared_error(y_true, y_pred)
print(mse)

# MAE
mae = mean_absolute_error(y_true, y_pred)
print(mae)

# MAPE
mape = mean_absolute_percentage_error(y_true, y_pred)
print(mape)

0.17581754220802784
0.36474003862364796
1.0843148337483364
