# Part4 머신러닝
## 지도학습 모형
### 데이터분할
#### 홀드아웃

Q. 사이킷런 패키지 내 breast_cancer 데잍러르 호출한 후 학습데이터와 평가데이터로 분할해보자. (단, 분할 시 breast_cancer 내의 data에 대하여 셔플을 진행하고 학슥. 평가데이터는 각각 X_train,y_train에 할당하고 target에 대해서는 y_train,y_test에 할당하고 학습데이터와 평가 데이터의 비율은 7:3으로 가정한다.)

In [1]:
# breast_cancer 데이터 셋 호출
from sklearn.datasets import load_breast_cancer
breast_cancer=load_breast_cancer()
data=breast_cancer.data
target=breast_cancer.target

In [3]:
# train val split 함수 호출
from sklearn.model_selection import train_test_split

X_train,X_test,y_train,y_test=train_test_split(data,target,test_size=0.3,random_state=2022)
print(X_train.shape,X_test.shape,y_train.shape,y_test.shape)

(398, 30) (171, 30) (398,) (171,)


In [6]:
# stratify=target 원래의 target컬럼의 0과 1의 비율을 반영하여 데이터를 분할
X_train,X_test,y_train,y_test=train_test_split(data,target,test_size=0.3,random_state=2022,stratify=target)
print(X_train.shape,X_test.shape,y_train.shape,y_test.shape)

(398, 30) (171, 30) (398,) (171,)


#### K-fold

Q. 길이가 10인 임의의 넘파이 배열을 생성한 수, 클래스 KFold()를 통하여 k=5인 k-fold 시행 시 데이터셋이 어떻게 분할되는지 알아보자.

In [10]:
# 넘파이 배열 생성
import numpy as np
X=np.arange(10)

# K-Fold 클래스 호출
from sklearn.model_selection import KFold
kfold=KFold(n_splits=5)

# 메소드 .split은 학습, 평가 데이터르의 인덱스를 새엇ㅇ해줌
for train_idx,test_idx in kfold.split(X):
    print('학습:',train_idx,'평가:',test_idx)

학습: [2 3 4 5 6 7 8 9] 평가: [0 1]
학습: [0 1 4 5 6 7 8 9] 평가: [2 3]
학습: [0 1 2 3 6 7 8 9] 평가: [4 5]
학습: [0 1 2 3 4 5 8 9] 평가: [6 7]
학습: [0 1 2 3 4 5 6 7] 평가: [8 9]


Q. 길이가 15인 임의의 넘파이 배열 X와 0,1,2의 비율이 각각 2:1:2인 리스트 y를 생성한 후, 클래서 StarifiedKFold()를 통하여 y의 비율을 반영하여 k=3인 k-fold 시행 시 데이터셋이 어떻게 분할 되는지 알아보자.

In [16]:
import numpy as np
X=np.arange(15)
y=[0]*6+[1]*3+[2]*6

# SatrifiedKFold호출
from sklearn.model_selection import StratifiedKFold
kfold=StratifiedKFold(n_splits=3)   # k=3

for train_idx,test_idx in kfold.split(X,y):
    print('학습:',train_idx,'평가:',test_idx)

학습: [ 2  3  4  5  7  8 11 12 13 14] 평가: [ 0  1  6  9 10]
학습: [ 0  1  4  5  6  8  9 10 13 14] 평가: [ 2  3  7 11 12]
학습: [ 0  1  2  3  6  7  9 10 11 12] 평가: [ 4  5  8 13 14]


## 2절 성과분석
### 분류지표
#### 혼동행렬

In [17]:
from sklearn.metrics import confusion_matrix

# 이진분류
y_true=[0,0,0,1,1,1]
y_pred=[0,1,0,1,1,1]

confusion_matrix(y_true,y_pred) # 혼동행렬

array([[2, 1],
       [0, 3]], dtype=int64)

In [20]:
# 이진분류(레이블로 되어 있을 경우)
y_true=['A','A','A','B','B','B']
y_pred=['A','B','A','B','B','B']

confusion_matrix(y_true,y_pred,labels=['A','B'])   # 혼동행렬(레이블 구분)


array([[2, 1],
       [0, 3]], dtype=int64)

In [21]:
# 다지분류 (레이블: 0,1,2)
y_true=[0,0,0,1,1,2,2,2,2]
y_pred=[0,1,1,1,0,0,1,2,2]
confusion_matrix(y_true,y_pred) # 혼동행렬

array([[1, 2, 0],
       [1, 1, 0],
       [1, 1, 2]], dtype=int64)

Q. 임의의 리스트 y_true와  y_pred를 생성한 후, 이진분류에 대하여 Accuracy, Recall, Precision, F1-score 를 구하는 코드를 작성해보자

In [23]:
from sklearn.metrics import accuracy_score,recall_score,precision_score,f1_score

In [24]:
# 이진분류
y_true=[0,0,0,1,1,1]
y_pred=[0,1,0,1,1,1]

# 정분류율(Accuracy)
accuracy=accuracy_score(y_true,y_pred)
print(accuracy)

0.8333333333333334


In [25]:
# 재현율(Recall)
recall=recall_score(y_true,y_pred)
print(recall)

1.0


In [26]:
# 정밀도 (precision)
precision=precision_score(y_true,y_pred)
print(precision)

0.75


In [27]:
# f1-score
f1=f1_score(y_true,y_pred)
print(f1)

0.8571428571428571


#### AUC

Q. 임의의 리스트 y_true와 y_score를 생성한 수, 이진분류에 대하여 AUC를 구하는 코드를 작성해보자.

In [29]:
from sklearn.metrics import roc_curve,auc

# 이진분류
y_true=[0,0,0,1,1,1]
y_score=[0.1,0.75,0.35,0.92,0.81,0.68]

# ROC
fpr,tpr,thresholds=roc_curve(y_true,y_score)

# AUC
AUC=auc(fpr,tpr)    # roc_curve()에서 반환된 fpr을 x축, tpr을 y축
print(AUC)

0.888888888888889


### 예측지표

Q. 임의의 리스트 y_true와 y_pred를 생성한 후, 목푯값이 연속형인 모델의 평가지표 MSE,MAE,MAPE를 구하는 코드를 작성해보자.

In [33]:
from sklearn.metrics import mean_squared_error,mean_absolute_error,mean_absolute_percentage_error

# 연속형 데이터
# 균일분포 (0,1)에서 임의의 난수 생성
import numpy as np
np.random.seed(123) # 난수고정

y_true=np.random.random_sample(5)   # 균일분포 (0,1)에서 5개 랜덤 추출
print(y_true)

y_pred=np.random.random_sample(5)   # 균일분포(0,1)에서 5개 랜덤추출
print(y_pred)

[0.69646919 0.28613933 0.22685145 0.55131477 0.71946897]
[0.42310646 0.9807642  0.68482974 0.4809319  0.39211752]


In [34]:
# MSE
mse=mean_squared_error(y_true,y_pred)
print(mse)

0.17581754220802784


In [35]:
# MAE
mae=mean_absolute_error(y_true,y_pred)
print(mae)

0.36474003862364796


In [37]:
# MAPE
mape=mean_absolute_percentage_error(y_true,y_pred)
print(mape)

1.0843148337483364
