# 데이터 분할
## 1. train_test_split
#### 사이킷런 패키지 내 breast_cancer 데이터를 호출한 후 학습 데이터와 평가 데이터로 분할하기
(단, 분할 시 breast_cancer 내의 data에 대해 셔플을 진행하고 학습, 평가 데이터는 각각 X_train, y_train에 할당하고 target에 대해서는 X_test, y_test에 할당하고 학습 데이터와 평가 데이터의 비율은 7:3으로 가정

In [13]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

# 유방암 데이터 불러오기
cancer = load_breast_cancer()
data = cancer.data
target = cancer.target

In [14]:
target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0,
       1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0,
       1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1,
       1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0,
       0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0, 0, 1, 1, 1,
       1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 0, 1, 0, 0,
       0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0,
       1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 1,
       1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0,

In [18]:
X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.3)

In [19]:
X_train, X_test, y_train, y_test

(array([[1.051e+01, 2.019e+01, 6.864e+01, ..., 6.136e-02, 2.383e-01,
         9.026e-02],
        [1.968e+01, 2.168e+01, 1.299e+02, ..., 2.255e-01, 4.045e-01,
         7.918e-02],
        [1.316e+01, 2.054e+01, 8.406e+01, ..., 4.195e-02, 2.687e-01,
         7.429e-02],
        ...,
        [1.296e+01, 1.829e+01, 8.418e+01, ..., 6.608e-02, 3.207e-01,
         7.247e-02],
        [1.071e+01, 2.039e+01, 6.950e+01, ..., 8.600e-02, 2.605e-01,
         8.701e-02],
        [1.157e+01, 1.904e+01, 7.420e+01, ..., 6.664e-02, 3.035e-01,
         8.284e-02]]),
 array([[1.863e+01, 2.511e+01, 1.248e+02, ..., 1.848e-01, 3.444e-01,
         9.782e-02],
        [1.029e+01, 2.761e+01, 6.567e+01, ..., 9.127e-02, 2.226e-01,
         8.283e-02],
        [1.330e+01, 2.157e+01, 8.524e+01, ..., 5.614e-02, 2.637e-01,
         6.658e-02],
        ...,
        [1.340e+01, 2.052e+01, 8.864e+01, ..., 2.051e-01, 3.585e-01,
         1.109e-01],
        [1.218e+01, 1.784e+01, 7.779e+01, ..., 5.882e-02, 2.227e-01,
   

## 2. KFold
#### 길이가 10인 임의의 넘파이 배열을 생성한 후, 클래스 KFold()를 통해 k=5인 k-fold 시행 시 데이터셋이 어떻게 분할되는지 알아보자

In [22]:
from sklearn.model_selection import KFold
import numpy as np

arr = np.arange(10)

k_fold = KFold(5)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [31]:
# KFold.split(배열): 데이터의 인덱스를 생성해줌

for i, (kfold_train, kfold_test) in enumerate(k_fold.split(arr)):
    print('fold:', i+1)
    print(f'훈련: {kfold_train}, 테스트: {kfold_test}')

fold: 1
훈련: [2 3 4 5 6 7 8 9], 테스트: [0 1]
fold: 2
훈련: [0 1 4 5 6 7 8 9], 테스트: [2 3]
fold: 3
훈련: [0 1 2 3 6 7 8 9], 테스트: [4 5]
fold: 4
훈련: [0 1 2 3 4 5 8 9], 테스트: [6 7]
fold: 5
훈련: [0 1 2 3 4 5 6 7], 테스트: [8 9]


In [29]:
# 데이터프레임에도 적용
import pandas as pd
st_name = ['김민수', '박지민', '최현수', '이민정', '이병헌', '차태현', '하정우', '김고은', '박소담', '서예지']
st_height = [170, 175, 180, 165, 180, 175, 175, 170, 168, 168]

students = {'id':range(10), 'name':st_name, 'height':st_height}
df = pd.DataFrame(students)
df.head()

Unnamed: 0,id,name,height
0,0,김민수,170
1,1,박지민,175
2,2,최현수,180
3,3,이민정,165
4,4,이병헌,180


In [52]:
k_fold = KFold(5)

for i, (train_idx, test_idx) in enumerate(k_fold.split(df)):
    print('fold:', i+1)
    print(f'훈련: {train_idx}, 테스트: {test_idx}')

fold: 1
훈련: [2 3 4 5 6 7 8 9], 테스트: [0 1]
fold: 2
훈련: [0 1 4 5 6 7 8 9], 테스트: [2 3]
fold: 3
훈련: [0 1 2 3 6 7 8 9], 테스트: [4 5]
fold: 4
훈련: [0 1 2 3 4 5 8 9], 테스트: [6 7]
fold: 5
훈련: [0 1 2 3 4 5 6 7], 테스트: [8 9]


## 3. Stratified KFold
#### 길이가 15인 넘파이 배열 X와 0, 1, 2의 비율이 각각 2:1:2인 리스트 y를 생성한 후, 클래스 StratifiedKFold()를 통해 y의 비율을 반영하여 k=3인 k-fold 시행

In [48]:
import numpy as np
from sklearn.model_selection import StratifiedKFold

arr = np.arange(15)
list_y = [0]*6+[1]*3+[2]*6
list_y


[0, 0, 0, 0, 0, 0, 1, 1, 1, 2, 2, 2, 2, 2, 2]

In [49]:
st_kfold = StratifiedKFold(3)

for i, (train_idx, test_idx) in enumerate(st_kfold.split(arr, list_y)):
    print('fold:', i+1)
    print(f'훈련: {train_idx}, 테스트: {test_idx}')

fold: 1
훈련: [ 2  3  4  5  7  8 11 12 13 14], 테스트: [ 0  1  6  9 10]
fold: 2
훈련: [ 0  1  4  5  6  8  9 10 13 14], 테스트: [ 2  3  7 11 12]
fold: 3
훈련: [ 0  1  2  3  6  7  9 10 11 12], 테스트: [ 4  5  8 13 14]


<br><br><br><br>
<hr>

# 성과분석
## 1. 혼동행렬(Confusion Matrix) 1
#### 임의의 리스트 y_true, y_pred를 생성한 후, 함수 confusion_matrix()를 통해 이진분류와 다지분류인 경우 혼동행렬을 구하는 코드를 작성해보자

In [56]:
from sklearn.metrics import confusion_matrix

y_true = [0, 0, 1, 1, 0, 1, 0]
y_pred = [1, 0, 1, 1, 0, 0 ,0]

cm = confusion_matrix(y_true, y_pred)
cm

array([[3, 1],
       [1, 2]], dtype=int64)

In [60]:
tn, fp, fn, tp = cm.ravel()

In [61]:
tn, fp, fn, tp

(3, 1, 1, 2)

In [62]:
# 다지분류
y_true = [1, 0, 0, 2, 2, 1, 0, 0, 0]
y_pred = [1, 0, 1, 0, 2, 1, 0, 0, 2]

cm = confusion_matrix(y_true, y_pred)
cm

array([[3, 1, 1],
       [0, 2, 0],
       [1, 0, 1]], dtype=int64)

## 2. 혼동행렬(Confusion Matrix) 2
## Accuracy, Recall, Precision, F1-score
#### 임의의 리스트 y_true, y_pred를 생성한 후, 이진분류에 대해 Accuracy, Recall ,Precision, F1-score 구하기

In [63]:
from sklearn.metrics import accuracy_score, recall_score, precision_score, f1_score

y_true = [0, 0, 0, 1, 1, 1]
y_pred = [0, 1, 0, 1, 1, 1]

# 정확도 = (TP+TN )/ (TP+TN+FN+FP)         
acc = accuracy_score(y_true, y_pred)         # 5/6 = 0.8333...

# 재현율, 민감도 = TP / (TP+FN)
recall = recall_score(y_true, y_pred)        # 3/3 = 1

# 정밀도 = TP / (TP+FP)
prec = precision_score(y_true, y_pred)       # 3/4 = 0.75

# f1-score = 2*(정밀도*재현율)/(정밀도+재현율)
f1 = f1_score(y_true, y_pred)                # 2*(3/4)/(7/4) = 6/7 = 0.857...

acc, recall, prec, f1

(0.8333333333333334, 1.0, 0.75, 0.8571428571428571)

## 3. AUC
#### 임의의 리스트 y_true, y_score를 생성한 후, 이진분류에 대해 AUC 구하기

In [64]:
from sklearn.metrics import roc_curve, auc

y_true = [0, 1, 1, 0, 0, 1, 0]
y_score = [0.8, 0.75, 0.9, 0.5, 0.24, 0.8, 0.1]

# roc_curve
fpr, tpr, threshold = roc_curve(y_true, y_score)
fpr, tpr, threshold

(array([0.  , 0.  , 0.25, 0.25, 1.  ]),
 array([0.        , 0.33333333, 0.66666667, 1.        , 1.        ]),
 array([1.9 , 0.9 , 0.8 , 0.75, 0.1 ]))

In [65]:
result = auc(fpr, tpr)
result

0.875

## 4. 예측지표
#### 연속형 목표변수(target)의 평가지표: MSE, MAE, MAPE
#### 임의의 리스트 y_true, y_pred를 생성한 후, 목표값이 연속형인 모델의 평가 지표 MSE, MAE, MAPE 구하기

In [1]:
from sklearn.metrics import mean_squared_error, mean_absolute_error, mean_absolute_percentage_error

# 0~1 사이 난수
import numpy as np
np.random.seed(123)

y_true = np.random.random_sample(5)       # (0,1)에서 5개 랜덤 추출
y_pred = np.random.random_sample(5)
print(y_true)
print(y_pred)

[0.69646919 0.28613933 0.22685145 0.55131477 0.71946897]
[0.42310646 0.9807642  0.68482974 0.4809319  0.39211752]


In [2]:
mse = mean_squared_error(y_true, y_pred)
mae = mean_absolute_error(y_true, y_pred)
mape = mean_absolute_percentage_error(y_true, y_pred)

mse, mae, mape

(0.17581754220802784, 0.36474003862364796, 1.0843148337483364)