In [1]:
# 기본
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 경고 뜨지 않게...
import warnings
warnings.filterwarnings('ignore')

# 그래프 설정
plt.rcParams['font.family'] = 'Malgun Gothic'
# plt.rcParams['font.family'] = 'AppleGothic'
plt.rcParams['font.size'] = 16
plt.rcParams['figure.figsize'] = 20, 10
plt.rcParams['axes.unicode_minus'] = False

# 데이터 전처리 알고리즘
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler

# 학습용과 검증용으로 나누는 함수
from sklearn.model_selection import train_test_split

# 교차검증
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold
from sklearn.model_selection import StratifiedKFold

# 학습 알고리즘
from sklearn.linear_model import LogisticRegression

# 평가함수
from sklearn.metrics import accuracy_score

### 교차검증
- 평가의 원리는 학습하지 않은 패턴의 데이터를 통해 결과를 예측하고 진자 결과와 기교하여 얼마나 유사한지를 알아보는 것이다.
- 허나 학습데이터와 검증데이터의 패턴이 바뀌면 성능 평가 결과가 달라질 수 있다.
- 대부분의 데이터와 모델은 성능 평가 수치가 크게 달라지지 않는다.
- 허나 크게 달라지는 경우도 있을 수 있기 때문에 이러한 평가를 수 차례 해야 한다.
- 즉 학습과 평가 데이터의 패턴을 바꿔가면서 다수의 테스트를 거쳐 그 결과들을 통해 80% 이상의 정확도를 보이면서 정확도 패턴이 일정한 모델을 찾아야 한다.

In [2]:
iris_df = pd.read_csv('data/iris.csv')
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [3]:
# 입력과 결과로 나눈다.
X = iris_df.drop('target', axis=1)
y = iris_df['target']

display(X)
display(y)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


0         setosa
1         setosa
2         setosa
3         setosa
4         setosa
         ...    
145    virginica
146    virginica
147    virginica
148    virginica
149    virginica
Name: target, Length: 150, dtype: object

In [4]:
# 문자열 -> 숫자
encoder1 = LabelEncoder()
encoder1.fit(y)
y = encoder1.transform(y)
y

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [5]:
# 학습에 사용할 모델을 생성한다.
model = LogisticRegression()

In [6]:
# 교차 검증을 수행한다.
# 첫 번째 : 테스트할 학습 모델 객체
# 두 번째 : 입력데이터
# 세 번째 : 결과데이터
# 네 번째 : 평가 지표
# 다섯 번째 : 교차 검증 횟수

# 데이터를 랜덤하게 섞어서 10개로 분할한 다음 교차 검증을 수행한다.
r1 = cross_val_score(model, X, y, scoring='accuracy', cv=10)
r1

array([1.        , 0.93333333, 1.        , 1.        , 0.93333333,
       0.93333333, 0.93333333, 1.        , 1.        , 1.        ])

### KFold 
- Fold : 데이터의 꾸러미
- K Fold : fold가 K개인 것
- 전체 데이터를 K개의 묶음으로 나눠서 K 번 교차검증을 하게된다.
- 전체 데이터를 랜덤으로 섞을 것인지 아닌지를 결정할 수 있다.

In [7]:
# Fold 생성
# n_splits : 폴드의 수
# shuffle : True를 넣어주면 전체를 랜덤하게 섞고 폴드를 생성한다.
# shuffle은 False(섞지 않는것, 기본)라면 처음 부터 순서대로 폴드를
# 생성한다.
# random_state : 랜덤시드
kfold = KFold(n_splits=3, shuffle=True, random_state=1)

# 데이터를 나눈다.
list(kfold.split(X))

[(array([  0,   1,   2,   3,   6,   7,   8,   9,  10,  11,  12,  13,  15,
          20,  21,  22,  23,  24,  25,  26,  27,  30,  32,  34,  36,  37,
          38,  39,  41,  43,  46,  47,  49,  50,  52,  55,  57,  60,  61,
          62,  63,  64,  65,  67,  68,  70,  71,  72,  74,  76,  79,  80,
          81,  82,  83,  85,  86,  87,  88,  89,  93,  95,  96,  97, 100,
         101, 104, 105, 106, 107, 109, 110, 111, 113, 115, 116, 117, 121,
         122, 123, 124, 126, 127, 129, 130, 132, 133, 134, 136, 137, 138,
         139, 140, 142, 143, 144, 145, 147, 148, 149]),
  array([  4,   5,  14,  16,  17,  18,  19,  28,  29,  31,  33,  35,  40,
          42,  44,  45,  48,  51,  53,  54,  56,  58,  59,  66,  69,  73,
          75,  77,  78,  84,  90,  91,  92,  94,  98,  99, 102, 103, 108,
         112, 114, 118, 119, 120, 125, 128, 131, 135, 141, 146])),
 (array([  0,   1,   3,   4,   5,   7,   8,  13,  14,  15,  16,  17,  18,
          19,  20,  21,  22,  24,  25,  26,  28,  29,  30,  31,

In [8]:
# 교차 검증을 수행한다.
model = LogisticRegression()
r1 = cross_val_score(model, X, y, scoring='accuracy', cv=kfold)
r1

array([0.98, 0.94, 0.96])

### Stratified K Fold 교차 검증
- KFold 교차 검증은 원본 데이터의 상태에 다라 학습과 검증데이터가 편향될 가능성이 있다.
- 결과 데이터 종류의 불균형이나 데이터 순서대로 되어 있을 때 섞지 않을 경우 발생한다.
- 이러한 문제는 데이터의 양이 많고 랜덤하게 섞어서 폴드를 구성하면 대부분 해결이 된다.
- 하지만 불균형이 매우 심한 경우에는 K Fold 검증하지 못할 수 있다.
- Stratified K Fold 교차 검증은 결과 데이터를 보고 모든 Fold의 결과 데이터 비율이 균등하게 될 수 있도록 보장한다.
- KFold보다 폴두 구성에 시간이 걸릴 수도 있지만 결과 데이터의 불균형이 심할 경우 KFold보다 먼저 시도해보는 방법이다.

In [9]:
# 폴드를 생성한다.
kfold1 = KFold(n_splits=3)
kfold2 = KFold(n_splits=3, shuffle=True, random_state=1)
kfold3 = StratifiedKFold(n_splits=3)

In [11]:
# KFold, shuffle : False
for train_idx, test_idx in kfold1.split(X) :
    # 학습용 데이터의 결과를 추출한다.
    y1 = y[train_idx]
    # 검증용 데이터의 결과를 추출한다.
    y2 = y[test_idx]
    
    # Series로 생성한다.
    s1 = pd.Series(y1)
    s2 = pd.Series(y2)
    
    display(s1.value_counts())
    display(s2.value_counts())
    display('-------------------------------')

1    50
2    50
dtype: int64

0    50
dtype: int64

'-------------------------------'

0    50
2    50
dtype: int64

1    50
dtype: int64

'-------------------------------'

0    50
1    50
dtype: int64

2    50
dtype: int64

'-------------------------------'

In [12]:
# KFold, shuffle : True
for train_idx, test_idx in kfold2.split(X) :
    # 학습용 데이터의 결과를 추출한다.
    y1 = y[train_idx]
    # 검증용 데이터의 결과를 추출한다.
    y2 = y[test_idx]
    
    # Series로 생성한다.
    s1 = pd.Series(y1)
    s2 = pd.Series(y2)
    
    display(s1.value_counts())
    display(s2.value_counts())
    display('-------------------------------')

2    36
0    33
1    31
dtype: int64

1    19
0    17
2    14
dtype: int64

'-------------------------------'

1    37
0    36
2    27
dtype: int64

2    23
0    14
1    13
dtype: int64

'-------------------------------'

2    37
1    32
0    31
dtype: int64

0    19
1    18
2    13
dtype: int64

'-------------------------------'

In [14]:
# Stratified K Fold
for train_idx, test_idx in kfold3.split(X, y) :
    # 학습용 데이터의 결과를 추출한다.
    y1 = y[train_idx]
    # 검증용 데이터의 결과를 추출한다.
    y2 = y[test_idx]
    
    # Series로 생성한다.
    s1 = pd.Series(y1)
    s2 = pd.Series(y2)
    
    display(s1.value_counts())
    display(s2.value_counts())
    display('-------------------------------')

2    34
0    33
1    33
dtype: int64

0    17
1    17
2    16
dtype: int64

'-------------------------------'

1    34
0    33
2    33
dtype: int64

0    17
2    17
1    16
dtype: int64

'-------------------------------'

0    34
1    33
2    33
dtype: int64

1    17
2    17
0    16
dtype: int64

'-------------------------------'

In [15]:
model = LogisticRegression()

r1 = cross_val_score(model, X, y, scoring='accuracy', cv=kfold3)
r1

array([0.98, 0.96, 0.98])