In [1]:
# 기본
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 경고 뜨지 않게 설정
import warnings
warnings.filterwarnings('ignore')

# 그래프 설정
plt.rcParams['font.family'] = "Malgun Gothic"
plt.rcParams["font.size"] = 16
plt.rcParams["figure.figsize"] = 20, 10
plt.rcParams["axes.unicode_minus"] = False
%matplotlib notebook

# 데이터 전처리 알고리즘
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler

# 학습용과 검증용으로 나누는 함수
from sklearn.model_selection import train_test_split

# 교차검증
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold
from sklearn.model_selection import StratifiedKFold

In [2]:
iris_df = pd.read_csv("data/iris.csv")
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [3]:
# 입력과 결과로 나누기
X = iris_df.drop("target", axis=1)
y = iris_df["target"]

display(X)
display(y)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


0         setosa
1         setosa
2         setosa
3         setosa
4         setosa
         ...    
145    virginica
146    virginica
147    virginica
148    virginica
149    virginica
Name: target, Length: 150, dtype: object

In [4]:
# 문자열 -> 숫자로 변환
enc1 = LabelEncoder()
enc1.fit(y)
y = enc1.transform(y)


In [5]:
y

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

### 평가 원리
- 검증은 학습하지 않은 패턴의 데이터를 통해 예측 결과를 추출하고 진짜 결과와 비교하는 과정
- 결과 데이터를 가지고 있는 전체 데이터를 학습용과 검증용으로 나눠 학습과 평가를 진행한다.

In [6]:
# 전체 데이터 수 
len(X)

150

In [7]:
# 데이터를 나눈다.
# 입력데이터와 결과데이터를 넣어주면, 8:2로 분할하여 반환을 해준다.
# 전체 데이터의 행을 랜덤하게 섞은 후 테스트와 검정으로 나눈다.
# test_size : 검증용 데이터의 비율 (0 ~ 1), 기본 0.2
# random_state : 랜덤시드 설정. 시드를 설정하면 계속 같은 패턴으로 섞이게 된다.
train_X, test_X, train_y, test_y = train_test_split(X, y, test_size = 0.3, random_state=1)

print(len(train_X))
print(len(test_X))

train_X

105
45


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
118,7.7,2.6,6.9,2.3
18,5.7,3.8,1.7,0.3
4,5.0,3.6,1.4,0.2
45,4.8,3.0,1.4,0.3
59,5.2,2.7,3.9,1.4
...,...,...,...,...
133,6.3,2.8,5.1,1.5
137,6.4,3.1,5.5,1.8
72,6.3,2.5,4.9,1.5
140,6.7,3.1,5.6,2.4


# 학습과 평가를 진행한다.

In [8]:
from sklearn.linear_model import LogisticRegression

# 학습한다.
model1 = LogisticRegression()
model1.fit(train_X, train_y)

LogisticRegression()

In [9]:
# 학습한 데이터를 통한 검증
# 무조건 성능이 잘나와야한다.
# 성능이 잘 안나오면 이 모델이 이 데이터에 안맞는거임
from sklearn.metrics import accuracy_score

# 학습 데이터를 통해 예측 결과를 가져온다.
train_pred = model1.predict(train_X)

# 평가한다.
r1 = accuracy_score(train_y, train_pred)
r1

0.9809523809523809

In [10]:
# 검증용 데이터 (학습하지 않은 데이터)를 통한 평가
# 학습하지 않은 데이터를 통해 예측 결과를 가져온다.
test_pred = model1.predict(test_X)

# 평가한다.
r2 = accuracy_score(test_y, test_pred)
r2

0.9777777777777777

### 교차 검증
- 평가의 원리는 학습하지 않은 패턴의 데이터를 통해 결과를 예측하고 진짜 결과와 비교하여 얼마나 유사한지를 알아보는 것이다.
- 허나 학습데이터와 검증 데이터의 패턴이 바뀌면 성능 평가 결과가 달라질 수 있다.
- 대부분의 데이터와 모델은 성능 평가 수치가 크게 달라지지 않는다.
- 허나 크게 달라지는 경우도 있을 수 있기 때문에 이러한 평가를 수 차례 해야 한다.
- 즉, 학습과 평가 데이터의 패턴을 바꿔가며 다수의 테스트를 거쳐 그 결과들을 통해 80% 이상의 정확도를 보이면서 정확도 패턴이 일정한 모델을 찾아야 한다.

In [11]:
# 사용할 학습 모델을 생성한다.
model2 = LogisticRegression()

# 교차 검증을 실시한다.
# 첫 번째 : 평가해볼 학습 모델
# 두 번째 : 입력데이터
# 세 번째 : 결과데이터
# scoring : 평가 지표
# cv : 교차검증 횟수
# 만약 cv를 3으로 줬다면... 데이터가 총 3개의 꾸러미로 나뉜다.
# 1회차 : 1+2 - 학습, 3 - 검증
# 2회차 : 1+3 - 학습, 2 - 검증
# 3회차 : 2+3 - 학습, 1 - 검증
r1 = cross_val_score(model2, X, y, scoring="accuracy", cv=10)
r1

array([1.        , 0.93333333, 1.        , 1.        , 0.93333333,
       0.93333333, 0.93333333, 1.        , 1.        , 1.        ])

In [12]:
from sklearn.model_selection import KFold

### KFold 교차 검증
- Fold : 데이터의 꾸러미
- K Fold : Fold가 K개 인것
- 전체 데이터를 K 개의 묶음으로 나눠서 K번 교차검증을 한다.
- 전체 데이터를 랜덤으로 섞을 것인지 아닌지를 결정할 수 있다.

In [13]:
# Fold 생성
# n_splits : 폴드의 수. 데이터 꾸러미 개수
# shuffle : True를 넣어주면 전체를 랜덤하게 섞고 폴드를 생성한다.
# shuffle이 False(기본)라면 처음부터 순서대로 폴드를 생성한다.
# random_state : 랜덤 시드 설정
kfold = KFold(n_splits=3, shuffle=True, random_state=1)

list(kfold.split(X))

[(array([  0,   1,   2,   3,   6,   7,   8,   9,  10,  11,  12,  13,  15,
          20,  21,  22,  23,  24,  25,  26,  27,  30,  32,  34,  36,  37,
          38,  39,  41,  43,  46,  47,  49,  50,  52,  55,  57,  60,  61,
          62,  63,  64,  65,  67,  68,  70,  71,  72,  74,  76,  79,  80,
          81,  82,  83,  85,  86,  87,  88,  89,  93,  95,  96,  97, 100,
         101, 104, 105, 106, 107, 109, 110, 111, 113, 115, 116, 117, 121,
         122, 123, 124, 126, 127, 129, 130, 132, 133, 134, 136, 137, 138,
         139, 140, 142, 143, 144, 145, 147, 148, 149]),
  array([  4,   5,  14,  16,  17,  18,  19,  28,  29,  31,  33,  35,  40,
          42,  44,  45,  48,  51,  53,  54,  56,  58,  59,  66,  69,  73,
          75,  77,  78,  84,  90,  91,  92,  94,  98,  99, 102, 103, 108,
         112, 114, 118, 119, 120, 125, 128, 131, 135, 141, 146])),
 (array([  0,   1,   3,   4,   5,   7,   8,  13,  14,  15,  16,  17,  18,
          19,  20,  21,  22,  24,  25,  26,  28,  29,  30,  31,

In [14]:
# 교차 검증을 수행한다.
model3 = LogisticRegression()

r2 = cross_val_score(model3, X, y , scoring='accuracy', cv=kfold)
r2


array([0.98, 0.94, 0.96])

### Stractified K Fold 교차 검증
- KFold 교차 검증은 원본 데이터의 상태에 따라 학습과 검증 데이터가 편향될 가능성 있음.
- Stractified K FOld 교차 검증은 결과 데이터를 보고 모든 Fold의 결과 데이터 비율이 균등하게 될 수 있도록 보장해준다.
- KFold보다 폴드 구성에 시간이 걸릴 수 있어 데이터량이 많으면 KFold를 먼저 해보는 것도 괜찮은 방법

In [15]:
# 폴드 생성
kfold1 = KFold(n_splits=3)
kfold2 = KFold(n_splits=3, shuffle=True)
kfold3 = StratifiedKFold(n_splits=3)

In [17]:
# KFold, shuffle : False
for train_idx, test_idx in kfold1.split(X):
    # 학습용 데이터의 결과 데이터를 추출한다.
    y1 = y[train_idx]
    # 검증용 데이터의 결과 데이터를 추출한다.
    y2 = y[test_idx]
    
    # Series로 생성한다.
    s1 = pd.Series(y1)
    s2 = pd.Series(y2)
    
    display(s1.value_counts())
    display(s2.value_counts())    

2    50
1    50
dtype: int64

0    50
dtype: int64

2    50
0    50
dtype: int64

1    50
dtype: int64

1    50
0    50
dtype: int64

2    50
dtype: int64

In [18]:
# KFold, shuffle : True
for train_idx, test_idx in kfold2.split(X):
    # 학습용 데이터의 결과 데이터를 추출한다.
    y1 = y[train_idx]
    # 검증용 데이터의 결과 데이터를 추출한다.
    y2 = y[test_idx]
    
    # Series로 생성한다.
    s1 = pd.Series(y1)
    s2 = pd.Series(y2)
    
    display(s1.value_counts())
    display(s2.value_counts())  

1    35
0    33
2    32
dtype: int64

2    18
0    17
1    15
dtype: int64

2    34
1    33
0    33
dtype: int64

1    17
0    17
2    16
dtype: int64

2    34
0    34
1    32
dtype: int64

1    18
2    16
0    16
dtype: int64

In [19]:
# Stractified K Fold
for train_idx, test_idx in kfold3.split(X, y):
    # 학습용 데이터의 결과 데이터를 추출한다.
    y1 = y[train_idx]
    # 검증용 데이터의 결과 데이터를 추출한다.
    y2 = y[test_idx]
    
    # Series로 생성한다.
    s1 = pd.Series(y1)
    s2 = pd.Series(y2)
    
    display(s1.value_counts())
    display(s2.value_counts())  

2    34
1    33
0    33
dtype: int64

1    17
0    17
2    16
dtype: int64

1    34
2    33
0    33
dtype: int64

2    17
0    17
1    16
dtype: int64

0    34
2    33
1    33
dtype: int64

2    17
1    17
0    16
dtype: int64

In [20]:
model3 = LogisticRegression()

r3 = cross_val_score(model3, X, y , scoring='accuracy', cv=kfold3)
r3

array([0.98, 0.96, 0.98])