# 데이터를 검증하는 방법
## 크로스 밸리데이션(Cross - Valildation) (교차 검증)
: 특정 데이터를 훈련 전용 데이터와 테스트 전용 데이터로 분할한 뒤 훈련 데이터를 학습하고, 테스트 데이터로 테스트해서 학습의 타당성을 검증하는 방법

### K 분할 교차 검증 (K - fold cross validation) -> 크로스 밸리데이션의 여러 방법 중 한 방법
1. 집합 X를 A, B, C로 분할
2. A를 테스트 전용 데이터, 나머지 B/C를 훈련 전용 데이터로 사용해 분류 정밀도 s1을 구한다.
3. B를 테스트 전용 데이터, 나머지 A/C를 훈련 전용 데이터로 사용해 분류 정밀도 s2를 구한다.
4. C를 테스트 전용 데이터, 나머지 A/B를 훈련 전용 데이터로 사용해 분류 정밀도 s3를 구한다.
5. 분류 정밀도 s1, s2, s3의 평균을 구해 최종적인 분류 정밀도를 구한다.

### 크로스 밸리데이션 사용해보기
* 붓꽃 데이터(iris.csv) 사용

In [2]:
from sklearn import svm, metrics
import random, re

# 붓꽃의 CSV 파일 읽어 들이기
lines = open('iris.csv', 'r', encoding='utf-8').read().split("\n")
f_tonum = lambda n : float(n) if re.match(r'^[0-9\.]+$', n) else n # Q) 정규표현식 
f_cols = lambda li : list(map(f_tonum, li.strip().split(',')))
csv = list(map(f_cols, lines))
del csv[0] # 헤더 제거하기
random.shuffle(csv) # 데이터 섞기

# 데이터를 K개로 분할하기
K = 5
csvk = [ [] for i in range(K) ]
for i in range(len(csv)):
    csvk[i % K].append(csv[i])
    
# 리스트를 훈련 전용 데이터와 테스트 전용 데이터로 분할하는 함수
def split_data_label(rows):
    data = []; label = []
    for row in rows:
        data.append(row[0:4])
        label.append(row[4])
    return (data, label)

# 테스트 전용 데이터와 훈련 전용 데이터를 매개변수로 전달하면 이를 기반으로 정답률 구하기
def calc_score(test, train):
    test_f, test_l = split_data_label(test)
    train_f, train_l = split_data_label(train)
    # 학습시키고 정답률 구하기
    clf = svm.SVC()
    clf.fit(train_f, train_l)
    pre = clf.predict(test_f)
    return metrics.accuracy_score(test_l, pre)

# K개로 분할한 데이터에 반복을 적용해서 하나하나 테스트
# K개로 분할해서 정답률 구하기
score_list = []
for testc in csvk:
    # testc 이외의 데이터를 훈련 전용 데이터로 사용하기
    trainc = []
    for i in csvk:
        if i != testc: trainc += i
    sc = calc_score(testc, trainc)
    score_list.append(sc)

print("각각의 정답률 = ", score_list)
print("평균 정답률 = ", sum(score_list) / len(score_list))

각각의 정답률 =  [0.9666666666666667, 0.9333333333333333, 1.0, 1.0, 0.9]
평균 정답률 =  0.96


### scikit-learn의 크로스 밸리데이션 사용해보기
* scikit-learn에서 제공하는 크로스 밸리데이션 메서드 사용

In [3]:
import pandas as pd
from sklearn import svm, metrics, model_selection
import random, re

# 붓꽃의 CSV 데이터 읽어 들이기
csv = pd.read_csv('iris.csv')

# 리스트를 훈련 전용 데이터와 테스트 전용 데이터로 분할하기
data = csv[["SepalLength", "SepalWidth", "PetalLength", "PetalWidth"]] # 무작위로 열을 추출
label = csv["Name"]

# 크로스 밸리데이션하기
clf = svm.SVC()
scores = model_selection.cross_val_score(clf, data, label, cv=5)
print("각각의 정답률 = ", scores)
print("평균 정답률 = ", scores.mean())

각각의 정답률 =  [0.96666667 0.96666667 0.96666667 0.93333333 1.        ]
평균 정답률 =  0.9666666666666666


> 각 알고리즘에는 여러 개의 매개변수를 지정 가능 -> 적절한 매개변수를 지정하면 정답률이 굉장히 올라간다. <br> 따라서 "매개변수 튜닝"은 굉장히 중요한 작업!!
### 그리드 서치
* 어떤 매개변수가 적절한지 자동으로 조사하는 방법
* 각 매개변수를 적당한 범위 내부에서 변경하면서 가장 성능이 좋을 때의 값을 찾는 방법
* scikit-learn에서는 그리드 서치를 위한 GridSearchCV() 메서드가 제공

### 그리드 서치를 활용한 매개변수 튜닝

In [14]:
import pandas as pd
from sklearn import model_selection, svm, metrics
from sklearn.model_selection import GridSearchCV

# MNIST 학습 데이터 읽어 들이기
train_csv = pd.read_csv("./mnist/train.csv")
test_csv = pd.read_csv("./mnist/t10k.csv")

# 필요한 열 추출하기
train_label = train_csv.iloc[:, 0]
train_data = train_csv.iloc[:, 1:577]
test_label = test_csv.iloc[:, 0]
test_data = test_csv.iloc[:, 1:577]
print("학습 데이터의 수 = ", len(train_label))

# 그리드 서치 매개변수 설정
params = [
    {"C": [1, 10, 100, 1000], "kernel":["linear"]},
    {"C": [1, 10, 100, 1000], "kernel":["rbf"], "gamma":[0.001, 0.0001]}
]

# 그리드 서치 수행
clf = GridSearchCV(svm.SVC(), params, n_jobs=-1) # n_jobs로 병렬 계산할 프로세스 수를 지정(-1: 자동으로 코어의 수에 맞게 프로세스 수를 정해준다.)
clf.fit(train_data, train_label)
print("학습기 = ", clf.best_estimator_)

# 테스트 데이터 확인하기
pre = clf.predict(test_data)
ac_score = metrics.accuracy_score(pre, test_label)
print("정답률 = ", ac_score)

학습 데이터의 수 =  9999
학습기 =  SVC(C=1, kernel='linear')
정답률 =  0.9
