### 학습한 데이터의 결과가 신뢰할 수 있는가?  

- 모델의 타당성을 검증  
> `크로스 벨리데이션`을 확인    
> - 특정 데이터를 훈련용과 테스트 전용으로 분할  
> - 훈련 데이터로 학습  
> - 테스트데이터로 학스브이 타당성을 검증  
- 교차검증 방법중에 `k 분할 교차 검증(k-fold-cv값, cross-validation)` 
> 집합 X -> A,B,C로 분할  
- A를 validation, B, C는 훈련 -> 정밀도 s1를 구함
- B를 validation, C, A는 훈련 -> 정밀도 s2를 구함
- C를 validation, A, B는 훈련 -> 정밀도 s3를 구함
> - s1, s2 ,s3를 평균내서 최종 정밀도를 구한다.


In [1]:
import pandas as pd 
from sklearn import svm,metrics, model_selection, datasets
import random, re

In [2]:
# 아이리스 데이터 로드  
#data = datasets.load_iris()
#type(data)
iris_data = pd.read_csv('./data/iris.csv')
iris_data.head(2)

Unnamed: 0,SepalLength,SepalWidth,PetalLength,PetalWidth,Name
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa


In [3]:
data = iris_data[iris_data.columns[:4]]
label = iris_data[iris_data.columns[-1]]
data, label

(     SepalLength  SepalWidth  PetalLength  PetalWidth
 0            5.1         3.5          1.4         0.2
 1            4.9         3.0          1.4         0.2
 2            4.7         3.2          1.3         0.2
 3            4.6         3.1          1.5         0.2
 4            5.0         3.6          1.4         0.2
 5            5.4         3.9          1.7         0.4
 6            4.6         3.4          1.4         0.3
 7            5.0         3.4          1.5         0.2
 8            4.4         2.9          1.4         0.2
 9            4.9         3.1          1.5         0.1
 10           5.4         3.7          1.5         0.2
 11           4.8         3.4          1.6         0.2
 12           4.8         3.0          1.4         0.1
 13           4.3         3.0          1.1         0.1
 14           5.8         4.0          1.2         0.2
 15           5.7         4.4          1.5         0.4
 16           5.4         3.9          1.3         0.4
 17       

In [4]:
clf = svm.SVC(gamma = 'auto')
# cv는 fold의 수 => 세트화
scores = model_selection.cross_val_score(clf, data , label, cv = 5)

print('5세트 각각의 정밀도:',scores)
print('5세트 각각의 정밀도의 평균:',scores.mean())

5세트 각각의 정밀도: [0.96666667 1.         0.96666667 0.96666667 1.        ]
5세트 각각의 정밀도의 평균: 0.9800000000000001


### 그리드 서치 방식
- ML 알고리즘은 매개변수를 가지고 있다.  
- 매개변수를 적절하게 수정하면 정답률을 상승 시킬 수 있다. => tuning, 최적화
- `매개변수 튜닝은 아주 중요한 작업`(근데?)  
- 이것을 일일이(X) -> 자동화 처리 필요
> 그리드 서치 방식
> 각 매개변수를 적당한 범위에 두고, 알아서 변경하면서 가장 성능이 좋을 때까지 값을 찾는 방법  
> hyperparameter tuning

In [5]:
import sklearn 
import pandas as pd
from sklearn.model_selection import GridSearchCV

In [6]:
train_csv =pd.read_csv('../ML/data/train_mnist.csv',header=None)
test_csv = pd.read_csv('../ML/data/t10k_mnist.csv',header=None)

In [7]:
train_csv.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,775,776,777,778,779,780,781,782,783,784
0,5,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,4,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,9,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [8]:
test_csv.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,775,776,777,778,779,780,781,782,783,784
0,7,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,2,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,4,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [9]:
train_csv.shape, test_csv.shape

((60000, 785), (10000, 785))

In [10]:
# 데이터 추출
train_label = train_csv[0]
train_data = train_csv.iloc[:,1:]
test_label = test_csv[0]
test_data = test_csv.iloc[:,1:]

In [11]:
train_label.shape, train_data.shape, test_label.shape, test_data.shape 

((60000,), (60000, 784), (10000,), (10000, 784))

In [12]:
#회귀 : alpha
#분류 : C


# 사용 모델 => 분류기 중에 
# 매개변수 =>C , kernel갑셍 대한 하이퍼파라미터 튜닝을 하겠다.

### case 값 입력, keras 처럼 자동으로 다 해주는게 아님
params = [
    {'C':[0.01, 0.1,1.0,10.0, 100.0, 1000.0], 'kernel':['linear']},
    {'C':[0.01, 0.1,1.0,10.0, 100.0, 1000.0], 'kernel':['rbf'], 'gamma':[0.001, 0.0001]}    
]

In [13]:
#n_jobs : 병렬 계산 수행할 프로세스 수 계산 => -1 => 자동으로 알아서 코어수에 맞게 설정 
clf = GridSearchCV(svm.SVC(),params, n_jobs = -1, cv=5 )

In [None]:
#1:04 학습 시작 
clf.fit(train_data, train_label)

In [None]:
# 결과 확인
clf.best_estimator

In [None]:
clf.best_score_

In [None]:
# 예측
pre = clf.predict(test_data)
metrics.accuracy_score(pre, test_label)