#### CV : Cross Validation ==> 교차검증

#### 붓꽃 품종 분류
- 목표 : 붓꽃의 3개 품종을 분류하기
- 데이터셋 : 내장 데이터셋
- 피쳐 : 4개
- 타겟 : 품종 1개
- 학습 : 지도학습 > 분류

[1] 데이터 준비

In [2]:
# 모듈로딩
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [3]:
# 내장 데이터셋 로딩
data = load_iris(as_frame=True)

In [4]:
# Bunch 인스턴스 => dict과 유사한 형태
data.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

In [5]:
featureDF = data["data"]
targetSR = data["target"]

In [6]:
featureDF.shape, targetSR.shape

((150, 4), (150,))

In [7]:
featureDF.head(1)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2


In [8]:
targetSR.head(1)

0    0
Name: target, dtype: int32

[2] 학습을 위한 DataSet 준비
 - 학습용, 검증용, 테스트용 3가지 필요

In [9]:
# 학습용, 테스트용 분리
X_train, X_test, y_train, y_test = train_test_split(featureDF, targetSR, stratify=targetSR) # 3번째 값은 비율인듯 ?

In [10]:
# 학습용, 검증용 분리
# 1, 2번째 값에 train값이 들어가야함, train으로 분리 해야함
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, stratify=y_train)

In [11]:
print(f"Train DS : {X_train.shape}") # 결과값 (개수, 피처)
print(f"Train DS : {X_train.shape[0]}") # 피처의 수는 필요없어서 

Train DS : (84, 4)
Train DS : 84


In [12]:
print(f"Train DS : {X_train.shape[0]} {X_train.shape[0]/featureDF.shape[0]}%") # 전체 비율을 알고싶어서
print(f"val DS : {X_val.shape[0]} {X_val.shape[0]/featureDF.shape[0]:.2f}%") 
print(f"Test DS : {X_test.shape[0]} {X_test.shape[0]/featureDF.shape[0]:.2f}%") # Data의 수 38개

## ==> Data의 수가 작아서 과대적합이 나올 수 밖에 없음 -> Data의 수를 늘려야함
# Data의 수를 늘리는 것이 안된다면 훈련데이터를 동일한 크기로 여러 조각으로 나누 후 데이터를 교차 시켜 훈련/검증 데이터로 활용
# ===> 모든 데이터셋을 훈련과 평가에 활용 가능 (과소/과대적합 방지) BUT 훈련에 많은 시간 소요됨

Train DS : 84 0.56%
val DS : 28 0.19%
Test DS : 38 0.25%


In [13]:
# 교차 검증을 통해서 데이터의 수가 작을때 커버가 가능함 p 101

In [14]:
# X_train을 5등분해서 for문 돌려서 최적의 ~을 찾음

[3] 교차검증 방식 : 학습데이터를 쪼개서 사용함

In [15]:
# 모듈로딩
from sklearn.model_selection import KFold, StratifiedKFold
from sklearn.tree import DecisionTreeClassifier

In [16]:
# 모델 인스턴스 생성
dtc_model = DecisionTreeClassifier()

In [17]:
# [3-1] KFold 기반
# 정확한 저장 리스트
accuracys = []

# KFold 인스턴스 생성 [기본으로 K=5]
kfold = KFold()

#### 밑에 3개의 값들은 표시 형식이 다름, 3개 중에 보기 편한 걸로 하면 될 듯

In [18]:
# K번 만큼 K개 데이터셋으로 학습진행
# ==> k등분 후 학습용 데이터셋 인덱스, 검증용 데이터셋 인덱스를 반환함 (데이터를 주는 게 아님)
# ====> 인덱스를 가지고 데이터를 뽑아야함
for train_index, val_index in kfold.split(featureDF) :
    print(f"train_index : {train_index.tolist()}")

    # X_train, X_val DataSet 설정
    X_train, y_train = featureDF.iloc[train_index.tolist()], targetSR[train_index.tolist()]
    X_val, y_val = featureDF.iloc[val_index.tolist()], targetSR[val_index.tolist()]

    # 학습진행
    dtc_model.fit(X_train, y_train)

    # 평가
    accuracy = dtc_model.score(X_val, y_val)
    accuracys.append(accuracy)

train_index : [30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149]
train_index : [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 

In [19]:
accuracys = []

for idx, (train_index, val_index) in enumerate(kfold.split(featureDF), 1) :
    print(f"train_index : {train_index.tolist()}")

    # X_train, X_val DataSet 설정
    X_train, y_train = featureDF.iloc[train_index.tolist()], targetSR[train_index.tolist()]
    X_val, y_val = featureDF.iloc[val_index.tolist()], targetSR[val_index.tolist()]

    # 학습진행
    dtc_model.fit(X_train, y_train)

    # 평가
    accuracy = dtc_model.score(X_val, y_val)
    accuracys.append(accuracy)
    print(f"[{idx}번째 정확도 :{accuracy}]")

train_index : [30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149]
[1번째 정확도 :1.0]
train_index : [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 

In [20]:
accuracys = []

for idx, (train_index, val_index) in enumerate(kfold.split(featureDF), 1) :
    # print(f"train_index : {train_index.tolist()}")

    # X_train, X_val DataSet 설정
    X_train, y_train = featureDF.iloc[train_index.tolist()], targetSR[train_index.tolist()]
    X_val, y_val = featureDF.iloc[val_index.tolist()], targetSR[val_index.tolist()]

    # 학습진행
    dtc_model.fit(X_train, y_train)

    # 평가 => 분류의 경우 score() 메서드 => 정확도 반환
    train_acc = dtc_model.score(X_train, y_train)
    val_acc = dtc_model.score(X_val, y_val)

    accuracys.append([train_acc, val_acc])
    print(f"[{idx}번째  Train 정확도 :{train_acc}, Val 정확도 : {val_acc}]")

[1번째  Train 정확도 :1.0, Val 정확도 : 1.0]
[2번째  Train 정확도 :1.0, Val 정확도 : 0.9666666666666667]
[3번째  Train 정확도 :1.0, Val 정확도 : 0.8333333333333334]
[4번째  Train 정확도 :1.0, Val 정확도 : 0.9333333333333333]
[5번째  Train 정확도 :1.0, Val 정확도 : 0.8]


In [21]:
# 평균계산
# sum(accuracys)/kfold.get_n_splits() # sum을 쓰면 에러가 남, accuracys가 list라서
accuracys # => 앞쪽에 있는 값을 빼면 됨 

[[1.0, 1.0],
 [1.0, 0.9666666666666667],
 [1.0, 0.8333333333333334],
 [1.0, 0.9333333333333333],
 [1.0, 0.8]]

In [22]:
# 리스트 컴프레인션 ? 해야함 
train_mean =sum([value[0] for value in accuracys ])/kfold.n_splits 
                    # 0번 원소가 나옴                  # 기본값이 = 5

test_mean = sum([value[1] for value in accuracys])/kfold.n_splits

print(f"Train 정확도 : {train_mean}  Val 정확도 : {test_mean:.2f}")

Train 정확도 : 1.0  Val 정확도 : 0.91


In [23]:
# [3-2] StratifiedKFold : 정답/레이블/타겟의 비율을 고려해서 데이터를 나눠줌

accuracys = []
skFold = StratifiedKFold()

for idx, (train_index, val_index) in enumerate(kfold.split(featureDF, targetSR), 1) : # 타겟을 줘야함, 앞에 코드랑 다른 점

    # X_train, X_val DataSet 설정
    X_train, y_train = featureDF.iloc[train_index.tolist()], targetSR[train_index.tolist()]
    X_val, y_val = featureDF.iloc[val_index.tolist()], targetSR[val_index.tolist()]

    # 학습진행
    dtc_model.fit(X_train, y_train)

    # 평가 => 분류의 경우 score() 메서드 => 정확도 반환
    train_acc = dtc_model.score(X_train, y_train)
    val_acc = dtc_model.score(X_val, y_val)

    accuracys.append([train_acc, val_acc])
    print(f"[{idx}번째  Train 정확도 :{train_acc}, Val 정확도 : {val_acc}]")

[1번째  Train 정확도 :1.0, Val 정확도 : 1.0]
[2번째  Train 정확도 :1.0, Val 정확도 : 0.9666666666666667]
[3번째  Train 정확도 :1.0, Val 정확도 : 0.8666666666666667]
[4번째  Train 정확도 :1.0, Val 정확도 : 0.9333333333333333]
[5번째  Train 정확도 :1.0, Val 정확도 : 0.7333333333333333]


In [24]:
# 평균계산
train_mean =sum([value[0] for value in accuracys ])/skFold.n_splits 
test_mean = sum([value[1] for value in accuracys])/skFold.n_splits

print(f"Train 정확도 : {train_mean}  Val 정확도 : {test_mean:.2f}")

Train 정확도 : 1.0  Val 정확도 : 0.90


### (원본) Data 안에 setosa 꽃, virsicolor, nica꽃이 존재하고
### 학습용, test용으로 나눈다고 가정 
### 학습용에 setosa 꽃, virsicolor가 다 몰려있고, 테스트용에 nica꽃이 다 몰려 있는 상황은 안되는 것
#### ==> 학습용, test용에 비율을 맞춰서 넣어줘야함

- 교차검증 및 성능평가 동시 진행 함수 
  * => cross_val_score, cross_val_predict
  * => cross_validate
  - =====> 위에서 처럼 인스턴스 생성하고 할 필요가 없음

In [25]:
# 모듈로딩
from sklearn.model_selection import cross_val_predict, cross_val_score, cross_validate

In [26]:
# cross_val_predict
predict = cross_val_predict(dtc_model, featureDF, targetSR)

In [27]:
print(f"predict : {predict}") # 이 값들은 필요가 없음, 잘 사용안함

predict : [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1
 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 1 2 2 2 2
 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


In [28]:
# cross_val_score
cross_val_score(dtc_model, featureDF, targetSR)

array([0.96666667, 0.96666667, 0.9       , 0.96666667, 1.        ])

In [29]:
# cross_validate
# --> 기본값, 모델, 피처, 타겟을 입력해주는 것
result = cross_validate(dtc_model, featureDF, targetSR)
result

{'fit_time': array([0.00235367, 0.00255179, 0.00099421, 0.00099444, 0.00099492]),
 'score_time': array([0.00150967, 0.00101447, 0.00100207, 0.00099921, 0.00100541]),
 'test_score': array([0.96666667, 0.96666667, 0.9       , 0.96666667, 1.        ])}

In [30]:
# cross_validate의 값들을 자세히 알고싶을 떄
result = cross_validate(dtc_model, featureDF, targetSR, return_train_score=True)
result
# train은 낮은데 train_score은 1의 값

{'fit_time': array([0.00200081, 0.00191617, 0.00209785, 0.00099945, 0.00099993]),
 'score_time': array([0.0010004 , 0.00100064, 0.00101399, 0.00100589, 0.00099468]),
 'test_score': array([0.96666667, 0.96666667, 0.9       , 0.96666667, 1.        ]),
 'train_score': array([1., 1., 1., 1., 1.])}

In [31]:
result = cross_validate(dtc_model, featureDF, targetSR, return_train_score=True, return_estimator=True)
result

{'fit_time': array([0.00295424, 0.00164175, 0.00146461, 0.00091553, 0.00099897]),
 'score_time': array([0.00150347, 0.00099969, 0.00204182, 0.00103021, 0.00100112]),
 'estimator': [DecisionTreeClassifier(),
  DecisionTreeClassifier(),
  DecisionTreeClassifier(),
  DecisionTreeClassifier(),
  DecisionTreeClassifier()],
 'test_score': array([0.96666667, 0.96666667, 0.9       , 0.96666667, 1.        ]),
 'train_score': array([1., 1., 1., 1., 1.])}

In [36]:
# [1] 전체 DS => 학습용과 테스트용 DS로 분리
X_train,  X_test, y_train, y_test = train_test_split(featureDF, targetSR, stratify=targetSR)

In [38]:
## cross_val_predict
cross_val_predict(dtc_model, X_train, y_train)

array([2, 2, 1, 2, 2, 1, 1, 0, 1, 0, 1, 2, 0, 2, 2, 1, 1, 1, 2, 2, 2, 1,
       2, 2, 1, 0, 1, 1, 1, 2, 1, 0, 0, 1, 0, 0, 0, 1, 1, 0, 2, 2, 0, 0,
       0, 1, 2, 1, 0, 1, 2, 0, 0, 0, 1, 0, 0, 0, 2, 0, 2, 0, 1, 2, 2, 1,
       0, 2, 1, 2, 2, 2, 2, 1, 0, 2, 1, 0, 1, 2, 0, 0, 1, 2, 1, 1, 1, 0,
       0, 0, 1, 2, 0, 0, 0, 1, 0, 1, 1, 0, 2, 1, 2, 0, 2, 2, 2, 0, 2, 2,
       1, 0])

In [39]:
result = cross_validate(dtc_model, X_train, y_train, return_train_score=True, return_estimator=True)

In [40]:
resultDF = pd.DataFrame(result).loc[:, ["test_score", "train_score"]]
resultDF

Unnamed: 0,test_score,train_score
0,1.0,1.0
1,0.956522,1.0
2,0.954545,1.0
3,0.909091,1.0
4,0.909091,1.0


최적화된 모델 모델추출

In [41]:
best_model = result["estimator"][1]
best_model

테스트 데이터로 확인

In [42]:
best_model.predict(X_test)

array([2, 0, 1, 0, 1, 0, 1, 2, 0, 0, 2, 1, 0, 0, 2, 1, 2, 2, 0, 0, 1, 0,
       2, 2, 1, 2, 1, 2, 0, 1, 1, 0, 2, 2, 1, 1, 1, 2])

In [43]:
best_model.score(X_test, y_test)

0.9473684210526315

### 튜닝(Tunning)
- 모델의 정확도를 높이기 위한 과정
- 데이터 정제, 여러가지 모델 테스트 

#### ML Process
1. 데이터 준비 => 데이터로딩, 데이터 확인 (실제 데이터 확인 및 탐색)
2. 데이터 전처리 => 정제 (결측치, 중복값, 이상치, 칼럼 고유값 ....)
        
                 => feature에 대한 처리 (인코딩, 스케일링 . .)
         
                 => feature 선택 및 가공
          
                 => 분류/회귀 모두 피쳐 및 타겟 결정 (독립변수, 종속변수)
3. 학습 준비 => 데이터셋 (Train, Validation, Test)
  
     ==> 데이터가 부족하니, 일반화를 위해서 Train, Test DataSet 분리 
4. 학습 진행 => 교차검증으로 진행 _ 사용되는 DataSet : Train DataSet
5. 모델 평가 => Test DataSet으로 진행
    
             => 평가기준 (분류, 회귀가 다름)

#### 모델의 성능을 높이는 작업 : Tunning, 튜닝
- HyperParameter control : 모델 인스턴스 생성 시 매개변수로 설정
- 세로운 모델로 학습 진행 => 평가
- 평가가 마음에 안들면 HyperParameter control -> 학습 진행 -> 평가 ... 
 
  
  무한반복