# 사이킷런(1) - 붓꽃 품종 예측 모델

In [25]:
# 버전 확인
import sklearn
print(sklearn.__version__)

# 사이킷런 모듈 로딩
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

#데이터 세트를 로딩
import pandas as pd

# 붓꽃 데이터 세트 로딩 
iris = load_iris()

# iris.data는 데이터 세트에서 피처만으로 구성된 데이터의 numpy
iris_data = iris.data # fetaure
# iris.target은 데이터 세트에서 레이블(결정값, 정답) 데이터의 numpy
iris_label = iris.target # label

print('iris target값:', iris_label) # 0,1,2로만 구성
print('iris target명', iris.target_names)

#붓꽃 데이터세트 자세히 보기 위해 DataFrame으로 변환함
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names) # feature_names: sepal length,sepal width
iris_df['label'] = iris.target # label이란 column 추가!
iris_df.head(3)


1.2.2
iris target값: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target명 ['setosa' 'versicolor' 'virginica']


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


### 학습 데이터 세트와 테스트 데이터 세트로 분리

In [26]:
# 피처 데이터 세트 iris_data, 타겟(결정값)) 데이터 세트 iris_label, 20%(test_size)만 테스트로 만들어라. 
# random_state는 반환값으로고정값으로 넣는다
x_train, x_test, y_train, y_test = train_test_split(iris_data, iris_label, test_size=0.2, random_state=11)

1. **x_train**: 
    - 학습용 데이터의 특성(feature) 부분
    - 이 데이터를 사용하여 모델을 학습시킴
  
2. **x_test**: 
    - 테스트용 데이터의 특성(feature) 부분
    - 학습된 모델을 이 데이터를 사용하여 테스트하거나 예측을 수행
  
3. **y_train**: 
    - 학습용 데이터의 라벨(label) 부분
    - 이 라벨은 `x_train` 데이터의 정답. 즉, `x_train`의 각 데이터 포인트에 대한 정확한 카테고리나 값
  
4. **y_test**: 
    - 테스트용 데이터의 라벨(label) 부분
    - 이 라벨은 `x_test` 데이터의 정답. 학습된 모델이 `x_test`를 기반으로 예측한 결과와 비교하여 모델의 성능을 평가할 때 사용

##### 간단히 말하면, "x"는 데이터의 특성 부분이고, "y"는 해당 데이터의 정답 라벨. "train"은 학습에 사용되는 데이터를 나타내며, "test"는 모델의 성능을 테스트하기 위해 사용되는 데이터를 나타냄.

##### 학습 데이터 세트로 학습(Train)수행, 테스트 데이터 세트로 예측(Predict)수행

In [27]:
#DecisionTreeClassifier 객체 생성
dt_clf = DecisionTreeClassifier(random_state=11)

# 학습 수행(.fit)
dt_clf.fit(x_train, y_train)

In [28]:
# 예측 수행(학습이 완료된 DecisionTreeClassifier 객체에서 테스트 데이터 세트로 예측 수행)
pred = dt_clf.predict(x_test) # 예측!을 해야하므로 문제(x_test)만 넣어준다
pred # 출력

array([2, 2, 1, 1, 2, 0, 1, 0, 0, 1, 1, 1, 1, 2, 2, 0, 2, 1, 2, 2, 1, 0,
       0, 1, 0, 0, 2, 1, 0, 1])

##### 예측 정확도 평가 

In [29]:
from sklearn.metrics import accuracy_score
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test,pred))) # y_test 예측!

예측 정확도: 0.9333


# 사이킷런(2) - 사이킷런의 내장 예제 데이터

In [30]:
from sklearn.datasets import load_iris

iris_data = load_iris()
print(type(iris_data)) #<class 'sklearn.utils._bunch.Bunch'>

#dictionary 느낌
keys = iris_data.keys()
print('붓꽃 데이터 세트의 키들:',keys)


<class 'sklearn.utils._bunch.Bunch'>
붓꽃 데이터 세트의 키들: dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])


### avg 5 keys: data, target, target_names, feature_names, DESCR

- data: 피처의 데이터 세트
- target: 분류 시 레이블 값, 회귀 시 숫자 결괏값 데이터 세트
- target_names: 개별 레이블의 이름
- feature_names: 피처의 이름
- DESCR - 데이터 세트와 각 피처에 대한 설명

In [31]:
print('\n feature_names 의 type:',type(iris_data.feature_names))
print(' feature_names 의 shape:',len(iris_data.feature_names))
print(iris_data.feature_names) # ['sepal length (cm)', 'sepal width (cm)', ...]

print('\n target_names 의 type:',type(iris_data.target_names))
print(' target_names 의 shape:',len(iris_data.target_names))
print(iris_data.target_names) # ['setosa' 'versicolor' 'virginica']

print('\n data 의 type:',type(iris_data.data))
print(' data 의 shape:',iris_data.data.shape)
print(iris_data['data']) # [[5.1 3.5 1.4 0.2],...]

print('\n target 의 type:',type(iris_data.target))
print(' target 의 shape:',iris_data.target.shape)
print(iris_data.target) # 0 0 0 1 1 1



 feature_names 의 type: <class 'list'>
 feature_names 의 shape: 4
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

 target_names 의 type: <class 'numpy.ndarray'>
 target_names 의 shape: 3
['setosa' 'versicolor' 'virginica']

 data 의 type: <class 'numpy.ndarray'>
 data 의 shape: (150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.

# 3. 학습/테스트 데이터 세트 분리 - train_test_split()

In [32]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

iris = load_iris()
dt_clf = DecisionTreeClassifier() # 학습!
train_data = iris.data
train_label = iris.target
dt_clf.fit(train_data, train_label) # train_data로 학습하고,

# 학습 데이터 셋으로 예측 수행
pred = dt_clf.predict(train_data) # train_data로 예측
print('예측 정확도:', accuracy_score(train_label, pred)) # 당연히 100%

예측 정확도: 1.0


In [33]:
from sklearn.tree import DecisionTreeClassifier # 의사결정트리
from sklearn.metrics import accuracy_score # 정확도
from sklearn.datasets import load_iris 
from sklearn.model_selection import train_test_split # 데이터셋 구분

dt_clf = DecisionTreeClassifier()
iris_data = load_iris()

# 학습용 x, 테스트용 y
# iris_data.data: 특성 데이터 (꽃의 측정값)
# iris_data.target: 라벨 데이터 (꽃의 종류)
# test_size=0.3: 데이터셋의 30%를 테스트용으로, 나머지 70%를 학습용
x_train, x_test, y_train, y_test  = train_test_split(iris_data.data, iris_data.target, test_size=0.3, random_state=121)

In [34]:
dt_clf.fit(x_train, y_train) # 학습용 데이터 (x_train과 y_train)를 사용하여 의사결정트리 분류기를 학습
pred = dt_clf.predict(x_test) # 학습된 분류기를 사용하여 테스트 데이터 (x_test)의 라벨을 예측하고, 이 예측값을 pred 변수에 저장
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test,pred))) # 비교(정답)라벨, 예측값 

예측 정확도: 0.9556


##### 넘파이 ndarray뿐만 아니라, 판다스 DataFrame/Series도 train_test_split()로 분할 가능

In [35]:
import pandas as pd

print(type(iris_data.data)) # <class 'numpy.ndarray'>

# ndarray -> df
iris_df = pd.DataFrame(iris_data.data, columns=iris_data.feature_names)
iris_df['target']=iris_data.target
iris_df.head(3)

<class 'numpy.ndarray'>


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


##### feature dataset, target dataset -> df

In [36]:

ftr_df = iris_df.iloc[:, :-1] # 전체(Row 전부)), -1뺀(Col) 
tgt_df = iris_df.iloc[:, -1] # 타겟쪽은 -1(Series형태로 삽입됨)
x_train, x_test, y_train, y_test  = train_test_split(ftr_df, tgt_df, test_size=0.3, random_state=121)

print(type(x_train), type(x_test), type(y_train), type(y_test))

<class 'pandas.core.frame.DataFrame'> <class 'pandas.core.frame.DataFrame'> <class 'pandas.core.series.Series'> <class 'pandas.core.series.Series'>


In [37]:
dt_clf = DecisionTreeClassifier()
dt_clf.fit(x_train, y_train)
pred = dt_clf.predict(x_test)
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test,pred)))

예측 정확도: 0.9556


# 4. 교차검증 - K-Fold, Stratified K-Fold 이해

## 1. K-Fold

In [38]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
import numpy as np

iris = load_iris()
features = iris.data
label = iris.target
dt_clf = DecisionTreeClassifier(random_state=156)

# 5개의 폴드세트로 분리하는 KFold 객체와 폴드 세트별 정확도를 담을 리스트 객체 생성
kfold = KFold(n_splits=5)
cv_accuracy = []
print('붓꽃 데이터 세트 크기:',features.shape[0]) # 학습데이터 건수는 4/5


붓꽃 데이터 세트 크기: 150


In [39]:
n_iter = 0

# KFold객체의 split( ) 호출하면 폴드 별 학습용, 검증용 테스트의 로우 인덱스를 array로 반환  
for train_index, test_index  in kfold.split(features): 
    # kfold.split( )으로 반환된 인덱스를 이용하여 학습용, 검증용 테스트 데이터 추출
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]

    
    #학습 및 예측 
    dt_clf.fit(X_train , y_train)    
    pred = dt_clf.predict(X_test)
    n_iter += 1
    
    # 반복 시 마다 정확도 측정 
    accuracy = np.round(accuracy_score(y_test,pred), 4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print('\n#{0} 교차 검증 정확도 :{1}, 학습 데이터 크기: {2}, 검증 데이터 크기: {3}'
          .format(n_iter, accuracy, train_size, test_size))
    print('#{0} 검증 세트 인덱스:{1}'.format(n_iter,test_index))
    
    cv_accuracy.append(accuracy)
    
# 개별 iteration별 정확도를 합하여 평균 정확도 계산 
print('\n## 평균 검증 정확도:', np.mean(cv_accuracy)) 


#1 교차 검증 정확도 :1.0, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#1 검증 세트 인덱스:[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]

#2 교차 검증 정확도 :0.9667, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#2 검증 세트 인덱스:[30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]

#3 교차 검증 정확도 :0.8667, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#3 검증 세트 인덱스:[60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]

#4 교차 검증 정확도 :0.9333, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#4 검증 세트 인덱스:[ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]

#5 교차 검증 정확도 :0.7333, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#5 검증 세트 인덱스:[120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]

## 평균 검증 정확도: 0.9


In [47]:
features = iris.data
label = iris.target
dt_clf = DecisionTreeClassifier(random_state = 156)

kfold = KFold(n_splits=5)


n_iter = 0
cv_accuracy = []
for train_index, test_index in kfold.split(features):
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    
    n_iter +=1
    
    accuracy = np.round(accuracy_score(y_test, pred),4)
    
    print('{0} 교차검증 정확도 : {1}' .format(n_iter, accuracy))
    cv_accuracy.append(accuracy)
    
print('\n 평균 검증 정확도 : ' , np.mean(cv_accuracy))

1 교차검증 정확도 : 1.0
2 교차검증 정확도 : 0.9667
3 교차검증 정확도 : 0.8667
4 교차검증 정확도 : 0.9333
5 교차검증 정확도 : 0.7333

 평균 검증 정확도 :  0.9


## 2. cross_val_score(), GridSearchCV

### cross_val_score() - Stratified K-Fold

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold
import numpy as np

iris_data = load_iris()
dt_clf = DecisionTreeClassifier(random_state=156)

data = iris_data.data
label = iris_data.target

# 성능 지표는 정확도(accuracy), 교차 검증 세트는 3개
scores = cross_val_score(dt_clf,data,label, scoring='accuracy',cv=3) 
print(scores, type(scores))
print('교차 검증별 정확도:',np.round(scores,4))
print('평균 검증 정확도:', np.round(np.mean(scores),4))

[0.98 0.94 0.98] <class 'numpy.ndarray'>
교차 검증별 정확도: [0.98 0.94 0.98]
평균 검증 정확도: 0.9667


## GridSearchCV

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.metrics import accuracy_score

# 데이터 로딩, 학습데이터와 테스트데이터 분리
iris = load_iris()
x_train, x_test,y_train,y_test = train_test_split(iris_data.data, iris_data.target,test_size=0.2, random_state=121)

dtree = DecisionTreeClassifier()

### parameter 들을 dictionary형태로 설정
parameters = {'max_depth': [1,2,3], 'min_samples_split': [2,3]}

In [None]:
import pandas as pd

# param_grid의 하이퍼 파라미터들을 3개의 train, test set fold 로 나누어서 테스트 수행 설정.  
### refit=True 가 default 임. True이면 가장 좋은 파라미터 설정으로 재 학습 시킴.  
grid_dtree = GridSearchCV(dtree, param_grid=parameters, cv=3, refit=True, return_train_score=True)

# 붓꽃 Train 데이터로 param_grid의 하이퍼 파라미터들을 순차적으로 학습/평가 .
grid_dtree.fit(X_train, y_train)

# GridSearchCV 결과는 cv_results_ 라는 딕셔너리로 저장됨. 이를 DataFrame으로 변환
scores_df = pd.DataFrame(grid_dtree.cv_results_)
scores_df[['params', 'mean_test_score', 'rank_test_score', 
           'split0_test_score', 'split1_test_score', 'split2_test_score']]

Unnamed: 0,params,mean_test_score,rank_test_score,split0_test_score,split1_test_score,split2_test_score
0,"{'max_depth': 1, 'min_samples_split': 2}",0.341667,1,0.35,0.325,0.35
1,"{'max_depth': 1, 'min_samples_split': 3}",0.341667,1,0.35,0.325,0.35
2,"{'max_depth': 2, 'min_samples_split': 2}",0.333333,3,0.35,0.3,0.35
3,"{'max_depth': 2, 'min_samples_split': 3}",0.333333,3,0.35,0.3,0.35
4,"{'max_depth': 3, 'min_samples_split': 2}",0.333333,3,0.35,0.375,0.275
5,"{'max_depth': 3, 'min_samples_split': 3}",0.333333,3,0.35,0.375,0.275


In [None]:
grid_dtree.cv_results_

{'mean_fit_time': array([0.00024549, 0.0001773 , 0.00015497, 0.00014965, 0.00029198,
        0.00017436]),
 'std_fit_time': array([5.19221197e-05, 1.86732473e-05, 7.99561745e-06, 1.62093465e-06,
        1.27927263e-04, 9.93442535e-06]),
 'mean_score_time': array([0.00015616, 0.00013534, 0.0001053 , 0.00010403, 0.00014265,
        0.00011404]),
 'std_score_time': array([3.08755895e-05, 2.81834113e-05, 3.40158694e-06, 2.17064226e-06,
        3.00220233e-05, 5.50718821e-06]),
 'param_max_depth': masked_array(data=[1, 1, 2, 2, 3, 3],
              mask=[False, False, False, False, False, False],
        fill_value='?',
             dtype=object),
 'param_min_samples_split': masked_array(data=[2, 3, 2, 3, 2, 3],
              mask=[False, False, False, False, False, False],
        fill_value='?',
             dtype=object),
 'params': [{'max_depth': 1, 'min_samples_split': 2},
  {'max_depth': 1, 'min_samples_split': 3},
  {'max_depth': 2, 'min_samples_split': 2},
  {'max_depth': 2, 'min_sa

In [None]:
print('GridSearchCV 최적 파라미터:', grid_dtree.best_params_)
print('GridSearchCV 최고 정확도: {0:.4f}'.format(grid_dtree.best_score_))

# refit=True로 설정된 GridSearchCV 객체가 fit()을 수행 시 학습이 완료된 Estimator를 내포하고 있으므로 predict()를 통해 예측도 가능. 
pred = grid_dtree.predict(X_test)
print('테스트 데이터 세트 정확도: {0:.4f}'.format(accuracy_score(y_test,pred)))

GridSearchCV 최적 파라미터: {'max_depth': 1, 'min_samples_split': 2}
GridSearchCV 최고 정확도: 0.3417
테스트 데이터 세트 정확도: 0.2667


In [None]:
# GridSearchCV의 refit으로 이미 학습이 된 estimator 반환
estimator = grid_dtree.best_estimator_

# GridSearchCV의 best_estimator_는 이미 최적 하이퍼 파라미터로 학습이 됨
pred = estimator.predict(X_test)
print('테스트 데이터 세트 정확도: {0:.4f}'.format(accuracy_score(y_test,pred)))

테스트 데이터 세트 정확도: 0.2667


In [None]:
#1. 필요한 라이브러리 & 모듈 가져오기
from sklearn.datasets import load_iris
from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC

# 2. 데이터세트 불러오기
# Load the iris dataset
iris = load_iris()
X = iris.data
y = iris.target

#3. 조정하려는 분류자의 인스턴스를 만들어준다.
# Create the SVM classifier
svm = SVC()

#4. gradsearchcv에서 사용할 하이퍼파라미터 변수들을 정의한다.
# Define the hyperparameters and their possible values
param_grid = {
    'C': [0.1, 1, 10],
    'kernel': ['linear', 'rbf'],
    'gamma': [0.1, 1, 10]
}


#5. GreadSearchCV 개체를 만들고  분류자, 하이퍼파라미터, cv를 지정한다.
# Perform GridSearchCV
grid_search = GridSearchCV(estimator=svm, param_grid=param_grid, cv=5)

# 6. GridsearchCV를 이용하여 GradSearchCV를 수행한다.
grid_search.fit(X, y)

# 7. GridSearchCV 수행 후 최적의 하이퍼 파라미터를 PRINT로 확인한다.
# Print the best hyperparameters and best score
print("Best Hyperparameters: ", grid_search.best_params_)
print("Best Score: ", grid_search.best_score_)

Best Hyperparameters:  {'C': 1, 'gamma': 0.1, 'kernel': 'linear'}
Best Score:  0.9800000000000001
