# Scikit-learn

## 사이킷런을 이용하여 붓꽃(IRIS) 데이터 품종 예측하기(P98)

In [1]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier

import pandas as pd

In [2]:
# Iris data set load

iris = load_iris()

In [3]:
iris_data = iris.data
iris_data.shape

(150, 4)

In [4]:
# ndarray 이므로 슬라이스로 데이터를 본다
iris_data[:10,:]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1]])

In [5]:
iris_label = iris.target
iris_label

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [6]:
# 데이터 셋에 대한 설명 (description)
print(iris.DESCR)

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

In [7]:
iris.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [8]:
iris.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [9]:
# Iris dataset ==> data Frame으로 변환

iris_df = pd.DataFrame(data=iris_data, columns = iris.feature_names)
iris_df['label'] = iris.target
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [10]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
count,150.0,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333,1.0
std,0.828066,0.435866,1.765298,0.762238,0.819232
min,4.3,2.0,1.0,0.1,0.0
25%,5.1,2.8,1.6,0.3,0.0
50%,5.8,3.0,4.35,1.3,1.0
75%,6.4,3.3,5.1,1.8,2.0
max,7.9,4.4,6.9,2.5,2.0


In [11]:
# 자료가 어떻게 되어있나 봐야함
iris_df.info

<bound method DataFrame.info of      sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  \
0                  5.1               3.5                1.4               0.2   
1                  4.9               3.0                1.4               0.2   
2                  4.7               3.2                1.3               0.2   
3                  4.6               3.1                1.5               0.2   
4                  5.0               3.6                1.4               0.2   
..                 ...               ...                ...               ...   
145                6.7               3.0                5.2               2.3   
146                6.3               2.5                5.0               1.9   
147                6.5               3.0                5.2               2.0   
148                6.2               3.4                5.4               2.3   
149                5.9               3.0                5.1               1.8

In [12]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label, test_size=0.2, random_state=11)

In [13]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import DecisionTreeRegressor

In [14]:
# 객체 생성
dt_clf= DecisionTreeClassifier(random_state=11)

In [15]:
# 학습 수행
dt_clf.fit(X_train,y_train)

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=11, splitter='best')

In [16]:
# 학습이 완료된 분류기 객체에서 테스트 데이터 세트로 예제
pred = dt_clf.predict(X_test)

In [17]:
pred

array([2, 2, 1, 1, 2, 0, 1, 0, 0, 1, 1, 1, 1, 2, 2, 0, 2, 1, 2, 2, 1, 0,
       0, 1, 0, 0, 2, 1, 0, 1])

In [18]:
y_test

array([2, 2, 2, 1, 2, 0, 1, 0, 0, 1, 2, 1, 1, 2, 2, 0, 2, 1, 2, 2, 1, 0,
       0, 1, 0, 0, 2, 1, 0, 1])

In [19]:
from sklearn.metrics import accuracy_score
print('예측 정확도 : {:.4f}'.format(accuracy_score(y_test,pred)))

예측 정확도 : 0.9333


# p100

### Model Selection

In [20]:
from sklearn.metrics import accuracy_score


pred = dt_clf.predict(X_train)
print('예측 정확도 : {:.4f}'.format(accuracy_score(y_train ,pred)))

예측 정확도 : 1.0000


In [21]:
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label, test_size=0.3, random_state=121)

In [22]:
dt_clf.fit(X_train,y_train)
pred = dt_clf.predict(X_test)
print('예측 정확도 : {:.4f}'.format(accuracy_score(y_test,pred)))

예측 정확도 : 0.9556


### 교차 검증
- K fold

In [23]:
from sklearn.model_selection import KFold
import numpy as np

In [24]:
# shift + Tab을 누르기! 
kfold = KFold(n_splits=5)
cv_accuracy =  []
features = iris.data
label =iris.target
print('붓꽃 데이터 세트 크기: ' , features.shape[0])

붓꽃 데이터 세트 크기:  150


## P105

In [25]:
n_iter = 0
# KFold 객체의 split()를 호출하면 폴드 별 학습용, 검증용 테스트의 로우 인덱스를 array로 변환
for train_index , test_index in kfold.split(features):
    
    X_train , X_test = features[train_index],features[test_index]
    y_train , y_test = label[train_index], label[test_index]
    # 학습 및 예측
    dt_clf.fit(X_train,y_train)
    pred=dt_clf.predict(X_test)
    n_iter +=1
    # 반복 시마다 정확도 측정
    accuracy =  np.round(accuracy_score(y_test,pred),4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print('\n#{0} 교차 검증 정확도: {1}, 학습 데이터 크기 : {2} , 검증 데이터 크기: {3}'.format(n_iter,accuracy,train_size,test_size))
    print('#{0} 검증 세트 인덱스 :{1}'.format(n_iter,test_index))
    cv_accuracy.append(accuracy)

#개별 iteration별 정확도를 합하여 평균 정확도 계산    
print('\n## 평균 검증 정확도 : {:.2f}'.format(np.mean(cv_accuracy)))


#1 교차 검증 정확도: 1.0, 학습 데이터 크기 : 120 , 검증 데이터 크기: 30
#1 검증 세트 인덱스 :[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]

#2 교차 검증 정확도: 0.9667, 학습 데이터 크기 : 120 , 검증 데이터 크기: 30
#2 검증 세트 인덱스 :[30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]

#3 교차 검증 정확도: 0.8667, 학습 데이터 크기 : 120 , 검증 데이터 크기: 30
#3 검증 세트 인덱스 :[60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]

#4 교차 검증 정확도: 0.9333, 학습 데이터 크기 : 120 , 검증 데이터 크기: 30
#4 검증 세트 인덱스 :[ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]

#5 교차 검증 정확도: 0.8333, 학습 데이터 크기 : 120 , 검증 데이터 크기: 30
#5 검증 세트 인덱스 :[120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]

## 평균 검증 정확도 : 0.92


## 평균 검증 정확도 : 0.92
### stratified K Fold

In [26]:
import pandas as pd

iris = load_iris()

iris_df = pd.DataFrame(data=iris.data,columns=iris.feature_names)
iris_df ['label']=iris.target
iris_df ['label'].value_counts()


2    50
1    50
0    50
Name: label, dtype: int64

In [27]:
kfold = KFold(n_splits=3)
n_iter=0

for train_index,test_index in kfold.split(iris_df):
    n_iter =1
    label_train=iris_df['label'].iloc[train_index]
    label_test=iris_df['label'].iloc[test_index]
    print('## 교차 검증 : {}'.format(n_iter))
    print('학습 레이블 데이터 분포:\n', label_train.value_counts())
    print('검증 레이블 데이터 분포:\n' ,label_test.value_counts(),iris_df ['label'].value_counts())

## 교차 검증 : 1
학습 레이블 데이터 분포:
 2    50
1    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 0    50
Name: label, dtype: int64 2    50
1    50
0    50
Name: label, dtype: int64
## 교차 검증 : 1
학습 레이블 데이터 분포:
 2    50
0    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 1    50
Name: label, dtype: int64 2    50
1    50
0    50
Name: label, dtype: int64
## 교차 검증 : 1
학습 레이블 데이터 분포:
 1    50
0    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 2    50
Name: label, dtype: int64 2    50
1    50
0    50
Name: label, dtype: int64


In [28]:
n_iter = 0
# KFold 객체의 split()를 호출하면 폴드 별 학습용, 검증용 테스트의 로우 인덱스를 array로 변환
for train_index , test_index in kfold.split(features):
    
    X_train , X_test = features[train_index],features[test_index]
    y_train , y_test = label[train_index], label[test_index]
    # 학습 및 예측
    dt_clf.fit(X_train,y_train)
    pred=dt_clf.predict(X_test)
    n_iter +=1
    # 반복 시마다 정확도 측정
    accuracy =  np.round(accuracy_score(y_test,pred),4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print('\n#{0} 교차 검증 정확도: {1}, 학습 데이터 크기 : {2} , 검증 데이터 크기: {3}'.format(n_iter,accuracy,train_size,test_size))
    print('#{0} 검증 세트 인덱스 :{1}'.format(n_iter,test_index))
    cv_accuracy.append(accuracy)

#개별 iteration별 정확도를 합하여 평균 정확도 계산    
print('\n## 평균 검증 정확도 : {:.2f}'.format(np.mean(cv_accuracy)))


#1 교차 검증 정확도: 0.0, 학습 데이터 크기 : 100 , 검증 데이터 크기: 50
#1 검증 세트 인덱스 :[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
 48 49]

#2 교차 검증 정확도: 0.0, 학습 데이터 크기 : 100 , 검증 데이터 크기: 50
#2 검증 세트 인덱스 :[50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73
 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97
 98 99]

#3 교차 검증 정확도: 0.0, 학습 데이터 크기 : 100 , 검증 데이터 크기: 50
#3 검증 세트 인덱스 :[100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117
 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135
 136 137 138 139 140 141 142 143 144 145 146 147 148 149]

## 평균 검증 정확도 : 0.58


# P110 

In [29]:
# 교차 검증별 정확도 및 평균 정확도 계산
print(' \n## 교차 검증별 정확도: ',np.around(cv_accuracy,4))
print('## 평균 검증 정확도: {}'.format(np.mean(cv_accuracy)))

 
## 교차 검증별 정확도:  [1.     0.9667 0.8667 0.9333 0.8333 0.     0.     0.    ]
## 평균 검증 정확도: 0.5750000000000001


# P112       cross_val_score()

In [30]:
from sklearn.model_selection import cross_val_score,cross_validate

In [31]:
scores = cross_val_score(dt_clf,iris_data,iris_label,scoring = 'accuracy', cv=3)
print('교차 검증별 정확도: {}' .format(np.round(scores,4)))
print('평균 검증 정확도: {}' .format(np.mean(scores),4))

교차 검증별 정확도: [0.98 0.92 0.98]
평균 검증 정확도: 0.96


### GridSearchCV

In [32]:
from sklearn.model_selection import GridSearchCV

In [33]:
# iris=load_iris()


# X_train,X_test,y_train,y_test=train_test_split(iris_data.data,iris_data.target,
#                                                test_size=0.2,random_state=121)
# dtree =DecisionTreeClassifier()


# ### 파라미터를 딕셔너리 형태로 설정
# parameters = {'max_depth':[1,2,3] , 'min_samples_split':[2,3]}

In [35]:
# import pandas as pd

# grid_dtree = GridSearchCV(dtree, param_grid=parameters,cv=3,refit=True)
# grid_dtree.fit(X)

# 데이터 전처리 (2020/06/17)

In [36]:
from sklearn.preprocessing import LabelEncoder
items = ['TV' , '냉장고', '전자렌지','컴퓨터','선풍기','믹서','에어콘' ]

encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
print('인코딩 변환값 : ', labels)


인코딩 변환값 :  [0 1 5 6 3 2 4]


In [37]:
labels = encoder.fit_transform(items)
labels

array([0, 1, 5, 6, 3, 2, 4], dtype=int64)

In [38]:
print('인코딩 클래스: ',encoder.classes_)

인코딩 클래스:  ['TV' '냉장고' '믹서' '선풍기' '에어콘' '전자렌지' '컴퓨터']


In [39]:
encoder.inverse_transform([4,5,2,0,1,1,3,3])

array(['에어콘', '전자렌지', '믹서', 'TV', '냉장고', '냉장고', '선풍기', '선풍기'], dtype='<U4')

In [40]:
def get_name(model,num):
    return model.inverse_transform([num])[0]

get_name(encoder,3)

'선풍기'

# 오늘 수업에서 중요한 것은 one-hot encoding이라는 개념을 꼭 알아두기!!!!!
# 🍗🍗🍖🍖🍗🍖🍖  ( P120)

In [None]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np
import pandas as pd

In [41]:
items = ['TV' , '냉장고', '전자렌지','컴퓨터','선풍기', '선풍기' , '믹서','믹서']

encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)

labels = labels.reshape(-1,1)

oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)
print('원핫 인코딩 데이터')
print(oh_labels.toarray())
print('원-핫 인코딩 데이터 차원')
print(oh_labels.shape)

NameError: name 'OneHotEncoder' is not defined

In [42]:
df=pd.DataFrame({'item':['TV' , '냉장고', '전자렌지','컴퓨터','선풍기', '선풍기' , '믹서','믹서']})
pd.get_dummies(df)

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자렌지,item_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


# P126

In [43]:
from sklearn.preprocessing import StandardScaler

In [45]:
# scaler = StandardScaler()
# scaler.fit(iris_df)
# iris_scaled = scaler.transform(iris_df)

# iris_df_scaled = pd.DataFrame(data=iris_scaled,columns=iris.feature_names)
# print('feature 들의 평균 값')
# print(iris_df_scaled.mean())
# print('\nfeature 들의 분산 값')
# print(iris_df_scaled.var())

ValueError: Shape of passed values is (150, 5), indices imply (150, 4)

# P127 MinMaxScaler

In [None]:
# 밑에 예제 shape 변환이 필요해 보임/......... ㅅㅂ

In [49]:
# from sklearn.preprocessing import MinMaxScaler

# scaler  = MinMaxScaler()

# scaler.fit(iris_df)
# iris_scaled = scaler.transform(iris_df)

# iris_df_scaled = pd.DataFrame(data=iris_scaled , columns=iris.feature_names)
# print('feature들의 최솟 값')
# print(iris_df_scaled.min())
# print('\nfeature들의 최댓값')
# print(iris_df_scaled.max())

ValueError: Shape of passed values is (150, 5), indices imply (150, 4)

## 데이터 준비 -> 
## 전처리(encoding,scaling) -> 
## Machine-Learning (모델생성-> 학습(fit)-> 평가(predict))