# scikit-learn

In [1]:
!pip install scikit-learn



In [2]:
import sklearn

print(sklearn.__version__)

0.24.2


----

## 붓꽃 품종 예측하기
```classification```  지도학습 방법의 하나이다. 다양한 피처와 레이블 데이터로 모델을 학습한 후에 테스트 데이터 세트에서 미지의 레이블을 예측한다.

```sklearn.datasets``` 내의 모듈은 사이킷런에서 자체적으로 제공하는 데이터 세트를 생성하는 모듈의 모임이다.

```sklearn.tree``` 내의 모듈은 트리 기반 ML알고리즘을 구현한 클래스의 모임이다.

```sklearn.model_selection``` 은 학습데이터,검증데이터,예측데이터로 데이터를 분리하거나 최적의 하이퍼파라미터로 평가하기 위한 다양한 모듈의 모임이다.

```하이퍼파라미터``` ML알고리즘별로 최적의 학습을 위해 직접 이력하는 파라미터를 통칭한다.


In [3]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

In [4]:
import pandas as pd

iris=load_iris() #붓꽃 데이터 세트 로딩
iris_data=iris.data #iris 데이터 세트에서 피처만으로 된 데이터
iris_label=iris.target #iris 데이터 세트에서 레이블 데이터

print('iris target값:', iris_label)
print('iris target명:', iris.target_names)

iris target값: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target명: ['setosa' 'versicolor' 'virginica']


In [5]:
iris_df=pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df['label']=iris.target
iris_df.head(3)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


``피처``sepal length,sepal width 등이 있다.

``label``은 0(Setosa),1(versicolor),2(virginica)를 의미한다. 

### 학습용 데이터와 테스터용 데이터 분리

In [8]:
X_train,X_test,y_train,y_test=train_test_split(iris_data,iris_label,test_size=0.2,random_state=11)
#train_test_split(피처데이터세트,레이블데이터세트,전체 중에 테스트데이터 세트 비율,난수 발생 값) 
#난수 발생 값을 지정하지 않으면 수행할 때마다 다른 학습/테스트 용 데이터를 만들 수 있다.

In [9]:
dt_clf=DecisionTreeClassifier(random_state=11) #DecisionTreeClassifier객체 생성
dt_clf.fit(X_train,y_train) #학습수행

DecisionTreeClassifier(random_state=11)

In [10]:
pred=dt_clf.predict(X_test)

``정확도``예측 결과가 실제 레이블 값과 얼마나 정확하게 맞는지를 평가하는 지표이다.

In [11]:
from sklearn.metrics import accuracy_score
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test,pred)))

예측 정확도: 0.9333


-----------

### 내장된 예제 데이터세트

```data``` 피처의 데이터 세트

```target``` 분류 시 레이블 값, 회귀일 때는 숫자 결괏값 데이터 세트

```target_names``` 개별 레이블의 이름

```feature_names``` 피처의 이름

```DESCR``` 데이터 세트와 각 피처에 대한 설명

In [12]:
from sklearn.datasets import load_iris

iris_data=load_iris()
print(type(iris_data))

<class 'sklearn.utils.Bunch'>


``Bunch`` 클래스는 파이썬 딕셔너리 자료형과 유사하다.

In [13]:
keys=iris_data.keys()
print('붓꽃 데이터 세트의 키들:',keys)

붓꽃 데이터 세트의 키들: dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])


In [16]:
print('feature_names의 type:',type(iris_data.feature_names))
print('feature_name의 shape:',len(iris_data.feature_names))
print(iris_data.feature_names)

feature_names의 type: <class 'list'>
feature_name의 shape: 4
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


In [17]:
print('target_names 의 type:',type(iris_data.target_names))
print('target_names 의 shape:',len(iris_data.target_names))
print(iris_data.target_names)

target_names 의 type: <class 'numpy.ndarray'>
target_names 의 shape: 3
['setosa' 'versicolor' 'virginica']


In [19]:
print('data의 type:',type(iris_data.data))
print('data의 shape:',iris_data.data.shape)
print(iris_data['data'])

data의 type: <class 'numpy.ndarray'>
data의 shape: (150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  3.3 1

In [20]:
print('target 의 type:', type(iris_data.target))
print('target 의 shpae:', iris_data.target.shape)
print(iris_data['target'])

target 의 type: <class 'numpy.ndarray'>
target 의 shpae: (150,)
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


----

# Model Selection 모듈

## train_test_split()-학습/테스트 데이터 세트 분리

In [21]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

iris=load_iris()
dt_clf=DecisionTreeClassifier()
train_data=iris.data
train_label=iris.target
dt_clf.fit(train_data,train_label)

pred=dt_clf.predict(train_data)
print('예측 정확도:', accuracy_score(train_label,pred))

예측 정확도: 1.0


정확도가 100%인 이유는 이미 학습한 학습 데이터 세트를 기반으로 예측했기 때문이다. 따라서 예측을 수행하는 데이터 세트는 학습을 수행한 학습용 데이터 세트가 아닌 전용의 데이터 세트여야 한다.

```test_size```전체 데이터에서 테스트 데이터 세트 크기를 얼마로 샘플링할 것인가를 결정한다.(Default:0.25)

```train_size```전체 데이터에서 학습용 데이터 세트 크기를 얼마로 샘플링 할 것인가를 결정한다. 하지만 ``test_size parameter``를 통상적으로 사용하기 때문에 잘 사용하지 않는다.

```shuffle``` 데이터를 분리하기 전에 미리 섞을지를 결정한다.(Default:True)

```trian_test_split()``` 반환 값은 튜플 형태이다.

In [25]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

df_clf=DecisionTreeClassifier()
iris_data=load_iris()

X_train,X_test,y_train,y_test=train_test_split(iris_data.data,iris_data.target,test_size=0.3,random_state=121)

dt_clf.fit(X_train,y_train)
pred=dt_clf.predict(X_test)
print('예측 정확도:{0:.4f}'.format(accuracy_score(y_test,pred)))

예측 정확도:0.9556


붓꽃의 데이터는 150개의 데이터로 데이터 양이 크지 않아 전체의 30%는 45개 정도 밖에 되지 않는다. 그래서 알고리즘의 예측 성능을 판단하기에는 적절치 않다. 학습을 위한 데이터의 양을 일정 수준 이상으로 보장하는 것도 중요하지만 학습된 모델에 대해 다양한 데이터를 기반으로 예측 성능을 평가해보는 것도 중요하다.

----

## 교차검증