### Scikit Learn Framework

#### Estimator 이해 및 fit(), predict() 메서드
사이킷런은 ML 모델 학습을 위해서 fit()을, 학습된 모델의 예측을 위해 predict() 메서드를 제공합니다.</br>
지도학습의 주요 두 축인 분류(Classification)과 회귀(Regression)의 다양한 알고리즘을 구현한 모든 사이킷런 클래스는</br>
fit()과 predict()만을 이요해 간단하게 학습과 예측 결과를 반환합니다.</br>
</br>
분류 알고리즘을 구현한 클래스를 Classifier, 회귀 알고리즘을 구현한 클래스를 Regressor로 지칭합니다.</br>
사이킷런은 매우 많은 유형의 Classifier와 Regressor를 제공하고 이 둘을 합쳐 Estimator 클래스라고 부릅니다.</br>
Estimator 클래스는 fit()과 predict()를 내부에서 구현하고 있습니다.</br>
</br>
evaluation 함수(ex.cross_cal_score()), GridSearchCV와 같은 하이퍼 파라미터 튜닝을 지원하는 클래스의 경우 이 Estimator를 인자로 받습니다.

### 사이킷런의 주요 모듈

* 예제 데이터: sklearn.datasets
* 피처처리: sklearn.processing, sklearn.feature_selection, sklearn.feature_extraction
* 피처처리&차원축소: sklearn.decompostion
* 데이터 분리, 검증 & 파라미터 튜닝: sklearn.model_selection
* 평가: sklearn.metrics
* Ml 알고리즘:</br>
        sklearn.ensemble -앙상블 알고리즘 제공(렌덤 포레스트, 에이다부스트, 그래디언트 부스트) </br>
        sklearn.linear_model -선형회귀, 릿지(Ridge), 라쏘(Lasso), 및 로지스틱 회귀 등 회귀 관련 알고리즘을 지원.</br>
        sklearn.naive_bayes -나이브 베이즈 알고리즘 제공.</br>
        sklearn.neighbors -최근접 이웃 알고리즘 제공,K-NN 등.</br>
        sklearn.svm: Support Vector Machine.</br>
        sklearn.tree: 의사결정 트리 알고리즘 제공.</br>
        sklearn.cluster: 비지도 클러스터링 알고리즘 제공.</br>
* 유틸리티: sklearn.pipeline: 피처 처리 증의 변환과 ML 알고리즘 학습, 예측 등을 함께 묶어서 실행할 수 있는 유틸리티 제공

#### 내장된 에제 데이터 세트

사이킷런의 데이터 세트는 일반적으로 딕셔너리 형태로 되어 있습니다. </br>
딕셔너리의 키는 보통 data, target_name, feature_name, DESCR로 구성되어 있습니다.</br>

* data: 피처와 데이터 세트를 가리킵니다
* target: 분류 시 레이블 값, 회귀일 때는 숫자 결괏값 데이터 세트입니다.
* target_names는 개별 레이블의 이름을 나타냅니다.
* DESCR은 데이터 세트에 대한 설명과 각 피처의 설명을 나타냅니다.

In [1]:
from sklearn.datasets import load_iris

iris_data = load_iris()
print(type(iris_data))

<class 'sklearn.utils.Bunch'>


Bunch 클래스는 파이썬 딕셔너리 자료형과 유사합니다.

In [2]:
# load_iris() dataset의 key값 확인
keys = iris_data.keys()
print('붓꽃 데이터 세트의 키들:', keys)

붓꽃 데이터 세트의 키들: dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])


In [3]:
print('iris 데이터의 feature_name: ',iris_data.feature_names)
#print('iris 데이터의 data: ', iris_data['data'])
print('iris 데이터의 target_names: ', iris_data.target_names)
print('iris 데이터의 target: ', iris_data.target)

iris 데이터의 feature_name:  ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
iris 데이터의 target_names:  ['setosa' 'versicolor' 'virginica']
iris 데이터의 target:  [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


#### Model Selection 모듈 소개
사이킷런의 model_selection 모듈은 학습 데이터와 테스트 데이터 세트를 분리하거나 교차 검증 분리할 및 평가, 그리고 Estimator의 하이퍼 파라미터를 튜닝하기 위한 다양한 함수와 클래스를 제공합니다.

#### 04.학습/테스트 데이터 세트 분리 - train_test_split()

In [4]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split


dt_clf = DecisionTreeClassifier()
iris = load_iris()

X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, \
                                               test_size = 0.3, random_state = 121)


# train_data = iris.data
# train_label = iris.target

In [5]:
dt_clf.fit(X_train, y_train)
pred = dt_clf.predict(X_test)
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test,pred)))

예측 정확도: 0.9556
