### Estimator 이해 및 fit(), predict() 매서드

### 사이킷런은 ML 모델 학습을 위해 fit(), 학습된 모델의 예측을 위해 predict() 매서드를 제공
- 지도학습의 주요 두 축인 분류(Classification)와 회귀(Regression)의 다양한 알고리즘을 구현한 모든 사이킷런 클래스는 fit(), predict()만을 이용해 간단하게 학습과 예측 결과를 반환
- 사이킷런에서는 분류 알고리즘을 구현한 클래스를 Classifier로, 그리고 회귀 알고리즘을 구현할 클래스를 Regressor 클래스를 제공하며 이들을 합쳐서 Estimator라고 부른다.

![사이킷런 주요 모듈](./module.png)

#### 사이킷런에 내장된 예제 데이터 세트는 일반적으로 딕셔너리 형태로 되어 있다.

- 키는 보통 data, target, target_name, feature_names, DESCR로 구성

    - **data**는 피처의 데이터 세트를 가르킨다. ***넘파이 배열(ndarray)***
    - **target**은 분류 시 레이블 값, 회귀 시 숫자 결괏값 데이터 세트 ***넘파이 배열(ndarray)***
    - **target_name**는 개별 레이블의 이름을 나타낸다.***넘파이 배열(ndarray) or 파이썬 리스트(list)***
    - **feature_names**는 피처의 이름을 나타낸다.***넘파이 배열(ndarray) or 파이썬 리스트(list)***
    - **DESCR**은 데이터 세트에 대한 설명과 각 피처의 설명을 나타낸다. ***String 타입***

#### 피처에 데이터 값을 반환받기 위해서는 내장 데이터 세트 API를 호출한 뒤에 그 key 값을 지정하면 된다.
- 붓꽃 데이터 예제로 분석 시작

In [2]:
from sklearn.datasets import load_iris

iris_data = load_iris()
print(type(iris_data))

# load_iris() 반환 결과 : sklearn.utils.Bunch Class

<class 'sklearn.utils.Bunch'>


Brunch 클래스는 파이썬의 딕셔너리 자료형과 유사하다. 따라서 키(key)를 가지고 있다.

In [3]:
keys = iris_data.keys()
print('붓꽃 데이터 세트의 키들:', keys)


붓꽃 데이터 세트의 키들: dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])


- data : 피처들의 데이터 값을 의미
- 데이터 값을 추출하기 위해서는 데이터 세트.data(또는 데이터세트['date']) 형태를 이용하면 됨.
- 나머지 키들도 마찬가지

In [4]:
print('\n feature_names 의 type:',type(iris_data.feature_names))
print(' feature_names 의 shape:',len(iris_data.feature_names))
print(iris_data.feature_names)

print('\n target_names 의 type:',type(iris_data.target_names))
print(' feature_names 의 shape:',len(iris_data.target_names))
print(iris_data.target_names)

print('\n data 의 type:',type(iris_data.data))
print(' data 의 shape:',iris_data.data.shape)
print(iris_data['data'])

print('\n target 의 type:',type(iris_data.target))
print(' target 의 shape:',iris_data.target.shape)
print(iris_data.target)



 feature_names 의 type: <class 'list'>
 feature_names 의 shape: 4
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

 target_names 의 type: <class 'numpy.ndarray'>
 feature_names 의 shape: 3
['setosa' 'versicolor' 'virginica']

 data 의 type: <class 'numpy.ndarray'>
 data 의 shape: (150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0