# Estimator 이해 및 fit(), predict() 메서드
### Estimator 클래스
+ 지도학습의 모든 알고리즘을 구현한 클래스
+ 예) 분류 알고리즘의 Classifirer 클래스, 회귀 알고리즘의 Regressor 클래스

### fit(), predict(), transform()
#### 지도학습
+ **fit()** : 학습
+ **predict** : 예측
#### 비지도학습
+ **fit()** : 입력데이터 형태에 맞춰 데이터 변환을 하기 위한 사전 구조를 맞추는 작업
+ **transform()** : 클러스터링, 피처 추출 등의 실제 데이터 변환 작업

#### fit_transform()
+ fit() 과 transform()를 결합한 것

# 사이킷런에 내장된 예제 데이터 세트
사이킷런에는 내부에 몇 개의 데이터 세트가 내장되어 있다.

### 사이킷런에 내장된 데이터 세트의 기본 구성
+ 데이터 세트는 일반적으로 딕셔너리 형태로 되어 있다.
+ key
    + **data** : 피처 데이터 세트. 넘파이 배열 타입(ndarray)
    + **target** : 분류 시 레이블 값, 회귀일 때는 숫자 결과값 데이터 세트. 넘파이 배열 타입(ndarray)
    + **target_names** : 개별 레이블의 이름. 넘파이 배열(ndarray) 또는 파이선 리스트(list) 타입
    + **feature_names** : 피처의 이름. 넘파이 배열(ndarray) 또는 파이선 리스트(list) 타입
    + **DESCR** : 데이터 세트에 대한 설명과 각 피처의 설명. 스트링 타입

In [3]:
from sklearn.datasets import load_iris

iris_data = load_iris()
print(type(iris_data))

<class 'sklearn.utils.Bunch'>


파이썬 딕셔너리 자료형과 유사한  **Bunch** 클래스이다.

In [4]:
# 붓꽃 데이터 세트의 키 값 확인
keys = iris_data.keys()
print('붓꽃 데이터 세트의 키들: ', keys)

붓꽃 데이터 세트의 키들:  dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])


In [5]:
# feature_names의 정보
print('\n feature_names 의 type:',type(iris_data.feature_names))
print(' feature_names 의 shape:',len(iris_data.feature_names))
print(iris_data.feature_names)

# target_names의 정보
print('\n target_names 의 type:',type(iris_data.target_names))
print(' feature_names 의 shape:',len(iris_data.target_names))
print(iris_data.target_names)

print('\n data 의 type:',type(iris_data.data))
print(' data 의 shape:',iris_data.data.shape)
print(iris_data['data'])

print('\n target 의 type:',type(iris_data.target))
print(' target 의 shape:',iris_data.target.shape)
print(iris_data.target)


 feature_names 의 type: <class 'list'>
 feature_names 의 shape: 4
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

 target_names 의 type: <class 'numpy.ndarray'>
 feature_names 의 shape: 3
['setosa' 'versicolor' 'virginica']

 data 의 type: <class 'numpy.ndarray'>
 data 의 shape: (150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0