## Estimator 이해 및 fit(), predict() 메서드

- ## Estimaor
학습 : fit()<br>
예측 : predict()
    - ## Classifier(분류)
        분류 구현 클래스
        - DecisionTreeClassifier
        - RandomForestClassifier
        - GradientBoostingClassifier
        - GaussianNB
        - SVC
    - ## Regressor(회귀)
        회귀 구현 클래스
        - LinearRegression
        - Ridge
        - Lasso
        - RandomForestRegressor
        - GradientBoostingRegressor

## 사이킷런의 주요 모듈

<table>
    <thead>
        <tr>
            <th>분류</th>
            <th>모듈명</th>
            <th>설명</th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <td>예제 데이터</td>
            <td>sklearn.datasets</td>
            <td>사이킷런에 내장되어 예제로 제공하는 데이터 세트</td>
        </tr>
        <tr>
            <td rowspan=3>피처 처리</td>
            <td>sklearn.preprocessing</td>
            <td>데이터 전처리에 필요한 다양한 가공 기능 제공(문자열을 숫자형 코드 값으로 인코딩, 정규화, 스케일링 등)</td>
        </tr>
        <tr>
            <td>sklearn.feature_selection</td>
            <td>알고리즘에 큰 영향을 미치는 피처를 우선순위대로 셀렉션 작업을 수행하는 다양한 기능 제공</td>
        </tr>
        <tr>
            <td>sklearn.feature_extraction</td>
            <td>텍스트 데이터나 이미지 데이터의 벡터화된 피처를 추출하는데 사용<br>예를 들어 텍스트 데이터에서 Count Vectorizer나 Tf-Idf Vectorizer 등을 생성하는 기능 제공<br>텍스트 데이터의 피처 추출은 sklearn.feature_extraction.text 모듈에, 이미지 데이터의 추출은 sklearn.feature_extraction.image 모듈에 지원 API가 있음</td>
        </tr>
        <tr>
            <td>피처 처리 & 차원 축소</td>
            <td>sklearn.decomposition</td>
            <td>차원 축소와 관련한 알고리즘을 지원하는 모듈<br>PCA, NMF, Truncated SVD 등을 통해 차원 축소 기능을 수행</td>
        </tr>
        <tr>
            <td>데이터 분리, 검증 & 파라미터 튜닝</td>
            <td>sklearn.model_selection</td>
            <td>교차 검증을 위한 학습용/테스트용 분리, 그리드 서치(Grid Search)로 최적 파라미터 추출 등의 API 제공</td>
        </tr>
        <tr>
            <td>평가</td>
            <td>sklearn.metrics</td>
            <td>분류, 회귀, 클러스터링, 페어와이즈(Pairwise)에 대한 다양한 성능 측정 방법 제공<br>Accuracy, Precision, Recall, ROC-AUC, RMSE 등 제공</td>
        </tr>
        <tr>
            <td rowspan=7>ML 알고리즘</td>
            <td>sklearn.ensemble</td>
            <td>앙상블 알고리즘 제공<br>랜덤 포레스트, 에이다 부스트, 그래디언트 부스팅 등 제공</td>
        </tr>
        <tr>
            <td>sklearn.linear_model</td>
            <td>주로 선형 회귀, 릿지(Ridge), 라쏘(Lasso) 및 로지스틱 회귀 등 회귀 관련 알고리즘을 지원<br>또한 SGD(Stochastic Gradient Descent) 관련 알고리즘도 제공</td>
        </tr>
        <tr>
            <td>sklearn.naive_bayes</td>
            <td>나이브 베이즈 알고리즘(가우시안 NB, 다항 분포 NB 등) 제공</td>
        </tr>
        <tr>
            <td>sklearn.neighbors</td>
            <td>최근접 이웃 알고리즘(K-NN 등) 제공</td>
        </tr>
        <tr>
            <td>sklearn.svm</td>
            <td>서포트 벡터 머신 알고리즘 제공</td>
        </tr>
        <tr>
            <td>sklearn.tree</td>
            <td>의사 결정 트리 알고리즘 제공</td>
        </tr>
        <tr>
            <td>sklearn.cluster</td>
            <td>비지도 클러스터링 알고리즘(K-평균, 계층형, DBSCAN 등) 제공</td>
        </tr>
        <tr>
            <td>유틸리티</td>
            <td>sklearn.pipeline</td>
            <td>피처 처리 등의 변환과 ML 알고리즘 학습, 예측 등을 함께 묶어서 실행할 수 있는 유틸리티 제공</td>
        </tr>
    </tbody>
</table>

## 예제 데이터 세트

- 내장 예제 데이터 세트

<table>
    <thead>
        <tr>
            <th>용도</th>
            <th>API명</th>
            <th>설명</th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <td rowspan=4>분류</td>
            <td>datasets.load_breast_cancer()</td>
            <td>위스콘신 유방암 피처들과 악성/음성 레이블 데이터 세트</td>
        </tr>
        <tr>
            <td>datasets.load_digits()</td>
            <td>0에서 9까지 숫자의 이미지 픽셀 데이터 세트</td>
        </tr>
        <tr>
            <td>datasets.load_iris()</td>
            <td>붓꽃에 대한 피처를 가진 데이터 세트</td>
        </tr>
        <tr>
            <td>datasets.make_classifications()</td>
            <td>높은 상관도, 불필요한 속성 등의 노이즈 효과를 위한 데이터를 무작위로 생성</td>
        </tr>
        <tr>
            <td rowspan=2>회귀</td>
            <td>datasets.load_boston()</td>
            <td>미국 보스턴의 집 피처들과 가격에 대한 데이터 세트</td>
        </tr>
        <tr>
            <td>datasets.diabetes()</td>
            <td>당뇨 데이터 세트</td>
        </tr>
        <tr>
            <td>클러스터링</td>
            <td>datasets.make_blobs()</td>
            <td>군집 지정 개수에 따라 여러 가지 클러스터링을 위한 데이터 세트를 쉽게 생성</td>
        </tr>
    </tbody>
</table>
<br>

- 외장 예제 데이터 세트(fetch 명령어)

|API명|설명|
|:---|:---|
|datasets.fetch_covtype()|회귀 분석용 토지 조사 자료|
|datasets.fetch_20newsgroups()|뉴스 그룹 텍스트 자료|
|datasets.fetch_olivatti_faces()|얼굴 이미지 자료|
|datasets.fetch_lfw_people()|얼굴 이미지 자료|
|datasets.fetch_lfw_pairs()|얼굴 이미지 자료|
|datasets.fetch_rcv1()|로이터 뉴스 말뭉치|
|datasets.fetch_mldata()|ML 웹사이트에서 다운로드|
<br>

- 데이터 키(속성)

|키|설명|
|:---|:---|
|data|피처의 데이터 세트|
|target|분류 시 레이블값, 회귀일 때는 숫자 결과값 데이터 세트|
|target_names|개별 레이블의 이름|
|feature_names|피처의 이름|
|DESCR|데이터 세트에 대한 설명과 각 피처의 설명|

In [1]:
from sklearn.datasets import load_iris

iris_data = load_iris()
print(type(iris_data))

<class 'sklearn.utils.Bunch'>


In [2]:
keys = iris_data.keys()
print('붓꽃 데이터 세트의 키들 :', keys)

붓꽃 데이터 세트의 키들 : dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])


In [6]:
print('\nfeature_names의 type :', type(iris_data.feature_names))
print('feature_names의 shape :', len(iris_data.feature_names))
print(iris_data.feature_names)

print('\ntarget_names의 type :', type(iris_data.target_names))
print('target_names의 shape :', iris_data.target_names.shape)
print(iris_data.target_names)

print('\ndata의 type :', type(iris_data.data))
print('data의 shape :', iris_data.data.shape)
print(iris_data['data'])

print('\ntarget의 type :', type(iris_data.target))
print('target의 shape :', iris_data.target.shape)
print(iris_data.target)



feature_names의 type : <class 'list'>
feature_names의 shape : 4
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

target_names의 type : <class 'numpy.ndarray'>
target_names의 shape : (3,)
['setosa' 'versicolor' 'virginica']

data의 type : <class 'numpy.ndarray'>
data의 shape : (150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
