<a href="https://colab.research.google.com/github/PyBlin/Study/blob/main/PyML/Chap2_3_sklearnFramework.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 3.사이킷런 기반 프레임워크 익히기

## 3.1 Estimator 이해 및 fit(), predict() 메서드

* Estimator : 지도학습의 모든 알고리즘을 구현한 클래스
    * Classifier : 분류 알고리즘을 구현한 클래스
        * Decision Tree Classifier
        * Random Forest Classifier
        * Gradient Boosting Classifier
        * Gaussian NB
        * SVC
    * Regressor : 회귀 알고리즘을 구현한 클래스
        * Linear Regression
        * Ridge
        * Lasso
        * Random Forest Regressor
        * Gradient Boosting Regressosr

* 지도학습
    * `fit()` : 학습
    * `predict()` : 예측

* 비지도학습
    * `fit()` : 입력 데이터의 형태에 맞춰 데이터 변환
    * `transform()` : 차원변환, 클러스터링, 피처 추출 등의 실제 작업

In [1]:
# fit_transform() = fit() + transform()

## 3.2 사이킷런의 주요 모듈

* 예제 데이터
    * `sklearn.datasets` : 예제 데이터셋

* 피처 처리
    * `sklearn.preprocessing` : 전처리에 필요한 다양한 기능 제공
    * `sklearn.feature_selection` : 피처를 우선순위대로 선택하는 다양한 기능 제공
    * `sklearn.feature_extraction` : 텍스트/이미지 데이터의 벡터화된 피처를 추출
        - `sklearn.feature_extraction.text`
        - `sklearn.feature_extraction.image`

* 피처 처리 & 차원 축소
    * `sklearn.decomposition` : 차원 축소와 관련한 알고리즘을 지원

* 데이터 분리, 검증 & 파라미터 튜닝
    * `sklearn.model_selection` : 교차 검증을 위한 학습용/테스트용 분리
        - Grid Search로 최적 파라미터 추출 등의 API 제공

* 평가
    * `sklearn.metrics` : 분류, 회귀, clustering, pairwise에 대한 다양한 성능 측정 방법 제공
        - Accuracy, Precision, Recall, ROC-AUC, RMSE 등 제공

* ML 알고리즘
    * `sklearn.ensemble` : 앙상블 알고리즘 제공
        - Random Forest, Ada Boost, Gradient Boost 등을 제공
    * `sklearn.linear_model` : 회귀 및 SGD(경사하강법) 관련 알고리즘을 지원
    * `sklearn.naive_bayes` : 나이브 베이즈 알고리즘 제공
        - 가우시안 NB, 다항분포 NB 등
    * `sklearn.neighbors` : 최근접 이웃 알고리즘 (K-NN) 제공
    * `sklearn.svm` : Support Vector Machine 알고리즘 제공
    * `sklearn.tree` : Decision(의사결정) Tree 알고리즘 제공
    * `sklearn.cluster` : 비지도 클러스터링 알고리즘 제공
        - K-평균, 계층형, DBSCAN 등

* 유틸리티
    * `sklearn.pipeline` : 피처 처리 등의 변환과 ML 알고리즘 학습, 예측 등을 함께 묶어서 실행할 수 있는 유틸리티 제공

In [2]:
# ML model process

"""
1. 피처 처리 (가공, 변경, 추출)
2. ML 알고리즘 학습/예측
3. 모델 평가
"""

'\n1. 피처 처리 (가공, 변경, 추출)\n2. ML 알고리즘 학습/예측\n3. 모델 평가\n'

## 3.3 내장된 예제 데이터 세트

* 분류 or 회귀 연습용 예제 데이터셋 (dictionary 형태)
    * `datasets.load_boston()` : 회귀용, 보스턴 집 데이터셋
    * `datasets.load_breast_cancer()` : 분류용, 위스콘신 유방암 데이터셋
    * `datasets.load_diabetes()` : 회귀용, 당뇨 데이터셋
    * `datasets.load_digits()` : 분류용, 0 ~ 9 숫자 이미지 픽셀 데이터셋
    * `datasets.load_iris()` : 분류용, 붓꽃 데이터셋

* 분류 and 클러스터링 표본 데이터 생성기
    * `datasets.make_classifications()` : 분류용 데이터셋 만들기
        - 높은 상관도, 불필요한 속성 등의 노이즈 효과를 위한 데이터를 무작위로 생성
    * `datasets.make_blobs()` : 클러스터링 데이터셋 만들기 (random)
        - 군집 지정 갯수에 따라 여러 가지 클러스터링을 위한 데이터셋을 쉽게 생성

* fetch 계열 데이터 : 데이터 크기가 너무 커서 인터넷 다운로드 필요
    - 서브 디렉터리 scikit_learn_data에 저장한 후 추후 불러들이는 데이터.
        - `fetch_covtype()` : 회귀 분석용 토지 조사 자료
        - `fetch_20newsgroups()` : 뉴스 그룹 텍스트 자료
        - `fetch_olivetti_faces()` : 얼굴 이미지 자료
        - `fetch_lfw_people()` : 얼굴 이미지 자료
        - `fetch_lfw_pairs()` : 얼굴 이미지 자료
        - `fetch_rcv1()` : 로이터 뉴스 말뭉치
        - `fetch_mldata()` : ML 웹사이트에서 다운로드

In [3]:
from sklearn.datasets import load_iris

iris_data = load_iris()
print(type(iris_data))

# key 값 확인
keys = iris_data.keys()
print(f'\niris data set keys : {keys}')

<class 'sklearn.utils.Bunch'>

iris data set keys : dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])


In [4]:
print(f"\nfeature_names's type : {type(iris_data.feature_names)}")
print(f"feature_names's shape : {len(iris_data.feature_names)}")
print(iris_data.feature_names)

print(f"\ntarget_names's type : {type(iris_data.target_names)}")
print(f"target_names's shape : {len(iris_data.target_names)}")
print(iris_data.target_names)

print(f"\ndata's type : {type(iris_data.data)}")
print(f"data's shape : {iris_data.data.shape}")
print(iris_data['data'][:5])

print(f"\ntarget's type : {type(iris_data.target)}")
print(f"target's shape : {iris_data.target.shape}")
print(iris_data.target)


feature_names's type : <class 'list'>
feature_names's shape : 4
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

target_names's type : <class 'numpy.ndarray'>
target_names's shape : 3
['setosa' 'versicolor' 'virginica']

data's type : <class 'numpy.ndarray'>
data's shape : (150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]]

target's type : <class 'numpy.ndarray'>
target's shape : (150,)
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
