# 사이킷런의 기반 프레임워크 익히기

## Estimator 이해 및 fit(), predict() 메서드
1. fit() : ML 모델 학습
2. predict() : 학습된 모델의 예측
3. transform() : 데이터 차원 변환, 클러스터링, 피처 추출
4. fit_transform() : fit과 transform 결합

## 사이킷런의 주요 모듈

| 분류  | 모듈명 | 설명 |
| --- | --- | --- |
| 예제 데이터 | sklearn.datasets | 사이킷런에 내장되어 예제로 제공하는 데이터 세트 |
| 피처 처리 | sklearn.preprocessing | 데이터 전처리에 필요한 다양한 가공 기능 제공(문자열을 숫자형 코드 값으로 인코딩, 정규화, 스케일링 등) |
|  | sklearn.feature_selection | 알고리즘에 큰 영향을 미치는 피처를 우선순위대로 셀렉션 작업을 수행하는 다양한 기능 제공 |
|  | sklearn.feature_extraction | 텍스트 데이터나 이미지 데이터의 벡터화된 피처를 추출하는데 사용됨. |
|  |  | 예를 들어 텍스트 데이터에서 Count Vectorizer나 Tf-idf Vectorizer 등을 생성하는 기능 제공. 텍스트 데이터의 피처 추출은 sklearn.feature_extraction. text 모듈에 이미지 데이터의 피처 추출은 sklearn.feature_extraction.image 모듈에 지원 API가 있음.
| 피처 처리 & 차원 축소 | sklearn.decomposition | 차원 축소와 관련한 알고리즘을 지원하는 모듈임. PCA, NMF, Truncated SVD 등을 통해 차원 축소 기능을 수행할 수 있음 |
| 데이터 분리, 검증 & 파라미터 튜닝 | sklearn.model_selection | 교차 검증을 위한 학습용/테스트용 분리, 그리드 서치(Grid Search)로 최적 파라미터 추출 등의 API 제공 |
| 평가 | sklearn.metrics | 분류, 회귀, 클러스터링, 페어와이즈에 대한 다양한 성능 측정 방법 제공. Accuracy, Precision, Recall, ROC-AUC, RMSE 등 제공 |
| ML 알고리즘 | sklearn.ensemble | 앙상블 알고리즘 제공. 랜덤 포레스트, 에이다 부스트, 그래디언트 부스팅 등을 제공     |
|  | sklearn.linear_model | 주로 선형 회귀, 릿지, 라쏘 및 로지스틱 회귀 등 회귀 관련 알고리즘을 지원. 또한 SGD 관련 알고리즘도 제공 |
|  | sklearn.naive_bayes | 나이브 베이즈 알고리즘 제공. 가우시안 NB, 다항 분포 NB 등 |
|  | sklearn.neighbors | 최근접 이웃 알고리즘 제공. KNN 등 |
|  | sklearn.svm | 서포트 벡터 머신 알고리즘 제공 |
|  | sklearn.tree | 의사 결정 트리 알고리즘 제공 |
|  | sklearn.cluster | 비지도 클러스터링 알고리즘 제공 (K-Means, 계층형, DBSCAN 등) |
| 유틸리티 | sklearn.pipeline | 피처 처리 등의 변환과 ML 알고리즘 학습, 예측 등을 함께 묶어서 실행할 수 있는 유틸리티 제공 |

## 내장된 예제 데이터 세트

---
<center><b>회귀나 분류 연습용 예제 데이터</b></center>

| API명 | 용도 | 설명 |
| --- | --- | --- |
| datasets.load_boston() | 회귀 | 미국 보스턴의 집 피처들과 가격에 대한 데이터 세트 |
| datasets.load_breast_cancer() | 분류 | 위스콘신 유방암 피처들과 악성/음성 레이블 데이터 세트 |
| datasets.load_diabetes() | 회귀 | 당뇨 데이터 세트 |
| datasets.load_digits() | 분류 | 0에서 9까지 숫자의 이미지 픽셀 데이터 세트 |
| datasets.load_iris() | 분류 | 붓꽃에 대한 피처를 가진 데이터 세트 |

---
<center><b>분류와 클러스터링을 위한 표본 데이터 생성기</b></center>

| API명 | 용도 | 설명 |
| --- | --- | --- |
| datasets.make_classifications() | 분류 | 데이터 세트 만들기. 높은 상관도, 불필요한 속성 등의 노이즈 효과를 위한 데이터를 무작위로 생성 |
| datasets.make_blobs() | 클러스터링 | 데이터 세트 만들기. 군집 지정 개수에 따라 여러 가지 클로스터링을 위한 데이터 세트를 쉽게 생성 |

In [1]:
from sklearn.datasets import load_iris

In [2]:
iris_data = load_iris()
print(type(iris_data))

<class 'sklearn.utils.Bunch'>


In [3]:
keys = iris_data.keys()
print('붓꽃 데이터 세트의 키값 :', keys)

붓꽃 데이터 세트의 키값 : dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])


In [4]:
print('\nfeature_names의 type :', type(iris_data.feature_names))
print('feature_names의 shape :', len(iris_data.feature_names))
print(iris_data.feature_names)

print('\ntarget_names의 type :', type(iris_data.target_names))
print('target_names의 shape :', len(iris_data.target_names))
print(iris_data.target_names)

print('\ndata의 type :', type(iris_data.data))
print('data의 shape :', iris_data.data.shape)
print(iris_data['data'])

print('\ntarget의 type :', type(iris_data.target))
print('target의 shape :', iris_data.target.shape)
print(iris_data['target'])


feature_names의 type : <class 'list'>
feature_names의 shape : 4
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

target_names의 type : <class 'numpy.ndarray'>
target_names의 shape : 3
['setosa' 'versicolor' 'virginica']

data의 type : <class 'numpy.ndarray'>
data의 shape : (150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5