Source : 파이썬 머신러닝 완벽 가이드(권철민, 위키북스)

# scikit-learn의 기반 프레임워크

## Estimator

- **Supervised Learning(지도 학습)**  
1. Classification(분류)  
2. Regression(회귀)  


- **Estimator** : Supervised Learning(지도 학습)의 모든 알고리즘을 구현한 클래스를 통칭  
1. Classifier : scikit-learn에서 Classification(분류) 알고리즘을 구현한 클래스  
2. Regressor : scikit-learn에서 Regression(회귀) 알고리즘을 구현한 클래스  

이들 Classifier와 Regressor를 합쳐서 Estimator 클래스라고 부른다.  
Estimator 클래스는 내부에서 ML 모델 학습을 위해서 fit( )을, 학습된 모델의 예측을 위해서 predict( )를 구현한다.

- **Unsupervised Learning(비지도 학습)**  
1. Dimensionality Reduction(차원 축소)
2. Clustering
3. Feature Extraction

scikit-learn에서 비지도 학습의 알고리즘을 구현한 클래스는 fit( ), transform( )을 적용한다.  
- fit( ) : 지도학습에서처럼 '학습'을 의미하는 것이 아니라, 입력 데이터의 형태에 맞춰 데이터를 변환하기 위한 사전 구조를 맞추는 작업  
- transform( ) : fit( )으로 변환을 위한 사전 구조를 맞추면 이후 입력 데이터의 Dimensionality Reduction, Clustering, Feature Extraction 등의 실제 작업을 수행함 

## scikit-learn의 주요 모듈

- ML 모델을 구축하는 주요 프로세스  
1. Feature Processing : Feature의 가공, 변경, 추출을 수행하는 피처 처리  
2. ML Algorithms 학습/예측 수행  
3. Model Evaluation  
위 1~3단계를 반복적으로 수행한다.

scikit-learn 패키지는 머신러닝 모델을 구축하는 주요 프로세스를 지원하기 위해 편리하고 다양하며 유연한 모듈을 지원한다.


분류|모듈명|설명
----------|----------|----------
예제 데이터|sklearn.datasets|scikit-learn에 내장되어 예제로 제공하는 Datasets
||
피처 처리|sklearn.preprocessing|데이터 전처리에 필요한 다양한 가공 기능 제공(문자열을 숫자형 코드 값으로 인코딩, 정규화, 스케일링 등)
|sklearn.feature_selection|알고리즘에 큰 영향을 미치는 피처를 우선순위대로 셀렉션 작업을 수행하는 다양한 기능 제공
|sklearn.feature_extraction|text나 image 데이터의 벡터화된 피처를 추출하는 데 사용됨
||
피처 처리 & 차원 축소|sklearn.decomposition|차원 축소와 관련한 알고리즘을 지원하는 모듈, PCA, NMF, Truncated SVD 등을 통해 차원 축소 기능을 수행
||
데이터 분리, 검증 & 파라미터 튜닝|sklearn.model_selection|교차 검증을 위한 학습용/테스트용 분리, GridSearch로 최적 파라미터 추출 등의 API 제공
||
평가|sklearn.metrics|분류, 회귀, 클러스터링, 페어와이즈에 대한 다양한 성능 측정 방법 제공 (Accuracy, Precision, Recall, ROC-AUC, RMSE 등)
||
ML Algorithms|sklearn.ensemble|Ensemble 알고리즘 제공, Random Forest, AdaBoost, Gradient Boosting
|sklearn.linear_model|주로 선형 회귀, Ridge, Lasso 및 로지스틱 회귀 등 회귀 관련 알고리즘을 지원, SGD 관련 알고리즘도 지원
|sklearn.naive_bayes|Naive Bayes 알고리즘 제공, Gaussian NB, Multinomial NB 등
|sklearn.neighbors|K-Nearest Neighbor(K-NN, 최근접 이웃) 알고리즘 제공
|sklearn.svm|SVM(Support Vector Machine) 알고리즘 제공
|sklearn.tree|Decision Tree(의사 결정 트리) 알고리즘 제공
|sklearn.cluster|Unsupervised Clustering 알고리즘 제공(K-Means, 계층형, DBSCAN 등)
||
Utility|sklearn.pipeline|피처 처리 등의 변환과 ML 알고리즘 학습, 예측 등을 함께 묶어서 실행할 수 있는 유틸리티 제공