# scikit-learn

https://scikit-learn.org/stable/api/index.html

## 01.주요모듈

| 분류              | 모듈명                        | 설명                                                                                  |
|-------------------|-------------------------------|---------------------------------------------------------------------------------------|
| 예제데이터         | `sklearn.datasets`             | 사이킷런에 내장되어 예제로 제공하는 데이터세트                                        |
| 데이터분리, 검증 & 파라미터 튜닝 | `sklearn.model_selection`       | 교차검증을 위한 학습용/테스트용 분리, 그리드 서치(GridSearch)로 최적 파라미터 추출 등의 API 제공 |
| 피처처리          | `sklearn.preprocessing`        | 데이터 전처리에 필요한 다양한 가공 기능 제공 (문자열을 숫자형 코드값으로 인코딩, 정규화, 스케일링 등) |
|                   | `sklearn.feature_selection`    | 알고리즘에 큰 영향을 미치는 피처를 우선순위대로 셀렉션 작업을 수행하는 다양한 기능 제공         |
|                   | `sklearn.feature_extraction`   | 텍스트 데이터나 이미지 데이터의 벡터화된 피처를 추출하는데 사용됨. 텍스트 데이터에서 CountVectorizer나 TfidfVectorizer 등을 생성하는 기능 제공 |
| 피처처리 & 차원 축소 | `sklearn.decomposition`       | 차원축소와 관련한 알고리즘을 지원하는 모듈. PCA, NMF, TruncatedSVD 등을 통해 차원축소 기능을 수행할 수 있음 |
| 평가              | `sklearn.metrics`              | 분류, 회귀, 클러스터링, 페어와이즈(Pairwise)에 대한 다양한 성능 측정 방법 제공 (Accuracy, Precision, Recall, ROC-AUC, RMSE 등) |
| ML 알고리즘        | `sklearn.ensemble`             | 앙상블 알고리즘 제공 (랜덤포레스트, 에이다부스트, 그래디언트 부스팅 등 제공)                    |
|                   | `sklearn.linear_model`         | 주로 선형회귀, 릿지(Ridge), 라쏘(Lasso) 및 로지스틱 회귀 등 회귀 관련 알고리즘을 지원. 또한 SGD(Stochastic Gradient Descent) 관련 알고리즘도 제공 |
|                   | `sklearn.naive_bayes`          | 나이브 베이즈 알고리즘 제공. 가우시안NB, 다항 분포NB 등.                                         |
|                   | `sklearn.neighbors`            | 최근접 이웃 알고리즘 제공. K-NN 등                                                      |
|                   | `sklearn.svm`                  | 서포트 벡터 머신 알고리즘 제공                                                        |
|                   | `sklearn.tree`                 | 의사 결정 트리 알고리즘 제공                                                          |
|                   | `sklearn.cluster`              | 비지도 클러스터링 알고리즘 제공 (K-평균, 계층형, DBSCAN 등)                              |
| 유틸리티           | `sklearn.pipeline`             | 피처처리 등의 변환과 ML 알고리즘 학습, 예측 등을 함께 묶어서 실행할 수 있는 유틸리티 제공           |


## 02.모델 클래스구분



**BaseEstimator**
- 학습 fit()
- 예측 predict()
- 평가 score()

**분류 Classifier**

- DecisionTreeClassifier
- RandomForestClassifier
- GradientBoostingClassifer
- GaussianNB
- SVC

**회귀 Regressor**
- LinearRegression
- Ridge
- Lasso
- RandomForestRegressor
- GradientBoostingRegressor

### 부모클래스 구분

1. **BaseEstimator**:
   - 모든 scikit-learn 모델 클래스의 최상위 부모 클래스이다. 모델이 기본적으로 상속받아야 할 공통 메서드를 제공한다. 예를 들어, `get_params()`와 `set_params()` 메서드를 제공하여 파라미터 설정 및 조회가 가능하다.

2. **ClassifierMixin**:
   - 분류 알고리즘에 공통적으로 적용되는 메서드를 제공한다. 분류 모델은 이 클래스를 상속받으며, `score()` 메서드를 통해 정확도(accuracy)를 계산할 수 있다.

3. **RegressorMixin**:
   - 회귀 알고리즘에 공통적으로 적용되는 메서드를 제공한다. 회귀 모델은 이 클래스를 상속받으며, `score()` 메서드를 통해 결정계수(coefficient of determination, R^2)를 계산할 수 있다.

4. **ClusterMixin**:
   - 군집 알고리즘에 공통적으로 적용되는 메서드를 제공한다. 군집 모델은 이 클래스를 상속받으며, `fit_predict()` 메서드를 사용하여 클러스터 할당을 바로 얻을 수 있다.

5. **TransformerMixin**:
   - 변환(transform) 모델에 공통적으로 적용되는 메서드를 제공한다. 주로 데이터 전처리나 차원 축소에 사용되며, `fit_transform()` 메서드를 제공하여 학습과 동시에 변환 작업을 수행할 수 있다.

### 주요 알고리즘 계층구조

1. **LinearModel** (선형 모델 계열):
   - `LinearRegression`, `LogisticRegression` 등 선형 회귀나 분류 알고리즘이 이 계열에 속한다.

2. **Tree-Based Models** (트리 기반 모델 계열):
   - `DecisionTreeClassifier`, `RandomForestClassifier`, `GradientBoostingClassifier` 등 트리 기반의 알고리즘이 이 계열에 속한다.

3. **SVM (Support Vector Machines)**:
   - `SVC`, `SVR` 등 서포트 벡터 머신(SVM) 알고리즘이 속한다.

4. **Ensemble Models** (앙상블 모델 계열):
   - `RandomForestClassifier`, `BaggingClassifier`, `AdaBoostClassifier` 등 여러 모델을 결합하여 성능을 향상시키는 앙상블 알고리즘이 이 계열에 속한다.

5. **Neighbors**:
   - `KNeighborsClassifier`, `KNeighborsRegressor`와 같은 최근접 이웃 알고리즘이 이 계열에 속한다.

6. **Naive Bayes**:
   - `GaussianNB`, `MultinomialNB` 등 나이브 베이즈 알고리즘이 속한다.


![](https://scikit-learn.org/1.3/_static/ml_map.png)
## 03.Datasets
`scikit-learn`에서 제공하는 데이터셋은 크게 장난감 데이터셋, 실제 데이터셋, 생성된 데이터셋으로 구분할 수 있다.

### **토이 데이터셋 (작고 간단한 데이터셋)**
이 데이터셋들은 메모리에 쉽게 로드할 수 있는 소규모 데이터셋이다.

- **Iris (아이리스)**: 꽃의 품종을 분류하는 데이터셋 (3개의 품종, 4개의 특징).
  - `from sklearn.datasets import load_iris`

- **Digits (숫자)**: 손으로 쓴 숫자의 이미지를 분류하는 데이터셋 (8x8 이미지의 숫자).
  - `from sklearn.datasets import load_digits`

- **Wine (와인)**: 와인의 품종을 분류하는 데이터셋.
  - `from sklearn.datasets import load_wine`

- **Breast Cancer (유방암)**: 유방암 진단을 위한 분류 데이터셋.
  - `from sklearn.datasets import load_breast_cancer`

### **실제 데이터셋**
이 데이터셋들은 다운로드 받아서 사용할 수 있으며, 더 큰 규모의 문제를 해결하는 데 적합하다.

- **Boston Housing (보스턴 주택 가격, 사용 중단됨)**: 주택 가격 예측을 위한 회귀 데이터셋 (권장되지 않음).

- **California Housing (캘리포니아 주택 가격)**: 캘리포니아 주택 가격 예측을 위한 회귀 데이터셋.
  - `from sklearn.datasets import fetch_california_housing`

- **Linnerud (린너러드)**: 운동 데이터와 신체 측정값 간의 다변량 회귀 문제.
  - `from sklearn.datasets import load_linnerud`

- **Diabetes (당뇨병)**: 당뇨병 진행 정도를 예측하는 회귀 데이터셋.
  - `from sklearn.datasets import load_diabetes`

- **20 Newsgroups (20개의 뉴스 그룹)**: 텍스트 분류를 위한 뉴스 그룹 데이터셋.
  - `from sklearn.datasets import fetch_20newsgroups`

- **Olivetti Faces (올리베티 얼굴)**: 얼굴 인식을 위한 이미지 데이터셋.
  - `from sklearn.datasets import fetch_olivetti_faces`

- **RCV1**: Reuters Corpus Volume I 텍스트 분류 데이터셋.
  - `from sklearn.datasets import fetch_rcv1`

### **데이터셋 생성**
이 데이터셋들은 `scikit-learn`의 함수로 임의로 생성할 수 있는 데이터셋이다.

- **make_classification**: 랜덤하게 n개의 클래스를 가진 분류 문제를 생성한다.
  - `from sklearn.datasets import make_classification`

- **make_regression**: 랜덤하게 회귀 문제를 생성한다.
  - `from sklearn.datasets import make_regression`

- **make_blobs**: 클러스터링을 위한 등방성 가우시안 블롭을 생성한다.
  - `from sklearn.datasets import make_blobs`

- **make_circles**: 이진 분류를 위한 큰 원 안에 작은 원을 포함하는 데이터셋을 생성한다.
  - `from sklearn.datasets import make_circles`

- **make_moons**: 두 개의 반달 모양으로 겹쳐진 데이터셋을 생성한다.
  - `from sklearn.datasets import make_moons`
