# scikit-learn
- 파이썬이 제공하는 기계학습 라이브러리
- numpy, scipy 패키지에 의존
https://scikit-learn.org/stable/api/index.html

In [1]:
%pip install scikit-learn

Collecting scikit-learn
  Downloading scikit_learn-1.7.2-cp311-cp311-win_amd64.whl.metadata (11 kB)
Collecting scipy>=1.8.0 (from scikit-learn)
  Downloading scipy-1.16.2-cp311-cp311-win_amd64.whl.metadata (60 kB)
Collecting joblib>=1.2.0 (from scikit-learn)
  Downloading joblib-1.5.2-py3-none-any.whl.metadata (5.6 kB)
Collecting threadpoolctl>=3.1.0 (from scikit-learn)
  Downloading threadpoolctl-3.6.0-py3-none-any.whl.metadata (13 kB)
Downloading scikit_learn-1.7.2-cp311-cp311-win_amd64.whl (8.9 MB)
   ---------------------------------------- 0.0/8.9 MB ? eta -:--:--
   ---- ----------------------------------- 1.0/8.9 MB 25.4 MB/s eta 0:00:01
   -------------- ------------------------- 3.1/8.9 MB 8.8 MB/s eta 0:00:01
   --------------------------------- ------ 7.3/8.9 MB 11.6 MB/s eta 0:00:01
   ---------------------------------------- 8.9/8.9 MB 12.0 MB/s  0:00:00
Downloading joblib-1.5.2-py3-none-any.whl (308 kB)
Downloading scipy-1.16.2-cp311-cp311-win_amd64.whl (38.7 MB)
   -----

### 주요 모듈 

| 분류              | 모듈명                        | 설명                                                                                  |
|-------------------|-------------------------------|---------------------------------------------------------------------------------------|
| 예제데이터         | `sklearn.datasets`             | 사이킷런에 내장되어 예제로 제공하는 데이터셋                                        |
| 데이터분리, 검증 및 파라미터 튜닝 | `sklearn.model_selection`       | 교차검증을 위한 학습용/테스트 데이터 분리, 그리드 서치(GridSearch)로 최적 파라미터 추출 등의 API 제공 |
| feature 처리          | `sklearn.preprocessing`        | 데이터 전처리에 필요한 다양한 가공 기능 제공 (문자열을 숫자형 코드값으로 인코딩, 정규화, 스케일링 등) |
|                   | `sklearn.feature_selection`    | 알고리즘에 큰 영향을 미치는 피처를 우선순위대로 셀렉션 작업을 수행하는 다양한 기능 제공         |
|                   | `sklearn.feature_extraction`   | 텍스트 데이터나 이미지 데이터의 벡터화된 피처를 추출하는데 사용 / 텍스트 데이터에서 CountVectorizer나 TfidfVectorizer 등을 생성하는 기능 제공 |
| 차원 축소 | `sklearn.decomposition`       | 차원축소와 관련한 알고리즘을 지원하는 모듈 (PCA, NMF, TruncatedSVD 등을 통해 차원축소 기능 수행 가능) |
| 평가              | `sklearn.metrics`              | 분류, 회귀, 클러스터링, 페어와이즈(Pairwise)에 대한 다양한 성능 측정 방법 제공 (Accuracy, Precision, Recall, ROC-AUC, RMSE 등) |
| ML 알고리즘        | `sklearn.ensemble`             | 앙상블 알고리즘 제공 (랜덤포레스트, 에이다부스트, 그래디언트 부스팅 등 제공)                    |
|                   | `sklearn.linear_model`         | 주로 선형회귀, 릿지(Ridge), 라쏘(Lasso) 및 로지스틱 회귀 등 회귀 관련 알고리즘 지원 / 또한 SGD(Stochastic Gradient Descent) 관련 알고리즘도 제공 |
|                   | `sklearn.naive_bayes`          | 나이브 베이즈 알고리즘 제공 (가우시안NB, 다항 분포NB 등)                                         |
|                   | `sklearn.neighbors`            | 최근접 이웃 알고리즘 제 (K-NN 등)                                                      |
|                   | `sklearn.svm`                  | 서포트 벡터 머신 알고리즘 제공                                                        |
|                   | `sklearn.tree`                 | 의사 결정 트리 알고리즘 제공                                                          |
|                   | `sklearn.cluster`              | 비지도 클러스터링 알고리즘 제공 (K-평균, 계층형, DBSCAN 등)                              |
| 유틸리티           | `sklearn.pipeline`             | feature 처리 등의 변환과 ML 알고리즘 학습/예측 등을 함께 묶어서 실행할 수 있는 유틸리티 제공           |

### 1. `fit()` (학습)
- 모델에게 **'문제(데이터)'**와 **'정답(레이블)'**을 알려주며 패턴과 규칙을 배우게 하는 과정입니다.
- 학생에게 **문제집(X_train)**과 **정답지(y_train)**를 주고 "이걸 보고 공부해!"라고 시키는 것과 같습니다.

**사용법 (형태):**
```Python
model.fit(X_train, y_train)
```
**파라미터:**
- X_train: 훈련용 데이터 (문제지)
- y_train: 훈련용 레이블 (정답지)
---


### 2. `predict()` (예측)
- 학습이 완료된 모델에게 **'새로운 문제'**를 주어 '정답이 뭘 것 같은지' 물어보는 과정입니다.
- 공부를 마친 학생에게 정답지가 없는 **새로운 시험지(X_test)**를 주고 "한번 풀어봐!"라고 시키는 것과 같습니다.
**사용법 (형태):**
```Python
predictions = model.predict(X_test)
```
**파라미터:**
- X_test: 예측하려는 새로운 데이터 (새 시험지)

**반환값 (Return):**
- predictions: 모델이 예측한 값의 배열 (학생이 제출한 답안지)
---

### 3. `score()` (평가)
- 모델이 얼마나 잘 예측하는지 성능을 점수로 확인하는 과정입니다.
- 학생이 푼 시험지(X_test에 대한 예측값)와 **실제 정답지(y_test)**를 비교하며 채점하는 것과 같습니다.

**사용법 (형태):**
```Python
accuracy_or_r2 = model.score(X_test, y_test)
```
**파라미터:**
- X_test: 평가용 데이터 (시험지)
- y_test: 평가용 레이블 (실제 정답지)

**반환값 (Return):**
- accuracy_or_r2: 모델의 성능 점수.
- 분류 (Classification): 보통 정확도(Accuracy) (0.0 ~ 1.0)
- 회귀 (Regression): 보통 결정계수(R²) (1.0에 가까울수록 좋음)