# Day 1 · 01_intro — 머신러닝 첫걸음 & scikit-learn 소개
**오늘의 목표**
- 머신러닝이 *무엇*이고 *왜* 필요한지 감 잡기
- scikit-learn을 쓸 준비(일관된 API 구도)

## 머신러닝이란?
사람이 규칙을 직접 코딩하지 않고, **데이터로부터 규칙을 학습해** 새로운 데이터를 예측/분류하는 방법입니다.

- 규칙 프로그래밍: `"제목에 '광고' 포함 → 스팸"` 처럼 사람이 규칙을 작성
- 머신러닝: 과거 수십만 건의 메일 데이터를 보고 **스스로** 스팸 패턴을 학습


## 머신러닝의 주요 종류
1) **지도학습(Supervised)** — 정답(y)이 있음
   - **분류**: 스팸/정상, 양성/음성 (라벨 예측)
   - **회귀**: 집값/매출/보험료 (숫자 예측)
2) **비지도학습(Unsupervised)** — 정답 없음
   - **군집화**: 고객 세그멘테이션
   - **차원축소**: 시각화/압축(PCA 등)
3) **강화학습(Reinforcement)** — 보상 기반 의사결정(게임/로보틱스)


## 용어 정리
- **Feature(특성, X)**: 모델이 입력으로 받는 정보(예: 키, 나이, 요금).
- **Label/Target(정답, y)**: 모델이 맞추려는 값(예: 생존 여부, 암 양성/음성).
- **Estimator(추정기)**: `fit/predict`를 제공하는 모델/전처리기(예: LogisticRegression, StandardScaler).
- **Transformer(변환기)**: `fit/transform`으로 데이터를 바꾸는 전처리기(예: StandardScaler, OneHotEncoder).
- **Pipeline**: 전처리 + 모델을 한 줄로 묶어 “훈련에만 fit, 시험엔 transform”을 자동으로 지키게 하는 래퍼.
- **Metric(평가지표)**: 성능을 숫자로 표현(분류: Accuracy/F1/ROC-AUC, 회귀: RMSE/MAE/R²).

## 생활 속 사례
- 스팸메일 필터
- 추천 시스템(넷플릭스/유튜브)
- 질병 진단 보조(당뇨/암)
- 자율주행 인식

메시지: *여러분은 이미 매일 ML을 사용하고 있습니다.*

## 머신러닝 프로젝트 흐름
1. **데이터 준비**
2. **학습/시험 데이터 분리** *(Train/Test)*
3. **모델 학습** `fit(X_train, y_train)`
4. **예측** `predict(X_test)`
5. **평가** *(metrics: 분류=정확도/F1/ROC 등, 회귀=MAE/RMSE/R²)*
6. **개선** *(튜닝, 전처리, 더 나은 모델)*

> **비유**: 같은 문제로 공부하고 같은 문제로 시험 보면 **성적이 뻥튀기**됩니다.
> 그래서 **Train/Test**를 나눠 *처음 보는 문제*로 실력을 확인합니다.

## scikit-learn 이란?
파이썬의 **머신러닝 표준 라이브러리**(2007 시작). 교육/실무 모두에서 가장 널리 쓰입니다.

- **일관된 API(사용방법)**: `fit → predict → score` (모델이 달라도 동일한 사용법)
- 알고리즘(분류/회귀/군집화), **전처리**, **모델 선택(CV/GridSearch)**, **평가 지표**까지 원스톱
- 문서/예제가 풍부하고 커뮤니티가 큼

**오늘 외워갈 한 줄**: *모델을 바꿔도 `fit→predict→score` 패턴은 같다!*

## 환경/버전 확인
아래 셀을 실행해 현재 환경 버전을 기록해 둡니다.

In [3]:
import sklearn, numpy as np, pandas as pd
import matplotlib, seaborn, plotly
import graphviz

print(f'sklearn: {sklearn.__version__}')
print(f'numpy: {np.__version__}')
print(f'pandas: {pd.__version__}')
print(f'matplotlib: {matplotlib.__version__}')
print(f'seaborn: {seaborn.__version__}')
print(f'plotly: {plotly.__version__}')
# print(f'graphviz: {graphviz.__version__}')

sklearn: 1.7.2
numpy: 2.3.3
pandas: 2.3.2
matplotlib: 3.10.6
seaborn: 0.13.2
plotly: 6.3.0
graphviz: 0.21


## 한 장 요약(오늘 이것만 기억)
1) ML = 코딩이 아니라 **데이터로 규칙을 학습**
2) 모든 모델은 **`fit → predict → score`**
3) **Train/Test**를 나눠야 성적이 뻥튀기되지 않음
4) 전처리는 **훈련에만 fit**, 시험엔 transform → **Pipeline**
5) 분류는 **Accuracy+F1/ROC-AUC**, 회귀는 **RMSE/MAE/R²**
6) 실무는 **교차검증(K-Fold)**으로 평균 성능을 본다