# 머신러닝 개론


## 오늘의 공부 요약
1. 머신러닝: 코딩이 아니닌 데이터로 규칙을 학습해 예측/분류 하는 것이다.
2. 모든 모델은 **`fit → predict → score`** 과정을 거친다.
3. **Train/Test**를 나눠야 제대로된 성능을 발휘한다.
4. 전처리는 **훈련에만 fit**, 시험엔 transform → **Pipeline**
5. 분류는 **Accuracy+F1/ROC-AUC**, 회귀는 **RMSE/MAE/R²** 을 사용한다.
6. 앞으로 계속 나올 기본 용어를 정리할수 있다.

## 간단히 짚고 넘어가기: 데이터란?
데이터란 사람이 눈으로 본 사실, 기계가 센서로 측정한 수치, 서비스에 쌓인 로그처럼 "쌓인 정보"를 의미한다.

- 예시
    - 쇼핑몰: (구매금액, 구매시간, 카테고리)
    - 병원: (혈당, BMI, 나이, 진단결과)
    - 게임: (플레이시간, 승률, 과금여부)

머신러닝에선 보통 데이터를 표 형태로 생각한다. 행(row)=대상 1개, 열(column)=설명 변수 1개다.
| 문제    | X(입력)          | y(정답)  |
| ----- | -------------- | ------ |
| 스팸 분류 | 제목, 본문, 발신자 특징 | 스팸/정상  |
| 집값 예측 | 면적, 방 수, 거리    | 가격(숫자) |
> X는 (입력 컬럼들)이고, y는 (맞출 컬럼)이다.

### 데이터의 다양한 종류(정형/반정형/비정형)
데이터는 총 3가지의 종류가 존재한다.

- 정형 데이터: 열과 행이 고정된 데이터 : 학생(학번, 학년, 성적)
- 반정형 데이터: 구조는 있지만 필드가 매번 다를 수 있는 데이터 : 웹 로그(JSON)
- 비정형 데이터: 텍스트, 이미지, 음성처럼 표로 바로 안 잡히는 데이터 : 리뷰 문장, 사진, 음성 파일

> 정형은 표로 딱 정리됨, 반정형은 규칙은 있으나 들쭉날쭉, 비정형은 형태가 자유롭다.

### 중요 포인트: 모든 데이터는 숫자가 되어야 한다.
이러니 저러니 해도 머신러닝은 기계고, 계산기다. 즉, 계산을 하기 위해선 데이터가 숫자여야 하고,\
문자데이터를 숫자로 변환하는 과정이 바로 **전처리**다.


## 1. 머신러닝이란?
사람이 규칙을 직접 코딩하지 않고, **데이터로부터 규칙을 학습해** 새로운 데이터를 예측/분류하는 방법이다.


간단히 선형 모델로 설명하면,\
H(x) = w x + b\
w: 영향력(가중치), b: 기준점(편향/절편)\

선형 모델 H(x)는 "입력 넣으면 예측을 뱉는 함수"다.\
머신러닝은 데이터를 학습하고  w, b를 바꿔서 예측이 덜 틀리게 만드는 과정이다.

예시: 공부시간(x)으로 점수(y)를 예측\
x가 늘수록 점수가 오르는 방향의 w를 찾는 게 목표가 된다.


## 2. 학습의 핵심: 손실함수와 경사하강법
손실함수(loss function)는 "틀림을 채점하는 규칙"이다.\
MSE: 큰 실수를 더 세게 벌준다.\
MAE: 실수를 비슷하게 벌준다.\

경사하강법은 기울기(gradient)를 보고 **내리막**으로 이동한다.

예시: 예측이 크게 한 번 틀렸을 때\
MSE는 그 한 번을 크게 벌주고,\
MAE는 상대적으로 덜 과격하게 반응한다.


## 3. 문제 유형 3가지(회귀/분류/군집)
- 회귀: y가 숫자다("얼마?").
- 분류: y가 범주다("무슨 종류?").
- 군집: 정답 없이 비슷한 것끼리 묶는다.

예시: 붓꽃(Iris) 품종 맞히기\
입력(X)은 꽃잎/꽃받침 길이·너비, 출력(y)은 품종(범주)이다.

| 유형                 | 입력(X) | 출력(y)       | 핵심 질문     | 한 줄 설명                      |
| ------------------ | ----- | ----------- | --------- | --------------------------- |
| 회귀(Regression)     | 특징    | 숫자          | “얼마?”     | 연속값을 예측한다(집값, 매출)           |
| 분류(Classification) | 특징    | 범주 또는 확률    | “무엇?”     | 클래스(0/1/여러 범주)를 맞춘다(스팸, 질병) |
| 군집(Clustering)     | 특징    | 그룹ID(정답 없음) | “누가 비슷해?” | 정답 없이 비슷한 것끼리 묶는다(고객 세그먼트)  |

## 4. 학습 방식: 지도/비지도/강화

1) **지도학습(Supervised)** — 정답(y)이 있는 데이터로 규칙을 학습해 새 데이터의 y를 예측한다.
    - 모델은 X→y 관계를 배우고, 처음 보는 X에도 y를 맞히려 한다.
    - **분류**: 스팸/정상, 양성/음성 (라벨 예측)
    - **회귀**: 집값/매출/보험료 (숫자 예측)


2) **비지도학습(Unsupervised)** — 정답(y)이 없다. 대신 X만 보고 데이터 구조/패턴을 찾는다.
    - 데이터 구조/패턴을 찾는다.
    - **군집화**: 고객 세그멘테이션
    - **차원축소**: 시각화/압축(PCA 등)

3) **강화학습(Reinforcement)** — 정답이 데이터로 주어지는 게 아니라, 행동의 결과로 보상(점수)을 받으며 학습한다.
    - 행동을 해보고 보상을 최대화하는 문제다.


| 구분        | 지도학습  | 비지도학습   | 강화학습    |
| --------- | ----- | ------- | ------- |
| 정답(label) | 있음    | 없음      | 없음(보상만) |
| 목표        | 예측/분류 | 구조/그룹   | 최적 행동   |
| 예시        | 스팸/집값 | 군집/차원축소 | 게임 AI   |

## 5. 머신러닝은 어떻게 흘러가나?
1. **데이터 준비**
2. **학습/시험 데이터 분리** *(Train/Test)*
3. **모델 학습** `fit(X_train, y_train)`
4. **예측** `predict(X_test)`
5. **평가** *(metrics: 분류=정확도/F1/ROC 등, 회귀=MAE/RMSE/R²)*
6. **개선** *(튜닝, 전처리, 더 나은 모델)*

### 왜 train/test 분리가 필수인가
같은 데이터로 학습하고 같은 데이터로 평가하면, 실력이 아니라 암기 성능을 볼 위험이 크다.\
그래서 train으로 학습하고, test로 성능을 평가한다.


## 6. scikit-learn 이란?
파이썬의 **머신러닝 표준 라이브러리**(2007 시작). 교육/실무 모두에서 가장 널리 쓰이고 있다.

- 장점/강점
    - **일관된 API(사용방법)**: `fit → predict → score` (모델이 달라도 동일한 사용법, 때문에 모델만 바꿔 다양한 학습이 가능하다.)
    - 알고리즘(분류/회귀/군집화), **전처리**, **모델 선택(CV/GridSearch)**, **평가 지표**까지 원스톱
    - 문서/예제가 풍부하고 커뮤니티가 큼

**오늘의 포인트**: *모델을 바꿔도 `fit→predict→score` 패턴은 같음!*

## 7. 자주쓰는 용어 정리
- **Feature(특성, X)**: 모델이 입력으로 받는 정보(예: 전재산, 혈액형, 건강검진기록).
- **Label/Target(정답, y)**: 모델이 맞추려는 값(정답 열)(예: 생존 여부, 암 양성/음성).
- **Estimator(추정기)**: `fit/predict`를 제공하는 모델/전처리기
    - LogisticRegression, DecisionTreeClassifier
        - model.fit(X_train, y_train)
        - model.predict(X_test)
- **Transformer(변환기)**: `fit/transform`으로 데이터를 바꾸는 전처리기
    - 예: StandardScaler, OneHotEncoder
        - prep.fit(X_train)
        - X_train_new = prep.transform(X_train)
- **Pipeline**: 전처리 + 모델을 한 줄로 묶어 "훈련에만 fit, 시험엔 transform"을 자동으로 지키게 만든다.
- **Metric(평가지표)**: 성능을 숫자로 표현하는 기준이다.
    - 분류: accuracy, f1, roc-auc
    - 회귀: mae, rmse, r2
- **overfitting(과적합)**: 훈련 데이터를 너무 잘 외워서, 새로운 데이터에서 성능이 떨어지는 상태다.
- **generalization(일반화)**: 처음 보는 데이터(test)에서도 성능이 유지되는 “진짜 실력”이다.