# 머신러닝 개론


## 오늘의 목표
1. 머신러닝을 한 문장으로 정의한다.
2. 지도학습/비지도학습/강화학습을 구분한다.
3. 회귀/분류/군집을 입출력으로 구분한다.
4. 앞으로 계속 나올 기본 용어를 정리할수 있다.
5. train/test 분리와 테스트 성능의 의미를 이해한다.
6. (fit -> predict -> score)가 왜 필요한지 보이게 만든다.

## 0. 데이터
데이터는 사람이 눈으로 본 사실, 기계가 센서로 측정한 수치, 서비스에 쌓인 로그처럼 "모인 정보"를 의미한다.

보통 데이터를 표 형태로 생각한다. 행(row)=대상 1개, 열(column)=설명 변수 1개다.
| 문제    | X(입력)          | y(정답)  |
| ----- | -------------- | ------ |
| 스팸 분류 | 제목, 본문, 발신자 특징 | 스팸/정상  |
| 집값 예측 | 면적, 방 수, 거리    | 가격(숫자) |
> X는 (입력 컬럼들)이고, y는 (맞출 컬럼)이다.

### 데이터의 종류(정형/반정형/비정형)
데이터는 총 3가지의 종류가 존재한다.

- 정형 데이터: 열과 행이 고정된 데이터 : 학생(학번, 학년, 성적)
- 반정형 데이터: 구조는 있지만 필드가 매번 다를 수 있는 데이터 : 웹 로그(JSON)
- 비정형 데이터: 텍스트, 이미지, 음성처럼 표로 바로 안 잡히는 데이터 : 리뷰 문장, 사진, 음성 파일

> 정형은 표로 딱 정리됨, 반정형은 규칙은 있으나 들쭉날쭉, 비정형은 형태가 자유롭다.

### 중요 포인트. 모든 데이터는 숫자가 되어야 한다.
모델은 덧셈/곱셈 같은 연산으로 학습한다. <br>
그래서 텍스트/이미지/범주도 숫자로 바꾸는 과정이 필요하다. 이게 전처리의 큰 이유 중 하나다.

- 예시
    - 텍스트: 좋아요 -> 1 싫어요 -> 0
    - 이미지 -> 픽셀값 0~255 배열
    - 범주 서울/부산/대구 -> 0/1/2

이러한 변환 과정이 바로 **전처리**다.

> 머신러닝 모델은 계산기로 동작하니, 입력은 결국 숫자 형태여야 한다.

## 1. 머신러닝
머신러닝은 데이터로 모델 H를 만들고, 손실(loss)을 줄이도록 파라미터를 조정하는 방법이다.

> 모델 H(x)는 "입력 넣으면 예측을 뱉는 함수"다.

선형 모델의 가장 기본 형태는 다음처럼 본다\
H(x) = w x + b\
w: 영향력(가중치), b: 기준점(편향/절편)\

이때의 학습은 w, b를 바꿔서 예측이 덜 틀리게 만드는 과정이다.

예시: 공부시간(x)으로 점수(y)를 예측\
x가 늘수록 점수가 오르는 방향의 w를 찾는 게 목표가 된다.

### 그래서 머신러닝은 뭘하는거냐?
데이터(X)와 정답(y)을 보고, X → y로 가는 규칙을 모델이 만들게 하는 것
- X: 모델 입력(메일의 여러 정보)
- y: 정답(스팸/정상)

## 2. 학습의 핵심: 손실함수와 경사하강법
손실함수(loss function)는 "틀림을 채점하는 규칙"이다.\
MSE: 큰 실수를 더 세게 벌준다.\
MAE: 실수를 비슷하게 벌준다.\

경사하강법은 기울기(gradient)를 보고 **내리막**으로 이동한다.

예시: 예측이 크게 한 번 틀렸을 때\
MSE는 그 한 번을 크게 벌주고,\
MAE는 상대적으로 덜 과격하게 반응한다.


## 3. 문제 유형 3가지(회귀/분류/군집)
- 회귀: y가 숫자다("얼마?").
- 분류: y가 범주다("무슨 종류?").
- 군집: 정답 없이 비슷한 것끼리 묶는다.

예시: 붓꽃(Iris) 품종 맞히기\
입력(X)은 꽃잎/꽃받침 길이·너비, 출력(y)은 품종(범주)이다.

| 유형                 | 입력(X) | 출력(y)       | 핵심 질문     | 한 줄 설명                      |
| ------------------ | ----- | ----------- | --------- | --------------------------- |
| 회귀(Regression)     | 특징    | 숫자          | “얼마?”     | 연속값을 예측한다(집값, 매출)           |
| 분류(Classification) | 특징    | 범주 또는 확률    | “무엇?”     | 클래스(0/1/여러 범주)를 맞춘다(스팸, 질병) |
| 군집(Clustering)     | 특징    | 그룹ID(정답 없음) | “누가 비슷해?” | 정답 없이 비슷한 것끼리 묶는다(고객 세그먼트)  |

## 4. 학습 방식: 지도/비지도/강화

### 1. 지도학습(Supervised)
정답(y)이 있는 데이터로 규칙을 학습해 새 데이터의 y를 예측한다.\
모델은 X→y 관계를 배우고, 처음 보는 X에도 y를 맞히려 한다.

- 분류: 결과가 범주다
    - 예) 스팸/정상, 합격/불합격, 이탈/유지

- 회귀: 결과가 숫자다
    - 예) 집값, 매출, 수요 예측

> X(입력) 보고 y(정답)를 맞추는 문제다.

### 2. 비지도학습(Unsupervised)
정답(y)이 없다. 대신 X만 보고 데이터 구조/패턴을 찾는다. (비슷한 것끼리 묶기, 요약하기)
데이터 구조/패턴을 찾는다.

- 군집화: 고객 세그멘테이션 같은 그룹 나누기
- 차원축소: PCA처럼 특징을 줄여서 시각화/압축

> 정답 없이, 데이터 구조를 찾는 문제다.

### 3. 강화학습(Reinforcement)
정답이 데이터로 주어지는 게 아니라, 행동의 결과로 보상(점수)을 받으며 학습한다.
- 게임 플레이
- 로봇 제어

> 행동을 해보고 보상을 최대화하는 문제다.

| 구분        | 지도학습  | 비지도학습   | 강화학습    |
| --------- | ----- | ------- | ------- |
| 정답(label) | 있음    | 없음      | 없음(보상만) |
| 목표        | 예측/분류 | 구조/그룹   | 최적 행동   |
| 예시        | 스팸/집값 | 군집/차원축소 | 게임 AI   |

## 5. 왜 train/test 분리가 필수인가
같은 데이터로 학습하고 같은 데이터로 평가하면, 실력이 아니라 암기 성능을 볼 위험이 크다.\
그래서 train으로 학습하고, test로 성능을 평가한다.


### 파이프라인 사고
보통 머신러닝은 다음과 같은 흐름으로 진행된다.
1. 데이터 로드
2. 전처리 및 EDA (결측/이상치 확인, 스케일 맞춤)
3. 모델 학습(로지스틱 회귀/결정트리 등)
4. 정확도 같은 지표로 평가 후 사용

이때 2. 전처리 및 EDA 과정에서 데이터 누수(모델이 test 데이터를 학습하는 것)이 발생해 모델의 성능이 하락한다\
이를 방지하기 위해 Pipeline을 사용한다.\
특히 교차검증에서 데이터 누수를 막는 데 중요하다.

## 4. 자주쓰는 용어 정리

### X, y, feature, target
- feature(특성), X: 모델이 입력으로 받는 정보(표의 여러 열)이다.
    - 예: 나이, 성별, 키, 구매횟수

- label/target(정답), y: 모델이 맞추려는 값(정답 열)이다.
    - 예: 생존 여부(0/1), 스팸 여부(0/1), 집값(숫자)

> X는 (입력 컬럼들)이고, y는 (맞출 컬럼)이다.

### sample, row, column
- sample(샘플): 데이터 한 건(보통 한 행, row)이다.
    - 예: 승객 1명, 메일 1통, 고객 1명

- feature(특성): 한 속성(보통 한 열, column)이다.
    - 예: 나이 열, 성별 열

### estimator(추정기), transformer(변환기)

- estimator: fit/predict(또는 fit/score)를 제공하는 학습하는 객체.
    - LogisticRegression, DecisionTreeClassifier
        - model.fit(X_train, y_train)
        - model.predict(X_test)

- transformer: fit/transform으로 데이터를 바꿔주는 전처리기다.
    - 예: StandardScaler, OneHotEncoder
        - prep.fit(X_train)
        - X_train_new = prep.transform(X_train)

> 전처리는 훈련 데이터에만 fit 한다. (시험 데이터에 fit 하면 데이터 누수가 발생해 성능이 하락한다.)

### pipeline
- pipeline: 전처리 + 모델을 한 줄로 묶어서 "훈련에만 fit, 시험엔 transform" 규칙을 자동으로 지키게 만든다.

### metric(평가지표)
- metric: 성능을 숫자로 표현하는 기준이다.
    - 분류: accuracy, f1, roc-auc
    - 회귀: mae, rmse, r2

### overfitting, generalization
- overfitting(과적합): 훈련 데이터를 너무 잘 외워서, 새로운 데이터에서 성능이 떨어지는 상태다.
- generalization(일반화): 처음 보는 데이터(test)에서도 성능이 유지되는 “진짜 실력”이다.