## 회귀(Regression)

회귀 분석은 **변수들 사이의 관계를 모델링**하고, 이를 바탕으로 **미래의 값을 예측**하는 통계 및 기계 학습 기법.  **과거의 데이터 패턴을 분석해서 앞으로 어떻게 될지 예측하는 작업**

---

### 핵심 아이디어: 원인(독립 변수)과 결과(종속 변수)

회귀 분석의 가장 기본적인 아이디어는 **하나 이상의 독립 변수($X$)가 종속 변수($Y$)에 어떤 영향을 미치는지** 파악하는 것.

* **종속 변수($Y$):** 우리가 **예측하고 싶은 값** (결과)
    * *예시:* 아파트 **가격**, 학생의 **성적**, 직장인의 **연봉**
* **독립 변수($X$):** 종속 변수에 **영향을 주는 값** (원인, 특성, Feature)
    * *예시:* 아파트의 **크기/평수**, 학생의 **공부 시간**, 직장인의 **경력/직무**

###  회귀 분석의 목표: '최적의 선' 찾기

회귀 분석은 주어진 데이터($X$와 $Y$)를 가장 잘 대표하는 **'최적의 선(Line)' 또는 '곡선'**을 찾는 것을 목표. 이 선이 바로 **회귀 모형**.

* **선형 회귀(Linear Regression)**의 경우, 이 관계는 **직선**으로 표현됨.

    $$Y \approx \beta_0 + \beta_1 X$$

    * $\beta_0$ (절편): $X$가 0일 때의 $Y$ 값.
    * $\beta_1$ (기울기): $X$가 1 증가할 때 $Y$가 얼마나 변하는지. (영향력)



이 선을 찾았다면, 새로운 독립 변수($X_{\text{new}}$)가 주어졌을 때, 이 선에 대입하여 **종속 변수($Y_{\text{new}}$)를 예측**할 수 있게 된다.

---

###  '최적의 선'은 어떻게 찾을까? (잔차와 최소 제곱법)

'최적의 선'을 찾는 기준은 바로 **잔차(Residual)**를 이용하는 것.

1.  **잔차:** 실제 데이터 값($Y$)과 우리가 그린 선이 예측한 값($\hat{Y}$) 사이의 **수직 거리**입니다. 이 거리가 바로 **예측 오차**.
2.  **최소 제곱법(Least Squares Method):** 모든 데이터 포인트에 대한 **잔차들을 제곱하여 합한 값**을 **가장 작게 만드는** 기울기($\beta_1$)와 절편($\beta_0$)을 찾는 방법. 잔차를 제곱하는 이유는 오차의 방향(+/-)에 상관없이 크기만 고려하기 위함.

이 최소 제곱법 덕분에 우리는 **데이터의 경향성을 가장 정확하게 반영하는** 예측 모델을 만들 수 있는 것.

<img src='mse.png'>

<img src='https://curriculum.cosadama.com/machine-learning/3-2/residual2.png'>


---

###  회귀 분석의 종류

| 종류 | 특징 | 예시 |
| :--- | :--- | :--- |
| **선형 회귀** (Linear) | 독립 변수와 종속 변수가 **직선 관계**인 경우. 가장 기본. | 집 크기에 따른 가격 예측 |
| **다중 회귀** (Multiple) | **독립 변수($X$)가 여러 개인** 경우. (예: 크기, 층수, 역과의 거리) | 여러 요소를 고려한 중고차 가격 예측 |
| **로지스틱 회귀** (Logistic) | **예측 값이 0 또는 1과 같이 범주형**인 경우. (분류 문제에 사용) | 질병 **발병 여부** (Yes/No), 시험 **합격 여부** (Pass/Fail) |
| **다항 회귀** (Polynomial) | 독립 변수와 종속 변수가 **곡선 관계**일 때. | 시간에 따른 바이러스 감염자 수 예측 (초기에는 기하급수적) |

---

###  요약

회귀는 **데이터 간의 관계**를 수식($Y = f(X)$)으로 나타내고, 그 관계를 활용해 **숫자 값(연속적인 값)**을 **예측**하는 기법.

* **목표:** 독립 변수($X$)를 이용해 종속 변수($Y$)를 예측하는 **가장 적합한 함수(선)**를 찾는 것.
* **방법:** **최소 제곱법**을 사용해 실제 값과 예측 값의 **오차(잔차)**를 최소화.

회귀 분석을 통해 우리는 **원인과 결과 사이의 관계를 정량적으로 파악**할 수 있으며, 이는 다양한 분야에서 의사 결정과 미래 예측의 중요한 기반이 된다.
