# 📌 선형 회귀 요약

| 특징 | 종류 및 활용범위 | 규제 | 평가 지표 |
| --- | --- | --- | --- |
| ▶ 실제값과 예측값 차이를 최소화하는 회귀선을 구해 예측

▶ 시계열 y를 예측할 때 이것이 다른 시계열 x와 선형 관계가 있다고 가정 | ▶ 단순 선형 회귀
    → 단항식(회귀가 직선의 일차 방정식 형태)
    → 잔차의 합이 최소가 되는 모델
    → 비용의 최소를 최적화하는 모델
    → 회귀계수 ( 기울기 / y절편)
ex) 전체 광고 비용(x)라는 예측 변수로 월별 판매량 (y)

▶ 다항 회귀
    → 다항식(회귀가 직선이 아님)
   → 2개 이상의 독립변수가 있을 경우
   → 과적합/과소적합 발생 가능
   → sklearn은 비선형 함수를 적용해. 다항 회귀 적용
       Polynomial(다항식 + 차수) | ▶ Ridge
    → 선형 회귀에 L2 규제를 추가한 회귀 모델

▶ Lasso
    → 선형 회귀에 L1 규제를 추가한 회귀 모델

▶ ElasticNet
    → L2, L1 규제를 함께 결합 | ▶ MAE : 잔차의 절대값 합의 평균
   → 낮을 수록 좋음.
   → sklearn API : metrics.mean_absolute__error
   → Scoring(cross_val_score, GridSearchCV) : ‘neg_mean_absolute_error’

▶ MSE : 잔차 제곱의 평균
   → 낮을 수록 좋음.
   → sklearn API : metrics.mean_squared__error 
   → Scoring(cross_val_score, GridSearchCV) : ‘neg_mean_squared_error’

▶ RMSE : MSE의 제곱근
   → 낮을 수록 좋음.
   → sklearn API : metrics.mean_squared__error & (squared = False)
   → Scoring(cross_val_score, GridSearchCV) : ‘neg_root_mean_squared_error’

▶ MSLE : MSE에 Log를 취함
   → 낮을 수록 좋음
   → sklearn API : metrics.mean_squared__log_error
   → Scoring(cross_val_score, GridSearchCV)  : ‘neg_mean_squared_log_error’

▶ R_Squared : 예측값 분산 / 실제값 분산
   → 1에 가까울 수록 좋음
   → sklearn API : metrics.r2_score
   → Scoring(cross_val_score, GridSearchCV)  : ‘r2’ |
|  |  |  |  |

# 📌 선형 회귀 비용함수 최소화

## 1. 경사하강법(Gradient Descent)

### 1-1) 비용 함수

<aside>
⭐

![image.png](https://prod-files-secure.s3.us-west-2.amazonaws.com/55341269-5ead-454a-b78f-85b00c4628af/caf22406-1273-4972-a7a2-de432e098484/image.png)

$$
R(w) = \frac{1}{n} \sum_{i=1}^n \left( y_i - (w_0 + w_1 x_i) \right)^2
$$

</aside>

### 1-2) 편미분

<aside>
⭐

$$
w_1-편미분
$$

$$
-\frac{2}{n} \sum_{i=1}^n \left( y_i - (w_0 + w_1 x_i) \right) * x_i
$$

$$
w_0-편미분
$$

$$
-\frac{2}{n} \sum_{i=1}^n \left( y_i - (w_0 + w_1 x_i) \right)
$$

</aside>

### 1-3) 경사 하강 반복

<aside>
⭐

$$
w_1-업데이트
$$

$$
w_1=w_1−η⋅-\frac{2}{n} \sum_{i=1}^n \left( y_i - (w_0 + w_1 x_i) \right)
$$

$$
w_0-업데이트
$$

$$
w_0=w_0−η⋅-\frac{2}{n} \sum_{i=1}^n \left( y_i - (w_0 + w_1 x_i) \right) * x_i
$$

**η은 학습률(learing_rate)**

</aside>

### 1-4) 최적화

<aside>
⭐

▶ 기울기가 매우 작아져서

     0에 수렴했다고 판단

$$
w_0 → 0
$$

$$
  w_1→0
$$

</aside>

## 2. 확률적 경사 하강법 (Stochastic Gradient Descent, SGD)

랜덤하게 선택된 하나의 데이터 포인터만을 이용해 기울기 계산

## 3. 배치 경사 + SGD의 하이브리드 (Mini-Batch Gradient Descent)

데이터를 작은 배치로 나누어, 각 배치에 대해 기울기를 계산

### cf) 참고

| 방법 | 장점 | 단점 |
| --- | --- | --- |
| 정규 방정식 | 반복 없이 빠르게 최적화 가능 | 대규모 데이터에 비효율적 |
| 경사 하강법 | 간단하며 널리 사용 | 수렴 속도가 느림 |
| 뉴턴 방법 | 빠르게 수렴 가능 | 해세 행렬 계산이 비싸고 복잡 |
| 유전 알고리즘 | 비선형 문제 해결 가능 | 계산 비용이 높음 |
| 베이지안 최적화 | 비용 함수 평가 횟수를 줄일 수 있음 | 복잡하고 초기 설정이 필요 |
| 시뮬레이티드 어닐링 | 전역 최적점 탐색 가능 | 느린 수렴 속도 |
| 확률적 경사 하강법 (SGD) | 대규모 데이터셋 처리 가능 | 결과가 불안정할 수 있음 |