## **결정계수($R^2$)**

결정계수는 **선형 회귀 분석** 등에서 사용되며, 여러분이 만든 **회귀 모델이 실제 데이터를 얼마나 잘 설명하고 있는지**를 0에서 1 사이의 숫자로 나타내는 지표입니다. 1에 가까울수록 모델의 설명력이 높다는 뜻

---

<center>
<img src='https://resources-public-blog.modulabs.co.kr/blog/prd/content/262013/%EA%B4%80%EA%B3%84.png'>
</center>

## 1. 공식의 의미: "총 변화량 중에서 모델이 설명하는 변화량의 비율"

결정계수($R^2$)는 기본적으로 다음 비율로 계산됩니다.

$$R^2 = 1 - \frac{\text{모델로 설명되지 않는 변화량 (잔차 제곱합, SSE)}}{\text{데이터의 총 변화량 (총 제곱합, SST)}}$$

이것을 다시 해석하면,

$$R^2 = \frac{\text{모델로 설명되는 변화량 (회귀 제곱합, SSR)}}{\text{데이터의 총 변화량 (총 제곱합, SST)}}$$

입니다.

>  **핵심:** 결정계수는 **종속 변수(우리가 예측하려는 값)의 전체 변동 중**에서, **우리가 만든 독립 변수(설명 변수)를 가진 모델이 성공적으로 설명해 낸 변동이 차지하는 비율**을 나타냄.

* **SST (Total Sum of Squares, 총 제곱합):**
    * **데이터의 총 변화량**입니다. 만약 모델이 아예 없다면, 우리는 평균값만으로 예측을 해야 할 함. 실제 값과 **평균값** 사이의 차이(편차)를 모두 제곱해서 더한 값.(분산)
* **SSE (Error Sum of Squares, 잔차 제곱합):**
    * **모델로 설명되지 않는 변화량**입니다. 실제 값과 **모델이 예측한 값** 사이의 차이(오차, 잔차)를 모두 제곱해서 더한 값. **모델이 얼마나 틀렸는지**를 나타냄.
* **SSR (Regression Sum of Squares, 회귀 제곱합):**
    * **모델로 설명되는 변화량**입니다. **예측값**과 **평균값** 사이의 차이를 모두 제곱해서 더한 값. **모델이 평균보다 얼마나 더 잘 맞추는지**를 나타냄.



---

## 2.  예시:  집값 예측 모델

당신이 **집 크기**($X$, 독립 변수)를 가지고 **집값**($Y$, 종속 변수)을 예측하는 회귀 모델을 만들었다고 가정해 봅시다.

| 실제 집값(억) | 집 크기(평) |
| :---: | :---: |
| 5 | 20 |
| 7 | 30 |
| 9 | 40 |
| **평균:** 7 | |

### 상황 1: 모델이 전혀 도움이 안 될 때 ($R^2 = 0$)

* 만약 여러분이 만든 모델이 **집 크기**와 **집값** 사이에 아무런 관계도 찾지 못한다면, 모델은 항상 집값의 **평균(7억)**만 예측할 것입니다.
* 이 경우, **모델이 예측한 값**과 **평균값**은 같습니다. 즉, **모델로 설명되는 변화량(SSR)**은 0입니다.
* $R^2 = \text{SSR} / \text{SST} = 0 / \text{SST} = 0$
* **결론:** 결정계수는 **0**이 되며, "모델이 집값의 변동을 **0%** 설명한다."는 뜻입니다.

### 상황 2: 모델이 완벽하게 예측할 때 ($R^2 = 1$)

* 만약 여러분이 만든 모델이 집값을 **완벽하게** 예측하여, 실제 집값과 **모델이 예측한 값**이 모두 일치한다면 어떻게 될까요?
* 이 경우, **실제 값**과 **예측 값** 사이의 오차가 전혀 없습니다. 즉, **모델로 설명되지 않는 변화량(SSE)**은 0입니다.
* 데이터의 **총 변화량(SST)**은 모두 **모델로 설명되는 변화량(SSR)**이 됩니다.
* $R^2 = 1 - \text{SSE} / \text{SST} = 1 - 0 / \text{SST} = 1$
* **결론:** 결정계수는 **1**이 되며, "모델이 집값의 변동을 **100%** 설명한다."는 뜻입니다.

### 상황 3: $R^2 = 0.8$ 일 때

* 만약 계산된 결정계수가 **0.8**이라면,
* **결론:** "여러분 모델의 독립 변수(집 크기)가 종속 변수(집값)의 **총 변동 중 80%를 설명하고 있다**"는 의미입니다. 나머지 20%의 변동은 집값에 영향을 미치는 다른 요인들(예: 위치, 층수, 건축 연도 등)이나 무작위 오차 때문에 모델로 설명되지 않은 부분입니다.

---

##  요약

**결정계수($R^2$)**는 모델의 **설명력**을 나타내며, **모델이 얼마나 잘 예측했는지**를 비율로 보여주는 지표입니다.

| $R^2$ 값 | 의미 | 해석 |
| :---: | :--- | :--- |
| **1 (100%)** | 모델이 실제 데이터를 **완벽하게** 설명함. | 모델 예측값 = 실제값 (오차가 없음) |
| **0.8** | 모델이 실제 데이터 변동의 **80%**를 설명함. | 매우 좋은 모델 |
| **0** | 모델이 데이터를 **전혀** 설명하지 못함. | 모델 예측값 = 평균값 (모델의 효과 없음) |