# Linear Regression에 사용되는 회귀 평가 지표

----

사이킷런에서 제공하는 LinearRegression 클래스는 손실함수인 RSS(Residual Sum of Squares)를 최소화하여 OLS(Ordinary Least Squares) 추정 방식으로 구현한 클래스입니다.

**즉, 잔차 제곱합을 최소화하는 최소제곱법을 이용한 선형회귀라 할 수 있습니다.**

다음으로는 LinearRegression 클래스에서 사용되는 파라미터와 속성에 대해 알아보겠습니다.

----

**fit_intercept** : 디폴트는 True, intercept(절편) 값을 계산할지 결정, False는 intercept(절편)이 0으로 지정

**normalize** : 디폴트는 True, True인 경우 회귀 수행 전 데이터 세트 정규화

**coef** : fit() 메소드 수행 후 회귀 계수가 배열 행태로 저장하는 속성.
    
 
**intercept_** : intercept(절편) 값

---

# 다중 공선성(multi-collinearity) 문제
---

Ordinary Least Squares(최소 자승법) 기반의 회귀 계수 계산은 입력 피쳐의 독립성에 많은 영향을 받기 때문에 **피처간의 상관관계가 높을수록 분산이 커지는 문제**가 발생합니다. 이를 **다중 공성선(multi-collinearity)**문제라고 합니다. 

이 경우 **중요한 피처만 남기고 나머지는 제외하는 규제**를 적용하거나 **PCA 등의 차원 축소**를 고려할 수 있습니다. 

이 내용에 대해선 추후 다루도록 하겠습니다.

# 회귀 평가 지표
---

이전 포스팅에서 MAE, MSE 등의 평가 지표를 이용했습니다. 이러한 **평가지표는 실제 값 y와 예측값 y^의 차이 값**으로 만들어지는 회귀 모델 평가지표입니다.

이전에도 설명했지만 **실제값과 예측값의 오차(Error)는 단순히 더하게 되면 상쇄**되는 경우가 가능하고 이후 미분을 쉽게 하기 위해 제곱하여 사용하는 경우가 많습니다.

다음은 회귀 모델의 성능 평가 지표입니다.

## MAE

**MAE : Mean Absolute Error 로 실제 값과 예측값의 차이를 절댓값으로 변환해 평균한 것**

![image.png](attachment:image.png)

## MSE

**MSE : Mean Squared Error 로 실제 값과 예측값의 차이를 제곱해 평균한 것**

![image.png](attachment:image.png)

## RMSE

**RMSE : Root Mean Absolute Error 로 MAE에 루트를 씌운 것**

MSE 값은 실제값과 예측값의 차이를 제곱하여 평균한 것이기 때문에 실제 오차보다 커지는 현상이 발생합니다. (분산의 개념과 유사)

따라서 MSE에 루트를 씌워 RMSE로 변환하는데 RMSE로 변환 시 직관적인 오차의 수치를 확인할 수 있습니다. (표준편차의 개념과 유사)

![image.png](attachment:image.png)

## R squared(R^2)

**R squared는 1 - (추정모형의 MSE / 평균 관측 값의 MSE) 로 계산**되며 선형 모델의 오차가 작다면 R squared가 커지게 되고 선형 모델의 오차가 크다면 R squared가 작아지게 됩니다. 

**즉 R squared는 예측 모형이 얼마나 실제 데이터와 유사하냐를 0 ~ 1사이의 값으로 나타내는 지표**입니다.

이를 직관적으로 이해하기 위해 아래의 도표를 이용할 수 있습니다.

![image.png](attachment:image.png)

![image.png](attachment:image.png)

위와 같이 실제 데이터와 예측 모형이 존재한다고 가정할 때 각각의 Error 를 구하면 빨간 사각형의 넓이와 파란 사격형의 넓이를 계산할 수 있습니다.


![image.png](attachment:image.png)

여기서 선형 모델과 실제 데이터의 MSE를 나누게 되면 위와 같은 식이 성립됩니다.

출처 : https://jinchory.tistory.com/332

이 글은 머신러닝 완벽가이드를 참고했으며 영리 목적이 아닌 개인적인 학습을 위해 정리한 내용을 바탕으로 작성했음을 밝힙니다.