# 계산을 통한 모델의 정확도 평가
모델을 학습시킨 후에는 정확도를 평가하는 작업이 필요합니다. 모델의 정확성은 모델에 의한 예측이 얼마나 신뢰할 수 있는지에 대한 아이디어를 제공합니다.

**scitkit-learn**와 **numpy** 라이브러리는 모두 모델의 정확도 측정에 유용합니다.

지난 시간에 한 학습된 선형 회귀 모델을 다시 만들어봅시다.

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

In [2]:
# csv 파일로부터 데이터 불러오기
delays_df = pd.read_csv('Data/Lots_of_flight_data.csv') 

# 선형 회귀 모델 학습을 방해하는 null 값을 포함한 행 제거
delays_df.dropna(inplace=True)

# X DataFrame에 특성 옮기기
X = delays_df.loc[:,['DISTANCE', 'CRS_ELAPSED_TIME']]

# y DataFrame에 레이블 값 옮기기
y = delays_df.loc[:,['ARR_DELAY']] 

# 테스트용 DataFrame과 학습용 DataFrame으로 데이터 나누기
X_train, X_test, y_train, y_test = train_test_split(
                                                    X, 
                                                    y, 
                                                    test_size=0.3, 
                                                    random_state=42
                                                   )
regressor = LinearRegression()     # scikit learn LinearRegression 객체 생성
regressor.fit(X_train, y_train)    # fit 메소드를 사용하여 훈련 데이터의 모델 학습

y_pred = regressor.predict(X_test)

## 정확도 측정
이제 학습된 모델이 있으므로 모델의 정확성을 확인하는 데 사용할 수있는 여러 메트릭이 있습니다.

이 모든 측정 항목은 수학적 계산을 기반으로합니다. 여기서 중요한 점은 모든 것을 직접 계산할 필요가 없다는 것입니다. Scikit-learn과 numpy는 대부분의 작업을 수행하고 좋은 성능을 제공합니다.

### 평균 제곱 오차 (MSE)
MSE는 관찰 결과를 예측할 때 모델이 수행 한 평균 오차입니다. MSE가 낮을수록 모델이 더 좋습니다.

MSE는 관찰된 실제 결과값과 모델에서 예측한 값 간의 평균 제곱의 차이입니다.

MSE = mean((actuals - predicteds)^2)

이 계산을 수행하기 위해 실제 값과 예측한 값을 비교하는 레코드를 반복하는 코드를 작성할 수 있지만 그럴 필요는 없습니다! ** scikit-learn ** 라이브러리에서 ** mean_squared_error **를 사용하세요.

In [3]:
from sklearn import metrics
print('Mean Squared Error:', metrics.mean_squared_error(y_test, y_pred))

Mean Squared Error: 2250.4445141530855


## 평균 제곱근 오차 (RMSE)
RMSE는 관찰 결과를 예측할 때 모델에서 수행한 평균 오차입니다. RMSE가 낮을수록 모델이 더 좋습니다.

수학적으로 RMSE는 평균 제곱 오차의 제곱근입니다.

RMSE = sqrt(MSE)

Skikit learn에는 RMSE에 대한 함수가 없지만 MSE의 제곱근이기 때문에 많은 수학적 함수가 포함 된 numpy 라이브러리를 사용하여 MSE의 제곱근을 계산할 수 있습니다.

In [None]:
import numpy as np
print('Root Mean Squared Error:', np.sqrt(metrics.mean_squared_error(y_test, y_pred)))

## 평균 절대 오차 (MAE)
MAE는 예측 오류를 측정합니다. MAE가 낮을수록 모델이 더 좋습니다.

수학적으로 관찰된 결과와 예측된 결과의 평균 절대 차이입니다.

MAE = mean(abs(actuals - predicteds)). 

MAE는 RMSE에 비해 이상점에 덜 민감합니다. ** scikit-learn ** 라이브러리에서 ** mean_absolute_error **를 사용하여 RMSE를 계산합니다.

In [None]:
print('Mean absolute error: ',metrics.mean_absolute_error(y_test, y_pred))

# R^2 이나 R 제곱

R 제곱은 예측 변수로 설명되는 결과의 변동 비율입니다. 모델에 전달 된 값이 예측 값에 얼마나 영향을 미치는지 나타냅니다.

R 제곱이 높을수록 모델이 더 좋습니다. ** scikit-learn ** 라이브러리에서 ** r2_score **를 사용하여 R- 제곱을 계산합니다.

In [None]:
print('R^2: ',metrics.r2_score(y_test, y_pred))

모델마다 정확도를 측정하는 방법이 다릅니다. 다행히 ** scikit-learn ** 및 ** numpy **는 정확도 측정에 도움이되는 다양한 기능을 제공합니다.