# 회귀분석 
    - 회귀분석은 실젯값과 예측값의 차이를 기반으로 한 지표들을 중심으로 성능 평가

### MAE 
    - 실젯값과 예측값의 차이를 절대값으로 변환하여 평균으로 구한 데이터 
    - 에러의 크기가 그대로 반영 
    - 이상치의 데이터가 존재하면 영향을 크게 받는다. 

### MSE
    - 실젯값과 예측값의 차이를 제곱해서 평균으로 구한 데이터 
    - 실젯값과 예측값의 면적의 합을 의미 
    - 특이값이 존재하면 수치 증가 

### RMSE
    - MSE 값에서 루트를 사용한 데이터
    - 에러에 제곱을 에러가 클구록 그에 따른 가중치가 높이 반영 
    - 손실이 기하급수적으로 증가하는 상황에서 실제 오류 평균보다 값이 더 커지는 것을 상쇄하기 위해서 사용 

### MSLE
    - MSE값에 로그를 사용한 데이터 
    - RMSE와 같이 손실이 기하급수적으로 증가하는 상황에서 상쇄하기 위해서 사용

### MAPE 
    - MAE를 퍼센트로 표시 
    - 오타가 예측값에서 차지는 정도를 나타냄

In [None]:
from sklearn.datasets import fetch_california_housing
import pandas as pd

In [None]:
california_data = fetch_california_housing()

In [None]:
california_data.keys()

In [None]:
df = pd.DataFrame(california_data['data'], 
                  columns=california_data['feature_names'])

In [None]:
df.head()

In [None]:
california_data['target']

In [None]:
california_data['target_names']

In [None]:
df['value'] = california_data['target']

In [None]:
# 데이터프레임의 정보를 확인 
df.info()

In [None]:
# 결측치의 개수를 확인 
df.isna().sum()

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# 그래프 8개 생성 -> 독립변수의 개수
fig, axes = plt.subplots( nrows=4, ncols=2, figsize=(30, 20) )

for i in range(len(df.columns) - 1):

    sns.regplot(x = df.iloc[:, i], y = df['value'], 
                    ax = axes[i//2][i%2], data=df)

plt.show()


In [None]:
df.describe()

- 연습 
    - df를 train과 test로 8:2의 비율로 나눠준다. 
        - target 데이터는 value 컬럼의 데이터
        - random_state는 42
    - Max Abs Scaler를 이용하여 데이터 스케일링 
    

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MaxAbsScaler

In [None]:
df['value'].value_counts()

In [None]:
x_train, x_test, y_train, y_test = train_test_split(
    df.drop('value', axis=1), 
    df['value'], 
    test_size= 0.2, 
    random_state=42
)

In [None]:
# class 생성 
MaScaler = MaxAbsScaler()

In [None]:
# 범위 지정 
MaScaler.fit(x_train)

In [None]:
x_train_sc = MaScaler.transform(x_train)
x_test_sc = MaScaler.transform(x_test)

In [None]:
np.median(x_train_sc)

In [None]:
np.median(x_test_sc)

In [None]:
# 모델 선택 : 선형 회귀 모델
from sklearn.linear_model import LinearRegression

In [None]:
linear = LinearRegression()

In [None]:
# 데이터 학습 -> 스케일링을 한 x_train, y_train
linear.fit(x_train_sc, y_train)

In [None]:
# 예측 -> 스케일링이 된 x_test 데이터를 입력
pred = linear.predict(x_test_sc)

In [None]:
y_test

In [None]:
pd.concat(
    [y_test.reset_index(drop=True), pd.Series(pred)], 
    axis=1
)

In [None]:
import numpy as np 
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score, mean_squared_log_error

In [None]:
# 두개의 1차원 데이터의 차이를 구해서 절대값을 입히고 평균을 구해서 되돌려준다.
mae = mean_absolute_error(y_test, pred)
# 두개의 1차원 데이터의 차이를 구해서 제곱한 뒤 평균을 구해서 되돌려준다.
mse = mean_squared_error(y_test, pred)
# mse 루트를 씌운다.
rmse = np.sqrt(mse)
# y_test, pred 로그 변환 
y_log = np.log1p(y_test) # log(1 + y_test)
pred_log = np.log1p(pred) # log(1 + pred)
msle = np.mean( (y_log - pred_log) ** 2 )

# 결정계수 출력 
r2 = r2_score(y_test, pred)

In [73]:
print(
    f"""
        MAE : {mae}, 
        MSE : {mse}, 
        RMSE : {rmse}, 
        MSLE : {msle}, 
        R2SCORE : {r2}
    """
)


        MAE : 0.5332001304956566, 
        MSE : 0.555891598695244, 
        RMSE : 0.7455813830127761, 
        MSLE : 0.05413126584230567, 
        R2SCORE : 0.5757877060324511
    
