### 회귀분석
- 회귀분석은 실젯값과 예측값의 차이를 기반으로 한 지표들을 중심으로 성능평가가 지표가 발전 

#### MAE
- 실젯값과 예측값의 차이를 절대값으로 변환하여 평균한것 
- 에러의 크기가 그래도 반영 
- 이상치에 영향을 받는다. 

#### MSE 
- 실젯값과 예측값의 차이를 제곱해 평균한 것
- 실젯값과 예측값 차이의 면적 합을 의미 
- 특이값이 존재하면 수치가 증가 

#### RMSE
- 실젯값과 예측값의 차이를 제곱한 평균의 루트 
- 에러에 제곱을 에러가 클수록 그에 따른 가중치가 높이 반영
- 손실이 기하급수적으로 증가하는 상황에서 실제 오류 평균보다 값이 더 커지는 것을 상쇄하기 위해 사용

#### MSLE
- 실젯값과 예측값의 차이를 제곱해 평균한 것에 로그를 적용한 것 
- RMSE와 같이 손실이 기하급수적으로 증가하는 상황에서 실제 오류 평균보다 값이 값이 커지는 상쇄하기 위해 사용

#### MAPE 
- MAE를 퍼센트로 표시 
- 오차가 예측값에서 차지하는 정도를 나타냄

#### 회귀 분석 순서
1. 데이터를 로드하고 확인 
2. 데이터를 분할 
3. 데이터의 전처리
4. 모델 학습 
5. 성능 평가 및 예측값 저장 

In [None]:
import pandas as pd 
from sklearn.datasets import fetch_california_housing

In [None]:
data = fetch_california_housing()

In [None]:
data.keys()

In [None]:
df = pd.DataFrame(data['data'], columns=data['feature_names'])
df.head()

In [None]:
data.target

In [None]:
# df는 독립변수 
# target 종속변수 

In [None]:
df['Value'] = data['target']

In [None]:
# 데이터프레임을 확인 
df.info()

In [None]:
# 결측치 확인인
df.isna().sum()

In [None]:
# 산점도와 선형 회귀 직선 시각화 
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
fig, axes = plt.subplots(figsize = (16, 10), nrows = 4, ncols=2)

for i in range(8):
    row = int(i/2)
    col = i%2
    sns.regplot(x = df.iloc[:, i], y = df['Value'], data=df, ax=axes[row][col])

plt.show()

In [None]:
# 데이터의 분할 
# train , test  / 독립, 종속 
from sklearn.model_selection import train_test_split
x = df.drop('Value', axis=1)
y = df['Value']

x_train, x_test, y_train, y_test = train_test_split(x, y, 
                                                    test_size=0.2, 
                                                    random_state=100)

In [None]:
# value의 평균을 train, test 확인
print("train 데이터의 value의 평균", y_train.mean())
print('test 데이터의 value의 평균', y_test.mean())

In [None]:
# 데이터를 스케일링 
# max abs 스케일링 
from sklearn.preprocessing import MaxAbsScaler

scaler = MaxAbsScaler()
scaler.fit(x_train)

In [None]:
x_train_sc = scaler.transform(x_train)
x_test_sc = scaler.transform(x_test)

In [None]:
# 선형 회귀 알고리즘 
from sklearn.linear_model import LinearRegression
# 객체 생성
linear = LinearRegression()

In [28]:
# fit -> 학습
linear.fit(x_train_sc, y_train)

  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):


In [None]:
pred = linear.predict(x_test_sc)

In [30]:
pred

array([2.07653781, 1.57976836, 2.08731697, ..., 1.04278469, 1.12583146,
       1.9625772 ])

In [31]:
y_test

8151     2.45300
53       1.04200
3039     1.46200
9484     1.54200
9307     3.24200
          ...   
16733    1.17200
5264     5.00001
12374    2.39300
19662    0.85700
11942    1.13900
Name: Value, Length: 4128, dtype: float64

In [32]:
import numpy as np 
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

In [35]:
# 학습 데이터를 예측한 결과를 저장 
pred = linear.predict(x_train_sc)

mae = mean_absolute_error(y_train, pred)
mse = mean_squared_error(y_train, pred)
rmse = np.sqrt(mse)

# 결정계수 출력
r2 = r2_score(y_train, pred)

print('MAE :', round(mae, 2))
print('MSE :', round(mse, 2))
print('RMSE :', round(rmse, 2))
print('R2_score :', round(r2, 2))

MAE : 0.53
MSE : 0.53
RMSE : 0.73
R2_score : 0.6


  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):
  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):
  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):


In [36]:
from sklearn.preprocessing import RobustScaler, StandardScaler

In [38]:
import warnings
warnings.filterwarnings('ignore')

In [39]:
# Scaler 를 Standard 
# x_train, x_test 스케일링 
StdScaler = StandardScaler()
# 범위를 지정 x_train
x_train_std = StdScaler.fit_transform(x_train)
x_test_std = StdScaler.transform(x_test)
# 학습
linear2 = LinearRegression()
linear2.fit(x_train_std, y_train)
std_pred = linear2.predict(x_test_std)
# MAE, MSE, RMSE, R2Score는 test_data로 확인
std_mae = mean_absolute_error(y_test, std_pred)
std_mse = mean_squared_error(y_test, std_pred)
std_rmse = np.sqrt(std_mse)
std_r2 = r2_score(y_test, std_pred)
print("MAE : ", round(std_mae, 2))
print("MSE : ", round(std_mse, 2))
print("RMSE : ", round(std_rmse, 2))
print("R2 : ", round(std_r2, 2))

MAE :  0.53
MSE :  0.51
RMSE :  0.71
R2 :  0.62


In [40]:
# Scaler 를 Robust 
Ruscaler = RobustScaler()
x_train_ru = Ruscaler.fit_transform(x_train)
x_test_ru = Ruscaler.transform(x_test)
# 학습
linear3 = LinearRegression()
linear3.fit(x_train_ru, y_train)
ru_pred = linear3.predict(x_test_ru)
# MAE, MSE, RMSE, R2Score는 test_data로 확인
ru_mae = mean_absolute_error(y_test, ru_pred)
ru_mse = mean_squared_error(y_test, ru_pred)
ru_rmse = np.sqrt(ru_mse)
ru_r2 = r2_score(y_test, ru_pred)
print('MAE :', round(ru_mae, 2))
print('MSE : ', round(ru_mse, 2))
print('RMSE : ', round(ru_rmse, 2))
print('R2 : ', round(ru_r2, 2))

MAE : 0.53
MSE :  0.51
RMSE :  0.71
R2 :  0.62
