# 회귀분석 
- 회귀 분석은 실젯값과 예측값의 차이를 기반으로 한 지표들을 중심으로 성능 평가 지표
- 실젯값과 예측값의 차이를 구해서 이것들을 단순 합산을 하면 양수와 음수가 섞여있기 때문에 문제 발생 

### MAE
    - 실젯값과 예측값의 차이를 절댓값으로 변환 평균을 구한 값
    - 에러의 크기가 그대로 반영 
    - 이상치에 영향을 받는다. 

### MSE
    - 실젯값과 예측값의 차이를 제곱을 한 값의 평균을 구한 값
    - 실젯값과 예측값의 면적 합을 의미 
    - 이상치에 영향을 받는다. 

### RMSE
    - MSE의 값에 루트를 씌운 값 
    - 에러에 제곱을 하면 에러가 클수록 그에 따른 가중치가 높이 반영
    - 손실이 기하급수적으로 증가하는 상황에서 실제 오류 평균보다 값이 커지는 현상을 상쇄하기 위해 사용

### MSLE
    - 실젯값과 예측값의 차이를 제곱해 평균을 한 값(MSE)에 로그를 적용한 값
    - RMSE와 같이 손실이 기하급수적으로 증가하는 상황에서 실제 오류 평균보다 값이 커지는 현상을 상쇄하기 위해 사용

### MAPE
    - MAE를 퍼센트로 표시 
    - 오차가 예측값에서 차지하는 정도를 나타냄

- 회귀 분석의 순서
1. 모델 선택하고 import 
2. 모델 객체(class)를 생성
3. 모델을 학습 (독립 변수 + 종속 변수)
4. 데이터(독립 변수)를 주고 예측
5. 실제 값과 예측 값을 확인하고 오차를 체크

In [None]:
import pandas as pd
import matplotlib.pyplot as plt 
import seaborn as sns 

In [None]:
# csv 폴더 안에 있는 boston.csv 파일 로드 
boston = pd.read_csv("../csv/boston.csv")
boston.head()

In [None]:
boston.info()

- boston 데이터에서 컬럼
    - CRIM : 범죄율 ( 해당 지역 1인당 범죄 발생 수 )
    - ZN : 25,000 평방피트 이상 주거지역 비율
    - INDUS : 비상업 지역(상업지구 아닌 지역) 토지 비율
    - CHAS : 찰스강 경계 여부 (1 : 경계, 0: 비경계)
    - NOX : 일산화질소 농도 (10ppm 단위)
    - RM : 주택 1가구당 평균 방 개수 
    - AGE : 1940년 이전의 지어진 주택 비율(건물이 30년 이상의 주택 비율)
    - DIS : 작업 중심지(보스턴 5군데)까지의 가중 거리 
    - RAD : 방사형 고속도로 접근성 지수
    - TAX : $10,000 당 제산세율
    - PTRATIO : 지역별 학생-교사 비율
    - B : 인종 지수 (흑인 거주 비율)
    - LSTAT : 저소득층 비율 (%)
    - Price : 주택의 가격의 중앙값 

In [None]:
cols = boston.columns.difference( ['CHAS', 'Price'] )

In [None]:
# subplots를 이용하여 Price와 CHAS컬럼을 제외한 나머지 컬럼들 간의 산점도 그래프 
fig, axes = plt.subplots(nrows=3, ncols=4, figsize=(16, 10))

# cols를 기준으로 반복문 실행 
for i in range(len(cols)):
    sns.regplot(x = cols[i], y = boston['Price'], data = boston, ax = axes.flat[i])

plt.show()


In [None]:
# subplots를 이용하여 Price와 CHAS컬럼을 제외한 나머지 컬럼들 간의 산점도 그래프 
fig, axes = plt.subplots(nrows=3, ncols=4, figsize=(16, 10))

# cols를 기준으로 반복문 실행 
for i, col in zip(range(len(cols)), cols):
    sns.regplot(x = col, y = boston['Price'], data = boston, ax = axes.flat[i])

plt.show()

In [None]:
# subplots를 이용하여 Price와 CHAS컬럼을 제외한 나머지 컬럼들 간의 산점도 그래프 
fig, axes = plt.subplots(nrows=3, ncols=4, figsize=(16, 10))

# cols를 기준으로 반복문 실행 
for i, column in zip(range(len(cols)), cols):
    # row = i // 4
    row = int(i / 4)
    col = i % 4
    sns.regplot(x = column, y = boston['Price'], data = boston, ax = axes[row][col])

plt.show()

In [None]:
# 모든 컬럼을 기준으로 train, test 데이터셋으로 데이터 분할 
# 독립 변수는 주택의 가격을 제외한 나머지 컬럼들 
X = boston.drop('Price', axis=1).values
Y = boston['Price'].values

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, Y_train, Y_test = train_test_split(
    X, Y, test_size=0.2, random_state= 100
)

In [None]:
# 종속변수의 학습 데이터와 평가 데이터의 평균을 확인 
print(Y_train.mean())
print(Y_test.mean())

In [None]:
# 모델의 선택 
from sklearn.linear_model import LinearRegression

In [None]:
# class(객체)를 생성 
lr = LinearRegression()

In [None]:
# 모델에 학습 -> X_train, Y_train
lr.fit(X_train, Y_train)

In [None]:
# 예측 -> 독립 변수중 평가 데이터로 구성된 X_test 데이터를 대입
pred = lr.predict(X_test)

In [None]:
pred_df = pd.DataFrame(pred, columns = ['Pred price'])
actual_df = pd.DataFrame(Y_test, columns = ['Actual price']) 
test_df = pd.DataFrame(X_test, columns = boston.columns.difference(['Price']))

In [None]:
# 두개의 데이터프레임을 단순한 열 결합 
pd.concat( [test_df, pred_df, actual_df], axis = 1 )

In [None]:
# 평가 지표 생성 
import numpy as np 
from sklearn.metrics import mean_absolute_error, \
    mean_squared_error, mean_squared_log_error, \
    mean_absolute_percentage_error, root_mean_squared_error

In [None]:
mae = mean_absolute_error(Y_test, pred)
mse = mean_squared_error(Y_test, pred)
msle = mean_squared_log_error(Y_test, pred)
mape = mean_absolute_percentage_error(Y_test, pred)
rmse = root_mean_squared_error(Y_test, pred)
rmse2 = np.sqrt(mse)

In [None]:
print("MAE : ", round(mae, 2))
print("MSE : ", round(mse, 2))
print("RMSE : ", round(rmse, 2))
print("RMSE2 : ", round(rmse2, 2))
print('MSLE : ', round(msle, 2))
print('MAPE : ', round(mape, 2) * 100)


In [None]:
from sklearn.metrics import r2_score

# 결정 계수 출력 
r2 = r2_score( Y_test, pred )

print("R2 Score : ", round(r2, 2))

In [None]:
# R2-score의 문제 : 컬럼(피쳐)의 개수가 많아지면 R2-Score가 증가하는 경향
# 수정된 R2-Score 생성 
# 1 - ( (1 - r2)*(n - 1) / (n - p - 1) )
# X_test의 인덱스의 수
n = X_test.shape[0]
# X_test의 컬럼의 수
p = X_test.shape[1]

adj_r2 = 1 - ( (1 - r2) * (n - 1) / (n - p - 1) )

print('Adj R2 Score : ', round(adj_r2, 2))


In [None]:
# 회귀계수 출력 
print(lr.coef_)

In [None]:
pd.Series(
    lr.coef_, 
    index = boston.columns.difference(['Price'])
)

- 연습 
1. boston 데이터에서 B, CHAS, LSTAT, TAX 컬럼을 제외
2. 독립변수는 Price를 제외한 나머지 데이터
3. 종속변수는 Prcie 데이터 
4. train, test 데이터를 7:3의 비율으로 나눠준다 (random_state는 42 고정)
5. Scaler를 이용하여 train data를 스케일링 (MinMaxScaler)
6. LinearRegression 모델을 이용하여 학습, 예측
7. 실제값과 예측값의 평가 지표를 mae, mse, msle, r2, adj_r2 출력 

In [None]:
df = boston.drop(['B', 'CHAS', 'LSTAT', 'TAX'], axis=1)

In [None]:
X = df.iloc[:, :-1].values
Y = df['Price'].values

In [None]:
X_train, X_test, Y_train, Y_test = train_test_split(
    X, Y, test_size=0.3, random_state=42
)

In [None]:
from sklearn.preprocessing import MinMaxScaler

In [None]:
mmscaler = MinMaxScaler()

In [None]:
mmscaler.fit(X_train)

In [None]:
X_train_sc = mmscaler.transform(X_train)
X_test_sc = mmscaler.transform(X_test)

In [None]:
lr = LinearRegression()

In [None]:
lr.fit(X_train_sc, Y_train)

In [None]:
pred_sc = lr.predict(X_test_sc)

In [None]:
mae_sc = mean_absolute_error(Y_test, pred_sc)
mse_sc = mean_squared_error(Y_test, pred_sc)
msle_sc = mean_squared_log_error(Y_test, pred_sc)
r2_sc = r2_score(Y_test, pred_sc)

n = X_test_sc.shape[0]
p = X_test_sc.shape[1]
adj_r2_sc = 1 - ( (1-r2_sc)*(n - 1) / (n - p - 1) ) 

In [None]:
print(round(mae, 2), round(mae_sc, 2))
print(round(mse, 2), round(mse_sc, 2))
print(round(msle, 2), round(msle_sc, 2))
print(round(r2, 2), round(r2_sc, 2))
print(round(adj_r2, 2), round(adj_r2_sc, 2))

In [None]:
boston.corr(method='pearson')['Price'].abs().sort_values(ascending=False)