# 선형 회귀

In [None]:
import os
import numpy as np
import pandas as pd
from scipy import stats
import pingouin as pg
from plt_rce import *
import hds

In [None]:
os.getcwd()

In [None]:
os.chdir('../data')

In [None]:
sorted(os.listdir())

In [None]:
df = pd.read_pickle('Used_Cars_Prep.pkl')

In [None]:
df.head()

In [None]:
df.info()

In [None]:
df.describe()

## 범주형 입력변수의 더미 변수 변환

In [None]:
sr1 = pd.Series(data=['A', 'B', 'O', 'AB'])
pd.get_dummies(data=sr1, dtype=int, drop_first=True)
#   AB	B	O
# 0	0	0	0
# 1	0	1	0
# 2	0	0	1
# 3	1	0	0

In [None]:
df = df.astype(dtype={'MetColor': int})

- pd.get_dummies의 data 매개변수에 데이터프레임을 지정하면 해당 데이터프레임에 있는 모든 범주형 변수에 대해 일괄적으로
- 원-핫 인코딩 또는 더미변수로 변환
- 만약 일부 범주형 변수만 변환하고 싶다면 columns 매개변수에 열이름을 리스트로 추가

In [None]:
df = pd.get_dummies(data=df, dtype=int, drop_first=True, prefix='', prefix_sep='')
df.head()
# Price	Age	KM	HP	MetColor	Doors	Weight	Petrol
# 0	13500	23	46986	90	1	3	1165	0
# 1	13750	23	72937	90	1	3	1165	0
# 2	13950	24	41711	90	1	3	1165	0
# 3	14950	26	48000	90	0	3	1165	0
# 4	13750	30	38500	90	0	3	1170	0

In [None]:
df.dtypes

## 입력변수 행렬과 목표변수 벡터로 분리

In [None]:
yvar = 'Price'

X = df.drop(columns=yvar)
y = df[yvar].copy()

display(X)
display(y)

## 선형 회귀 모형 적합

In [None]:
model = hds.stat.ols(y=y, X=X)
model.summary()

## 회귀진단 : 잔차 그래프

In [None]:
hds.stat.regressionDiagnosis(model=model)

## 잔차의 분포 확인

In [None]:
rnorm_resid = stats.norm.rvs(loc=0, scale=model.resid.std(), size=10000, random_state=1)

In [None]:
sns.kdeplot(x=model.resid, color='0', fill=True)
sns.kdeplot(x=rnorm_resid, color='red', fill=True)

plt.axvline(x=0, color='0.5', linestyle='--')

plt.show()

In [None]:
stats.shapiro(x=model.resid)

In [None]:
hds.stat.breushpagan(model=model)
#   Statistic	P-Value	        F-Value	    F P-Value
# 0	69.137164	2.206962e-12	10.387656	1.014454e-12