# 파이썬을 활용한 단순회귀분석

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
import statsmodels.api as sm 
import statsmodels.formula.api as smf 

In [None]:
tips = sns.load_dataset('tips')

In [None]:
sns.scatterplot(data=tips, x='total_bill', y='tip')
plt.show()

In [None]:
sns.regplot(data=tips, x='total_bill', y='tip')
plt.show()

In [None]:
m = smf.ols(formula = 'tip ~ total_bill', data=tips)
res = m.fit()
res.summary()

- $\hat{tip} = 0.9203 + 0.0150 \times \text{total_bill}$
    - total_bill이 1 증가할 때, tip은 0.0150만큼 증가 
    - 결정계수 $R^2 = 0.457$ : 이 회귀식은 y의 변이 중 45.7%를 설명함 
    - 회귀계수의 유의성 검정 : p-value < $\alpha$ 이므로 $H_0$ 기각 $\rightarrow$ 회귀계수는 통계적으로 유의함 (즉, total_bill은 tip을 설명함)

## 이상치, 영향치의 이해 

In [None]:
import pandas as pd
ex1 = pd.read_table('data/influence1.txt')
ex2 = pd.read_table('data/influence2.txt')
ex3 = pd.read_table('data/influence3.txt')
ex4 = pd.read_table('data/influence4.txt')
ex1.head()

In [None]:
fig, axs = plt.subplots(nrows=2, ncols=2, figsize=(6, 6))

sns.regplot(x='x', y='y', data=ex1, ax=axs[0,0])
sns.regplot(x='x', y='y', data=ex2, ax=axs[0,1])
sns.regplot(x='x', y='y', data=ex3, ax=axs[1,0])
sns.regplot(x='x', y='y', data=ex4, ax=axs[1,1])

axs[0,0].set_title("dataset I")
axs[0,1].set_title("dataset II")
axs[1,0].set_title("dataset III")
axs[1,1].set_title("dataset IV")

fig.tight_layout() # 그래프들 간의 간격 띄우기 위함
plt.show()