## Liner Regression 

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib.pyplot import subplot

In [2]:
import statsmodels.api as sm

In [3]:
from statsmodels.stats.outliers_influence \
import variance_inflation_factor as VIF
from statsmodels.stats.anova import anova_lm

In [4]:
Boston = pd.read_csv('data/housing.csv', sep='\s+', header=None)
set_columns = ["crim","zn","indus","chas","nox","rm","age","dis","rad","tax","ptratio","b","lstat","medv"]
set_columns = list(map(lambda x: x.upper(),set_columns))
Boston.columns = set_columns

In [5]:
Boston.columns

Index(['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX',
       'PTRATIO', 'B', 'LSTAT', 'MEDV'],
      dtype='object')

CRIM - 一人当たりの町の犯罪率  
ZN - 25,000平方フィート以上の区画に指定された住宅用地の割合  
INDUS - 町ごとの非小売業務用地の割合  
CHAS - チャールズ川ダミー変数（河川に沿っている場合は1、そうでない場合は0）  
NOX - 一酸化窒素濃度（1000万分の1単位）  
RM - 住宅1戸当たりの平均部屋数  
AGE - 1940年以前に建てられた自家所有住宅の割合  
DIS - ボストンの5つの雇用センターへの加重距離  
RAD - 放射状高速道路へのアクセス指数  
TAX - $10,000あたりの固定資産税率

PTRATIO - 町ごとの生徒-教師比率  
B - "1000(Bk - 0.63)^2" ここでBkは町ごとの黒人人口割合  
LSTAT - 低所得者層の人口割合  
MEDV - 自家所有住宅の中央値（$1000単位）  

In [6]:
X = pd.DataFrame({'intercept': np.ones(Boston.shape[0]), 'LSTAT': 
                 Boston['LSTAT']})

In [7]:
X.head(4)

Unnamed: 0,intercept,LSTAT
0,1.0,4.98
1,1.0,9.14
2,1.0,4.03
3,1.0,2.94


In [8]:
y = Boston['MEDV']
model = sm.OLS(y, X)
results = model.fit()

In [12]:
print(results.summary())

                            OLS Regression Results                            
Dep. Variable:                   MEDV   R-squared:                       0.544
Model:                            OLS   Adj. R-squared:                  0.543
Method:                 Least Squares   F-statistic:                     601.6
Date:                Thu, 11 Jul 2024   Prob (F-statistic):           5.08e-88
Time:                        06:12:59   Log-Likelihood:                -1641.5
No. Observations:                 506   AIC:                             3287.
Df Residuals:                     504   BIC:                             3295.
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
intercept     34.5538      0.563     61.415      0.0