# 🕵️‍♀️ Inference analysis with OLS (Ordinary Least Squares)

In [1]:
# imports 
import numpy as np
import pandas as pd
import statsmodels.api as sm 
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

In [2]:
# load dataset
df = pd.read_csv('clean_df.csv')

# OLS without scaling features

In [3]:
X = df.drop(['median_house_value'], axis=1)
y = df['median_house_value']

In [4]:
#split dataset
X_train, X_test, y_train, y_test = train_test_split(X,y,train_size=0.3)

# ols regression without standard scaling
X_train_smOLS = sm.add_constant(X_train)
smOLS = sm.OLS(y_train, X_train_smOLS).fit()

print(smOLS.summary())

                            OLS Regression Results                            
Dep. Variable:     median_house_value   R-squared:                       0.642
Model:                            OLS   Adj. R-squared:                  0.642
Method:                 Least Squares   F-statistic:                     739.5
Date:                Fri, 24 Sep 2021   Prob (F-statistic):               0.00
Time:                        11:04:04   Log-Likelihood:                -62203.
No. Observations:                4953   AIC:                         1.244e+05
Df Residuals:                    4940   BIC:                         1.245e+05
Df Model:                          12                                         
Covariance Type:            nonrobust                                         
                         coef    std err          t      P>|t|      [0.025      0.975]
--------------------------------------------------------------------------------------
const              -1.758e+06    1.5

⬤ Variable dépendante  : median_house_value

⬤ R2 : 0.65

⬤ coef : Le coefficient pour chaque variable explicative reflète à la fois la force et le type de la relation que la variable explicative présente avec la variable dépendante.

housing_median_age, total_bedrooms et households ont le coef le plus élevés donc meilleure collération avec median_house_value

⬤ std err (Standard Error) : Montre la précision pour chaque prédiction. Plus l'erreur standard est faible, mieux est l'estimation.

total_rooms, total_bedrooms et place_INLAND ont le SE le moins élevé


⬤ P>|t| (valeur statistique t et valeur P) : Il montre la valeur pour les statistiques t et la valeur p. Cela répond à la question est-ce une variable utile ou nous aide-t-elle à expliquer la variabilité que nous avons dans ce cas. Une valeur p < 0,05 est considérée comme une variable significative. 


# OLS with scaling features

In [5]:
# standardizing the features (scaling)
X_std = StandardScaler().fit_transform(X_train)

In [6]:
# ols regression with standard scaling
X_train_smOLS_std = sm.add_constant(X_std)
smOLS = sm.OLS(y_train, X_train_smOLS_std).fit()

print(smOLS.summary())

                            OLS Regression Results                            
Dep. Variable:     median_house_value   R-squared:                       0.642
Model:                            OLS   Adj. R-squared:                  0.642
Method:                 Least Squares   F-statistic:                     739.5
Date:                Fri, 24 Sep 2021   Prob (F-statistic):               0.00
Time:                        11:04:07   Log-Likelihood:                -62203.
No. Observations:                4953   AIC:                         1.244e+05
Df Residuals:                    4940   BIC:                         1.245e+05
Df Model:                          12                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const       2.063e+05    979.626    210.548      0.0