# Checkpoint Machine Learning - Regressão Linear

O objetivo deste notebook é explicar o IMC (Índice de Massa Corporal) com base nos dados da planilha do PNS

 * As variáveis que compõem a Regressão Linear Múltipla foram escolhidas com o objetivo de maximizar o R-quadrado.  
   Isso pode envolver a experimentação com diferentes combinações de variáveis.

* As variáveis foram escolhidas para maximizar o R-quadrado. No entanto, um R-quadrado alto não garante um bom modelo. Provável que o modelo seja falho e não ajude a explicar, por conta da falta de informações e validação do modelo.

* Se as variáveis escolhidas não têm uma relação forte ou direta com o IMC, elas não ajudarão a explicar.

* Não necessariamente a saúde atual da pessoa terá relação direta com o IMC.

* Se o modelo está sobreajustado (muitas variáveis) ou sofre de multicolinearidade (variáveis altamente correlacionadas), ele pode falhar. 

In [242]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import LabelEncoder
import seaborn as sns
import statsmodels.api as sm

In [243]:
df = pd.read_csv("OLS_EX2.csv", encoding= 'UTF-8', sep = ';')
df.isna().sum()


estado                   0
total_moradores        246
tipo_local               0
num_comodos            246
problemas_recentes     246
saude                    0
peso                  3661
altura                3770
dtype: int64

In [244]:
df = df.dropna()
df

Unnamed: 0,estado,total_moradores,tipo_local,num_comodos,problemas_recentes,saude,peso,altura
0,Alagoas,1.0,Urbano,3.0,Não,Regular,58.0,164.0
1,Mato Grosso do Sul,3.0,Urbano,6.0,Não,Regular,71.0,159.0
6,Rio de Janeiro,2.0,Urbano,5.0,Sim,Ruim,90.0,175.0
8,Pernambuco,2.0,Urbano,7.0,Não,Muito boa,79.0,172.0
17,Pernambuco,3.0,Urbano,8.0,Sim,Regular,64.0,148.0
...,...,...,...,...,...,...,...,...
4985,Rio Grande do Sul,1.0,Urbano,8.0,Não,Regular,61.0,158.0
4987,Espírito Santo,3.0,Urbano,4.0,Não,Boa,92.0,174.0
4988,Sergipe,3.0,Rural,5.0,Não,Boa,56.0,163.0
4992,Piauí,3.0,Urbano,9.0,Não,Regular,66.5,160.0


# Varíavel Label

In [245]:
df['IMC'] = df['peso'] / (df['altura'] / 100) ** 2
df['tipo_local'] = df.apply(lambda row: 1 if row['tipo_local'] == 'Urbano' else 0, axis = 1)
df['problemas_recentes'] = df.apply(lambda row: 1 if row['problemas_recentes'] == 'Sim' else 0, axis = 1)

df['saude'] = df['saude'].apply(lambda x: 0 if x == 'Muito ruim' 
                                 else 1 if x == 'Ruim' 
                                 else 2 if x == 'Regular' 
                                 else 3 if x == 'Boa' 
                                 else 4 if x == 'Muito boa' 
                                 else x)



df

Unnamed: 0,estado,total_moradores,tipo_local,num_comodos,problemas_recentes,saude,peso,altura,IMC
0,Alagoas,1.0,1,3.0,0,2,58.0,164.0,21.564545
1,Mato Grosso do Sul,3.0,1,6.0,0,2,71.0,159.0,28.084332
6,Rio de Janeiro,2.0,1,5.0,1,1,90.0,175.0,29.387755
8,Pernambuco,2.0,1,7.0,0,4,79.0,172.0,26.703624
17,Pernambuco,3.0,1,8.0,1,2,64.0,148.0,29.218408
...,...,...,...,...,...,...,...,...,...
4985,Rio Grande do Sul,1.0,1,8.0,0,2,61.0,158.0,24.435187
4987,Espírito Santo,3.0,1,4.0,0,3,92.0,174.0,30.387105
4988,Sergipe,3.0,0,5.0,0,3,56.0,163.0,21.077195
4992,Piauí,3.0,1,9.0,0,2,66.5,160.0,25.976562


In [246]:
model = LinearRegression(n_jobs=None, fit_intercept=True, copy_X=True)

x = df[['total_moradores', 'tipo_local', 'num_comodos', 'problemas_recentes', 'saude']].to_numpy()
y = df['IMC'].to_numpy()

model.fit(x, y)

print('R-quadrado:', model.score(x, y))
print('Intercepto:', model.intercept_)
print(f'Coeficientes:', model.coef_, "\n\n")

x = sm.add_constant(x)
model = sm.OLS(y, x).fit()

print(model.summary())

R-quadrado: 0.02093094040785337
Intercepto: 28.376828655193073
Coeficientes: [-0.09291867  0.3082171   0.01692314  0.58805328 -0.73661622] 


                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.021
Model:                            OLS   Adj. R-squared:                  0.017
Method:                 Least Squares   F-statistic:                     5.071
Date:                Mon, 26 Feb 2024   Prob (F-statistic):           0.000132
Time:                        13:18:31   Log-Likelihood:                -3515.6
No. Observations:                1192   AIC:                             7043.
Df Residuals:                    1186   BIC:                             7074.
Df Model:                           5                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025  

# Variável Binária - melhor r_quadrado 

In [247]:
df['Muito_Ruim'] = df.apply(lambda row: 1 if row['saude'] == 0 else 0, axis = 1) # monday = segunda-feira
df['Ruim'] = df.apply(lambda row: 1 if row['saude'] == 1 else 0, axis = 1) # tuesday = terça-feira
df['Regular'] = df.apply(lambda row: 1 if row['saude'] == 2 else 0, axis = 1) # wednesday = quarta-feira
df['Boa'] = df.apply(lambda row: 1 if row['saude'] == 3 else 0, axis = 1) # thursday = quinta-feira
df['Muito_Boa'] = df.apply(lambda row: 1 if row['saude'] == 4 else 0, axis = 1) # friday = sextafeira


In [250]:
df.head()

Unnamed: 0,estado,total_moradores,tipo_local,num_comodos,problemas_recentes,saude,peso,altura,IMC,Muito_Ruim,Ruim,Regular,Boa,Muito_Boa
0,Alagoas,1.0,1,3.0,0,2,58.0,164.0,21.564545,0,0,1,0,0
1,Mato Grosso do Sul,3.0,1,6.0,0,2,71.0,159.0,28.084332,0,0,1,0,0
6,Rio de Janeiro,2.0,1,5.0,1,1,90.0,175.0,29.387755,0,1,0,0,0
8,Pernambuco,2.0,1,7.0,0,4,79.0,172.0,26.703624,0,0,0,0,1
17,Pernambuco,3.0,1,8.0,1,2,64.0,148.0,29.218408,0,0,1,0,0


In [249]:
model = LinearRegression(n_jobs=None, fit_intercept=True, copy_X=True)

x = df[['Muito_Ruim', 'Ruim', 'Regular', 'Boa', 'Muito_Boa']].to_numpy()
y = df['IMC'].to_numpy()

model.fit(x, y)

print('R-quadrado:', model.score(x, y))
print('Intercepto:', model.intercept_)
print(f'Coeficientes:', model.coef_, "\n\n")

x = sm.add_constant(x)
model = sm.OLS(y, x).fit()

print(model.summary())

R-quadrado: 0.025157520866534444
Intercepto: -77388251392599.33
Coeficientes: [7.73882514e+13 7.73882514e+13 7.73882514e+13 7.73882514e+13
 7.73882514e+13] 


                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.025
Model:                            OLS   Adj. R-squared:                  0.022
Method:                 Least Squares   F-statistic:                     7.724
Date:                Mon, 26 Feb 2024   Prob (F-statistic):           3.82e-06
Time:                        13:18:31   Log-Likelihood:                -3512.9
No. Observations:                1192   AIC:                             7036.
Df Residuals:                    1187   BIC:                             7061.
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>