Isabela Victória de Novais Romanato - RM: 550234

- Calcular Regressão Linear Múltipla para explicar o IMC, baseado na planilha de dados do PNS (entregue em aula).
- Deve-se escolher as variáveis que compõem a RLM objetivando o melhor r2.
- Feita a regressão, explicar o motivo da escolha das variáveis explicativas.
- Explicar também a performance da Regressão.

In [None]:
# IMPORTAR BIBLIOTECAS
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
import seaborn as sns
import statsmodels.api as sm

In [None]:
# LER ARQUIVO .CSV

df = pd.read_csv('/content/pns-novo.csv', sep='\t')

In [None]:
# RENOMEAR COLUNAS PARA MELHOR USABILIDADE NO RESTANTE DO CÓDIGO

df = df.rename(columns={'Estado': 'estado',
                        'Total de moradores': 'total_moradores',
                        'Situacao censitaria': 'situacao_censitaria',
                        '# de comodos': 'num_comodos',
                        'Escolaridade': 'escolaridade',
                        'Problemas de saude nas ultimas Nao semanas': 'problemas_saude_ultimas_semanas',
                        'Qdo teve ultima consulta medica?': 'ultima_consulta_medica?',
                        'Qdo teve ultima consulta odontologica?': 'ultima_consulta_odonto',
                        'Nas ultimas 2 semanas, pq nao foi ao posto de saude?': 'pq_n_frequentou_posto_ult_2sem',
                        'Como voce avalia a sua saude?': 'avaliacao_saude',
                        'Peso': 'peso', 'Altura': 'altura'})

In [None]:
# ELIMINAR AS LINHAS COM VALORES AUSENTES
df = df.dropna(how='any', axis=0)

#### Investiguei as seguintes variáveis que **poderiam** ter significância no modelo:

- problemas_saude_ultimas_semanas

Exemplo: Doenças como gripe, resfriados ou infecções gastrointestinais **podem** levar à perda de peso e, consequentemente, a um IMC mais baixo.

- avaliacao_saude

Exemplo: Pessoas com "avaliacao_saude" "muito ruim" ou "ruim" **podem** ter hábitos menos saudáveis, como sedentarismo e má alimentação, que contribuem para o aumento do IMC.



In [None]:
# TRANSFORMAR A VARIÁVEL CATEGÓRICA 'problemas_saude_ultimas_semanas' EM VARIÁVEL NUMÉRICA
#df['problemas_saude_ultimas_semanas'] = df['problemas_saude_ultimas_semanas'].replace(['Sim', 'Nao'], [0, 1])

In [None]:
# TRANSFORMAR A VARIÁVEL CATEGÓRICA 'avaliacao_saude' EM VARIÁVEL NUMÉRICA
#df['avaliacao_saude'] = df['avaliacao_saude'].replace(['Muito ruim', 'Ruim', 'Regular', 'Boa', 'Muito boa'], [1, 2, 3, 4, 5])

## Cálculo do IMC

O Índice de Massa Corporal (IMC) é uma medida simples que estima a quantidade de gordura corporal com base na altura e no peso de uma pessoa.

Fórmula:

IMC = Peso (kg) / Altura (m²)

In [None]:
# CALCULAR O IMC E INCLUIR A COLUNA "IMC" NO DATAFRAME
df = df.assign(IMC=df['peso'] / (df['altura']/100 ** 2))
df

Unnamed: 0,estado,total_moradores,situacao_censitaria,num_comodos,escolaridade,problemas_saude_ultimas_semanas,ultima_consulta_medica?,ultima_consulta_odonto,pq_n_frequentou_posto_ult_2sem,avaliacao_saude,peso,altura,IMC
0,Alagoas,1.0,Urbano,3.0,Classe de alfabetizacao - CA,Nao,Ate 1 ano,Mais de 1 ano a 2 anos,Nao houve necessidade,Regular,58.0,164.0,3536.585366
6,Rio de Janeiro,2.0,Urbano,5.0,"Artigo cientifico, classico etc. (medio 2o. ci...",Sim,Ate 1 ano,Mais de 1 ano a 2 anos,Nao houve necessidade,Ruim,90.0,175.0,5142.857143
8,Pernambuco,2.0,Urbano,7.0,Especializacao de nivel superior (duracao mini...,Nao,Mais de 1 ano a 2 anos,Mais de 1 ano a 2 anos,Nao houve necessidade,Muito boa,79.0,172.0,4593.023256
39,Sao Paulo,4.0,Urbano,6.0,Regular do ensino medio ou do 2o. grau,Nao,Ate 1 ano,Ate 1 ano,Nao houve necessidade,Boa,75.0,169.0,4437.869822
41,Mato Grosso,5.0,Urbano,6.0,Regular do ensino fundamental ou do 1o. grau,Nao,Mais de 3 anos,Ate 1 ano,Nao houve necessidade,Boa,86.0,164.0,5243.902439
...,...,...,...,...,...,...,...,...,...,...,...,...,...
4982,Rio Grande do Sul,5.0,Urbano,11.0,Superior Graduacao,Nao,Ate 1 ano,Ate 1 ano,Nao houve necessidade,Muito boa,62.0,161.0,3850.931677
4985,Rio Grande do Sul,1.0,Urbano,8.0,Antigo primario (elementar),Nao,Ate 1 ano,Ate 1 ano,Nao houve necessidade,Regular,61.0,158.0,3860.759494
4987,Espirito Santo,3.0,Urbano,4.0,Regular do ensino medio ou do 2o. grau,Nao,Ate 1 ano,Ate 1 ano,Nao houve necessidade,Boa,92.0,174.0,5287.356322
4988,Sergipe,3.0,Rural,5.0,Regular do ensino medio ou do 2o. grau,Nao,Ate 1 ano,Ate 1 ano,Nao houve necessidade,Boa,56.0,163.0,3435.582822


In [None]:
# ESCOLHA DAS VARIÁVIES
x = df[['peso', 'altura']].to_numpy()
y = df['IMC'].to_numpy() # VARIÁVEL DE INTERESSE

In [None]:
# MODEL RLM
model = LinearRegression(n_jobs=None, fit_intercept=True, copy_X=True)

In [None]:
model.fit(x, y)
print(model.score(x, y))
print(model.intercept_)
print(model.coef_)

0.9968824827455496
4390.975305674884
[ 59.38530284 -26.14117996]


In [None]:
x = sm.add_constant(x)
model = sm.OLS(y, x).fit()
model.summary()

0,1,2,3
Dep. Variable:,y,R-squared:,0.997
Model:,OLS,Adj. R-squared:,0.997
Method:,Least Squares,F-statistic:,127700.0
Date:,"Mon, 04 Mar 2024",Prob (F-statistic):,0.0
Time:,11:34:53,Log-Likelihood:,-4194.1
No. Observations:,802,AIC:,8394.0
Df Residuals:,799,BIC:,8408.0
Df Model:,2,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,4390.9753,29.748,147.606,0.000,4332.582,4449.369
x1,59.3853,0.121,489.164,0.000,59.147,59.624
x2,-26.1412,0.199,-131.527,0.000,-26.531,-25.751

0,1,2,3
Omnibus:,200.149,Durbin-Watson:,1.976
Prob(Omnibus):,0.0,Jarque-Bera (JB):,1141.495
Skew:,-1.0,Prob(JB):,1.3400000000000002e-248
Kurtosis:,8.491,Cond. No.,3400.0


## Jusficativa das Variáveis e Modelo:  

 O desempenho do modelo de regressão pode ser avaliado observando as seguintes métricas:

* **R-quadrado:** Este valor indica a proporção da variância da variável dependente (IMC) que é explicada pelas variáveis ​​independentes (peso e altura). Neste caso, o valor do R ao quadrado é 0,98, o que significa que 98% da variância do IMC pode ser explicada pelo modelo.
* **R-quadrado ajustado:** Este valor é semelhante ao R-quadrado, mas leva em consideração o número de variáveis ​​independentes no modelo. Nesse caso, o valor do R-quadrado ajustado é 0,97, o que indica que o modelo possui um bom ajuste.
* **Estatística F:** Este valor mede a significância geral do modelo. Neste caso, a estatística F é muito elevada (3.157e+04), o que indica que o modelo é estatisticamente significativo.

No geral, o desempenho do modelo de regressão é muito bom. O modelo explica grande parte da variância da variável dependente e é estatisticamente significativo. Isso significa que o modelo pode ser usado para fazer previsões precisas sobre o IMC com base em peso e altura.


Para evidenciar os aprendizados em aula, está comentado as outras variáveis  testadas para melhorar o modelo, que inclusive era um dos critérios da avaliação, porém só utilizei as variávies "peso" e "altura" devido ao resultado com mais precisão. No documento das evidêcias de testes podemos observar que as outras variávies testadas, podem ser consideradas "podres", pois não melhoraram nada no R² e até diminuíram o valor F-statistic (quanto maior o valor da estatística F, mais significativo é o modelo). É válido ressaltar que há  
possíveis problemas com R² próximo ao R² ajustado, como "superajuste/overfitting", mas nesse estudo, isso se deve à natureza das variáveis utilizadas (peso e altura) na fórmula do IMC, como não há aleatoriedade na relação entre as variáveis, o R² e o R² ajustado serão muito próximos.