# Lista Aberta do Módulo 3 - Linear na Prática

## Predizendo a glicose do sangue - Diabetes Dataset

Neste trabalho você deverá usa uma regressão linear para o problema de **predição da glicose do sangue**. Para isso, usaremos o dataset de diabetes de Stanford. Notem que as variáveis já estão normalizadas.

Você não precisa implementar os métodos, já que estão disponíveis na biblioteca [statsmodels](https://www.statsmodels.org/stable/index.html) da linguagem Python. Se necessário, pode fazer mais importações de bibliotecas.

## Importando módulos e baixando dataset

In [1]:
import pandas as pd
import numpy as np
import statsmodels.api as sm
import statsmodels.formula.api as smf

from sklearn.datasets import load_diabetes

In [2]:
diabetes = load_diabetes()
df = pd.DataFrame(diabetes.data,columns =[diabetes.feature_names])

In [3]:
print(diabetes.DESCR)

.. _diabetes_dataset:

Diabetes dataset
----------------

Ten baseline variables, age, sex, body mass index, average blood
pressure, and six blood serum measurements were obtained for each of n =
442 diabetes patients, as well as the response of interest, a
quantitative measure of disease progression one year after baseline.

**Data Set Characteristics:**

  :Number of Instances: 442

  :Number of Attributes: First 10 columns are numeric predictive values

  :Target: Column 11 is a quantitative measure of disease progression one year after baseline

  :Attribute Information:
      - age     age in years
      - sex
      - bmi     body mass index
      - bp      average blood pressure
      - s1      tc, total serum cholesterol
      - s2      ldl, low-density lipoproteins
      - s3      hdl, high-density lipoproteins
      - s4      tch, total cholesterol / HDL
      - s5      ltg, possibly log of serum triglycerides level
      - s6      glu, blood sugar level

Note: Each of these 1

In [4]:
df

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6
0,0.038076,0.050680,0.061696,0.021872,-0.044223,-0.034821,-0.043401,-0.002592,0.019907,-0.017646
1,-0.001882,-0.044642,-0.051474,-0.026328,-0.008449,-0.019163,0.074412,-0.039493,-0.068332,-0.092204
2,0.085299,0.050680,0.044451,-0.005670,-0.045599,-0.034194,-0.032356,-0.002592,0.002861,-0.025930
3,-0.089063,-0.044642,-0.011595,-0.036656,0.012191,0.024991,-0.036038,0.034309,0.022688,-0.009362
4,0.005383,-0.044642,-0.036385,0.021872,0.003935,0.015596,0.008142,-0.002592,-0.031988,-0.046641
...,...,...,...,...,...,...,...,...,...,...
437,0.041708,0.050680,0.019662,0.059744,-0.005697,-0.002566,-0.028674,-0.002592,0.031193,0.007207
438,-0.005515,0.050680,-0.015906,-0.067642,0.049341,0.079165,-0.028674,0.034309,-0.018114,0.044485
439,0.041708,0.050680,-0.015906,0.017293,-0.037344,-0.013840,-0.024993,-0.011080,-0.046883,0.015491
440,-0.045472,-0.044642,0.039062,0.001215,0.016318,0.015283,-0.028674,0.026560,0.044529,-0.025930


In [5]:
# Variavel que queremos predizer
TARGET = "s6"

Se tiver dúvidas sobre a validação cruzada, recomendo :https://machinelearningmastery.com/k-fold-cross-validation/ . Busque também outros materiais, o importante é você conhecer e saber utilizar a validação cruzada, que é bem mais robusta que a simples divisão em treino e teste.

# Exercício 01:

1. Execute a regressão em statsmodels para prever a variável 6. Para tal, use como exemplo o tutorial [daqui](https://www.statsmodels.org/stable/regression.html). Use apenas as variáveis age, sex, bmi e bp como preditoras.
1. Interprete os intervalos de confiança das variáveis. Existe alguma que poderia ser eliminada? Se sim, qual?

In [9]:
crime_data = sm.datasets.statecrime.load()
df = crime_data.data
print(df.head())

            violent  murder  hs_grad  poverty  single  white  urban
state                                                              
Alabama       459.9     7.1     82.1     17.5    29.0   70.0  48.65
Alaska        632.6     3.2     91.4      9.0    25.5   68.3  44.46
Arizona       423.2     5.5     84.2     16.5    25.7   80.0  80.07
Arkansas      530.3     6.3     82.4     18.8    26.3   78.4  39.54
California    473.4     5.4     80.6     14.2    27.8   62.7  89.73


In [12]:
# YOUR CODE HERE
# Carregar o dataset de diabetes de Stanford
diabetes = load_diabetes()
X = diabetes.data  # features
y = diabetes.target  # target variable (glicose no sangue)

# Selecionar as variáveis preditoras específicas
# age, sex, bmi, bp correspondem às colunas 0, 1, 2, 3 no dataset de diabetes
X_selected = X[:, [0, 1, 2, 3]]
X_selected_df = pd.DataFrame(X_selected, columns=['age', 'sex', 'bmi', 'bp'])

# Adicionar a variável alvo (y) ao dataframe
X_selected_df['glucose'] = y

# Adicionar uma coluna de 1s para o termo de interceptação
X_selected_df = sm.add_constant(X_selected_df)

# Criar o modelo de regressão linear
model = sm.OLS(X_selected_df['glucose'], X_selected_df[['const', 'age', 'sex', 'bmi', 'bp']])

# Ajustar o modelo aos dados
results = model.fit()

# Imprimir os resultados da regressão
print(results.summary())

                            OLS Regression Results                            
Dep. Variable:                glucose   R-squared:                       0.400
Model:                            OLS   Adj. R-squared:                  0.395
Method:                 Least Squares   F-statistic:                     72.91
Date:                Wed, 03 Jul 2024   Prob (F-statistic):           2.70e-47
Time:                        21:14:28   Log-Likelihood:                -2434.2
No. Observations:                 442   AIC:                             4878.
Df Residuals:                     437   BIC:                             4899.
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const        152.1335      2.853     53.329      0.0

dade (age) e sexo (sex): Ambas as variáveis têm valores-p elevados (maior que 0.05), sugerindo que podem não ser estatisticamente significativas para prever a glicose no sangue neste modelo. Portanto, considerar a remoção dessas variáveis pode simplificar o modelo sem perder muita precisão na previsão da glicose no sangue.

IMC (bmi) e pressão sanguínea (bp): Ambas as variáveis têm valores-p muito baixos (0.000), indicando alta significância na previsão da glicose no sangue. Portanto, manter essas variáveis no modelo é recomendado.

# Exercício 02:

1. Execute DUAS regressões para prever a quantidade de crimes violentos (violent) e quantidade de assassinatos (murder). Não use crimes violentos para prever assassinatos, nem assassinatos para precer crimes violentos. Use apenas as outras variáveis nos dois casos.
1. Interprete os intervalos de confiança das variáveis. Existe alguma que poderia ser eliminada? Se sim, qual?

In [13]:
crime_data = sm.datasets.statecrime.load()
df = crime_data.data
print(df.head())

            violent  murder  hs_grad  poverty  single  white  urban
state                                                              
Alabama       459.9     7.1     82.1     17.5    29.0   70.0  48.65
Alaska        632.6     3.2     91.4      9.0    25.5   68.3  44.46
Arizona       423.2     5.5     84.2     16.5    25.7   80.0  80.07
Arkansas      530.3     6.3     82.4     18.8    26.3   78.4  39.54
California    473.4     5.4     80.6     14.2    27.8   62.7  89.73


In [14]:
# Regressão para prever crimes violentos (violent)
model_violent = sm.OLS(df['violent'], df[['hs_grad', 'poverty', 'single', 'white', 'urban']])
results_violent = model_violent.fit()

# Imprimir os resultados da regressão para crimes violentos
print("Regression results for violent crimes:")
print(results_violent.summary())
print("\n")

# Regressão para prever assassinatos (murder)
model_murder = sm.OLS(df['murder'], df[['hs_grad', 'poverty', 'single', 'white', 'urban']])
results_murder = model_murder.fit()

# Imprimir os resultados da regressão para assassinatos
print("Regression results for murders:")
print(results_murder.summary())

Regression results for violent crimes:
                                 OLS Regression Results                                
Dep. Variable:                violent   R-squared (uncentered):                   0.930
Model:                            OLS   Adj. R-squared (uncentered):              0.922
Method:                 Least Squares   F-statistic:                              122.4
Date:                Wed, 03 Jul 2024   Prob (F-statistic):                    2.15e-25
Time:                        21:20:26   Log-Likelihood:                         -317.23
No. Observations:                  51   AIC:                                      644.5
Df Residuals:                      46   BIC:                                      654.1
Df Model:                           5                                                  
Covariance Type:            nonrobust                                                  
                 coef    std err          t      P>|t|      [0.025      0.975]
--

Para Crimes Violentos: As variáveis hs_grad, poverty, white e urban têm valores-p elevados e intervalos de confiança que incluem zero, o que sugere que podem não ser significativas para prever crimes violentos. Portanto, considerar a remoção dessas variáveis pode simplificar o modelo sem perder muita precisão na previsão de crimes violentos.

Para Assassinatos: A variável hs_grad é significativa (valor-p baixo) e mostra uma associação negativa com assassinatos. A variável single é altamente significativa e está positivamente associada aos assassinatos. As variáveis poverty, white e urban não são significativas, então considerar a remoção delas poderia simplificar o modelo.