# Lista Aberta do Módulo 3 - Linear na Prática

## Predizendo a glicose do sangue - Diabetes Dataset

Neste trabalho você deverá usa uma regressão linear para o problema de **predição da glicose do sangue**. Para isso, usaremos o dataset de diabetes de Stanford. Notem que as variáveis já estão normalizadas.

Você não precisa implementar os métodos, já que estão disponíveis na biblioteca [statsmodels](https://www.statsmodels.org/stable/index.html) da linguagem Python. Se necessário, pode fazer mais importações de bibliotecas.

## Importando módulos e baixando dataset

In [None]:
import pandas as pd
import numpy as np
import statsmodels.api as sm
import statsmodels.formula.api as smf

from sklearn.datasets import load_diabetes

In [None]:
diabetes = load_diabetes()
df = pd.DataFrame(diabetes.data,columns =[diabetes.feature_names])

In [None]:
print(diabetes.DESCR)

.. _diabetes_dataset:

Diabetes dataset
----------------

Ten baseline variables, age, sex, body mass index, average blood
pressure, and six blood serum measurements were obtained for each of n =
442 diabetes patients, as well as the response of interest, a
quantitative measure of disease progression one year after baseline.

**Data Set Characteristics:**

  :Number of Instances: 442

  :Number of Attributes: First 10 columns are numeric predictive values

  :Target: Column 11 is a quantitative measure of disease progression one year after baseline

  :Attribute Information:
      - age     age in years
      - sex
      - bmi     body mass index
      - bp      average blood pressure
      - s1      tc, total serum cholesterol
      - s2      ldl, low-density lipoproteins
      - s3      hdl, high-density lipoproteins
      - s4      tch, total cholesterol / HDL
      - s5      ltg, possibly log of serum triglycerides level
      - s6      glu, blood sugar level

Note: Each of these 1

In [None]:
df

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6
0,0.038076,0.050680,0.061696,0.021872,-0.044223,-0.034821,-0.043401,-0.002592,0.019907,-0.017646
1,-0.001882,-0.044642,-0.051474,-0.026328,-0.008449,-0.019163,0.074412,-0.039493,-0.068332,-0.092204
2,0.085299,0.050680,0.044451,-0.005670,-0.045599,-0.034194,-0.032356,-0.002592,0.002861,-0.025930
3,-0.089063,-0.044642,-0.011595,-0.036656,0.012191,0.024991,-0.036038,0.034309,0.022688,-0.009362
4,0.005383,-0.044642,-0.036385,0.021872,0.003935,0.015596,0.008142,-0.002592,-0.031988,-0.046641
...,...,...,...,...,...,...,...,...,...,...
437,0.041708,0.050680,0.019662,0.059744,-0.005697,-0.002566,-0.028674,-0.002592,0.031193,0.007207
438,-0.005515,0.050680,-0.015906,-0.067642,0.049341,0.079165,-0.028674,0.034309,-0.018114,0.044485
439,0.041708,0.050680,-0.015906,0.017293,-0.037344,-0.013840,-0.024993,-0.011080,-0.046883,0.015491
440,-0.045472,-0.044642,0.039062,0.001215,0.016318,0.015283,-0.028674,0.026560,0.044529,-0.025930


In [None]:
# Variavel que queremos predizer
TARGET = "s6"

Se tiver dúvidas sobre a validação cruzada, recomendo :https://machinelearningmastery.com/k-fold-cross-validation/ . Busque também outros materiais, o importante é você conhecer e saber utilizar a validação cruzada, que é bem mais robusta que a simples divisão em treino e teste.

# Exercício 01:

1. Execute a regressão em statsmodels para prever a variável 6. Para tal, use como exemplo o tutorial [daqui](https://www.statsmodels.org/stable/regression.html). Use apenas as variáveis age, sex, bmi e bp como preditoras.
1. Interprete os intervalos de confiança das variáveis. Existe alguma que poderia ser eliminada? Se sim, qual?

In [None]:
variavel_prevista = df[TARGET]
varivaies_regressao = df[['age', 'sex', 'bmi', 'bp']]

modelo = sm.OLS(variavel_prevista, varivaies_regressao)
resultado = modelo.fit()

print(resultado.summary())

                                 OLS Regression Results                                
Dep. Variable:                     s6   R-squared (uncentered):                   0.256
Model:                            OLS   Adj. R-squared (uncentered):              0.249
Method:                 Least Squares   F-statistic:                              37.62
Date:                Sun, 19 Nov 2023   Prob (F-statistic):                    4.63e-27
Time:                        16:09:10   Log-Likelihood:                          784.28
No. Observations:                 442   AIC:                                     -1561.
Df Residuals:                     438   BIC:                                     -1544.
Df Model:                           4                                                  
Covariance Type:            nonrobust                                                  
                 coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------

**Resposta 2:** A variável "sex" é aquela que tem menor intervalo de confiança, além de ter o menor valor "t". Assim, essa característica é a que menos contribui para a regressão.

Ao removê-la, obtemos:

In [None]:
modelo = sm.OLS(df[TARGET], df[['age', 'bmi', 'bp']])
resultado = modelo.fit()

print(resultado.summary())

                                 OLS Regression Results                                
Dep. Variable:                     s6   R-squared (uncentered):                   0.245
Model:                            OLS   Adj. R-squared (uncentered):              0.240
Method:                 Least Squares   F-statistic:                              47.51
Date:                Sun, 19 Nov 2023   Prob (F-statistic):                    1.31e-26
Time:                        16:09:10   Log-Likelihood:                          781.15
No. Observations:                 442   AIC:                                     -1556.
Df Residuals:                     439   BIC:                                     -1544.
Df Model:                           3                                                  
Covariance Type:            nonrobust                                                  
                 coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------

Como houve uma aproximação do "R-squared" e do "Adj. R-squared", é possível notar que houve uma melhora no modelo.

# Exercício 02:

1. Execute DUAS regressões para prever a quantidade de crimes violentos (violent) e quantidade de assassinatos (murder). Não use crimes violentos para prever assassinatos, nem assassinatos para precer crimes violentos. Use apenas as outras variáveis nos dois casos.
1. Interprete os intervalos de confiança das variáveis. Existe alguma que poderia ser eliminada? Se sim, qual?

In [None]:
crime_data = sm.datasets.statecrime.load()
df = crime_data.data
df

Unnamed: 0_level_0,violent,murder,hs_grad,poverty,single,white,urban
state,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Alabama,459.9,7.1,82.1,17.5,29.0,70.0,48.65
Alaska,632.6,3.2,91.4,9.0,25.5,68.3,44.46
Arizona,423.2,5.5,84.2,16.5,25.7,80.0,80.07
Arkansas,530.3,6.3,82.4,18.8,26.3,78.4,39.54
California,473.4,5.4,80.6,14.2,27.8,62.7,89.73
Colorado,340.9,3.2,89.3,12.9,21.4,84.6,76.86
Connecticut,300.5,3.0,88.6,9.4,25.0,79.1,84.83
Delaware,645.1,4.6,87.4,10.8,27.6,71.9,68.71
District of Columbia,1348.9,24.2,87.1,18.4,48.0,38.7,100.0
Florida,612.6,5.5,85.3,14.9,26.6,76.9,87.44


## Regressão para Crimes Violentos

Partindo da suposição que todas as variáveis podem influênciar de forma significitiva a quantidade de crimes violentos em um determinado estado, temos a seguinte regressão:

In [None]:
variavel_prevista = df['violent']
varivaies_regressao = df[['hs_grad', 'poverty', 'white', 'urban', 'single']]

modelo = sm.OLS(variavel_prevista, varivaies_regressao)
resultado = modelo.fit()

print(resultado.summary())

                                 OLS Regression Results                                
Dep. Variable:                violent   R-squared (uncentered):                   0.930
Model:                            OLS   Adj. R-squared (uncentered):              0.922
Method:                 Least Squares   F-statistic:                              122.4
Date:                Sun, 19 Nov 2023   Prob (F-statistic):                    2.15e-25
Time:                        16:09:10   Log-Likelihood:                         -317.23
No. Observations:                  51   AIC:                                      644.5
Df Residuals:                      46   BIC:                                      654.1
Df Model:                           5                                                  
Covariance Type:            nonrobust                                                  
                 coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------

É possível notar que o intervalo de confiânça certas variáveis está alternando entre valores positivos e negativos e próximos de zero, como das variáveis "white" e "urban".

Além dos seus valores "t" serem muito proximos de 0, significando que não há uma influência delas sobre a variável dependente que não possa ser explicada pelo acaso.

A variável "poverty" também levanta uma certa confusão, pois ela indicaria que quanto maior a taxa de pobreza menor seria a quantidade de crimes violentos. Além disso, o seu valor "t" também é baixo. Então, também podemos descartá-la.

Dessa forma, podemos desconsiderar essas variáveis e obter a nova regressão:

In [None]:
variavel_prevista = df['violent']
varivaies_regressao = df[['hs_grad', 'single']]

modelo = sm.OLS(variavel_prevista, varivaies_regressao)
resultado = modelo.fit()

print(resultado.summary())

                                 OLS Regression Results                                
Dep. Variable:                violent   R-squared (uncentered):                   0.928
Model:                            OLS   Adj. R-squared (uncentered):              0.925
Method:                 Least Squares   F-statistic:                              313.9
Date:                Sun, 19 Nov 2023   Prob (F-statistic):                    1.16e-28
Time:                        16:09:10   Log-Likelihood:                         -318.13
No. Observations:                  51   AIC:                                      640.3
Df Residuals:                      49   BIC:                                      644.1
Df Model:                           2                                                  
Covariance Type:            nonrobust                                                  
                 coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------

Removendo essas variáveis não significativas, obtemos uma nova regressão com um "R-Squared" 0.928, bem próximo do anterior. Isso comprova ainda mais que elas não eram relevantes para a regressão.

Além disso, a diferênça entre o "Adj. R-squared" e "R-squared" reduziu. Isso é outro indício que aquelas variáveis poderiam ser removidas.

Interpretando a regressão, vemos que quanto maior a taxa de escolaridade (quantidade de pessoas com graduação), menor é a chance de ocorrer crimes violentos. Por outro lado, quanto maior a taxa de pessoas solteiras, maior será essa quantidade.

## Regressão para Assassinatos


Utilizando a mesma lógica para a quantidade de Assassinatos, temos a regressão abaixo considerando que todas as variáveis são relevantes para a variável dependente.

In [None]:
variavel_prevista = df['murder']
varivaies_regressao = df[['hs_grad', 'poverty', 'white', 'urban', 'single']]

modelo = sm.OLS(variavel_prevista, varivaies_regressao)
resultado = modelo.fit()

print(resultado.summary())

                                 OLS Regression Results                                
Dep. Variable:                 murder   R-squared (uncentered):                   0.916
Model:                            OLS   Adj. R-squared (uncentered):              0.906
Method:                 Least Squares   F-statistic:                              99.75
Date:                Sun, 19 Nov 2023   Prob (F-statistic):                    1.62e-23
Time:                        16:09:10   Log-Likelihood:                         -101.45
No. Observations:                  51   AIC:                                      212.9
Df Residuals:                      46   BIC:                                      222.5
Df Model:                           5                                                  
Covariance Type:            nonrobust                                                  
                 coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------

Novamente, é possível notar intervalos de confiânça pequenos e próximos de zero, além de um valor "t" baixo para as variáveis "poverty", "urban" e "white". Além disso, os seus intervalos de confiânça estão variando entre os valores positivos e negativos e estão próximos de 0.

Assim, podemos removê-las, gerando uma nova regressão:

In [None]:
variavel_prevista = df['murder']
varivaies_regressao = df[['hs_grad', 'single']]

modelo = sm.OLS(variavel_prevista, varivaies_regressao)
resultado = modelo.fit()

print(resultado.summary())

                                 OLS Regression Results                                
Dep. Variable:                 murder   R-squared (uncentered):                   0.913
Model:                            OLS   Adj. R-squared (uncentered):              0.910
Method:                 Least Squares   F-statistic:                              257.6
Date:                Sun, 19 Nov 2023   Prob (F-statistic):                    9.97e-27
Time:                        16:09:10   Log-Likelihood:                         -102.16
No. Observations:                  51   AIC:                                      208.3
Df Residuals:                      49   BIC:                                      212.2
Df Model:                           2                                                  
Covariance Type:            nonrobust                                                  
                 coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------

Assim como antes, obtemos uma regressão com um "R-squared" de 0.913, que é bem próximo da regressão inicial.

A interpretação da regressão é a mesma da anterior. Quanto maior o nível de escolaridade, menos casos de assassinatos. Além disso, quanto mais pessoas solteiras, maior a chance de assassinatos.