# Regressão Logística I
## Tarefa II

Vamos trabalhar com a mesma base do exercício anterior, mas vamos aprofundar um pouco mais a nossa regressão.

In [1]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

import statsmodels.formula.api as smf

In [2]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/processed.cleveland.data'

df = pd.read_csv(url, 
                 names=['age', 'sex', 'cp', 'trestbps', 'chol', 'fbs', 'restecg',
                        'thalach', 'exang', 'oldpeak', 'slope', 'ca', 'thal', 'num'])
df['flag_doente'] = (df['num']!=0).astype('int64')
df.head()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,num,flag_doente
0,63.0,1.0,1.0,145.0,233.0,1.0,2.0,150.0,0.0,2.3,3.0,0.0,6.0,0,0
1,67.0,1.0,4.0,160.0,286.0,0.0,2.0,108.0,1.0,1.5,2.0,3.0,3.0,2,1
2,67.0,1.0,4.0,120.0,229.0,0.0,2.0,129.0,1.0,2.6,2.0,2.0,7.0,1,1
3,37.0,1.0,3.0,130.0,250.0,0.0,0.0,187.0,0.0,3.5,3.0,0.0,3.0,0,0
4,41.0,0.0,2.0,130.0,204.0,0.0,2.0,172.0,0.0,1.4,1.0,0.0,3.0,0,0


A descrição das variáveis está recortada abaixo:
- age: idade do paciente em anos
- sex: sexo (1 = male; 0 = female)  
- cp: tipo de dor no peito
  - 1: angina típica
  - 2: angina atípica
  - 3: dor não-angina
  - 4: assintomático
- trestbps: pressão sanguínea em repouso (em mm Hg na admissão ao hospital
- chol: colesterol sérico em mg/dl
- fbs: (açúcar no sangue em jejum > 120 mg/dl) (1 = True; 0 = False)
- restecg: resultados eletrocardiográficos em repouso
  - 0: normal
  - 1: tendo anormalidade da onda ST-T (Inversões de onda T e / ou ST com elevação ou depressão de > 0.05 mV)
  - 2: mostrando hipertrofia ventricular esquerda provável ou definitiva pelos critérios de Estes
- thalach: frequência cardíaca máxima alcançada
- exang: angina induzida por exercício(1 = sim; 0 = não)
- oldpeak = Depressão de ST induzida por exercício em relação ao repouso
- slope: Depressão de ST induzida por exercício em relação ao repouso
  - 1: inclinação ascendente
  - 2: estável
  - 3: inclinação descendente
- ca: número de vasos principais (0-3) coloridos por fluorosopia
- thal: 3 = normal; 6 = defeito corrigido; 7 = defeito reversível
- num: diagnóstico de doença cardíaga (status de doença angiográfica)

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 303 entries, 0 to 302
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   age          303 non-null    float64
 1   sex          303 non-null    float64
 2   cp           303 non-null    float64
 3   trestbps     303 non-null    float64
 4   chol         303 non-null    float64
 5   fbs          303 non-null    float64
 6   restecg      303 non-null    float64
 7   thalach      303 non-null    float64
 8   exang        303 non-null    float64
 9   oldpeak      303 non-null    float64
 10  slope        303 non-null    float64
 11  ca           303 non-null    object 
 12  thal         303 non-null    object 
 13  num          303 non-null    int64  
 14  flag_doente  303 non-null    int64  
dtypes: float64(11), int64(2), object(2)
memory usage: 35.6+ KB


**1.** Considere o script que monta a análise bivariada que você fez na tarefa anterior. Transforme esse script em uma função, que deve:
- Ter como parâmetros de entrada:
    - Um *dataframe* contendo os dados a serem avaliados
    - Um *string* contendo o nome da variável resposta
    - Um *string* contendo o nome da variável explicativa
- E deve retornar um *dataframe* com os dados da bivariada. 

**Monte** a mesma bivariada pelo menos três variáveis qualitativas do *data-frame*. Qual delas parece discriminar mais o risco?

In [40]:
df['sex'].nunique()

2

In [65]:
def analiseBivariadaQual(df: pd.DataFrame, variavel_resposta: str, variavel_explicativa: str) -> pd.DataFrame :
    # formatação da tabela
    ana_biv = pd.crosstab(df[variavel_explicativa], df[variavel_resposta], margins=True, margins_name='Total')
    print(f'Quantidade média de "{variavel_explicativa}":', df[variavel_explicativa].mean())

    # analises
    ana_biv[f'media_{variavel_resposta}_por_{variavel_explicativa}'] = ana_biv.iloc[:, 1]/ana_biv['Total']
    ana_biv['Odds'] = ana_biv.iloc[:, 1]/ana_biv.iloc[:, 0]
    ana_biv['Odds ratio'] = ana_biv['Odds']/ana_biv.loc[ana_biv.index[0], 'Odds']
    ana_biv['Log (Odds)'] = np.log(ana_biv['Odds'])
    ana_biv['Log (Odds ratio)'] = np.log(ana_biv['Odds ratio'])
    
    return ana_biv

In [66]:
analiseBivariadaQual(df, 'flag_doente', 'sex')

Quantidade média de "sex": 0.6798679867986799


flag_doente,0,1,Total,media_flag_doente_por_sex,Odds,Odds ratio,Log (Odds),Log (Odds ratio)
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
0.0,72,25,97,0.257732,0.347222,1.0,-1.05779,0.0
1.0,92,114,206,0.553398,1.23913,3.568696,0.21441,1.2722
Total,164,139,303,0.458746,0.847561,2.440976,-0.165392,0.892398


In [70]:
analiseBivariadaQual(df, 'flag_doente', 'cp')

Quantidade média de "cp": 3.1584158415841586


flag_doente,0,1,Total,media_flag_doente_por_cp,Odds,Odds ratio,Log (Odds),Log (Odds ratio)
cp,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1.0,16,7,23,0.304348,0.4375,1.0,-0.826679,0.0
2.0,41,9,50,0.18,0.219512,0.501742,-1.516347,-0.689669
3.0,68,18,86,0.209302,0.264706,0.605042,-1.329136,-0.502457
4.0,39,105,144,0.729167,2.692308,6.153846,0.990399,1.817077
Total,164,139,303,0.458746,0.847561,1.937282,-0.165392,0.661286


In [78]:
analiseBivariadaQual(df, 'flag_doente', 'slope')

Quantidade média de "slope": 1.6006600660066006


flag_doente,0,1,Total,media_flag_doente_por_slope,Odds,Odds ratio,Log (Odds),Log (Odds ratio)
slope,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1.0,106,36,142,0.253521,0.339623,1.0,-1.07992,0.0
2.0,49,91,140,0.65,1.857143,5.468254,0.619039,1.698959
3.0,9,12,21,0.571429,1.333333,3.925926,0.287682,1.367602
Total,164,139,303,0.458746,0.847561,2.495596,-0.165392,0.914528


Olhado para ```Log (Odds ratio)```, a variável ```sex``` parece ser a que melhor discrimina o risco.

**2.** Monte uma função semelhante para categorizar variáveis quantitativas contínuas (com muitas categorias) como ```age```.  
    Além dos mesmos parâmetros da função anterior, defina mais um parâmetro como número de categorias que você deseja quebrar. Defina um valor '*default*' de 5 grupos para este parâmetro.  

In [38]:
def analiseBivariadaQuant(df: pd.DataFrame, variavel_resposta: str, variavel_explicativa: str, n_bins=5) -> pd.DataFrame :
    
    # encontrar grupos
    df[f'{variavel_explicativa}_grupo'] = pd.qcut(df[variavel_explicativa], q=n_bins)
    df[f'{variavel_explicativa}_grupo'].value_counts()

    # formatação da tabela
    ana_biv = pd.crosstab(df[f'{variavel_explicativa}_grupo'], df[variavel_resposta], margins=True, margins_name='Total')
    ana_biv.columns = ['cat1', 'cat2', 'Total']
    print(f'Quantidade média de "{variavel_explicativa}":', df[variavel_explicativa].mean())

    # analises
    ana_biv[f'media_{variavel_resposta}_por_{variavel_explicativa}'] = ana_biv['cat2']/ana_biv['Total']
    ana_biv['Odds'] = ana_biv['cat2']/ana_biv['cat1']
    ana_biv['Odds ratio'] = ana_biv['Odds']/ana_biv.loc[ana_biv.index[0], 'Odds']
    ana_biv['Log (Odds)'] = np.log(ana_biv['Odds'])
    ana_biv['Log (Odds ratio)'] = np.log(ana_biv['Odds ratio'])
    
    return ana_biv

In [39]:
analiseBivariadaQuant(df, 'flag_doente', 'age')

Quantidade média de "age": 54.43894389438944


Unnamed: 0_level_0,cat1,cat2,Total,media_flag_doente_por_age,Odds,Odds ratio,Log (Odds),Log (Odds ratio)
age_grupo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
"(28.999, 45.0]",47,16,63,0.253968,0.340426,1.0,-1.077559,0.0
"(45.0, 53.0]",42,22,64,0.34375,0.52381,1.53869,-0.646627,0.430932
"(53.0, 58.0]",32,39,71,0.549296,1.21875,3.580078,0.197826,1.275385
"(58.0, 62.0]",13,32,45,0.711111,2.461538,7.230769,0.900787,1.978345
"(62.0, 77.0]",30,30,60,0.5,1.0,2.9375,0.0,1.077559
Total,164,139,303,0.458746,0.847561,2.48971,-0.165392,0.912166


**3.** Construa um modelo de regressão logística com as variáveis qualitativas: ```sex + cp +  trestbps``` e com a variável quantitativa ```age```.

**Interprete os parâmetros.**

In [76]:
reglog = smf.logit(" flag_doente ~ sex + cp + trestbps + age"
                   , data=df).fit()

reglog.summary()

Optimization terminated successfully.
         Current function value: 0.510076
         Iterations 6


0,1,2,3
Dep. Variable:,flag_doente,No. Observations:,303.0
Model:,Logit,Df Residuals:,298.0
Method:,MLE,Df Model:,4.0
Date:,"Mon, 25 Jul 2022",Pseudo R-squ.:,0.2605
Time:,14:06:33,Log-Likelihood:,-154.55
converged:,True,LL-Null:,-208.99
Covariance Type:,nonrobust,LLR p-value:,1.2639999999999998e-22

0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
Intercept,-11.1167,1.608,-6.915,0.000,-14.267,-7.966
sex,1.8021,0.331,5.444,0.000,1.153,2.451
cp,1.1403,0.169,6.739,0.000,0.809,1.472
trestbps,0.0214,0.008,2.600,0.009,0.005,0.037
age,0.0582,0.017,3.348,0.001,0.024,0.092


**4.** Avalie o seu modelo quanto a **calibragem**:
- Calcule a probabilidade de evento predita segundo o seu modelo
- Categorize essa probabilidade em G=5 grupos
- Calcule a probabilidade de evento predita média por grupo
- Calcule a taxa de eventos (média da variável indicadora de eventos) por grupo
- Compare graficamente o valor eperado versus observado para a taxa de maus por grupo

**5.** Avalie o seu modelo quanto a discriminação calculando acurácia, GINI e KS.

**6.** tente melhorar o modelo obtido, por exemplo inserindo ou removendo variáveis.  
    Avalie as características do seu modelo (calibragem e acurácia).