## Desafío - Clasificación desde la econometría
### Cristian Vidal

### Descripción
En esta sesión trabajaremos con:
* __sbp__ : Presión Sanguínea Sistólica.
* __tobacco__ : Promedio tabaco consumido por día.
* __ldl__ : Lipoproteína de baja densidad.
* __adiposity__ : Adiposidad.
* __famhist__ : Antecedentes familiares de enfermedades cardiácas. (Binaria)
* __types__ : Personalidad tipo A
* __obesity__ : Obesidad.
* __alcohol__ : Consumo actual de alcohol.
* __age__ : edad.
* __chd__ : Enfermedad coronaria. (dummy)

### Desafío 1: Preparar el ambiente de trabajo

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import scipy.stats as stats
import statsmodels.api as sm
import statsmodels.formula.api as smf
plt.style.use('seaborn')
plt.rcParams['figure.figsize'] = (6,3)

In [2]:
df = pd.read_csv('southafricanheart.csv')
df = df.drop("Unnamed: 0", axis =1)

In [3]:
print("La base de datos tiene ", df.shape[0], "observaciones y ", df.shape[1], " columnas")
print("Las variables de la base de datos son ", df.columns)

La base de datos tiene  462 observaciones y  10  columnas
Las variables de la base de datos son  Index(['sbp', 'tobacco', 'ldl', 'adiposity', 'famhist', 'typea', 'obesity',
       'alcohol', 'age', 'chd'],
      dtype='object')


In [4]:
for i in df:
    if len(df[i].value_counts()) > 2:
        print(round(df[i].describe(),2), "\n")
    else:
        print(round(df[i].value_counts('%'),2), "\n")

count    462.00
mean     138.33
std       20.50
min      101.00
25%      124.00
50%      134.00
75%      148.00
max      218.00
Name: sbp, dtype: float64 

count    462.00
mean       3.64
std        4.59
min        0.00
25%        0.05
50%        2.00
75%        5.50
max       31.20
Name: tobacco, dtype: float64 

count    462.00
mean       4.74
std        2.07
min        0.98
25%        3.28
50%        4.34
75%        5.79
max       15.33
Name: ldl, dtype: float64 

count    462.00
mean      25.41
std        7.78
min        6.74
25%       19.77
50%       26.12
75%       31.23
max       42.49
Name: adiposity, dtype: float64 

Absent     0.58
Present    0.42
Name: famhist, dtype: float64 

count    462.00
mean      53.10
std        9.82
min       13.00
25%       47.00
50%       53.00
75%       60.00
max       78.00
Name: typea, dtype: float64 

count    462.00
mean      26.04
std        4.21
min       14.70
25%       22.98
50%       25.80
75%       28.50
max       46.58
Name: obesity, d

In [5]:
df.describe()

Unnamed: 0,sbp,tobacco,ldl,adiposity,typea,obesity,alcohol,age,chd
count,462.0,462.0,462.0,462.0,462.0,462.0,462.0,462.0,462.0
mean,138.32684,3.635649,4.740325,25.406732,53.103896,26.044113,17.044394,42.816017,0.34632
std,20.496317,4.593024,2.070909,7.780699,9.817534,4.21368,24.481059,14.608956,0.476313
min,101.0,0.0,0.98,6.74,13.0,14.7,0.0,15.0,0.0
25%,124.0,0.0525,3.2825,19.775,47.0,22.985,0.51,31.0,0.0
50%,134.0,2.0,4.34,26.115,53.0,25.805,7.51,45.0,0.0
75%,148.0,5.5,5.79,31.2275,60.0,28.4975,23.8925,55.0,1.0
max,218.0,31.2,15.33,42.49,78.0,46.58,147.19,64.0,1.0


__Resumen de algunas variables (Estadísticas descriptivas):__

Respecto a las variables con atributos discretos (__famhist__ y __chd__), observamos que alrededor del __65%__ de los individuos tienen una enfermedad coronaria. Cerca del __58%__ de las peronas __NO__ presentan __"Antecedentes familiares de enfermedades cardiácas"__. La Presión Sanguínea Sistólica maxima es de 218 y la minima es de 101. Los individuos de la muestra tienen __42.8__ años en promedio. El promedio de tabaco consumido por dia de las personas es de 3.6, entre el rango de .0 y 31.2, lo cual es relativamente bajo. La media de "Lipoproteína de baja densidad" es de 4.7 lo cual es relativamente bajo comparado con sus rangos maximo y minimo.

In [6]:
df.sample(5)

Unnamed: 0,sbp,tobacco,ldl,adiposity,famhist,typea,obesity,alcohol,age,chd
399,126,0.0,3.57,26.01,Absent,61,26.3,7.97,47,0
112,134,2.0,3.66,14.69,Absent,52,21.03,2.06,37,0
189,126,0.0,5.98,29.06,Present,56,25.39,11.52,64,1
143,130,4.5,5.86,37.43,Absent,61,31.21,32.3,58,0
171,118,0.75,2.58,20.25,Absent,59,24.46,0.0,32,0


### Desafío 2

Ejecute los siguientes pasos:

#### 1. Recodifique famhist a dummy, asignando 1 a la categoría minoritaria.

In [7]:
df['famhist_present'] = np.where(df['famhist'] == 'Present', 1, 0)

In [8]:
df['famhist_present'].value_counts()

0    270
1    192
Name: famhist_present, dtype: int64

In [9]:
df['famhist_present'].value_counts('%')

0    0.584416
1    0.415584
Name: famhist_present, dtype: float64

In [10]:
df.sample(5)

Unnamed: 0,sbp,tobacco,ldl,adiposity,famhist,typea,obesity,alcohol,age,chd,famhist_present
71,130,1.72,2.66,10.38,Absent,68,17.81,11.1,26,0,0
89,122,0.72,4.04,32.38,Absent,34,28.34,0.0,55,0,0
253,146,7.5,7.21,25.93,Present,55,22.51,0.51,42,0,1
379,154,4.5,4.68,39.97,Absent,61,33.17,1.54,64,1,0
282,206,0.0,4.17,33.23,Absent,69,27.36,6.17,50,1,0


#### Utilice smf.logit para estimar el modelo.

In [11]:
m1_logit = smf.logit('chd ~ famhist_present', df).fit()

Optimization terminated successfully.
         Current function value: 0.608111
         Iterations 5


In [12]:
m1_logit.summary()

0,1,2,3
Dep. Variable:,chd,No. Observations:,462.0
Model:,Logit,Df Residuals:,460.0
Method:,MLE,Df Model:,1.0
Date:,"Sat, 04 Jul 2020",Pseudo R-squ.:,0.0574
Time:,12:51:59,Log-Likelihood:,-280.95
converged:,True,LL-Null:,-298.05
,,LLR p-value:,4.937e-09

0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
Intercept,-1.1690,0.143,-8.169,0.000,-1.449,-0.889
famhist_present,1.1690,0.203,5.751,0.000,0.771,1.567


__3. Implemente una función inverse_logit que realize el mapeo de log-odds a probabilidad.__

In [13]:
def inverse_logit(x):
    return 1 / (1+np.exp(-x))

__4. Con el modelo estimado, responda lo siguiente:__

__¿Cuál es la probabilidad de un individuo con antecedentes familiares de tener una
enfermedad coronaria?__

In [14]:
# accedemos a los parámetros con la sintáxis modelo.params['parametro]
estamcion_chd_1 = m1_logit.params['Intercept'] + m1_logit.params['famhist_present']
print("El log odds estimado es de ", round(estamcion_chd_1, 3))

El log odds estimado es de  0.0


In [15]:
probabilidad_chd_1 = inverse_logit(estamcion_chd_1)
print("La probabilidad de un individuo con Antecedentes familiares de tener una enfermedad coronaria es: {}".format(round(probabilidad_chd_1, 3)))

La probabilidad de un individuo con Antecedentes familiares de tener una enfermedad coronaria es: 0.5


__¿Cuál es la probabilidad de un individuo sin antecedentes familiares de tener una
enfermedad coronaria?__

In [16]:
estamcion_chd_2 = m1_logit.params['Intercept']
print("El log odds estimado es de {}".format(estamcion_chd_2))

El log odds estimado es de -1.1689930854299098


In [17]:
probabilidad_chd_2 = inverse_logit(estamcion_chd_2)
print("La probabilidad de un individuo sin antecedentes familiares de tener una enfermedad coronaria es: {}".format(round(probabilidad_chd_2, 3)))

La probabilidad de un individuo sin antecedentes familiares de tener una enfermedad coronaria es: 0.237


__¿Cuál es la diferencia en la probabilidad entre un individuo con antecedentes y otro sin
antecedentes?__

In [18]:
print("La diferencia en la probabilidad entre un individuo con antecedentes y otro sin antecedentes es:", round(probabilidad_chd_1 - probabilidad_chd_2,
3))

La diferencia en la probabilidad entre un individuo con antecedentes y otro sin antecedentes es: 0.263


__Replique el modelo con smf.ols y comente las similitudes entre los coeficientes estimados.__
* Estime el mismo modelo con LPM

In [19]:
m1_ols = smf.ols('chd ~famhist_present', df).fit()

In [20]:
m1_ols.summary()

0,1,2,3
Dep. Variable:,chd,R-squared:,0.074
Model:,OLS,Adj. R-squared:,0.072
Method:,Least Squares,F-statistic:,36.86
Date:,"Sat, 04 Jul 2020",Prob (F-statistic):,2.66e-09
Time:,12:52:00,Log-Likelihood:,-294.59
No. Observations:,462,AIC:,593.2
Df Residuals:,460,BIC:,601.4
Df Model:,1,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,0.2370,0.028,8.489,0.000,0.182,0.292
famhist_present,0.2630,0.043,6.071,0.000,0.178,0.348

0,1,2,3
Omnibus:,768.898,Durbin-Watson:,1.961
Prob(Omnibus):,0.0,Jarque-Bera (JB):,58.778
Skew:,0.579,Prob(JB):,1.72e-13
Kurtosis:,1.692,Cond. No.,2.47


In [21]:
1.16/4

0.29

__Podemos obsevar que para nuestro modelo OLS, la probabilidad de un individuo sin antecedentes familiares de tener una enfermedad coronaria es de 0.237, identico valor que el modelo Logit.__

__Si dividimos el coeficiente estimado de nuestra regresión logística 1.16 / 4 = .29, veremos que es una aproximación razonable del coeficiente estimado en nuestro modelo LPM.__

### Desafío 3: Estimación completa

* Depure el modelo manteniendo las variables con significancia estadística al 95%.

In [22]:
modelo_depurado_aux = smf.logit('chd ~famhist_present + sbp + tobacco + ldl + adiposity + typea + obesity + alcohol + age', df).fit()

Optimization terminated successfully.
         Current function value: 0.510974
         Iterations 6


In [23]:
modelo_depurado_aux.summary()

0,1,2,3
Dep. Variable:,chd,No. Observations:,462.0
Model:,Logit,Df Residuals:,452.0
Method:,MLE,Df Model:,9.0
Date:,"Sat, 04 Jul 2020",Pseudo R-squ.:,0.208
Time:,12:52:00,Log-Likelihood:,-236.07
converged:,True,LL-Null:,-298.05
,,LLR p-value:,2.0549999999999998e-22

0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
Intercept,-6.1507,1.308,-4.701,0.000,-8.715,-3.587
famhist_present,0.9254,0.228,4.061,0.000,0.479,1.372
sbp,0.0065,0.006,1.135,0.256,-0.005,0.018
tobacco,0.0794,0.027,2.984,0.003,0.027,0.132
ldl,0.1739,0.060,2.915,0.004,0.057,0.291
adiposity,0.0186,0.029,0.635,0.526,-0.039,0.076
typea,0.0396,0.012,3.214,0.001,0.015,0.064
obesity,-0.0629,0.044,-1.422,0.155,-0.150,0.024
alcohol,0.0001,0.004,0.027,0.978,-0.009,0.009


__Las variables independientes que tienen un efecto significativo sobre las probabilidades logarítmicas de tener una efermedad coronaria como lo indican los valores de P>|z| < 0.05 son famhist_present, age, typea, ldl y tobacco ( significancia estadística al 95% ).__

In [24]:
modelo_depurado = smf.logit('chd ~famhist_present + age + typea + ldl +  tobacco', df).fit()

Optimization terminated successfully.
         Current function value: 0.514811
         Iterations 6


In [25]:
modelo_depurado.summary()

0,1,2,3
Dep. Variable:,chd,No. Observations:,462.0
Model:,Logit,Df Residuals:,456.0
Method:,MLE,Df Model:,5.0
Date:,"Sat, 04 Jul 2020",Pseudo R-squ.:,0.202
Time:,12:52:00,Log-Likelihood:,-237.84
converged:,True,LL-Null:,-298.05
,,LLR p-value:,2.554e-24

0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
Intercept,-6.4464,0.921,-7.000,0.000,-8.251,-4.642
famhist_present,0.9082,0.226,4.023,0.000,0.466,1.351
age,0.0505,0.010,4.944,0.000,0.030,0.070
typea,0.0371,0.012,3.051,0.002,0.013,0.061
ldl,0.1620,0.055,2.947,0.003,0.054,0.270
tobacco,0.0804,0.026,3.106,0.002,0.030,0.131


* Compare los estadísticos de bondad de ajuste entre ambos.

In [26]:
diff_estadistico_bondad = 0.2080 - 0.2020

In [27]:
round(diff_estadistico_bondad, 3)

0.006

__Podemos observar que la diferencia entre los estadisticos de bondad de ajuste es 0.006, lo cual es relativamente bajo, es decir no hay diferencias significativas__

* Reporte de forma sucinta el efecto de las variables en el log-odds de tener una enfermedad coronaria.

__Las chances de ocurrencia para cada una de nuestras variables independientes es positiva, por lo cual aumentan las chances (probabilidad logaritmica) de que un individuo tenga una enfermedad coronaria. La variable mas significativa es "Antecedentes familiares" con un valor de 0.90.__

### Desafío 4: Estimación de perfiles

A partir del modelo depurado, genere las estimaciones en log-odds y posteriormente transfórmelas
a probabilidades con __inverse_logit__ . Los perfiles a estimar son los siguientes:

__La probabilidad de tener una enfermedad coronaria para un individuo con características similares a la muestra.__ 

In [28]:
probabilidad_1 = inverse_logit(modelo_depurado.params['Intercept'] + 
                              (modelo_depurado.params['famhist_present']* df['famhist_present'].mean()) + 
                              (modelo_depurado.params['age']* df['age'].mean()) + 
                              (modelo_depurado.params['typea']* df['typea'].mean()) + 
                              (modelo_depurado.params['ldl']* df['ldl'].mean()) + 
                              (modelo_depurado.params['tobacco']* df['tobacco'].mean()))

print('La probabilidad de tener una enfermedad coronaria para un individuo con características similares a la muestra es:\n {}'.format(round(probabilidad_1, 2)))

La probabilidad de tener una enfermedad coronaria para un individuo con características similares a la muestra es:
 0.29


__La probabilidad de tener una enfemerdad coronaria para un individuo con altos niveles de lipoproteína de baja densidad, manteniendo todas las demás características constantes.__

In [29]:
probabilidad_2 = inverse_logit(modelo_depurado.params['Intercept'] + 
                              (modelo_depurado.params['famhist_present']* df['famhist_present'].mean()) + 
                              (modelo_depurado.params['age']* df['age'].mean()) + 
                              (modelo_depurado.params['typea']* df['typea'].mean()) + 
                              (modelo_depurado.params['ldl']* df['ldl'].max()) + 
                              (modelo_depurado.params['tobacco']* df['tobacco'].mean()))

print("La probabilidad de tener una enfemerdad coronaria para un individuo con altos niveles de lipoproteína de baja densidad, manteniendo todas las demás características constantes es: {}".format(round(probabilidad_2,2)) )

La probabilidad de tener una enfemerdad coronaria para un individuo con altos niveles de lipoproteína de baja densidad, manteniendo todas las demás características constantes es: 0.7


__La probabilidad de tener una enfemerdad coronaria para un individuo con bajos niveles de lipoproteína de baja densidad, manteniendo todas las demás características constantes.__

In [30]:
probabilidad_3 = inverse_logit(modelo_depurado.params['Intercept'] + 
                              (modelo_depurado.params['famhist_present']* df['famhist_present'].mean()) + 
                              (modelo_depurado.params['age']* df['age'].mean()) + 
                              (modelo_depurado.params['typea']* df['typea'].mean()) + 
                              (modelo_depurado.params['ldl']* df['ldl'].min()) + 
                              (modelo_depurado.params['tobacco']* df['tobacco'].mean()))

print("La probabilidad de tener una enfemerdad coronaria para un individuo con bajos niveles de lipoproteína de baja densidad, manteniendo todas las demás características constantes es: {}".format(round(probabilidad_3, 2)))

La probabilidad de tener una enfemerdad coronaria para un individuo con bajos niveles de lipoproteína de baja densidad, manteniendo todas las demás características constantes es: 0.18
