### Desafío 1: Preparar el ambiente de trabajo

In [40]:
#se importan las librerías de siempre
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import scipy.stats as stats
from scipy.stats import norm
from sklearn.preprocessing import PolynomialFeatures as polynom
from sklearn.linear_model import LinearRegression as linreg
from sklearn.pipeline import make_pipeline
import statsmodels.formula.api as smf

plt.style.use('seaborn-whitegrid')

import warnings
warnings.filterwarnings("ignore")

#se importa el dataframe
df = pd.read_csv('southafricanheart.csv')
df.head()

Unnamed: 0.1,Unnamed: 0,sbp,tobacco,ldl,adiposity,famhist,typea,obesity,alcohol,age,chd
0,1,160,12.0,5.73,23.11,Present,49,25.3,97.2,52,1
1,2,144,0.01,4.41,28.61,Absent,55,28.87,2.06,63,1
2,3,118,0.08,3.48,32.28,Present,52,29.14,3.81,46,0
3,4,170,7.5,6.41,38.03,Present,51,31.99,24.26,58,1
4,5,134,13.6,3.5,27.78,Present,60,25.99,57.34,49,1


In [41]:
#se elimina la columna con el índice original
df = df.drop(['Unnamed: 0'],axis=1)
df.head()

Unnamed: 0,sbp,tobacco,ldl,adiposity,famhist,typea,obesity,alcohol,age,chd
0,160,12.0,5.73,23.11,Present,49,25.3,97.2,52,1
1,144,0.01,4.41,28.61,Absent,55,28.87,2.06,63,1
2,118,0.08,3.48,32.28,Present,52,29.14,3.81,46,0
3,170,7.5,6.41,38.03,Present,51,31.99,24.26,58,1
4,134,13.6,3.5,27.78,Present,60,25.99,57.34,49,1


### Desafío 2:
#### A continuación se presenta el siguiente modelo a estimar
$$\log \left(\frac{Pr(chd=1)}{1-Pr(chd=1)}\right)=\beta_{0} + \beta_{1} \times famhist$$
#### 1. Recodifique famhist a dummy, asignando 1 a la categoría minoritaria.

In [42]:
# Se revisa la columna famhist
df['famhist'].value_counts()

Absent     270
Present    192
Name: famhist, dtype: int64

In [44]:
# Se crea la nueva columna con valores binarios
df['famhist_dummy'] = np.where(df['famhist'] == 'Present',1,0)
df.head()

Unnamed: 0,sbp,tobacco,ldl,adiposity,famhist,typea,obesity,alcohol,age,chd,famhist_dummy
0,160,12.0,5.73,23.11,Present,49,25.3,97.2,52,1,1
1,144,0.01,4.41,28.61,Absent,55,28.87,2.06,63,1,0
2,118,0.08,3.48,32.28,Present,52,29.14,3.81,46,0,1
3,170,7.5,6.41,38.03,Present,51,31.99,24.26,58,1,1
4,134,13.6,3.5,27.78,Present,60,25.99,57.34,49,1,1


#### 2. Utilice smf.logit para estimar el modelo.

In [46]:
# Se crea y entrena el modelo logistico
modelo_logit = smf.logit('chd ~ famhist_dummy',df).fit()

Optimization terminated successfully.
         Current function value: 0.608111
         Iterations 5


In [47]:
# Se consultan los valores del modelo con summary2
modelo_logit.summary2()

0,1,2,3
Model:,Logit,Pseudo R-squared:,0.057
Dependent Variable:,chd,AIC:,565.8944
Date:,2023-03-22 15:04,BIC:,574.1655
No. Observations:,462,Log-Likelihood:,-280.95
Df Model:,1,LL-Null:,-298.05
Df Residuals:,460,LLR p-value:,4.9371e-09
Converged:,1.0000,Scale:,1.0
No. Iterations:,5.0000,,

0,1,2,3,4,5,6
,Coef.,Std.Err.,z,P>|z|,[0.025,0.975]
Intercept,-1.1690,0.1431,-8.1687,0.0000,-1.4495,-0.8885
famhist_dummy,1.1690,0.2033,5.7514,0.0000,0.7706,1.5674


#### 3. Implemente una función inverse_logit que realize el mapeo de log-odds a probabilidad.

In [50]:
#definimos la funcion concise_summary en base a la lectura del modulo

def concise_summary(mod, print_fit=True):
    #guardamos los parámetros asociados a estadísticas de ajuste
    fit = pd.DataFrame({'Statistics': mod.summary2().tables[0][2][2:],
    'Value': mod.summary2().tables[0][3][2:]})
    # guardamos los parámetros estimados por cada regresor.
    estimates = pd.DataFrame(mod.summary2().tables[1])
    # imprimir fit es opcional
    if print_fit is True:
        print("\nGoodness of Fit statistics\n", fit)
        print("\nPoint Estimates\n\n", estimates)

In [51]:
# Se utiliza el lodelo logistico para estimar el modelo
concise_summary(modelo_logit)


Goodness of Fit statistics
         Statistics       Value
2             BIC:    574.1655
3  Log-Likelihood:     -280.95
4         LL-Null:     -298.05
5     LLR p-value:  4.9371e-09
6           Scale:      1.0000
7                             

Point Estimates

                   Coef.  Std.Err.         z         P>|z|    [0.025    0.975]
Intercept     -1.168993  0.143106 -8.168713  3.116957e-16 -1.449476 -0.888510
famhist_dummy  1.168993  0.203255  5.751355  8.853123e-09  0.770620  1.567366


In [53]:
# Se crea la funcion inverse_logit
def inverse_logit(x):
    return 1 / (1+np.exp(-x))

#### 4. Con el modelo estimado, responda lo siguiente:
* ¿Cuál es la probabilidad de un individuo con antecedentes familiares de tener una enfermedad coronaria?
* ¿Cuál es la probabilidad de un individuo sin antecedentes familiares de tener una enfermedad coronaria?
* ¿Cuál es la diferencia en la probabilidad entre un individuo con antecedentes y otro sin
antecedentes?
* Replique el modelo con smf.ols y comente las similitudes entre los coeficientes estimados.
* tip: Utilice beta/4
* Estime el mismo modelo con LPM

In [56]:
# Se obtiene la probabilidad de un individuo sin antecedentes familiares
isaf = round(inverse_logit(-1.168993),4)
isaf

0.237

##### La probabilidad de obtener una enfermedad coronaria para un individuo sin antecedentes familiares es de $23.7\%$

In [57]:
# Se obtiene la probabilidad de un individuo con antecedentes familiares
icaf = round(inverse_logit(-1.168993+1.168993), 4)
icaf

0.5

#### La probabilidad de obtener una enfermedad coronaria para un individuo con antecedentes familiares es de $50\%$

In [58]:
# Se obtiene la diferencia en la probabilidad entre un individuo con antecedentes y otro sin antecedentes
icaf-isaf

0.263

#### La diferencia en la probabilidad entre un individui con antecedetes familiares y otro sin antecedentes es de $26.3\%$

In [61]:
# Se replica modelo lineal con smf.ols
modelo_ols = smf.ols('chd ~ famhist_dummy', df).fit()
concise_summary(modelo_ols)


Goodness of Fit statistics
             Statistics     Value
2                 BIC:  601.4437
3      Log-Likelihood:   -294.59
4         F-statistic:     36.86
5  Prob (F-statistic):  2.66e-09
6               Scale:   0.21050

Point Estimates

                   Coef.  Std.Err.         t         P>|t|    [0.025    0.975]
Intercept      0.237037  0.027922  8.489319  2.886599e-16  0.182167  0.291907
famhist_dummy  0.262963  0.043313  6.071289  2.657629e-09  0.177848  0.348078


In [62]:
# Se usa el intercepto y famhist_dummy
prob = 0.237037 + 0.262963
prob

0.5

#### En ambos modelos existe una probabilidad de un $50\%$ para que un individuo con antecedentes familiares contraiga una enfermedad coronaria

In [63]:
# Se utiliza la regla beta/4
1.168993/4

0.29224825

#### Se observa que aplicando la regla $\frac{\beta}{4}$ al coeficiente de 'famhist_dummy', el resultado se asemeja al obtenido por el modelo lineal con smf.ols

## Desafío 3: Estimación completa
#### Implemente un modelo con la siguiente forma
$$ \log \left(\frac{Pr(chd=1)}{1-Pr(chd=1)}\right) = \beta_{0} + \sum_{j=1}^{N} \beta_{j} \times X $$

In [71]:
# Se obtienen las variables para la clasificación
cols = list(df.columns)
cols.remove('chd')
cols.remove('famhist')

# Se crea y entrena el modelo saturado
modelo2_logit = smf.logit('chd ~ ' + "+".join(cols),df).fit()

Optimization terminated successfully.
         Current function value: 0.510974
         Iterations 6


In [72]:
modelo2_logit.summary2()

0,1,2,3
Model:,Logit,Pseudo R-squared:,0.208
Dependent Variable:,chd,AIC:,492.14
Date:,2023-03-22 20:22,BIC:,533.4957
No. Observations:,462,Log-Likelihood:,-236.07
Df Model:,9,LL-Null:,-298.05
Df Residuals:,452,LLR p-value:,2.0548e-22
Converged:,1.0000,Scale:,1.0
No. Iterations:,6.0000,,

0,1,2,3,4,5,6
,Coef.,Std.Err.,z,P>|z|,[0.025,0.975]
Intercept,-6.1507,1.3083,-4.7015,0.0000,-8.7149,-3.5866
sbp,0.0065,0.0057,1.1350,0.2564,-0.0047,0.0177
tobacco,0.0794,0.0266,2.9838,0.0028,0.0272,0.1315
ldl,0.1739,0.0597,2.9152,0.0036,0.0570,0.2909
adiposity,0.0186,0.0293,0.6346,0.5257,-0.0388,0.0760
typea,0.0396,0.0123,3.2138,0.0013,0.0154,0.0637
obesity,-0.0629,0.0442,-1.4218,0.1551,-0.1496,0.0238
alcohol,0.0001,0.0045,0.0271,0.9784,-0.0087,0.0089
age,0.0452,0.0121,3.7285,0.0002,0.0215,0.0690


#### Depure el modelo manteniendo las variables con significancia estadística al 95%

In [78]:
# Se buscan las columnas con significancia estadística al 95%
cols2 = list(modelo2_logit.pvalues[modelo2_logit.pvalues <= 0.005].index)
cols2.remove('Intercept')
cols2

['tobacco', 'ldl', 'typea', 'age', 'famhist_dummy']

In [79]:
# Se crea y entrena el modelo
modelo2_logit_dep = smf.logit('chd ~ ' + "+".join(cols2),df).fit()

Optimization terminated successfully.
         Current function value: 0.514811
         Iterations 6


In [81]:
modelo2_logit_dep.summary2()

0,1,2,3
Model:,Logit,Pseudo R-squared:,0.202
Dependent Variable:,chd,AIC:,487.6856
Date:,2023-03-22 20:26,BIC:,512.499
No. Observations:,462,Log-Likelihood:,-237.84
Df Model:,5,LL-Null:,-298.05
Df Residuals:,456,LLR p-value:,2.5537000000000002e-24
Converged:,1.0000,Scale:,1.0
No. Iterations:,6.0000,,

0,1,2,3,4,5,6
,Coef.,Std.Err.,z,P>|z|,[0.025,0.975]
Intercept,-6.4464,0.9209,-7.0004,0.0000,-8.2513,-4.6416
tobacco,0.0804,0.0259,3.1057,0.0019,0.0297,0.1311
ldl,0.1620,0.0550,2.9470,0.0032,0.0543,0.2697
typea,0.0371,0.0122,3.0505,0.0023,0.0133,0.0610
age,0.0505,0.0102,4.9442,0.0000,0.0305,0.0705
famhist_dummy,0.9082,0.2258,4.0228,0.0001,0.4657,1.3507


#### Compare los estadísticos de bondad de ajuste entre ambos

En ambos modelos el Pseudo R-Squared son similares y definen la varianza en aproximadamente un 20%, solo se difernecian en 0.006 puntos. El modelo depurado con las columnas de mayor significancia tiene levemente una mayor probabilidad de contraer enfermedades coronarias.

#### Reporte de forma sucinta el efecto de las variables en el log-odds de tener una enfermedad coronaria.

In [84]:
# Se obtienen los coeficientes por variables
coef = modelo2_logit_dep.params
coef

Intercept       -6.446445
tobacco          0.080375
ldl              0.161992
typea            0.037115
age              0.050460
famhist_dummy    0.908175
dtype: float64

In [88]:
# Se aplica el log inverso a los coeficientes
coef.map(lambda x: round(inverse_logit(modelo2_logit_dep.params['Intercept'] + x),4))

Intercept        0.0000
tobacco          0.0017
ldl              0.0019
typea            0.0016
age              0.0017
famhist_dummy    0.0039
dtype: float64

##### Se observa que las variables, al aumentar en 1 unidad, incrementa aproximadamente en un 0.17% la probabilidad de que un individuo contraiga un enfermedad coronaria, excepto la presencia de antecedentes familiares que, si existe, incrementa la probabilidad en un 0.39%.

## Desafío 4: Estimación de perfiles
##### A partir del modelo depurado, genere las estimaciones en log-odds y posteriormente transfórmelas a probabilidades con inverse_logit . Los perfiles a estimar son los siguientes:

#### La probabilidad de tener una enfermedad coronaria para un individuo con características similares a la muestra

In [90]:
df['famhist_dummy'].value_counts('%')

0    0.584416
1    0.415584
Name: famhist_dummy, dtype: float64

In [92]:
#Se obtienen los valores del individuo promedio para las variables continuas significativas
#Se considera la probabilidad de corte para estimar la ocurrencia normal de famhist_dummy como > 50%
medias = {
    'tobacco': df['tobacco'].mean(),
    'ldl' : df['ldl'].mean(),
    'typea': df['typea'].mean(),
    'age': df['age'].mean(),
    'famhist_dummy': df['famhist_dummy'].value_counts('%').index[0]
}
medias

{'tobacco': 3.635649350649348,
 'ldl': 4.7403246753246835,
 'typea': 53.103896103896105,
 'age': 42.816017316017316,
 'famhist_dummy': 0}

In [96]:
# El individuo promedio no tiene antecedentes familiares, por lo que se consideran ambos casos
# Se define la función predictora
def predice_por_individuo(m_logit,medias):
    prob_chd_individio_con_famhist = round(inverse_logit(
        + m_logit.params['Intercept']
        + (m_logit.params['tobacco'] * medias['tobacco'])
        + (m_logit.params['ldl'] * medias['ldl'])
        + (m_logit.params['typea'] * medias['typea'])
        + (m_logit.params['age'] * medias['age'])
        + (m_logit.params['famhist_dummy'] *1)  
    ), 4)
    prob_chd_individio_sin_famhist = round(inverse_logit(
        + m_logit.params['Intercept']
        + (m_logit.params['tobacco'] * medias['tobacco'])
        + (m_logit.params['ldl'] * medias['ldl'])
        + (m_logit.params['typea'] * medias['typea'])
        + (m_logit.params['age'] * medias['age'])
        + (m_logit.params['famhist_dummy'] * 0)  
    ),4)
    print("Probabilidad de chd para individuo promedio")
    print(f"\033[1mCon\033[0m historial familiar {prob_chd_individio_con_famhist}")
    print(f"\033[1mSin\033[0m historial familiar {prob_chd_individio_sin_famhist}")

In [97]:
predice_por_individuo(modelo2_logit_dep,medias)

Probabilidad de chd para individuo promedio
[1mCon[0m historial familiar 0.4142
[1mSin[0m historial familiar 0.2219


#### La probabilidad de tener una enfermedad coronaria de un individuo con características similares a la muestra es de:
- 22.19% si el individuo no tiene antecedentes familiares.
- 41.42% si el individuo tiene antecedentes familiares

#### La probabilidad de tener una enfermedad coronaria para un individuo con altos niveles de lipoproteína de baja densidad, manteniendo todas las demás características constantes

In [100]:
# Se obtiene el valor máximo de la lipoproteína en la muestra
medias['ldl'] = df['ldl'].max()
predice_por_individuo(modelo2_logit_dep,medias)

Probabilidad de chd para individuo promedio
[1mCon[0m historial familiar 0.7972
[1mSin[0m historial familiar 0.6132


#### La probabilidad de tener una enfermedad coronaria de un individuo con características similares a la muestra es de:
- 61.32% si el individuo no tiene antecedentes familiares.
- 79.72% si el individuo tiene antecedentes familiares

#### La probabilidad de tener una enfermedad coronaria para un individuo con bajos niveles de lipoproteína de baja densidad, manteniendo todas las demás características constantes

In [101]:
# Se obtiene el valor mínimo de la lipoproteína en la muestra
medias['ldl'] = df['ldl'].min()
predice_por_individuo(modelo2_logit_dep,medias)

Probabilidad de chd para individuo promedio
[1mCon[0m historial familiar 0.2777
[1mSin[0m historial familiar 0.1342


#### La probabilidad de tener una enfermedad coronaria de un individuo con características similares a la muestra es de:
- 13.42% si el individuo no tiene antecedentes familiares.
- 27.77% si el individuo tiene antecedentes familiares