# Análisis Estadístico con Regresión Logística

Este es un ejemplo sencillo de análisis de la relación entre variables y la probabilidad de un evento, utilizando la regresión logística desde un enfoque estadístico.

--Se analizaran las métricas estadísticas obtenidas del informe Logit Regression Result para evaluar el rendimiento del modelo y determinar la significancia o influencia de las variables.--

Para este caso se ha utilizado el data set: https://www.kaggle.com/datasets/dileep070/heart-disease-prediction-using-logistic-regression/data

##1. Importar las librerías necesarias

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import statsmodels.api as sm
import seaborn as sns

## 2. Cargar los datos

Los datos que se van a cargar poseen cierta particularidad comparado con los utilizados en el modelo del precio de las casas, y es que en este caso se utilizarán variables que tienen almacenados valores NaN, indicando que no se pudo obtener esos datos de la persona registrada o que no es un valor válido.

Para verificar qué columnas tienen valores NaN, utilizaremos la sentencia print(df.isna().any()). Esto nos devolverá True para aquellas que posean registros con NaN.

In [21]:
df = pd.read_csv("./framingham.csv")

print(df.isna().any())
print(df)

male               False
age                False
education           True
currentSmoker      False
cigsPerDay          True
BPMeds              True
prevalentStroke    False
prevalentHyp       False
diabetes           False
totChol             True
sysBP              False
diaBP              False
BMI                 True
heartRate           True
glucose             True
TenYearCHD         False
dtype: bool
      male  age  education  currentSmoker  cigsPerDay  BPMeds  \
0        1   39        4.0              0         0.0     0.0   
1        0   46        2.0              0         0.0     0.0   
2        1   48        1.0              1        20.0     0.0   
3        0   61        3.0              1        30.0     0.0   
4        0   46        3.0              1        23.0     0.0   
...    ...  ...        ...            ...         ...     ...   
4233     1   50        1.0              1         1.0     0.0   
4234     1   51        3.0              1        43.0     0.0   
423

## Importante

Existen distintas formas de abordar el problema de valores NaN en nuestros registros, y quizá la más adecuada sea hallar el por qué no se pudieron obtener.

Sin embargo, esto sería un tema a tratar en otro caso o ejemplo. Para mantener este análisis a un nivel sencillo, se ha optado por eliminar los registros con valores NaN. Esta decisión puede llegar a ser útil si la presencia de este valor es poco frecuente, de otro modo se podrían introducir sesgos al eliminar datos de un grupo en específico.

--Cabe mencionar que, si se procede sin solucionar los valores NaN, habrá un error indicando que se encontraron valores inf o NaN.--


In [22]:
df = df.dropna()
print(df)

      male  age  education  currentSmoker  cigsPerDay  BPMeds  \
0        1   39        4.0              0         0.0     0.0   
1        0   46        2.0              0         0.0     0.0   
2        1   48        1.0              1        20.0     0.0   
3        0   61        3.0              1        30.0     0.0   
4        0   46        3.0              1        23.0     0.0   
...    ...  ...        ...            ...         ...     ...   
4231     1   58        3.0              0         0.0     0.0   
4232     1   68        1.0              0         0.0     0.0   
4233     1   50        1.0              1         1.0     0.0   
4234     1   51        3.0              1        43.0     0.0   
4237     0   52        2.0              0         0.0     0.0   

      prevalentStroke  prevalentHyp  diabetes  totChol  sysBP  diaBP    BMI  \
0                   0             0         0    195.0  106.0   70.0  26.97   
1                   0             0         0    250.0  121.0

## 2. Desarrollo del modelo de regresión logística

In [23]:
X = df[['male', 'age', 'education', 'currentSmoker', 'cigsPerDay', 'BPMeds',
       'prevalentStroke', 'prevalentHyp', 'diabetes', 'totChol', 'sysBP',
       'diaBP', 'BMI', 'heartRate', 'glucose']]
X = sm.add_constant(X)

y = df['TenYearCHD']

modelo = sm.Logit(y, X).fit()
print(modelo.summary())

Optimization terminated successfully.
         Current function value: 0.376668
         Iterations 7
                           Logit Regression Results                           
Dep. Variable:             TenYearCHD   No. Observations:                 3656
Model:                          Logit   Df Residuals:                     3640
Method:                           MLE   Df Model:                           15
Date:                Thu, 10 Jul 2025   Pseudo R-squ.:                  0.1174
Time:                        07:32:46   Log-Likelihood:                -1377.1
converged:                       True   LL-Null:                       -1560.3
Covariance Type:            nonrobust   LLR p-value:                 8.027e-69
                      coef    std err          z      P>|z|      [0.025      0.975]
-----------------------------------------------------------------------------------
const              -8.3222      0.715    -11.632      0.000      -9.725      -6.920
male          

## 3. Resultados obtenidos

Las métricas obtenidas son distintas a las que se presentan en un informe OLS, pero comparten ciertas métricas que pueden ayudarnos a comprobar rápidamente la precisión del modelo:



*   Pseudo R-squ nos indica una medida de que tan mejor es nuestro modelo frente a un modelo nulo. Comparado con la regresión lineal, el valor R aquí se evalúa de otra forma, pero sigue el mismo concepto: entre más cerca de 1, mejor. Sin embargo, en regresión logística este valor suele ser más bajo y aun así describir bien los datos.

*   Las variables: education, currentSmoker, BPMeds, PrevalentStroke, PrevalentHyp, diabetes, diaBP, BMI y heartRate no son significativas para nuestro modelo según el P-value.


In [6]:
X = df[['male', 'age', 'cigsPerDay', 'totChol', 'sysBP',  'glucose']]

X = sm.add_constant(X)

y = df['TenYearCHD']

modelo = sm.Logit(y, X).fit()
print(modelo.summary())

Optimization terminated successfully.
         Current function value: 0.377800
         Iterations 7
                           Logit Regression Results                           
Dep. Variable:             TenYearCHD   No. Observations:                 3656
Model:                          Logit   Df Residuals:                     3649
Method:                           MLE   Df Model:                            6
Date:                Thu, 10 Jul 2025   Pseudo R-squ.:                  0.1147
Time:                        06:53:57   Log-Likelihood:                -1381.2
converged:                       True   LL-Null:                       -1560.3
Covariance Type:            nonrobust   LLR p-value:                 2.885e-74
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
const         -9.1298      0.476    -19.199      0.000     -10.062      -8.198
male           0.5614      0.

## 4. Prueba del modelo

In [7]:
nuevo_paciente = pd.DataFrame({
    'male': [1],
    'age': [60],
    'cigsPerDay': [30],
    'totChol': [303],       # 1 = hombre, 0 = mujer
    'sysBP': [187],
    'glucose': [104]
})

nuevo_paciente = sm.add_constant(nuevo_paciente, has_constant='add')

probabilidad = modelo.predict(nuevo_paciente)

print(f"Probabilidad estimada: {probabilidad[0]:.4f}")

Probabilidad estimada: 0.6652


En este caso el resultado nos indica que la persona con los datos ingresados tiene un %66.52 de probabilidades de tener un CHD.

## 5. Análisis de los coeficientes

Los coeficientes obtenidos para cada variable aportan información valiosa, ya que nos indican en % la influencia que tienen. Para obtener este porcentaje, es necesario utilizar la función exponencial.

In [8]:
print(np.exp(modelo.params))

const         0.000108
male          1.753206
age           1.068116
cigsPerDay    1.019412
totChol       1.002275
sysBP         1.017689
glucose       1.007307
dtype: float64


Basado en la informacion obtenida, podemos observar que para el genero masculino las probabilidades de tener CHD en 10 años aumentan en un 75.3%.

Las demás variables tienen un aumento en la probabilidad muy bajo, desde el %0.7 al %6.8