## Importamos librerías

In [187]:
# Importamos las librerias necesarias para realizar nuestro modelo de regresión lineal.

# Pandas para el manejo del dataframe
import pandas as pd

# Sklearn para el manejo del modelo y sus validaciones
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.metrics import confusion_matrix

# MatplotLib para el manejo de la visualización
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D

## Obtenemos el dataframe

In [190]:
# Convertimos nuestro archivo .csv en un dataframe. Separamos los campos por medio del caracter ","
df = pd.read_csv('Regresion_logistica.csv', sep=',')

# Limitamos nuestro dataframe. Esto para ver si nuestro modelo mejora o no con la variación de datos.
df = df.head(4000)

# Limpiamos nuestro dataframe de valores nulos y se guarda en un nuevo objeto.
df_new = df.dropna(how='any')

In [191]:
# Verificamos nuestro dataframe con el método head()
df_new.head()

Unnamed: 0,male,age,education,currentSmoker,cigsPerDay,BPMeds,prevalentStroke,prevalentHyp,diabetes,totChol,sysBP,diaBP,BMI,heartRate,glucose,TenYearCHD
0,1,39,4.0,0,0.0,0.0,0,0,0,195.0,106.0,70.0,26.97,80.0,77.0,0
1,0,46,2.0,0,0.0,0.0,0,0,0,250.0,121.0,81.0,28.73,95.0,76.0,0
2,1,48,1.0,1,20.0,0.0,0,0,0,245.0,127.5,80.0,25.34,75.0,70.0,0
3,0,61,3.0,1,30.0,0.0,0,1,0,225.0,150.0,95.0,28.58,65.0,103.0,1
4,0,46,3.0,1,23.0,0.0,0,0,0,285.0,130.0,84.0,23.1,85.0,85.0,0


## Creamos nuestros subconjuntos para el modelo

### Probamos escenarios para nuestro modelo

In [167]:
# Separamos el conjunto de datos en dependientes e independientes
# Tenemos un primer escenario donde nos preguntamos si la edad y la cantidad de cigarrillos por día influyen directamente sobre
# la adquisición de enfermedad coronaria a diez años.

#X = dt[["age", "cigsPerDay"]]
#Y = dt["TenYearCHD"]

# Tenemos un segundo escenario donde nos preguntamos si todos los campos recolectados son suficiente para determinar si una
# persona puede puede adquirir una enfermedad coronaria a diez años.
Y = df_new["TenYearCHD"]
X = df_new.drop(columns=["TenYearCHD"])

In [179]:
# Separamos los conjuntos anteriores en entrenamiento y prueba (80-20)
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.6, random_state=0)

### Validamos graficamente el modelo en el caso del primer escenario

In [180]:
### Validamos graficamente el dataframe
#fig, ax = plt.subplots(subplot_kw={"projection": "3d"})
#ax.scatter(dt["age"], dt["cigsPerDay"], dt["TenYearCHD"])

#ax.set_xlabel('age')
#ax.set_ylabel('cigsPerDay')
#ax.set_zlabel('TenYearCHD')

#plt.show()

In [181]:
# Creamos nuestro modelo de regresión lineal. Usamos parametros de iteración por problemas de convergencia del modelo.
modelo = LogisticRegression(max_iter=1900, penalty='l2')

In [182]:
# Aplicamos el modelos al conjunto de entrenamiento
modelo.fit(X_train, y_train)

In [183]:
# Aplicamos el modelo al conjunto de prueba
y_pred = modelo.predict(X_test)

## Obtenemos la información del modelo

In [185]:
# Obtenemos los parametros del modelo aplicado
coeficientes = modelo.coef_
intercepto = modelo.intercept_

print("Coeficientes:", coeficientes)
print("Intercepto:", intercepto)

Coeficientes: [[ 0.28223695  0.06804166  0.02508785 -0.00542945  0.01822793  0.22073935
   0.12451148  0.20270171 -0.02402723  0.00185961  0.0063635   0.01311624
   0.02347851  0.00209537  0.00671099]]
Intercepto: [-9.48099129]


## Validamos el modelo

In [193]:
# Validamos la precisión de nuestro modelo con el conjunto de prueba
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Error cuadrático medio (MSE):", mse)
print("Coeficiente de determinación (R^2):", r2)

Error cuadrático medio (MSE): 0.15198451113262343
Coeficiente de determinación (R^2): -0.15813583982718749


In [194]:
# Creamos una matriz de confusión para validar el tipo de predicción encontrada.
confusion = confusion_matrix(y_test, y_pred)

# Imprimir la matriz de confusión
print("Matriz de Confusión:")
print(confusion)

Matriz de Confusión:
[[1737    8]
 [ 306   15]]


## Analizamos las validaciones

**Error Cuadrático Medio (MSE):** El MSE mide la magnitud del error cuadrático promedio entre las predicciones del modelo y los valores reales. En este caso, un MSE de 0.1519 indica que el modelo tiene un error medio cuadrático relativamente bajo en comparación con la variabilidad de los datos. Esto podría sugerir que el modelo tiene una buena capacidad para hacer predicciones cercanas a los valores reales.

**Coeficiente de Determinación (R^2):** El R^2 proporciona una medida de cuánta varianza en la variable objetivo (TenYearCHD) es explicada por el modelo. Sin embargo, un valor negativo de R^2 (-0.1581) es inusual y sugiere que el modelo no se ajusta bien a los datos o que el modelo es inapropiado para este conjunto de datos. Un R^2 negativo generalmente indica que el modelo es peor que simplemente predecir la media de la variable objetivo en todos los casos.

**Matriz de confusión:** 
La matriz de confusión que resultante muestra el rendimiento de tu modelo de regresión logística en términos de verdaderos positivos (TP), falsos positivos (FP), verdaderos negativos (TN) y falsos negativos (FN) en un problema de clasificación binaria. Aquí está la interpretación de la matriz de confusión:

Verdaderos Positivos (TP): 15
Falsos Positivos (FP): 8
Verdaderos Negativos (TN): 1737
Falsos Negativos (FN): 306
Ahora, podemos calcular algunas métricas de evaluación del modelo utilizando estos valores:

* Precisión (Precision): La precisión mide la proporción de predicciones positivas (1) que fueron correctas. Se calcula como TP / (TP + FP). En tu caso, sería 15 / (15 + 8) ≈ 0.6522.

* Recall (Sensibilidad o Tasa de Verdaderos Positivos): Recall mide la proporción de casos positivos reales que el modelo identificó correctamente. Se calcula como TP / (TP + FN). En tu caso, sería 15 / (15 + 306) ≈ 0.0464.

* Exactitud (Accuracy): La exactitud mide la proporción total de predicciones correctas (tanto positivas como negativas). Se calcula como (TP + TN) / (TP + TN + FP + FN). En tu caso, sería (15 + 1737) / (15 + 1737 + 8 + 306) ≈ 0.8499.

* F1-Score: El puntaje F1 es la media armónica de precisión y recall y proporciona un equilibrio entre ambas métricas. Se calcula como 2 * (Precisión * Recall) / (Precisión + Recall). En tu caso, sería 2 * (0.6522 * 0.0464) / (0.6522 + 0.0464) ≈ 0.0856.

Dado que mi escenario parece estar desequilibrado (hay muchos más casos negativos que positivos), es importante tener en cuenta que la precisión puede ser alta debido a la predicción exitosa de la mayoría de los casos negativos, pero el recall es bajo, lo que indica que el modelo tiene dificultades para identificar los casos positivos.

## Conclusión

Podemos concluir que el riesgo de enfermedad coronaria a 10 años no se puede predecir correctamente con nuestro modelo y debemos analizar más a fondo las causas, por ejemplo validar los atributos con los que se modelo el escenario, o aumentar la cantidad de datos que tenemos para el estudio.