## Predicción de enfermedad cardíaca con Regresión Logística

En este cuaderno, utilizaremos un modelo de regresión logística para predecir la presencia de enfermedad cardíaca en pacientes.

### Paso 1: Importar las bibliotecas necesarias

Comenzaremos importando las bibliotecas necesarias para el análisis de datos y la creación del modelo.

In [1]:
# Importar bibliotecas
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

### Paso 2: Cargar y explorar los datos

Cargaremos el conjunto de datos `heart_cleveland_upload.csv` y exploraremos su estructura y características.

In [2]:
# Cargar datos
data = pd.read_csv('heart_cleveland_upload.csv')

# Mostrar las primeras filas del DataFrame
data.head()

### Paso 3: Preprocesamiento de datos

Realizaremos algunas transformaciones en los datos para prepararlos para el modelado.

In [3]:
# Verificar si hay valores nulos
data.isnull().sum()

### Paso 4: Dividir los datos en conjuntos de entrenamiento y prueba

Dividiremos los datos en un conjunto de entrenamiento y otro de prueba para evaluar el rendimiento del modelo.

In [4]:
# Definir variables independientes (X) y dependientes (y)
X = data.drop('condition', axis=1)
y = data['condition']

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Mostrar dimensiones de los conjuntos de entrenamiento y prueba
X_train.shape, X_test.shape, y_train.shape, y_test.shape

### Paso 5: Entrenar el modelo de Regresión Logística

Entrenaremos un modelo de regresión logística utilizando los datos de entrenamiento.

In [5]:
# Inicializar el modelo
model = LogisticRegression()

# Entrenar el modelo
model.fit(X_train, y_train)

### Paso 6: Evaluación del modelo

Evaluaremos el rendimiento del modelo utilizando los datos de prueba.

In [6]:
# Predecir en los datos de prueba
y_pred = model.predict(X_test)

# Calcular la precisión del modelo
accuracy = accuracy_score(y_test, y_pred)
print('Precisión del modelo:', accuracy)

# Mostrar el reporte de clasificación
print('\nReporte de Clasificación:\n', classification_report(y_test, y_pred))

# Mostrar la matriz de confusión
print('\nMatriz de Confusión:\n', confusion_matrix(y_test, y_pred))

### Paso 7: Visualización de resultados

Visualizaremos la matriz de confusión para evaluar el rendimiento del modelo.

In [7]:
# Crear matriz de confusión
cm = confusion_matrix(y_test, y_pred)

# Visualizar matriz de confusión
sns.heatmap(cm, annot=True, fmt='g', cmap='Blues', cbar=False)
plt.xlabel('Predicción')
plt.ylabel('Verdadero')
plt.title('Matriz de Confusión')
plt.show()

(array([[29,  1],
         [ 3, 28]]),
 array([[29,  1],
         [ 3, 28]]))