# Caso de Uso: Predicción de Enfermedades Cardíacas
### Objetivo
Construir un modelo que prediga si un paciente tiene una enfermedad cardíaca, basándose en variables como:
- Edad
- Colesterol
- Presión arterial
- Frecuencia cardíaca máxima

### Dataset
Usaremos el **Heart Disease Dataset**, un conjunto de datos público con información médica de pacientes y una etiqueta binaria (`target`) que indica si tienen enfermedad cardíaca (1) o no (0).

### Paso 1: Cargar el Dataset y Exploración de Datos
Primero, cargaremos el dataset y exploraremos sus columnas y distribución.
Instrucción: Completa las líneas para cargar el dataset y mostrar un resumen inicial.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, ConfusionMatrixDisplay

# Cargar el dataset
url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/HeartDisease.csv'
df = pd.read_csv(url)
print("Primeras filas del dataset:")
print(df.head())

# Resumen estadístico
print("Resumen estadístico del dataset:")
print(df.describe())

### Paso 2: Análisis Exploratorio de Datos (EDA)
Exploraremos cómo se distribuyen las variables más relevantes y su relación con la enfermedad cardíaca.

In [None]:
# Distribución de la variable objetivo (target)
plt.figure(figsize=(6, 4))
df['target'].value_counts().plot(kind='bar', color=['skyblue', 'orange'], edgecolor='black')
plt.title('Distribución de Enfermedad Cardíaca', fontsize=14)
plt.xlabel('0 = Sin enfermedad, 1 = Con enfermedad', fontsize=12)
plt.ylabel('Frecuencia', fontsize=12)
plt.show()

# Relación entre edad y enfermedad cardíaca
plt.figure(figsize=(8, 6))
plt.scatter(df['age'], df['target'], alpha=0.6, color='purple')
plt.title('Relación entre Edad y Enfermedad Cardíaca', fontsize=14)
plt.xlabel('Edad', fontsize=12)
plt.ylabel('Enfermedad Cardíaca (0 o 1)', fontsize=12)
plt.show()

### Paso 3: Preprocesamiento de Datos
Prepararemos los datos para el modelo, seleccionando características relevantes y dividiendo en conjuntos de entrenamiento y prueba.

In [None]:
# Selección de características
X = df[['age', 'chol', 'trestbps', 'thalach', 'cp']]
y = df['target']

# División de los datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print(f"Tamaño del conjunto de entrenamiento: {X_train.shape[0]} ejemplos")
print(f"Tamaño del conjunto de prueba: {X_test.shape[0]} ejemplos")

### Paso 4: Construcción del Modelo
Entrenaremos dos modelos de clasificación: Logistic Regression y Random Forest.

In [None]:
# Modelo 1: Regresión Logística
log_reg = LogisticRegression()
log_reg.fit(X_train, y_train)
y_pred_log = log_reg.predict(X_test)

# Modelo 2: Random Forest
rf_model = RandomForestClassifier(random_state=42)
rf_model.fit(X_train, y_train)
y_pred_rf = rf_model.predict(X_test)

### Paso 5: Evaluación del Modelo
Evaluaremos ambos modelos utilizando métricas como accuracy y un reporte de clasificación.
Instrucción: Completa las líneas para calcular accuracy y mostrar el reporte de clasificación.

In [None]:
# Evaluación de Regresión Logística
accuracy_log = accuracy_score(y_test, y_pred_log)
print(f"Precisión de Regresión Logística: {accuracy_log:.2f}")
print("Reporte de Clasificación para Regresión Logística:")
print(classification_report(y_test, y_pred_log))

# Evaluación de Random Forest
accuracy_rf = accuracy_score(y_test, y_pred_rf)
print(f"Precisión de Random Forest: {accuracy_rf:.2f}")
print("Reporte de Clasificación para Random Forest:")
print(classification_report(y_test, y_pred_rf))

### Paso 6: Visualización de Resultados
Visualizaremos las matrices de confusión de ambos modelos para entender mejor los errores de clasificación.

In [None]:
# Matriz de confusión para Regresión Logística
ConfusionMatrixDisplay.from_predictions(y_test, y_pred_log, cmap='Blues')
plt.title('Matriz de Confusión: Regresión Logística', fontsize=14)
plt.show()

# Matriz de confusión para Random Forest
ConfusionMatrixDisplay.from_predictions(y_test, y_pred_rf, cmap='Greens')
plt.title('Matriz de Confusión: Random Forest', fontsize=14)
plt.show()

### Conclusión
1. Compara la precisión de ambos modelos.
2. Analiza cuál tiene mejor desempeño según las métricas y la matriz de confusión.
3. Comenta cómo se podrían mejorar los resultados (por ejemplo, seleccionando más características o ajustando hiperparámetros).