# Heart Disease Dataset

El Heart Disease Dataset del UCI Machine Learning Repository contiene información sobre pacientes, incluyendo atributos como edad, sexo, tipo de dolor en el pecho, presión arterial en reposo, colesterol sérico, entre otros. El objetivo es predecir la presencia de una enfermedad cardíaca en el paciente.​

## Descripción del Dataset
- Objetivo (target): Indica la presencia de enfermedad cardíaca (0: ausencia, 1: presencia).​

Características principales:
- age: Edad del paciente en años.​
- sex: Sexo del paciente (1 = masculino; 0 = femenino).​
- cp: Tipo de dolor en el pecho (1: angina típica; 2: angina atípica; 3: dolor no anginoso; 4: asintomático).​
- trestbps: Presión arterial en reposo (en mm Hg).​
- chol: Colesterol sérico en mg/dl.​
- fbs: Azúcar en sangre en ayunas > 120 mg/dl (1 = verdadero; 0 = falso).​
- restecg: Resultados del electrocardiograma en reposo (0: normal; 1: anomalía de la onda ST-T; 2: hipertrofia ventricular izquierda probable o definitiva).​
- thalach: Frecuencia cardíaca máxima alcanzada.​
- exang: Angina inducida por el ejercicio (1 = sí; 0 = no).​
- oldpeak: Depresión del ST inducida por el ejercicio en relación con el reposo.​
- slope: Pendiente del segmento ST de ejercicio máximo (1: ascendente; 2: plana; 3: descendente).​
- ca: Número de vasos principales coloreados por fluoroscopia (0-3).​
- thal: Estado talasémico (3: normal; 6: defecto fijo; 7: defecto reversible).

In [16]:
import pandas as pd
import joblib
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split

In [17]:
# URL del dataset
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/processed.cleveland.data"

# Nombres de las columnas
column_names = [
    'age', 'sex', 'cp', 'trestbps', 'chol', 'fbs', 'restecg',
    'thalach', 'exang', 'oldpeak', 'slope', 'ca', 'thal', 'target'
]

# Cargo el dataset
df = pd.read_csv(url, names=column_names)

# Reemplazo los valores faltantes representados por '?' con NaN
df.replace('?', pd.NA, inplace=True)

# Convertir las columnas a valores numéricos
df = df.apply(pd.to_numeric)

# Elimino filas con valores faltantes
df.dropna(inplace=True)

# Converto la variable 'target' a binaria (0: ausencia de enfermedad, 1: presencia de enfermedad)
df['target'] = df['target'].apply(lambda x: 1 if x > 0 else 0)

# Divido el dataset en entrenamiento (80%) y prueba (20%)
train, test = train_test_split(df, test_size=0.2, random_state=42)

# Guardo los conjuntos de datos en archivos CSV
train.to_csv("../data/train.csv", index=False)
test.to_csv("../data/test.csv", index=False)

print("Dataset guardado en /src/data/")

Dataset guardado en /src/data/


In [18]:
df = pd.read_csv("../data/train.csv")

# Separo características (X) y variable objetivo (y)
X = df.drop("target", axis=1)
y = df["target"]

# Identifico variables numéricas y categóricas
num_cols = ['age', 'trestbps', 'chol', 'thalach', 'oldpeak']
cat_cols = ['sex', 'cp', 'fbs', 'restecg', 'exang', 'slope', 'ca', 'thal']

In [19]:
# Creo transformaciones para el preprocesamiento
numeric_transformer = StandardScaler()
categorical_transformer = OneHotEncoder(handle_unknown="ignore")

preprocessor = ColumnTransformer(
    transformers=[
        ("num", numeric_transformer, num_cols),
        ("cat", categorical_transformer, cat_cols)
    ])

In [20]:
# Creo el Pipeline con un modelo RandomForest
pipeline = Pipeline(steps=[
    ("preprocessor", preprocessor),
    ("classifier", RandomForestClassifier(n_estimators=100, random_state=42))
])

In [21]:
# Entreno el pipeline
pipeline.fit(X, y)

In [22]:
# Guardo el pipeline entrenado
joblib.dump(pipeline, "../models/pipeline_heart.pkl")

print("Modelo entrenado y guardado en /src/models/")

FileNotFoundError: [Errno 2] No such file or directory: '../models/pipeline_heart.pkl'