1. **age (Edad):** Este atributo representa la edad del paciente y es de tipo entero (Integer). Es una variable continua que indica la edad del paciente en años.

2. **sex (Sexo):** Es una variable categórica (Categorical) que describe el sexo del paciente. Puede tener dos valores: masculino (1) o femenino (0).

3. **cp (Tipo de Dolor de Pecho):** Esta variable categórica describe el tipo de dolor de pecho reportado por el paciente. Los valores específicos para cada categoría no se proporcionan, pero generalmente incluyen tipos como dolor típico de angina, dolor atípico de angina, dolor no anginal y asintomático. Puede tomar los siguientes valores:
   - 0: Dolor típico de angina.
   - 1: Dolor atípico de angina.
   - 2: Dolor no anginal.
   - 3: Asintomático.

4. **trestbps (Presión Arterial en Reposo):** Representa la presión arterial sistólica en reposo del paciente, medida en mmHg (milímetros de mercurio). Es una variable de tipo entero (Integer).

5. **chol (Colesterol):** Esta variable entera representa el nivel de colesterol sérico del paciente, medido en mg/dl (miligramos por decilitro).

6. **fbs (Azúcar en Sangre en Ayunas):** Es una variable categórica que indica si el nivel de azúcar en sangre en ayunas del paciente es mayor a 120 mg/dl. Puede tomar dos valores: 1 para verdadero y 0 para falso.

7. **restecg (Resultados Electrocardiográficos en Reposo):** Describe los resultados del electrocardiograma (ECG) en reposo del paciente. Es una variable categórica que puede tomar múltiples valores que representan diferentes condiciones del ECG. Puede tomar los siguientes valores:
   - 0: Normal.
   - 1: Tiene anomalía de la onda ST-T (inversiones de la onda T y/o elevación o depresión ST > 0.05 mV).
   - 2: Muestra hipertrofia ventricular izquierda probable o definitiva según los criterios de Estes.

8. **thalach (Frecuencia Cardíaca Máxima Alcanzada):** Representa la frecuencia cardíaca máxima alcanzada durante el ejercicio por el paciente. Es una variable de tipo entero (Integer).

9. **exang (Angina Inducida por el Ejercicio):** Describe si el paciente experimentó angina inducida por el ejercicio. Es una variable categórica que puede tomar dos valores: 1 para sí y 0 para no.

10. **oldpeak (Depresión del Segmento ST Inducida por el Ejercicio en Reposo):** Indica la cantidad de depresión del segmento ST inducida por el ejercicio en relación con el descanso. Es una variable de tipo entero (Integer).

11. **slope (Pendiente):** Describe la pendiente del segmento ST durante el pico del ejercicio. Es una variable categórica que puede tomar varios valores para indicar diferentes condiciones del segmento ST. Puede tomar los siguientes valores:
    - 0: Normal.
    - 1: Tiene una inclinación hacia arriba.
    - 2: Tiene una inclinación hacia abajo.

12. **ca (Número de Vasos Principales):** Representa el número de vasos principales coloreados por fluoroscopia. Es una variable de tipo entero (Integer).

13. **thal (Thalassemia):** Describe la condición de thalassemia del paciente. Es una variable categórica que puede indicar diferentes tipos de thalassemia. Puede tomar los siguientes valores:
    - 0: Normal.
    - 1: Defecto fijo.
    - 2: Defecto reversible.

14. **num (Objetivo):** Es la variable objetivo que indica la presencia de enfermedad cardíaca. Es una variable de tipo entero (Integer) puede tomar los siguientes valores:
    - 0: No tiene enfermedad cardíaca.
    - 1: Tiene enfermedad cardíaca leve.
    - 2: Tiene enfermedad cardíaca moderada.
    - 3: Tiene enfermedad cardíaca grave.
    - 4: Tiene enfermedad cardíaca muy grave.

14. **target (Objetivo):** Es la variable objetivo que indica la presencia de enfermedad cardíaca. Es una variable de tipo entero (Integer) que generalmente toma valores binarios, donde 0 puede indicar la ausencia de enfermedad cardíaca y 1 la presencia de enfermedad cardíaca. Se toma de la variable objetivo "num" definiendo cualquier tipo de presencia de la enfermedad. Desde leve hasta muy grave como "1" y los valores restantes como "0"

In [1]:
!pip3 install -U ucimlrepo



In [2]:
from ucimlrepo import fetch_ucirepo, list_available_datasets
import pandas as pd
# check which datasets can be imported
list_available_datasets()

# import dataset
heart_disease = fetch_ucirepo(id=45)
# alternatively: fetch_ucirepo(name='Heart Disease')

# access data
X = heart_disease.data.features
y = heart_disease.data.targets
# train model e.g. sklearn.linear_model.LinearRegression().fit(X, y)

heart_data = pd.concat([X, y], axis=1)

# Exportar el DataFrame a un archivo CSV
heart_data.to_csv('../../Datos/Iniciales/heart_disease_dataset.csv', index=False)

# access metadata
print(heart_disease.metadata.uci_id)
print(heart_disease.metadata.num_instances)
print(heart_disease.metadata.additional_info.summary)

# access variable info in tabular format
print(heart_disease.variables)

-------------------------------------
The following datasets are available:
-------------------------------------
Dataset Name                                                                            ID    
------------                                                                            --    
Abalone                                                                                 1     
Adult                                                                                   2     
Annealing                                                                               3     
Audiology (Standardized)                                                                8     
Auto MPG                                                                                9     
Automobile                                                                              10    
Balance Scale                                                                           12    
Balloons                       

In [3]:
# Mapear los valores de la columna 'num' a 0 o 1
heart_data['target'] = heart_data['num'].map({0: 0, 1: 1, 2: 1, 3: 1, 4: 1})

In [5]:
# Visualizar el resultado
print(heart_data[['num', 'target']])

     num  target
0      0       0
1      2       1
2      1       1
3      0       0
4      0       0
..   ...     ...
298    1       1
299    2       1
300    3       1
301    1       1
302    0       0

[303 rows x 2 columns]


In [6]:
heart_data.head()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,num,target
0,63,1,1,145,233,1,2,150,0,2.3,3,0.0,6.0,0,0
1,67,1,4,160,286,0,2,108,1,1.5,2,3.0,3.0,2,1
2,67,1,4,120,229,0,2,129,1,2.6,2,2.0,7.0,1,1
3,37,1,3,130,250,0,0,187,0,3.5,3,0.0,3.0,0,0
4,41,0,2,130,204,0,2,172,0,1.4,1,0.0,3.0,0,0


In [7]:
# Exportar el DataFrame a un archivo CSV
heart_data.to_csv('../../Datos/Iniciales/heart_disease_dataset.csv', index=False)