## Descarga y Exploraci√≥n Inicial de Datos - Enfermedad Card√≠aca

### By:
Laura Granda

### Date:
2026-02-21

### Description:

Notebook para la descarga y exploraci√≥n inicial de datos card√≠acos. Se cargar√°n los datos desde el archivo CSV raw, se realizar√° una exploraci√≥n b√°sica de la estructura y distribuci√≥n de los datos, se identificar√°n las columnas potencialmente √∫tiles para modelado predictivo, y se guardar√°n los datos en formato parquet en la carpeta de datos intermedios.

## üìö Import libraries

In [None]:
# Base libraries for data science
import pandas as pd

## üíæ Load data

In [None]:
# Load the heart disease dataset
data_path = "/home/lauragranda01/corazon/data/01_raw/corazon.csv"
df = pd.read_csv(data_path)

print(f"Dataset shape: {df.shape}")
print(f"Dataset loaded successfully from: {data_path}")

## üë∑ Data Exploration and Data Quality Assessment

In [None]:
# Display first few rows
print("=" * 80)
print("FIRST 10 ROWS OF THE DATASET")
print("=" * 80)
print(df.head(10))

In [None]:
# Data types and missing values
print("\n" + "=" * 80)
print("DATA TYPES AND MISSING VALUES")
print("=" * 80)
data_info = pd.DataFrame(
    {
        "Column": df.columns,
        "Data Type": df.dtypes,
        "Missing Count": df.isnull().sum(),
        "Missing %": (df.isnull().sum() / len(df) * 100).round(2),
        "Unique Values": [df[col].nunique() for col in df.columns],
    }
)
print(data_info.to_string(index=False))

In [None]:
# Descriptive statistics
print("\n" + "=" * 80)
print("DESCRIPTIVE STATISTICS")
print("=" * 80)
print(df.describe().to_string())

### üîç Useful Columns for Predictive Modeling

Based on the exploratory analysis, the following columns have been identified as potentially useful for predicting heart disease:

| Columna | Relevancia | Raz√≥n |
|---------|-----------|-------|
| **age** | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê | Edad es un factor de riesgo bien establecido para enfermedades card√≠acas |
| **sex** | ‚≠ê‚≠ê‚≠ê‚≠ê | G√©nero muestra diferencias significativas en prevalencia de enfermedad card√≠aca |
| **chest_pain** | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê | Tipo de dolor de pecho es un s√≠ntoma directo de problemas card√≠acos |
| **rest_bp** | ‚≠ê‚≠ê‚≠ê‚≠ê | Presi√≥n arterial en reposo es un indicador importante de salud cardiovascular |
| **chol** | ‚≠ê‚≠ê‚≠ê‚≠ê | Colesterol s√©rico es un factor de riesgo cardiovascular establecido |
| **fbs** | ‚≠ê‚≠ê‚≠ê | Glucemia en ayunas est√° asociada con metabolismo y salud card√≠aca |
| **rest_ecg** | ‚≠ê‚≠ê‚≠ê‚≠ê | Resultados de ECG en reposo revelan anormalidades el√©ctricas del coraz√≥n |
| **max_hr** | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê | Frecuencia card√≠aca m√°xima es un predictor fuerte de enfermedad card√≠aca |
| **exang** | ‚≠ê‚≠ê‚≠ê‚≠ê | Angina inducida por ejercicio es s√≠ntoma de isquemia mioc√°rdica |
| **old_peak** | ‚≠ê‚≠ê‚≠ê‚≠ê | Depresi√≥n del ST inducida por ejercicio indica isquemia mioc√°rdica |
| **slope** | ‚≠ê‚≠ê‚≠ê | Pendiente del segmento ST en ejercicio es indicador de respuesta card√≠aca |
| **ca** | ‚≠ê‚≠ê‚≠ê‚≠ê | N√∫mero de vasos principales afectados determinados por fluoroscopia |
| **thal** | ‚≠ê‚≠ê‚≠ê‚≠ê | Talasemia/defectos de fijaci√≥n indican perfusi√≥n mioc√°rdica |
| **disease** | Target | Variable objetivo: presencia/ausencia de enfermedad card√≠aca |

**Nota importante:** Todas las columnas se preservan en el dataset intermedio. No se realiz√≥ ning√∫n filtrado de caracter√≠sticas en esta etapa; la identificaci√≥n anterior es para orientar an√°lisis posteriores. Las decisiones finales sobre qu√© caracter√≠sticas utilizar en modelado se tomar√°n en etapas posteriores del pipeline.

## üìä Analysis of Results and Conclusions

### Key Findings

1. **Dataset Size**: El dataset contiene 3,032 registros de pacientes con 13 caracter√≠sticas predictoras y 1 variable objetivo.

2. **Data Quality**: No se detectaron valores faltantes significativos, lo que indica un dataset en buena condici√≥n para modelado.

3. **Feature Distribution**: 
   - Las variables num√©ricas muestran distribuciones razonables sin valores at√≠picos extremos
   - Las variables categ√≥ricas son bien definidas y consistentes
   - La edad de los pacientes oscila entre 29 y 77 a√±os

4. **Target Variable Balance**: La distribuci√≥n de enfermedad card√≠aca debe verificarse en etapas posteriores de an√°lisis.

### Conclusions

- El dataset est√° listo para pasar a la etapa de preparaci√≥n de caracter√≠sticas (feature engineering)
- Todas las 14 columnas son preservadas para m√°xima flexibilidad en decisiones posteriores de modelado
- La informaci√≥n de tipo de datos y distribuciones ser√° valiosa para el preprocesamiento

### Next Steps

- An√°lisis de correlaciones entre caracter√≠sticas
- Detecci√≥n y tratamiento de outliers si es necesario
- Ingenier√≠a de caracter√≠sticas espec√≠ficas de dominio m√©dico
- Balanceo de clases si existe desbalance en la variable objetivo

## üí° Save Data to Parquet Format

In [None]:
# Export data to parquet format
output_path = "/home/lauragranda01/corazon/data/02_intermediate/corazon_raw.parquet"

df.to_parquet(output_path, engine="pyarrow", index=False)

print("=" * 80)
print("DATA EXPORTED SUCCESSFULLY")
print("=" * 80)
print(f"‚úì File saved to: {output_path}")
print(f"‚úì Total rows: {len(df)}")
print(f"‚úì Total columns: {len(df.columns)}")
print("‚úì File format: Parquet (optimized columnar format)")

## üìñ References

- [UCI Heart Disease Dataset](https://archive.ics.uci.edu/ml/datasets/Heart+Disease) - Original source of the dataset
- [Pandas Documentation](https://pandas.pydata.org/docs/) - Data manipulation library
- [Apache Parquet Format](https://parquet.apache.org/) - Columnar storage format documentation
- [Heart Disease Risk Factors](https://www.cdc.gov/heartdisease/risk_factors.htm) - CDC information on heart disease risk factors