# 📊 Heart Attack Dataset - Análisis exploratorio
**Zheen Hospital - Erbil, Iraq**

Este análisis explora datos clínicos recolectados entre enero y mayo de 2019, con el objetivo de identificar patrones que puedan ayudar a diferenciar entre pacientes con y sin signos de infarto agudo de miocardio.

In [3]:
import pandas as pd
import numpy as np

In [4]:
# Se importa el archivo CSV
df = pd.read_csv("Dataset_Heart_Attack.csv")

# Se van a mostrar los primeros 10 registros
df.head(10)

Unnamed: 0,Age,Gender,Heart rate,Systolic blood pressure,Diastolic blood pressure,Blood sugar,CK-MB,Troponin,Result
0,64.0,1.0,66,160,83,160.0,1.8,0.012,negative
1,21.0,1.0,94,98,46,296.0,6.75,1.06,positive
2,55.0,1.0,64,160,77,270.0,1.99,0.003,negative
3,64.0,1.0,70,120,55,270.0,13.87,0.122,positive
4,55.0,1.0,64,112,65,300.0,1.08,0.003,negative
5,58.0,0.0,61,112,58,87.0,1.83,0.004,
6,58.0,0.0,61,112,58,87.0,1.83,0.004,negative
7,32.0,0.0,40,179,68,102.0,0.71,0.003,negative
8,63.0,1.0,60,214,82,87.0,300.0,2.37,positive
9,44.0,0.0,60,154,81,135.0,2.35,0.004,negative


In [5]:
# Información general del dataset
df.info()

# Estadísticas básicas de columnas numéricas
df.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1352 entries, 0 to 1351
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Age                       1351 non-null   float64
 1   Gender                    1349 non-null   float64
 2   Heart rate                1352 non-null   int64  
 3   Systolic blood pressure   1352 non-null   int64  
 4   Diastolic blood pressure  1352 non-null   int64  
 5   Blood sugar               1352 non-null   float64
 6   CK-MB                     1352 non-null   float64
 7   Troponin                  1352 non-null   float64
 8   Result                    1350 non-null   object 
dtypes: float64(5), int64(3), object(1)
memory usage: 95.2+ KB


Unnamed: 0,Age,Gender,Heart rate,Systolic blood pressure,Diastolic blood pressure,Blood sugar,CK-MB,Troponin
count,1351.0,1349.0,1352.0,1352.0,1352.0,1352.0,1352.0,1352.0
mean,57.334567,0.659007,78.285503,127.264053,72.294379,146.398447,15.326894,0.35721
std,30.568136,0.474219,51.056287,26.050352,14.002877,74.705649,46.504117,1.142419
min,-48.0,0.0,20.0,42.0,38.0,35.0,0.321,0.001
25%,47.0,0.0,64.0,110.0,62.0,98.0,1.66,0.006
50%,58.0,1.0,74.0,124.0,72.0,116.0,2.85,0.014
75%,65.0,1.0,85.0,143.0,81.0,169.0,5.8025,0.085
max,855.0,1.0,1111.0,223.0,154.0,541.0,300.0,10.3


### 📋 Descripción de columnas

- **Age**: Edad del paciente (numérico)
- **Gender**: Género (1 = masculino, 0 = femenino)
- **Heart rate**: Frecuencia cardíaca en reposo (numérico)
- **Systolic blood pressure**: Presión sistólica (numérico)
- **Diastolic blood pressure**: Presión diastólica (numérico)
- **Blood sugar**: Glucosa en sangre (mg/dL)
- **CK-MB**: Niveles de la enzima Creatina Quinasa MB (U/L)
- **Troponin**: Nivel de troponina (ng/mL)
- **Result**: Resultado diagnóstico (positive = infarto, negative = no infarto)

In [6]:
# Análisis de columnas numéricas
columnas_numericas = ['Age', 'Heart rate', 'Systolic blood pressure', 'Diastolic blood pressure',
                      'Blood sugar', 'CK-MB', 'Troponin']

analisis_numerico = []

for columna in columnas_numericas:
    media = df[columna].mean()
    mediana = df[columna].median()
    std = df[columna].std()
    nulos = df[columna].isnull().sum()
    total = len(df[columna])
    registros_invalidos = df[~df[columna].apply(lambda x: isinstance(x, (int, float, np.integer, np.float64)))][columna].unique().tolist()

    analisis_numerico.append({
        "Columna": columna,
        "Valores válidos": total - nulos,
        "Valores nulos": nulos,
        "Media": media,
        "Mediana": mediana,
        "Desviación estándar": std,
        "Valores inválidos": registros_invalidos
    })

# Mostrar resultados
pd.DataFrame(analisis_numerico)

Unnamed: 0,Columna,Valores válidos,Valores nulos,Media,Mediana,Desviación estándar,Valores inválidos
0,Age,1351,1,57.334567,58.0,30.568136,[]
1,Heart rate,1352,0,78.285503,74.0,51.056287,[]
2,Systolic blood pressure,1352,0,127.264053,124.0,26.050352,[]
3,Diastolic blood pressure,1352,0,72.294379,72.0,14.002877,[]
4,Blood sugar,1352,0,146.398447,116.0,74.705649,[]
5,CK-MB,1352,0,15.326894,2.85,46.504117,[]
6,Troponin,1352,0,0.35721,0.014,1.142419,[]


In [7]:
# Análisis de columnas categóricas
columnas_categoricas = ['Gender', 'Result']
analisis_categorico = []

for columna in columnas_categoricas:
    conteo = df[columna].value_counts(dropna=False).to_dict()
    valores_nulos = df[columna].isnull().sum()
    valores_invalidos = None
    if columna == 'Gender':
        valores_invalidos = df[~df[columna].isin([0, 1])][columna].unique().tolist()
    if columna == 'Result':
        valores_invalidos = df[~df[columna].isin(['positive', 'negative'])][columna].unique().tolist()
    analisis_categorico.append({
        'Columna': columna,
        'Conteo por categoría': conteo,
        'Valores nulos': valores_nulos,
        'Valores fuera de lo esperado': valores_invalidos
    })

# Mostrar resultados
pd.DataFrame(analisis_categorico)


Unnamed: 0,Columna,Conteo por categoría,Valores nulos,Valores fuera de lo esperado
0,Gender,"{1.0: 889, 0.0: 460, nan: 3}",3,[nan]
1,Result,"{'positive': 821, 'negative': 512, 'neg': 9, '...",2,"[nan, neg, pos]"


## 🧾 Descripción del Proyecto

El presente análisis exploratorio tiene como finalidad identificar patrones clínicos asociados a la presencia o ausencia de infarto agudo de miocardio (IAM), a partir del estudio estadístico de un conjunto de datos reales obtenidos en el hospital Zheen (Erbil, Iraq) durante el período enero–mayo de 2019.

El conjunto de datos incluye variables biomédicas relevantes como edad, género, frecuencia cardíaca, presión arterial sistólica y diastólica, nivel de glucosa en sangre, valores de CK-MB y troponina, los cuales son marcadores comúnmente utilizados en la práctica clínica para la evaluación del daño miocárdico.

A través de un enfoque cuantitativo, se pretende:
- Explorar tendencias y correlaciones entre variables clínicas y la ocurrencia de IAM.
- Determinar la incidencia relativa de factores como la edad o los valores de troponina en los casos positivos.
- Evaluar la calidad y completitud de los datos, con el fin de proponer mejoras en la recolección de datos clínicos.
- Establecer las bases para el desarrollo futuro de un modelo predictivo, que pueda ser utilizado como herramienta de apoyo a la toma de decisiones médicas.

Este estudio además busca reforzar el vínculo entre la ciencia de datos y la salud, fomentando el uso de análisis estadísticos descriptivos como primer paso en el desarrollo de modelos de inteligencia artificial aplicados al diagnóstico médico temprano.

### 🧑‍💻 Integrantes del equipo
- Emilce Robles
- Marco Virini
