# Práctica 2: Estadística Descriptiva

Para esta segunda práctica, se realiza el cálculo de las estadísticas descriptivas, de manera independiente y agrupada.

## Librerías

Se importan las librerías necesarias para los cálculos estadísticos y gráficos.

In [15]:
import pandas as pd
import numpy as np
from scipy.stats import skew, kurtosis
from graphviz import Digraph

## Importación de los datos desde CSV

Se crea una copia del dataset limpio para manejarlo y relizar los cálculos en esa copia.

In [16]:
# Se carga el conjunto de datos limpio.
df_original = pd.read_csv("C:\\Users\\Paty-\\OneDrive\\Documentos\\04 Facultad\\Séptimo Semestre\\Minería de Datos\\CardiovascularDiseaseDataMining\\Practica1\\cardiovascular_disease_cleaned.csv", sep=";")

# Se crea una copia del conjunto de datos limpio para trabajar en ella.
df = df_original.copy()

# Se muestran las primeras filas del conjunto de datos.
df.head()

Unnamed: 0,id,age,gender,height,weight,ap_hi,ap_lo,cholesterol,gluc,smoke,alco,active,cardio,birth_date,age_scaled,height_scaled,weight_scaled,ap_hi_scaled,ap_lo_scaled
0,0,50,Male,168,62.0,110,80,Normal,Normal,No,No,Yes,No,1968-10-15 09:32:17.835072,-0.426244,0.47719,-0.911143,-1.14909,-0.221435
1,1,55,Female,156,85.0,140,90,Well Above Normal,Normal,No,No,Yes,Yes,1963-10-07 09:32:17.835072,0.315922,-1.116157,0.963057,0.9503,1.081779
2,2,51,Female,165,64.0,130,70,Well Above Normal,Normal,No,No,No,Yes,1967-07-09 09:32:17.835072,-0.277811,0.078853,-0.748169,0.250504,-1.524649
3,3,48,Male,169,82.0,150,100,Normal,Normal,No,No,Yes,Yes,1970-11-24 09:32:17.835072,-0.723111,0.609969,0.718596,1.650097,2.384993
4,8,59,Female,151,67.0,120,80,Above Normal,Above Normal,No,No,No,No,1959-02-24 09:32:17.835072,0.909656,-1.780052,-0.503708,-0.449293,-0.221435


## Información preliminar

Se visualiza de manera previa la información del dataset.

In [17]:
df[["age","height","weight","ap_hi","ap_lo"]].describe()

Unnamed: 0,age,height,weight,ap_hi,ap_lo
count,62502.0,62502.0,62502.0,62502.0,62502.0
mean,52.87162,164.406131,73.181456,126.420339,81.699146
std,6.737086,7.531374,12.271998,14.28998,7.673399
min,39.0,143.0,40.0,90.0,65.0
25%,48.0,159.0,65.0,120.0,80.0
50%,53.0,165.0,72.0,120.0,80.0
75%,58.0,170.0,81.0,140.0,90.0
max,64.0,186.0,107.0,170.0,105.0


## Cálculos de estadísticas descriptivas

Se calculan las estadísticas descriptivas para cada variable numérica.

In [18]:
# Se exluyen las columnas id y escaladas.
columnas_a_excluir = ['id'] + [col for col in df.columns if col.endswith('_scaled')]

df_limpio = df.drop(columns=columnas_a_excluir)

# Se toman sólo las variables numéricas restantes.
df_num = df_limpio.select_dtypes(include='number')

estadisticas = {
    'Media': df_num.mean(),
    'Mediana': df_num.median(),
    'Varianza': df_num.var(),
    'Desviación Estándar': df_num.std(),
    'Asimetría': df_num.apply(skew),
    'Curtosis': df_num.apply(kurtosis)
}

estadisticas_df = pd.DataFrame(estadisticas)
print(estadisticas_df)

             Media  Mediana    Varianza  Desviación Estándar  Asimetría  \
age      52.871620     53.0   45.388328             6.737086  -0.313553   
height  164.406131    165.0   56.721601             7.531374   0.069376   
weight   73.181456     72.0  150.601932            12.271998   0.389070   
ap_hi   126.420339    120.0  204.203531            14.289980   0.729568   
ap_lo    81.699146     80.0   58.881054             7.673399   0.450753   

        Curtosis  
age    -0.810495  
height -0.224056  
weight -0.191799  
ap_hi   0.264471  
ap_lo   0.062319  


En cuanto a los resultados obtenidos, podemos interpretar lo siguiente para algunas variables:

##### Media y mediana

- ***Edad (age):*** Su media es de **52.87** y su mediana de **53**, lo que indica que la distribución es relativamente simétrica.

- ***Presión sistólica (ap_hi):*** Para esta variable la media es **126.4** y la mediana **120**, lo cual indica que puede haber asimetría hacia el lado de la presión alta.

##### Asimetría

- ***Presión sistólica (ap_hi):*** Tiene un valor de **0.73**, lo cual indica una asimetría positiva moderada. Lo cual se interpreta como que hay personas con presión sistólica muy alta.

- ***Peso (weight):*** Tiene un valor de **0.38**, lo cual indica una asimetría positiva ligera. Lo cual se interpreta como que algunas personas pesan mucho más que el promedio.

- ***Edad (age):*** Tiene un valor de **-0.31**, lo cual indica una asimetría negativa ligera. Lo cual se interpreta como que hay más personas mayores que muy jóvenes.

##### Curtosis

- ***Presión sistólica (ap_hi):*** Tiene un valor de **0.26**, lo cual confirma la presencia de valores extremos.

##### Desviación estándar

- ***Peso (weight):*** Tiene un valor de **12.27 de desviación estándar**, lo cual, junto con su media de **73**, indica que el peso oscila aproximadamente entre **61 kilogramos y 85 kilogramos**.

## Entidades y relaciones

Se identifican las entidades junto con sus relaciones para posteriormente utilizarlas.

In [19]:
entities = {
    "PACIENTE": ["id", "age", "height", "weight", "gender"],
    "PRESION_SANGUINEA": ["ap_hi", "ap_lo"],
    "HABITOS": ["smoke", "alco", "active"],
    "CONDICION_MEDICA": ["cholesterol", "gluc", "cardio"]
}

for entity, attributes in entities.items():
    print(f"\n{entity}")
    for attr in attributes:
        print(f"  - {attr}")


PACIENTE
  - id
  - age
  - height
  - weight
  - gender

PRESION_SANGUINEA
  - ap_hi
  - ap_lo

HABITOS
  - smoke
  - alco
  - active

CONDICION_MEDICA
  - cholesterol
  - gluc
  - cardio


## Diagrama de entidades y relaciones

Se crea el diagrama de las entidades y relaciones.

In [20]:
er = Digraph()

# Se añaden los nodos para cada entidad.
for entity in entities:
    er.node(entity, entity)

# Se añaden las relaciones entre las entidades.
er.edge("PACIENTE", "PRESION_SANGUINEA", label="tiene")
er.edge("PACIENTE", "HABITOS", label="tiene")
er.edge("PACIENTE", "CONDICION_MEDICA", label="tiene")

# Se renderiza el diagrama ER y se guarda como imagen PNG.
er.render("Diagrama_ER", format="png", cleanup=True)

print("\nEl diagrama se guardó como Diagrama_ER.png")


El diagrama se guardó como Diagrama_ER.png


## Estadísticas agrupadas por entidad

Se agrupan las estadísticas para obtener información sobre la media para respecto a variables numéricas contra categóricas.

In [21]:
variables_numericas = [
    col for col in df.select_dtypes(include=np.number).columns
    if not col.endswith('_scaled') and col != 'id'
]

print("\n\t* Agrupación por género *\n")
group_gender = df.groupby("gender")[variables_numericas].mean()
print(group_gender)

print("\n\t* Agrupación por condición cardiovascular *\n")
group_cardio = df.groupby("cardio")[variables_numericas].mean()
print(group_cardio)

print("\n\t* Agrupación por nivel de colesterol *\n")
group_chol = df.groupby("cholesterol")[variables_numericas].mean()
print(group_chol)

print("\n\t* Agrupación por nivel de glucosa *\n")
group_gluc = df.groupby("gluc")[variables_numericas].mean()
print(group_gluc)

print("\n\t* Agrupación por hábito de fumar *\n")
group_smoke = df.groupby("smoke")[variables_numericas].mean()
print(group_smoke)

print("\n\t* Agrupación por hábito de beber alcohol *\n")
group_alcohol = df.groupby("alco")[variables_numericas].mean()
print(group_alcohol)

print("\n\t* Agrupación por hábito de actividad física *\n")
group_active = df.groupby("active")[variables_numericas].mean()
print(group_active)


	* Agrupación por género *

              age      height     weight       ap_hi      ap_lo
gender                                                         
Female  53.023750  161.556331  71.765816  125.978804  81.433649
Male    52.587323  169.731767  75.826970  127.245467  82.195300

	* Agrupación por condición cardiovascular *

              age      height     weight       ap_hi      ap_lo
cardio                                                         
No      51.299096  164.611438  71.220882  120.318886  79.150038
Yes     54.482961  164.195756  75.190425  132.672400  84.311176

	* Agrupación por nivel de colesterol *

                         age      height     weight       ap_hi      ap_lo
cholesterol                                                               
Above Normal       53.258755  163.805569  75.202609  130.218020  83.302894
Normal             52.374680  164.687975  72.317702  124.859906  81.025164
Well Above Normal  55.740908  163.222159  76.599703  132.425357  84.33