### **<span style="color:#1a73e8;">Medidas Descriptivas en Python</span>**


Las medidas descriptivas son herramientas esenciales para analizar y resumir un conjunto de datos. Se dividen en:

- **Medidas de tendencia central**: describen el valor central de un conjunto de datos.

- **Medidas de posición**: dividen los datos en partes iguales para comprender mejor su distribución.

En esta guía, usaremos Python y las librerías `numpy`, `statistics` y `pandas` para calcular estas medidas.

### **<span style="color:#1a73e8;">Importar librerías necesarias</span>**

In [1]:
import numpy as np
import statistics
import pandas as pd
from scipy.stats import skew, kurtosis

**1. Medidas de Tendencia Central**

Las medidas de tendencia central incluyen:

- *Media*: promedio aritmético de los datos.

- *Mediana*: valor central cuando los datos están ordenados.

- *Moda*: valor(es) que más se repiten.

In [2]:
def medidas_tendencia_central(datos):    
    # Medidas de tendencia central

    print("📊 Medidas de tendencia central:")
    # Media
    media = np.mean(datos)
    print("-Media:", media)

    # Mediana
    mediana = np.median(datos)
    print("-Mediana:", mediana)

    # Moda
    modas = statistics.multimode(datos)
    print(f"-Las modas son: {modas}")

**2. Medidas de Posición**

Las medidas de posición dividen el conjunto de datos en partes iguales y ayudan a comprender su distribución.

**2.1 Cuartiles**

Los cuartiles dividen los datos en cuatro partes iguales:

- *Q1 (P25)*: primer cuartil (25% de los datos están por debajo de este valor).

- *Q2 (P50)*: segundo cuartil (mediana, 50% de los datos están por debajo).

- *Q3 (P75)*: tercer cuartil (75% de los datos están por debajo).

**2.2 Deciles**

Los deciles dividen los datos en diez partes iguales. Algunos ejemplos:

- *D3 (P30)*: el 30% de los datos están por debajo de este valor.

- *D7 (P70)*: el 70% de los datos están por debajo de este valor.

**2.3 Percentiles**

Los percentiles dividen los datos en 100 partes iguales. Ejemplo:

- *P90*: el 90% de los datos están por debajo de este valor.

In [3]:
def medidas_posicion(datos):
    # Cálculo de cuartiles
    Q1 = np.percentile(datos, 25)  # Primer cuartil (P25)
    Q2 = np.percentile(datos, 50)  # Mediana (P50)
    Q3 = np.percentile(datos, 75)  # Tercer cuartil (P75)

    # Mostrar resultados
    print("📊 Medidas de Posición:")
    print("Cuartiles:")
    print(f"Q1 (P25): {Q1}")
    print("Interpretación: El 25% de los valores son menores o iguales a", Q1)
    print(f"\nMediana (Q2/P50): {Q2}")
    print("Interpretación: El 50% de los valores son menores o iguales a", Q2)
    print(f"\nQ3 (P75): {Q3}")
    print("Interpretación: El 75% de los valores son menores o iguales a", Q3)

    # Cálculo de deciles
    D3 = np.percentile(datos, 30)  # Decil 3 (D3)
    D7 = np.percentile(datos, 70)  # Decil 7 (D7)

    # Mostrar resultados
    print("\nDeciles:")
    print(f"Decil 3 (D3): {D3}")
    print(f"Decil 7 (D7): {D7}")

    # Cálculo de percentiles
    P90 = np.percentile(datos, 90)  # Percentil 90 (P90)

    # Mostrar resultados
    print("\nPercentiles:")
    print(f"Percentil 90 (P90): {P90}")

**3. Medidas de Variabilidad**

Las medidas de variabilidad nos ayudan a entender qué tan dispersos están los datos con respecto a un valor central como la media.

- *Rango*: Es la diferencia entre el valor más alto y el más bajo del conjunto de datos

    $ \text{Rango} = \text{máximo} - \text{mínimo} $

- *Rango Intercuartílico (IQR)*: El IQR mide la dispersión del 50% central de los datos. Se calcula como:

    $ IQR = Q_3 - Q_1 $

- *Varianza*: La varianza es el promedio de las desviaciones cuadradas respecto a la media:

    $ \text{Varianza} = \frac{1}{n - 1} \sum_{i=1}^{n} (x_i - \bar{x})^2 $

- *Desviación Estándar*: La desviación estándar es la raíz cuadrada de la varianza, e indica cuánto se alejan en promedio los datos de la media:

    $ \text{Desviación\ estándar} = \sqrt{\text{Varianza}} $

- *Coeficiente de Variación (CV)*: El CV mide la variabilidad relativa respecto a la media y se expresa en porcentaje:

    $ CV = \left( \frac{\text{Desviación\ estándar}}{\text{Media}} \right) \times 100 $



In [4]:
def calcular_medidas_variabilidad(datos):
   
    # Convertimos los datos a una Serie de Pandas para poder usar métodos como .quantile()
    # Una Serie es como una columna de Excel: una estructura que contiene datos y nos permite aplicar operaciones estadísticas fácilmente.
    datos = pd.Series(datos)

    # Rango: diferencia entre el valor máximo y mínimo
    rango = datos.max() - datos.min()

    # Varianza: mide cuánto se dispersan los datos respecto a la media
    varianza = datos.var()

    # Desviación estándar: raíz cuadrada de la varianza (también mide dispersión, pero en las mismas unidades que los datos)
    desviacion_std = datos.std()

    # Rango intercuartílico (IQR): mide la dispersión del 50% central de los datos (entre Q3 y Q1)
    rango_intercuartilico = datos.quantile(0.75) - datos.quantile(0.25)

    # Coeficiente de variación (CV): relación entre la desviación estándar y la media (expresado como %)
    coef_var = (desviacion_std / datos.mean()) * 100

    # Imprimimos los resultados
    print("📊 Medidas de Variabilidad:")
    print(f"- Rango (máx - mín): {rango:.2f}")
    print(f"- Varianza: {varianza:.2f}")
    print(f"- Desviación estándar: {desviacion_std:.2f}")
    print(f"- Rango intercuartílico (IQR): {rango_intercuartilico:.2f}")
    print(f"- Coeficiente de variación (CV): {coef_var:.2f}%")

**4. Medidas de Simetría y Curtosis**

Cuando analizamos una variable numérica, no solo nos interesa su valor promedio o su dispersión, sino también **la forma de su distribución**. Para eso usamos dos medidas estadísticas fundamentales:

- 📐 Asimetría (Skewness)

    La **asimetría** nos dice si los datos están equilibrados alrededor de la media o si hay una cola más larga en un lado de la distribución.

    - **Asimetría ≈ 0**: La distribución es simétrica.
    - **Asimetría > 0**: Hay una **asimetría positiva**, lo que significa que la cola de la distribución se extiende más hacia la derecha (hay valores extremos grandes).
    - **Asimetría < 0**: Hay una **asimetría negativa**, lo que indica que la cola se extiende más hacia la izquierda (hay valores extremos pequeños).

    Esto ayuda a entender si los datos tienen sesgo hacia un lado.

- 🏔️ Curtosis

    La **curtosis** mide el grado de concentración que tienen los datos en torno a la media, o qué tan "picuda" es una distribución.

    - **Curtosis ≈ 3**: Distribución **mesocúrtica**, similar a una distribución normal.
    - **Curtosis > 3**: Distribución **leptocúrtica** (más aguda o con colas más pesadas).
    - **Curtosis < 3**: Distribución **platicúrtica** (más plana o con colas más ligeras).


In [5]:
def medidas_simetria_curtosis(datos):
    """
    Calcula e imprime las medidas de simetría (asimetría) y curtosis de un conjunto de datos.
    
    Parámetros:
    - datos: array o lista de valores numéricos.
    
    Explicación:
    - Asimetría (skewness): mide qué tan simétrica es la distribución respecto a la media.
        * Valor ≈ 0: simétrica.
        * Valor > 0: asimetría positiva (cola hacia la derecha).
        * Valor < 0: asimetría negativa (cola hacia la izquierda).
        
    - Curtosis: mide la "altura" de la distribución en comparación con una distribución normal.
        * Valor ≈ 3: distribución normal (mesocúrtica).
        * Valor > 3: más concentrada (leptocúrtica).
        * Valor < 3: más plana (platicúrtica).
    """
    # Asegurar que los datos estén en formato de Serie de pandas
    datos = pd.Series(datos)
    
    # Calcular medidas
    asimetria = skew(datos)
    curt = kurtosis(datos, fisher=False)  # Fisher=False para comparar con valor 3 de la normal

    # Mostrar resultados con interpretación
    print("📊 Medidas de Simetría y Curtosis:")
    print(f"- Asimetría (skewness): {asimetria:.2f}")
    if asimetria > 0:
        print("  → Distribución asimétrica positiva (cola hacia la derecha)")
    elif asimetria < 0:
        print("  → Distribución asimétrica negativa (cola hacia la izquierda)")
    else:
        print("  → Distribución simétrica")

    print(f"- Curtosis: {curt:.2f}")
    if curt > 3:
        print("  → Distribución leptocúrtica (Mucha concentración en el centro y colas más pesadas)")
    elif curt < 3:
        print("  → Distribución platicúrtica (Menos concentración en el centro y colas más ligeras)")
    else:
        print("  → Distribución mesocúrtica (Equilibrio entre el centro y las colas)")

### **<span style="color:#1a73e8;">Aplicación en Datos Reales</span>**


In [7]:
# Leer archivo CSV
df_csv = pd.read_csv('../Data/Set_datos_T1_completo.csv')
df_csv

Unnamed: 0,formacion_academica,estrato_socioeconomico,sexo,edad,desempeno_neurocognitivo,duracion_sueno,consumo_cafe,fc_antes,fc_despues,fr_antes,fr_despues,pas_antes,pad_antes,pas_despues,pad_despues
0,2.5,1.2,Mujer,36,2.8,1,2,87.483571,79.684860,14.649643,14.557451,109.429593,78.925925,104.495644,75.160523
1,4.5,3.0,Mujer,28,2.1,4,3,84.308678,77.459411,15.710963,14.571348,111.845346,66.111595,107.852646,62.038182
2,3.9,3.1,Mujer,54,2.8,4,2,88.238443,83.119182,14.415160,12.828766,110.289699,78.573728,105.634449,75.075038
3,3.1,3.0,Hombre,42,4.0,4,4,92.615149,88.909023,15.384077,11.496389,112.260021,73.831380,105.830557,72.773877
4,4.2,3.0,Hombre,29,3.6,2,4,83.829233,77.432786,12.212771,9.656218,113.929248,78.537289,106.373535,75.692711
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,2.0,4.2,Hombre,59,3.0,4,4,83.594499,76.454198,16.154961,14.126503,113.510666,86.049278,108.307406,81.748176
996,2.4,1.5,Hombre,21,1.6,3,2,93.988433,89.041475,16.515505,16.593317,118.845158,76.634973,111.510723,75.633318
997,4.4,5.0,Hombre,23,4.0,3,4,88.204214,84.967964,13.516479,11.836777,112.363055,70.824377,104.186160,68.529694
998,3.8,3.5,Mujer,32,1.8,4,1,82.144105,77.470239,16.668353,13.024975,114.974467,83.264565,111.344441,79.768800


In [8]:
fc_antes = df_csv['fc_antes']
print(f'\nMedidas de tendencia central de la variable fc_antes:\n')
medidas_tendencia_central(fc_antes)
print(f'\nMedidas de posición de la variable fc_antes:\n')
medidas_posicion(fc_antes)
print(f'\nMedidas de variabilidad de la variable fc_antes:\n')
calcular_medidas_variabilidad(fc_antes)
print(f'\nMedidas de forma de la variable fc_antes:\n')
medidas_simetria_curtosis(fc_antes)


Medidas de tendencia central de la variable fc_antes:

📊 Medidas de tendencia central:
-Media: 85.09666027911163
-Mediana: 85.12650306117445
-Las modas son: [87.48357076505616, 84.30867849414408, 88.23844269050346, 92.61514928204012, 83.82923312638331, 83.8293152152541, 92.89606407753696, 88.83717364576455, 82.65262807032524, 87.71280021792982, 82.68291153593769, 82.67135123214871, 86.20981135783018, 75.43359877671101, 76.37541083743484, 82.18856235379513, 79.93584439832789, 86.57123666297637, 80.45987962239394, 77.93848149332354, 92.32824384460775, 83.87111849756732, 85.33764102343962, 77.87625906893271, 82.27808637737408, 85.55461294854933, 79.24503211288848, 86.87849009172837, 81.99680655040598, 83.54153125103362, 81.99146693885301, 94.26139092254468, 84.93251387631032, 79.71144535522049, 89.11272456051594, 78.89578175014489, 86.04431797502377, 75.20164938060113, 78.35906975550785, 85.98430617934562, 88.69233289997705, 85.85684140594985, 84.4217585880588, 83.49448152205356, 77.6073

In [9]:
describe_fc_antes = df_csv['fc_antes'].describe()
display(describe_fc_antes)

# Datos de fc_antes y fd_despues
describe_fc = df_csv[['fc_antes', 'fc_despues']].describe().T
describe_fc

count    1000.000000
mean       85.096660
std         4.896080
min        68.793663
25%        81.762048
50%        85.126503
75%        88.239719
max       104.263657
Name: fc_antes, dtype: float64

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
fc_antes,1000.0,85.09666,4.89608,68.793663,81.762048,85.126503,88.239719,104.263657
fc_despues,1000.0,79.954988,5.361012,62.716151,76.262705,79.939623,83.559379,97.169388


In [10]:
# Datos de edades ordenados
edades = np.array([13, 16, 18, 18, 20, 21, 21, 22, 22, 23, 
                   25, 25, 26, 27, 28, 29, 29, 30, 31, 34, 
                   35, 36, 37, 37, 38, 43, 44, 45, 46, 48])

In [11]:
print(f'\nMedidas de tendencia central de la variable edades:\n')
medidas_tendencia_central(edades)
print(f'\nMedidas de posición de la variable edades:\n')
medidas_posicion(edades)
print(f'\nMedidas de variabilidad de la variable edades:\n')
calcular_medidas_variabilidad(edades)
print(f'\nMedidas de forma de la variable edades:\n')
medidas_simetria_curtosis(edades)


Medidas de tendencia central de la variable edades:

📊 Medidas de tendencia central:
-Media: 29.566666666666666
-Mediana: 28.5
-Las modas son: [18, 21, 22, 25, 29, 37]

Medidas de posición de la variable edades:

📊 Medidas de Posición:
Cuartiles:
Q1 (P25): 22.0
Interpretación: El 25% de los valores son menores o iguales a 22.0

Mediana (Q2/P50): 28.5
Interpretación: El 50% de los valores son menores o iguales a 28.5

Q3 (P75): 36.75
Interpretación: El 75% de los valores son menores o iguales a 36.75

Deciles:
Decil 3 (D3): 22.7
Decil 7 (D7): 35.3

Percentiles:
Percentil 90 (P90): 44.1

Medidas de variabilidad de la variable edades:

📊 Medidas de Variabilidad:
- Rango (máx - mín): 35.00
- Varianza: 93.01
- Desviación estándar: 9.64
- Rango intercuartílico (IQR): 14.75
- Coeficiente de variación (CV): 32.62%

Medidas de forma de la variable edades:

📊 Medidas de Simetría y Curtosis:
- Asimetría (skewness): 0.32
  → Distribución asimétrica positiva (cola hacia la derecha)
- Curtosis: 2.1

In [12]:
describe_edades = pd.Series(edades).describe()
describe_edades

count    30.000000
mean     29.566667
std       9.644306
min      13.000000
25%      22.000000
50%      28.500000
75%      36.750000
max      48.000000
dtype: float64