# Medidas de Tendencia Central y Dispersión

## Objetivos
- Calcular e interpretar media, mediana y moda
- Entender medidas de dispersión (varianza, desviación estándar, rango)
- Aplicar cuartiles y detectar outliers
- Interpretar resultados en contexto de negocio

---

## 1. Preparación

In [None]:
import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns

# Configuración
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette("Set2")
%matplotlib inline

# Cargar datos
df = pd.read_csv('../datos/ejemplo_satisfaccion_clientes.csv')
print(f"Dataset cargado: {df.shape[0]} registros")

## 2. Medidas de Tendencia Central

### 2.1 Media (Promedio)

In [None]:
# Media de satisfacción
media_satisfaccion = df['satisfaccion'].mean()

print(f"Media de satisfacción: {media_satisfaccion:.2f}")
print(f"\nInterpretación: En promedio, los beneficiarios califican el servicio con {media_satisfaccion:.2f}/10")

In [None]:
# Calcular media con numpy (alternativa)
media_numpy = np.mean(df['satisfaccion'])
print(f"Media (numpy): {media_numpy:.2f}")

# Verificar que son iguales
assert media_satisfaccion == media_numpy, "Las medias deberían ser iguales"
print("✓ Ambos métodos producen el mismo resultado")

### 2.2 Mediana

In [None]:
# Mediana de satisfacción
mediana_satisfaccion = df['satisfaccion'].median()

print(f"Mediana de satisfacción: {mediana_satisfaccion:.2f}")
print(f"\nInterpretación: El 50% de los beneficiarios califica con {mediana_satisfaccion:.2f} o menos")

In [None]:
# Comparar media vs mediana
print("=" * 50)
print("COMPARACIÓN MEDIA VS MEDIANA")
print("=" * 50)
print(f"Media:    {media_satisfaccion:.2f}")
print(f"Mediana:  {mediana_satisfaccion:.2f}")
print(f"Diferencia: {abs(media_satisfaccion - mediana_satisfaccion):.2f}")

if media_satisfaccion > mediana_satisfaccion:
    print("\n📊 La media > mediana sugiere una distribución sesgada a la DERECHA")
    print("   (Hay valores altos que jalan el promedio hacia arriba)")
elif media_satisfaccion < mediana_satisfaccion:
    print("\n📊 La media < mediana sugiere una distribución sesgada a la IZQUIERDA")
    print("   (Hay valores bajos que jalan el promedio hacia abajo)")
else:
    print("\n📊 La media ≈ mediana sugiere una distribución SIMÉTRICA")

### 2.3 Moda

In [None]:
# Moda de satisfacción (con pandas)
moda_satisfaccion = df['satisfaccion'].mode()[0]

print(f"Moda de satisfacción: {moda_satisfaccion}")
print(f"\nInterpretación: La calificación más frecuente es {moda_satisfaccion}/10")

# Frecuencia de cada valor
print("\nDistribución de frecuencias:")
print(df['satisfaccion'].value_counts().sort_index())

In [None]:
# Visualizar las tres medidas
plt.figure(figsize=(12, 6))
plt.hist(df['satisfaccion'], bins=10, color='skyblue', edgecolor='black', alpha=0.7)
plt.axvline(media_satisfaccion, color='red', linestyle='--', linewidth=2, label=f'Media = {media_satisfaccion:.2f}')
plt.axvline(mediana_satisfaccion, color='green', linestyle='--', linewidth=2, label=f'Mediana = {mediana_satisfaccion:.2f}')
plt.axvline(moda_satisfaccion, color='orange', linestyle='--', linewidth=2, label=f'Moda = {moda_satisfaccion}')

plt.title('Distribución de Satisfacción con Medidas de Tendencia Central', fontsize=14, fontweight='bold')
plt.xlabel('Satisfacción (1-10)', fontsize=12)
plt.ylabel('Frecuencia', fontsize=12)
plt.legend(fontsize=11)
plt.grid(alpha=0.3)
plt.tight_layout()
plt.show()

## 3. Medidas de Dispersión

### 3.1 Rango

In [None]:
# Rango de satisfacción
minimo = df['satisfaccion'].min()
maximo = df['satisfaccion'].max()
rango = maximo - minimo

print(f"Valor mínimo: {minimo}")
print(f"Valor máximo: {maximo}")
print(f"Rango: {rango}")
print(f"\nInterpretación: La satisfacción varía desde {minimo} hasta {maximo} (rango de {rango} puntos)")

### 3.2 Varianza y Desviación Estándar

In [None]:
# Varianza muestral (ddof=1 por defecto en pandas)
varianza = df['satisfaccion'].var()

# Desviación estándar muestral
desv_std = df['satisfaccion'].std()

print(f"Varianza muestral: {varianza:.4f}")
print(f"Desviación estándar muestral: {desv_std:.4f}")
print(f"\nInterpretación: En promedio, los datos se desvían ±{desv_std:.2f} puntos de la media ({media_satisfaccion:.2f})")

In [None]:
# Coeficiente de variación (CV)
cv = (desv_std / media_satisfaccion) * 100

print(f"Coeficiente de Variación: {cv:.2f}%")
print(f"\nInterpretación:")
if cv < 15:
    print("  → Baja variabilidad: Los datos son HOMOGÉNEOS")
elif cv < 30:
    print("  → Variabilidad moderada")
else:
    print("  → Alta variabilidad: Los datos son HETEROGÉNEOS")

### 3.3 Cuartiles y Rango Intercuartílico (IQR)

In [None]:
# Cuartiles
Q1 = df['satisfaccion'].quantile(0.25)
Q2 = df['satisfaccion'].quantile(0.50)  # Mediana
Q3 = df['satisfaccion'].quantile(0.75)

# Rango intercuartílico
IQR = Q3 - Q1

print("CUARTILES")
print("=" * 40)
print(f"Q1 (25%): {Q1}")
print(f"Q2 (50%): {Q2} (Mediana)")
print(f"Q3 (75%): {Q3}")
print(f"\nIQR (Rango Intercuartílico): {IQR}")
print(f"\nInterpretación: El 50% central de los datos está entre {Q1} y {Q3}")

In [None]:
# Boxplot con cuartiles etiquetados
fig, ax = plt.subplots(figsize=(10, 6))
bp = ax.boxplot(df['satisfaccion'], vert=True, patch_artist=True,
                boxprops=dict(facecolor='lightblue', color='blue'),
                medianprops=dict(color='red', linewidth=2),
                whiskerprops=dict(color='blue', linewidth=1.5),
                capprops=dict(color='blue', linewidth=1.5))

ax.set_ylabel('Satisfacción (1-10)', fontsize=12)
ax.set_title('Boxplot de Satisfacción con Cuartiles', fontsize=14, fontweight='bold')
ax.set_xticklabels(['Satisfacción'])

# Añadir etiquetas de cuartiles
ax.text(1.15, Q1, f'Q1 = {Q1}', fontsize=10, color='blue')
ax.text(1.15, Q2, f'Q2 = {Q2}', fontsize=10, color='red')
ax.text(1.15, Q3, f'Q3 = {Q3}', fontsize=10, color='blue')

ax.grid(alpha=0.3, axis='y')
plt.tight_layout()
plt.show()

## 4. Detección de Outliers

In [None]:
# Límites para outliers (regla de 1.5*IQR)
limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

print("DETECCIÓN DE OUTLIERS")
print("=" * 40)
print(f"Límite inferior: {limite_inferior}")
print(f"Límite superior: {limite_superior}")

# Identificar outliers
outliers = df[(df['satisfaccion'] < limite_inferior) | (df['satisfaccion'] > limite_superior)]

print(f"\nNúmero de outliers detectados: {len(outliers)}")

if len(outliers) > 0:
    print(f"\nOutliers encontrados:")
    print(outliers[['id', 'area', 'satisfaccion']])
else:
    print("\n✓ No se detectaron outliers")

In [None]:
# Porcentaje de outliers
porcentaje_outliers = (len(outliers) / len(df)) * 100
print(f"Porcentaje de outliers: {porcentaje_outliers:.2f}%")

if porcentaje_outliers > 5:
    print("\n⚠️ Más del 5% de datos son outliers. Revisar si hay errores en los datos.")
else:
    print("\n✓ Porcentaje de outliers es aceptable.")

## 5. Resumen Estadístico Completo

In [None]:
# Resumen completo de la variable satisfacción
print("RESUMEN ESTADÍSTICO DE SATISFACCIÓN")
print("=" * 50)
print(df['satisfaccion'].describe())

# Agregar otras estadísticas
print(f"\nEstadísticas adicionales:")
print(f"Moda: {moda_satisfaccion}")
print(f"Rango: {rango}")
print(f"IQR: {IQR}")
print(f"Coeficiente de Variación: {cv:.2f}%")

In [None]:
# Crear tabla resumen personalizada
resumen = pd.DataFrame({
    'Estadística': ['n', 'Media', 'Mediana', 'Moda', 'Desv. Estándar', 'Varianza', 
                   'Mínimo', 'Q1', 'Q3', 'Máximo', 'Rango', 'IQR', 'CV (%)'],
    'Valor': [
        len(df),
        f"{media_satisfaccion:.2f}",
        f"{mediana_satisfaccion:.2f}",
        f"{moda_satisfaccion}",
        f"{desv_std:.2f}",
        f"{varianza:.2f}",
        f"{minimo}",
        f"{Q1}",
        f"{Q3}",
        f"{maximo}",
        f"{rango}",
        f"{IQR}",
        f"{cv:.2f}"
    ]
})

print("\nTABLA RESUMEN - SATISFACCIÓN")
print(resumen.to_string(index=False))

## 6. Comparación entre Áreas

In [None]:
# Calcular estadísticas por área
estadisticas_por_area = df.groupby('area')['satisfaccion'].agg([
    ('n', 'count'),
    ('Media', 'mean'),
    ('Mediana', 'median'),
    ('Desv.Std', 'std'),
    ('Mínimo', 'min'),
    ('Q1', lambda x: x.quantile(0.25)),
    ('Q3', lambda x: x.quantile(0.75)),
    ('Máximo', 'max')
]).round(2)

print("ESTADÍSTICAS POR ÁREA")
print("=" * 80)
print(estadisticas_por_area)

In [None]:
# Visualización comparativa con boxplots
plt.figure(figsize=(12, 6))
df.boxplot(column='satisfaccion', by='area', patch_artist=True, grid=False)
plt.suptitle('')  # Eliminar título automático
plt.title('Comparación de Satisfacción por Área', fontsize=14, fontweight='bold')
plt.xlabel('Área', fontsize=12)
plt.ylabel('Satisfacción (1-10)', fontsize=12)
plt.tight_layout()
plt.show()

In [None]:
# Violinplot para ver distribuciones completas
plt.figure(figsize=(12, 6))
sns.violinplot(data=df, x='area', y='satisfaccion', palette='Set2')
plt.title('Distribución de Satisfacción por Área (Violin Plot)', fontsize=14, fontweight='bold')
plt.xlabel('Área', fontsize=12)
plt.ylabel('Satisfacción (1-10)', fontsize=12)
plt.grid(alpha=0.3, axis='y')
plt.tight_layout()
plt.show()

## 7. Interpretación en Contexto de Negocio

In [None]:
# Generar reporte automático
print("="*60)
print("REPORTE EJECUTIVO - ANÁLISIS DE SATISFACCIÓN")
print("="*60)

print(f"\n📊 TENDENCIA CENTRAL:")
print(f"   • La satisfacción promedio es {media_satisfaccion:.2f}/10")
print(f"   • El 50% de beneficiarios califica con {mediana_satisfaccion}/10 o más")
print(f"   • La calificación más frecuente es {moda_satisfaccion}/10")

print(f"\n📈 DISPERSIÓN:")
print(f"   • Desviación estándar: ±{desv_std:.2f} puntos")
print(f"   • Coeficiente de variación: {cv:.2f}%")
print(f"   • Rango de calificaciones: {minimo} a {maximo}")

print(f"\n🎯 DISTRIBUCIÓN:")
print(f"   • Q1 (25% más bajo): {Q1}")
print(f"   • Q3 (75% más alto): {Q3}")
print(f"   • El 50% central varía entre {Q1} y {Q3}")

print(f"\n⚠️ OUTLIERS:")
print(f"   • {len(outliers)} outliers detectados ({porcentaje_outliers:.1f}%)")

# Área con mejor desempeño
mejor_area = estadisticas_por_area['Media'].idxmax()
mejor_media = estadisticas_por_area.loc[mejor_area, 'Media']

print(f"\n🏆 MEJOR DESEMPEÑO:")
print(f"   • Área {mejor_area} tiene la mayor satisfacción promedio ({mejor_media:.2f})")

print("\n" + "="*60)

## 8. Ejercicios Propuestos

### Ejercicio 1: Calidad de Atención
Calcula todas las medidas de tendencia central y dispersión para la variable `calidad_atencion`

### Ejercicio 2: Tiempo de Espera
Analiza la variable `tiempo_espera`:
- ¿Cuál es el tiempo promedio?
- ¿Hay mucha variabilidad?
- ¿Existen outliers?

### Ejercicio 3: Comparación por Género
Compara las estadísticas de satisfacción entre géneros

### Ejercicio 4: Segmentación por Edad
Crea grupos de edad (ej: <30, 30-50, >50) y compara satisfacción entre ellos


In [None]:
# Tu código aquí


---

## Resumen

En este notebook aprendiste a:
- ✓ Calcular e interpretar medidas de tendencia central (media, mediana, moda)
- ✓ Calcular e interpretar medidas de dispersión (varianza, desv. estándar, rango, IQR)
- ✓ Identificar outliers usando la regla de 1.5*IQR
- ✓ Comparar estadísticas entre grupos
- ✓ Interpretar resultados en contexto de negocio

**Siguiente notebook:** Pruebas de Hipótesis para 1 y 2 Muestras
