<a href="https://colab.research.google.com/github/HesusG/diagnostico-lineas-accion/blob/main/Semana1/notebooks/02_medidas_tendencia_central.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Medidas de Tendencia Central y Dispersi√≥n

## Objetivos
- Calcular e interpretar media, mediana y moda
- Entender medidas de dispersi√≥n (varianza, desviaci√≥n est√°ndar, rango)
- Aplicar cuartiles y detectar outliers
- Interpretar resultados en contexto de negocio

---

## 1. Preparaci√≥n

In [None]:
import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns

# Configuraci√≥n
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette("Set2")
%matplotlib inline

# Cargar datos
df = pd.read_csv('https://raw.githubusercontent.com/HesusG/diagnostico-lineas-accion/main/Semana1/datos/ejemplo_satisfaccion_clientes.csv')
print(f"Dataset cargado: {df.shape[0]} registros")

## 2. Medidas de Tendencia Central

### 2.1 Media (Promedio)

In [None]:
# Media de satisfacci√≥n
media_satisfaccion = df['satisfaccion'].mean()

print(f"Media de satisfacci√≥n: {media_satisfaccion:.2f}")
print(f"\nInterpretaci√≥n: En promedio, los beneficiarios califican el servicio con {media_satisfaccion:.2f}/10")

In [None]:
# Calcular media con numpy (alternativa)
media_numpy = np.mean(df['satisfaccion'])
print(f"Media (numpy): {media_numpy:.2f}")

# Verificar que son iguales
assert media_satisfaccion == media_numpy, "Las medias deber√≠an ser iguales"
print("‚úì Ambos m√©todos producen el mismo resultado")

### 2.2 Mediana

In [None]:
# Mediana de satisfacci√≥n
mediana_satisfaccion = df['satisfaccion'].median()

print(f"Mediana de satisfacci√≥n: {mediana_satisfaccion:.2f}")
print(f"\nInterpretaci√≥n: El 50% de los beneficiarios califica con {mediana_satisfaccion:.2f} o menos")

In [None]:
# Comparar media vs mediana
print("=" * 50)
print("COMPARACI√ìN MEDIA VS MEDIANA")
print("=" * 50)
print(f"Media:    {media_satisfaccion:.2f}")
print(f"Mediana:  {mediana_satisfaccion:.2f}")
print(f"Diferencia: {abs(media_satisfaccion - mediana_satisfaccion):.2f}")

if media_satisfaccion > mediana_satisfaccion:
    print("\nüìä La media > mediana sugiere una distribuci√≥n sesgada a la DERECHA")
    print("   (Hay valores altos que jalan el promedio hacia arriba)")
elif media_satisfaccion < mediana_satisfaccion:
    print("\nüìä La media < mediana sugiere una distribuci√≥n sesgada a la IZQUIERDA")
    print("   (Hay valores bajos que jalan el promedio hacia abajo)")
else:
    print("\nüìä La media ‚âà mediana sugiere una distribuci√≥n SIM√âTRICA")

### 2.3 Moda

In [None]:
# Moda de satisfacci√≥n (con pandas)
moda_satisfaccion = df['satisfaccion'].mode()[0]

print(f"Moda de satisfacci√≥n: {moda_satisfaccion}")
print(f"\nInterpretaci√≥n: La calificaci√≥n m√°s frecuente es {moda_satisfaccion}/10")

# Frecuencia de cada valor
print("\nDistribuci√≥n de frecuencias:")
print(df['satisfaccion'].value_counts().sort_index())

In [None]:
# Visualizar las tres medidas
plt.figure(figsize=(12, 6))
plt.hist(df['satisfaccion'], bins=10, color='skyblue', edgecolor='black', alpha=0.7)
plt.axvline(media_satisfaccion, color='red', linestyle='--', linewidth=2, label=f'Media = {media_satisfaccion:.2f}')
plt.axvline(mediana_satisfaccion, color='green', linestyle='--', linewidth=2, label=f'Mediana = {mediana_satisfaccion:.2f}')
plt.axvline(moda_satisfaccion, color='orange', linestyle='--', linewidth=2, label=f'Moda = {moda_satisfaccion}')

plt.title('Distribuci√≥n de Satisfacci√≥n con Medidas de Tendencia Central', fontsize=14, fontweight='bold')
plt.xlabel('Satisfacci√≥n (1-10)', fontsize=12)
plt.ylabel('Frecuencia', fontsize=12)
plt.legend(fontsize=11)
plt.grid(alpha=0.3)
plt.tight_layout()
plt.show()

## 3. Medidas de Dispersi√≥n

### 3.1 Rango

In [None]:
# Rango de satisfacci√≥n
minimo = df['satisfaccion'].min()
maximo = df['satisfaccion'].max()
rango = maximo - minimo

print(f"Valor m√≠nimo: {minimo}")
print(f"Valor m√°ximo: {maximo}")
print(f"Rango: {rango}")
print(f"\nInterpretaci√≥n: La satisfacci√≥n var√≠a desde {minimo} hasta {maximo} (rango de {rango} puntos)")

### 3.2 Varianza y Desviaci√≥n Est√°ndar

In [None]:
# Varianza muestral (ddof=1 por defecto en pandas)
varianza = df['satisfaccion'].var()

# Desviaci√≥n est√°ndar muestral
desv_std = df['satisfaccion'].std()

print(f"Varianza muestral: {varianza:.4f}")
print(f"Desviaci√≥n est√°ndar muestral: {desv_std:.4f}")
print(f"\nInterpretaci√≥n: En promedio, los datos se desv√≠an ¬±{desv_std:.2f} puntos de la media ({media_satisfaccion:.2f})")

In [None]:
# Coeficiente de variaci√≥n (CV)
cv = (desv_std / media_satisfaccion) * 100

print(f"Coeficiente de Variaci√≥n: {cv:.2f}%")
print(f"\nInterpretaci√≥n:")
if cv < 15:
    print("  ‚Üí Baja variabilidad: Los datos son HOMOG√âNEOS")
elif cv < 30:
    print("  ‚Üí Variabilidad moderada")
else:
    print("  ‚Üí Alta variabilidad: Los datos son HETEROG√âNEOS")

### 3.3 Cuartiles y Rango Intercuart√≠lico (IQR)

In [None]:
# Cuartiles
Q1 = df['satisfaccion'].quantile(0.25)
Q2 = df['satisfaccion'].quantile(0.50)  # Mediana
Q3 = df['satisfaccion'].quantile(0.75)

# Rango intercuart√≠lico
IQR = Q3 - Q1

print("CUARTILES")
print("=" * 40)
print(f"Q1 (25%): {Q1}")
print(f"Q2 (50%): {Q2} (Mediana)")
print(f"Q3 (75%): {Q3}")
print(f"\nIQR (Rango Intercuart√≠lico): {IQR}")
print(f"\nInterpretaci√≥n: El 50% central de los datos est√° entre {Q1} y {Q3}")

In [None]:
# Boxplot con cuartiles etiquetados
fig, ax = plt.subplots(figsize=(10, 6))
bp = ax.boxplot(df['satisfaccion'], vert=True, patch_artist=True,
                boxprops=dict(facecolor='lightblue', color='blue'),
                medianprops=dict(color='red', linewidth=2),
                whiskerprops=dict(color='blue', linewidth=1.5),
                capprops=dict(color='blue', linewidth=1.5))

ax.set_ylabel('Satisfacci√≥n (1-10)', fontsize=12)
ax.set_title('Boxplot de Satisfacci√≥n con Cuartiles', fontsize=14, fontweight='bold')
ax.set_xticklabels(['Satisfacci√≥n'])

# A√±adir etiquetas de cuartiles
ax.text(1.15, Q1, f'Q1 = {Q1}', fontsize=10, color='blue')
ax.text(1.15, Q2, f'Q2 = {Q2}', fontsize=10, color='red')
ax.text(1.15, Q3, f'Q3 = {Q3}', fontsize=10, color='blue')

ax.grid(alpha=0.3, axis='y')
plt.tight_layout()
plt.show()

## 4. Detecci√≥n de Outliers

In [None]:
# L√≠mites para outliers (regla de 1.5*IQR)
limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

print("DETECCI√ìN DE OUTLIERS")
print("=" * 40)
print(f"L√≠mite inferior: {limite_inferior}")
print(f"L√≠mite superior: {limite_superior}")

# Identificar outliers
outliers = df[(df['satisfaccion'] < limite_inferior) | (df['satisfaccion'] > limite_superior)]

print(f"\nN√∫mero de outliers detectados: {len(outliers)}")

if len(outliers) > 0:
    print(f"\nOutliers encontrados:")
    print(outliers[['id', 'area', 'satisfaccion']])
else:
    print("\n‚úì No se detectaron outliers")

In [None]:
# Porcentaje de outliers
porcentaje_outliers = (len(outliers) / len(df)) * 100
print(f"Porcentaje de outliers: {porcentaje_outliers:.2f}%")

if porcentaje_outliers > 5:
    print("\n‚ö†Ô∏è M√°s del 5% de datos son outliers. Revisar si hay errores en los datos.")
else:
    print("\n‚úì Porcentaje de outliers es aceptable.")

## 5. Resumen Estad√≠stico Completo

In [None]:
# Resumen completo de la variable satisfacci√≥n
print("RESUMEN ESTAD√çSTICO DE SATISFACCI√ìN")
print("=" * 50)
print(df['satisfaccion'].describe())

# Agregar otras estad√≠sticas
print(f"\nEstad√≠sticas adicionales:")
print(f"Moda: {moda_satisfaccion}")
print(f"Rango: {rango}")
print(f"IQR: {IQR}")
print(f"Coeficiente de Variaci√≥n: {cv:.2f}%")

In [None]:
# Crear tabla resumen personalizada
resumen = pd.DataFrame({
    'Estad√≠stica': ['n', 'Media', 'Mediana', 'Moda', 'Desv. Est√°ndar', 'Varianza', 
                   'M√≠nimo', 'Q1', 'Q3', 'M√°ximo', 'Rango', 'IQR', 'CV (%)'],
    'Valor': [
        len(df),
        f"{media_satisfaccion:.2f}",
        f"{mediana_satisfaccion:.2f}",
        f"{moda_satisfaccion}",
        f"{desv_std:.2f}",
        f"{varianza:.2f}",
        f"{minimo}",
        f"{Q1}",
        f"{Q3}",
        f"{maximo}",
        f"{rango}",
        f"{IQR}",
        f"{cv:.2f}"
    ]
})

print("\nTABLA RESUMEN - SATISFACCI√ìN")
print(resumen.to_string(index=False))

## 6. Comparaci√≥n entre √Åreas

In [None]:
# Calcular estad√≠sticas por √°rea
estadisticas_por_area = df.groupby('area')['satisfaccion'].agg([
    ('n', 'count'),
    ('Media', 'mean'),
    ('Mediana', 'median'),
    ('Desv.Std', 'std'),
    ('M√≠nimo', 'min'),
    ('Q1', lambda x: x.quantile(0.25)),
    ('Q3', lambda x: x.quantile(0.75)),
    ('M√°ximo', 'max')
]).round(2)

print("ESTAD√çSTICAS POR √ÅREA")
print("=" * 80)
print(estadisticas_por_area)

In [None]:
# Visualizaci√≥n comparativa con boxplots
plt.figure(figsize=(12, 6))
df.boxplot(column='satisfaccion', by='area', patch_artist=True, grid=False)
plt.suptitle('')  # Eliminar t√≠tulo autom√°tico
plt.title('Comparaci√≥n de Satisfacci√≥n por √Årea', fontsize=14, fontweight='bold')
plt.xlabel('√Årea', fontsize=12)
plt.ylabel('Satisfacci√≥n (1-10)', fontsize=12)
plt.tight_layout()
plt.show()

In [None]:
# Violinplot para ver distribuciones completas
plt.figure(figsize=(12, 6))
sns.violinplot(data=df, x='area', y='satisfaccion', palette='Set2')
plt.title('Distribuci√≥n de Satisfacci√≥n por √Årea (Violin Plot)', fontsize=14, fontweight='bold')
plt.xlabel('√Årea', fontsize=12)
plt.ylabel('Satisfacci√≥n (1-10)', fontsize=12)
plt.grid(alpha=0.3, axis='y')
plt.tight_layout()
plt.show()

## 7. Interpretaci√≥n en Contexto de Negocio

In [None]:
# Generar reporte autom√°tico
print("="*60)
print("REPORTE EJECUTIVO - AN√ÅLISIS DE SATISFACCI√ìN")
print("="*60)

print(f"\nüìä TENDENCIA CENTRAL:")
print(f"   ‚Ä¢ La satisfacci√≥n promedio es {media_satisfaccion:.2f}/10")
print(f"   ‚Ä¢ El 50% de beneficiarios califica con {mediana_satisfaccion}/10 o m√°s")
print(f"   ‚Ä¢ La calificaci√≥n m√°s frecuente es {moda_satisfaccion}/10")

print(f"\nüìà DISPERSI√ìN:")
print(f"   ‚Ä¢ Desviaci√≥n est√°ndar: ¬±{desv_std:.2f} puntos")
print(f"   ‚Ä¢ Coeficiente de variaci√≥n: {cv:.2f}%")
print(f"   ‚Ä¢ Rango de calificaciones: {minimo} a {maximo}")

print(f"\nüéØ DISTRIBUCI√ìN:")
print(f"   ‚Ä¢ Q1 (25% m√°s bajo): {Q1}")
print(f"   ‚Ä¢ Q3 (75% m√°s alto): {Q3}")
print(f"   ‚Ä¢ El 50% central var√≠a entre {Q1} y {Q3}")

print(f"\n‚ö†Ô∏è OUTLIERS:")
print(f"   ‚Ä¢ {len(outliers)} outliers detectados ({porcentaje_outliers:.1f}%)")

# √Årea con mejor desempe√±o
mejor_area = estadisticas_por_area['Media'].idxmax()
mejor_media = estadisticas_por_area.loc[mejor_area, 'Media']

print(f"\nüèÜ MEJOR DESEMPE√ëO:")
print(f"   ‚Ä¢ √Årea {mejor_area} tiene la mayor satisfacci√≥n promedio ({mejor_media:.2f})")

print("\n" + "="*60)

## 8. Ejercicios Propuestos

### Ejercicio 1: Calidad de Atenci√≥n
Calcula todas las medidas de tendencia central y dispersi√≥n para la variable `calidad_atencion`

### Ejercicio 2: Tiempo de Espera
Analiza la variable `tiempo_espera`:
- ¬øCu√°l es el tiempo promedio?
- ¬øHay mucha variabilidad?
- ¬øExisten outliers?

### Ejercicio 3: Comparaci√≥n por G√©nero
Compara las estad√≠sticas de satisfacci√≥n entre g√©neros

### Ejercicio 4: Segmentaci√≥n por Edad
Crea grupos de edad (ej: <30, 30-50, >50) y compara satisfacci√≥n entre ellos


In [None]:
# Tu c√≥digo aqu√≠


---

## Resumen

En este notebook aprendiste a:
- ‚úì Calcular e interpretar medidas de tendencia central (media, mediana, moda)
- ‚úì Calcular e interpretar medidas de dispersi√≥n (varianza, desv. est√°ndar, rango, IQR)
- ‚úì Identificar outliers usando la regla de 1.5*IQR
- ‚úì Comparar estad√≠sticas entre grupos
- ‚úì Interpretar resultados en contexto de negocio

**Siguiente notebook:** Pruebas de Hip√≥tesis para 1 y 2 Muestras
