<a href="https://colab.research.google.com/github/HesusG/diagnostico-lineas-accion/blob/main/Semana1/notebooks/02_medidas_tendencia_central.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Medidas de Tendencia Central y Dispersi√≥n

## üéØ Objetivos de Aprendizaje

Al finalizar este notebook, podr√°s:
- Calcular e interpretar **media, mediana y moda**
- Entender qu√© es la **variabilidad** en los datos
- Calcular medidas de **dispersi√≥n** (rango, varianza, desviaci√≥n est√°ndar)
- Comparar estad√≠sticas entre diferentes grupos
- Interpretar resultados en contexto de ONGs

## ¬øPor qu√© es importante?

Como analista de datos para ONGs, necesitas poder **resumir grandes cantidades de informaci√≥n** en n√∫meros clave:

1. **Tendencia Central**: ¬øCu√°l es el valor "t√≠pico"? (ej: satisfacci√≥n promedio)
2. **Dispersi√≥n**: ¬øQu√© tan variables son los datos? ¬øTodos opinan similar o hay mucha diferencia?
3. **Comparaci√≥n**: ¬øQu√© √°reas tienen mejor desempe√±o?

Estos n√∫meros te permiten **tomar decisiones informadas** y **comunicar hallazgos** a directores y donantes.

---

## 1. Preparaci√≥n

### üìö ¬øQu√© librer√≠as vamos a usar?

Vamos a usar las mismas librer√≠as del notebook anterior:
- **pandas**: Para cargar y manipular datos
- **numpy**: Para c√°lculos matem√°ticos
- **seaborn**: Para gr√°ficos simples y bonitos
- **matplotlib**: Para personalizar gr√°ficos

<details>
<summary>üí° <b>Hint: ¬øPor qu√© scipy.stats?</b></summary>

<br>

**scipy.stats** contiene funciones estad√≠sticas avanzadas que pandas no tiene.

Por ejemplo:
- Calcular intervalos de confianza
- Realizar pruebas de hip√≥tesis
- Trabajar con distribuciones de probabilidad

En este notebook la usaremos poco, pero es bueno tenerla disponible.

</details>

In [None]:
# ============================================
# PASO 1: Importar librer√≠as
# ============================================

import pandas as pd       # Para DataFrames y an√°lisis de datos
import numpy as np        # Para operaciones num√©ricas
from scipy import stats   # Para funciones estad√≠sticas
import matplotlib.pyplot as plt  # Para gr√°ficos base
import seaborn as sns     # Para gr√°ficos estad√≠sticos simples y bonitos

# ============================================
# PASO 2: Configurar estilo de gr√°ficos
# ============================================

# Estilo con fondo blanco y l√≠neas de cuadr√≠cula
sns.set_style("whitegrid")
sns.set_palette("Set2")  # Paleta de colores suaves

# Mostrar gr√°ficos en el notebook
%matplotlib inline

# ============================================
# PASO 3: Cargar el dataset desde GitHub
# ============================================

# Cargar datos de satisfacci√≥n de clientes (mismo dataset del notebook 01)
df = pd.read_csv('https://raw.githubusercontent.com/HesusG/diagnostico-lineas-accion/main/Semana1/datos/ejemplo_satisfaccion_clientes.csv')

# Confirmar que se carg√≥ correctamente
print(f"‚úì Dataset cargado exitosamente")
print(f"  ‚Ä¢ Registros: {df.shape[0]}")
print(f"  ‚Ä¢ Variables: {df.shape[1]}")
print(f"  ‚Ä¢ Columnas: {', '.join(df.columns.tolist())}")

## 2. Medidas de Tendencia Central

### üéØ ¬øQu√© son las medidas de tendencia central?

Son n√∫meros que resumen **d√≥nde se concentran** los datos. Nos dicen cu√°l es el valor "t√≠pico" o "central".

Las tres principales son:
1. **Media (promedio)**: Suma de todos los valores dividida por el n√∫mero de observaciones
2. **Mediana**: El valor que est√° en el medio cuando ordenamos los datos
3. **Moda**: El valor que aparece con m√°s frecuencia

<details>
<summary>üí° <b>Hint: ¬øCu√°ndo usar cada una?</b></summary>

<br>

**Media**: Usa cuando los datos son sim√©tricos y no hay valores extremos.
- Ejemplo: Calificaciones de satisfacci√≥n (1-10)

**Mediana**: Usa cuando hay valores extremos (outliers) que distorsionan la media.
- Ejemplo: Ingresos (unos pocos millonarios aumentan la media, pero la mediana representa mejor al "ciudadano t√≠pico")

**Moda**: Usa para datos categ√≥ricos o cuando quieres saber el valor m√°s com√∫n.
- Ejemplo: Color favorito, √°rea m√°s solicitada

**Regla de oro:** Cuando media ‚âà mediana, los datos son sim√©tricos. Cuando difieren mucho, hay sesgo.

</details>

---

### 2.1 Media (Promedio)

In [None]:
# ============================================
# Calcular la MEDIA (promedio)
# ============================================

# M√©todo 1: Usar .mean() de pandas (el m√°s com√∫n)
media_satisfaccion = df['satisfaccion'].mean()

# Imprimir resultado con interpretaci√≥n
print("üìä MEDIA DE SATISFACCI√ìN")
print("=" * 50)
print(f"Media: {media_satisfaccion:.2f} puntos")
print(f"\n‚úì Interpretaci√≥n:")
print(f"  En promedio, los beneficiarios califican el servicio")
print(f"  con {media_satisfaccion:.2f} de 10 puntos.")

# Contexto adicional
if media_satisfaccion >= 8:
    print(f"\n  ‚Üí ¬°Excelente! La satisfacci√≥n promedio es alta.")
elif media_satisfaccion >= 6:
    print(f"\n  ‚Üí Aceptable, pero hay margen de mejora.")
else:
    print(f"\n  ‚Üí ‚ö†Ô∏è Preocupante. La ONG debe tomar acciones.")

In [None]:
# ============================================
# Verificar: numpy tambi√©n puede calcular la media
# ============================================

# M√©todo alternativo con numpy
media_numpy = np.mean(df['satisfaccion'])

print("üîç Verificaci√≥n: ¬øPandas y NumPy dan el mismo resultado?")
print(f"  ‚Ä¢ Media con pandas: {media_satisfaccion:.2f}")
print(f"  ‚Ä¢ Media con numpy:  {media_numpy:.2f}")

# Verificar que son iguales
if media_satisfaccion == media_numpy:
    print("\n  ‚úì ¬°S√≠! Ambos m√©todos producen el mismo resultado.")
    print("    Puedes usar cualquiera de los dos.")
else:
    print("\n  ‚ö†Ô∏è Diferencia detectada (probablemente por redondeo)")

<details>
<summary>üí° <b>Hint: ¬øPandas o NumPy?</b></summary>

<br>

**En general, usa pandas (.mean()) cuando:**
- Est√°s trabajando con DataFrames
- Quieres simplicidad y legibilidad

**Usa numpy (np.mean()) cuando:**
- Trabajas con arrays puros (no DataFrames)
- Necesitas m√°xima velocidad en operaciones matem√°ticas

Para an√°lisis de datos con tablas, **pandas es m√°s conveniente**.

</details>

---

### 2.2 Mediana

La **mediana** es el valor que est√° justo en el medio cuando ordenamos todos los datos de menor a mayor.

**¬øPor qu√© es √∫til?**
- No se ve afectada por valores extremos (outliers)
- Representa mejor al "beneficiario t√≠pico" cuando hay mucha variabilidad

In [None]:
# ============================================
# Calcular la MEDIANA
# ============================================

# Usar .median() de pandas
mediana_satisfaccion = df['satisfaccion'].median()

print("üìä MEDIANA DE SATISFACCI√ìN")
print("=" * 50)
print(f"Mediana: {mediana_satisfaccion:.2f} puntos")
print(f"\n‚úì Interpretaci√≥n:")
print(f"  El 50% de los beneficiarios califican con {mediana_satisfaccion:.2f} o MENOS.")
print(f"  El otro 50% califican con {mediana_satisfaccion:.2f} o M√ÅS.")
print(f"\n  ‚Üí La mediana divide los datos exactamente a la MITAD.")

In [None]:
# ============================================
# Comparar MEDIA vs MEDIANA (muy importante!)
# ============================================

print("=" * 60)
print("üîç COMPARACI√ìN: MEDIA VS MEDIANA")
print("=" * 60)
print(f"Media:    {media_satisfaccion:.2f}")
print(f"Mediana:  {mediana_satisfaccion:.2f}")
print(f"Diferencia: {abs(media_satisfaccion - mediana_satisfaccion):.2f} puntos")

# Interpretaci√≥n autom√°tica basada en la relaci√≥n media-mediana
print("\nüìä Interpretaci√≥n de la distribuci√≥n:")

if abs(media_satisfaccion - mediana_satisfaccion) < 0.1:
    print("  ‚úì Media ‚âà Mediana ‚Üí Distribuci√≥n SIM√âTRICA")
    print("    Los datos est√°n balanceados alrededor del centro.")
elif media_satisfaccion > mediana_satisfaccion:
    print("  üìà Media > Mediana ‚Üí Distribuci√≥n SESGADA A LA DERECHA")
    print("    Hay algunos valores ALTOS que jalan el promedio hacia arriba.")
    print("    Ejemplo: Algunos beneficiarios MUY satisfechos aumentan la media.")
else:
    print("  üìâ Media < Mediana ‚Üí Distribuci√≥n SESGADA A LA IZQUIERDA")
    print("    Hay algunos valores BAJOS que jalan el promedio hacia abajo.")
    print("    Ejemplo: Algunos beneficiarios MUY insatisfechos reducen la media.")

<details>
<summary>üí° <b>Hint: ¬øCu√°l reportar - media o mediana?</b></summary>

<br>

**Reporta ambas**, pero enfatiza seg√∫n el caso:

- **Si media ‚âà mediana**: Reporta la media (es m√°s conocida)
- **Si hay valores extremos**: Enfatiza la mediana (m√°s representativa)

**Ejemplo de reporte:**
> "La satisfacci√≥n promedio es 7.5 puntos (media), pero la mediana es 8.0, 
> lo que indica que la mayor√≠a est√° satisfecha, pero algunos casos muy bajos 
> reducen el promedio."

</details>

---

### 2.3 Moda

La **moda** es el valor que aparece con **mayor frecuencia** en los datos.

**¬øCu√°ndo es √∫til?**
- Para datos categ√≥ricos (ej: √°rea m√°s solicitada, g√©nero predominante)
- Para saber cu√°l es la calificaci√≥n "m√°s t√≠pica" o com√∫n

In [None]:
# ============================================
# Calcular la MODA
# ============================================

# Usar .mode() de pandas
# IMPORTANTE: .mode() devuelve una Serie, por eso usamos [0] para obtener el primer valor
moda_satisfaccion = df['satisfaccion'].mode()[0]

print("üìä MODA DE SATISFACCI√ìN")
print("=" * 50)
print(f"Moda: {moda_satisfaccion} puntos")
print(f"\n‚úì Interpretaci√≥n:")
print(f"  La calificaci√≥n que M√ÅS se repite es {moda_satisfaccion}/10.")
print(f"  Es la calificaci√≥n 'm√°s popular' entre beneficiarios.")

# Mostrar la distribuci√≥n completa de frecuencias
print("\nüìä Distribuci√≥n de frecuencias (de menor a mayor calificaci√≥n):")
frecuencias = df['satisfaccion'].value_counts().sort_index()
print(frecuencias.to_string())

# Identificar el m√°s frecuente visualmente
print(f"\n‚Üí Como puedes ver, {moda_satisfaccion} es el valor m√°s frecuente.")

In [None]:
# ============================================
# Visualizar las TRES medidas juntas
# ============================================

plt.figure(figsize=(12, 6))

# Crear histograma con seaborn (m√°s simple que matplotlib puro)
sns.histplot(data=df, x='satisfaccion', bins=10, kde=False,
             color='skyblue', edgecolor='black', alpha=0.7)

# Agregar l√≠neas verticales para cada medida
plt.axvline(media_satisfaccion, color='red', linestyle='--', linewidth=2.5, 
            label=f'Media = {media_satisfaccion:.2f}')
plt.axvline(mediana_satisfaccion, color='green', linestyle='--', linewidth=2.5, 
            label=f'Mediana = {mediana_satisfaccion:.2f}')
plt.axvline(moda_satisfaccion, color='orange', linestyle='--', linewidth=2.5, 
            label=f'Moda = {moda_satisfaccion}')

# Personalizar
plt.title('Distribuci√≥n de Satisfacci√≥n con Medidas de Tendencia Central', 
          fontsize=14, fontweight='bold')
plt.xlabel('Satisfacci√≥n (1-10)', fontsize=12)
plt.ylabel('Frecuencia (n√∫mero de personas)', fontsize=12)
plt.legend(fontsize=11, loc='upper left')
plt.grid(alpha=0.3, axis='y')
plt.tight_layout()
plt.show()

# Resumen visual
print("\nüéØ RESUMEN DE LAS TRES MEDIDAS:")
print("=" * 50)
print(f"  Media:   {media_satisfaccion:.2f} ‚Üí Promedio aritm√©tico")
print(f"  Mediana: {mediana_satisfaccion:.2f} ‚Üí Valor central (50%)")
print(f"  Moda:    {moda_satisfaccion} ‚Üí Valor m√°s frecuente")

## 3. Medidas de Dispersi√≥n

### üéØ ¬øQu√© es la dispersi√≥n?

La **dispersi√≥n** (o variabilidad) mide qu√© tan **esparcidos** o **separados** est√°n los datos del centro.

**¬øPor qu√© es importante?**
- Dos ONGs pueden tener la misma satisfacci√≥n promedio (7/10), pero:
  - **ONG A**: Todos califican entre 6 y 8 (baja dispersi√≥n = consistente)
  - **ONG B**: Algunos califican 2, otros 10 (alta dispersi√≥n = inconsistente)

La dispersi√≥n te dice si la experiencia es **homog√©nea** (todos similares) o **heterog√©nea** (muy variada).

<details>
<summary>üí° <b>Hint: Medidas de dispersi√≥n m√°s comunes</b></summary>

<br>

**1. Rango**: Diferencia entre el valor m√°ximo y m√≠nimo
- F√°cil de calcular e interpretar
- Sensible a valores extremos

**2. Varianza**: Promedio de las desviaciones al cuadrado
- Unidades al cuadrado (dif√≠cil de interpretar)
- Base matem√°tica para otras medidas

**3. Desviaci√≥n est√°ndar (SD)**: Ra√≠z cuadrada de la varianza
- **La m√°s usada**
- Mismas unidades que los datos originales
- Interpretaci√≥n: "En promedio, los datos se desv√≠an ¬± SD del promedio"

**4. Coeficiente de variaci√≥n (CV)**: (SD / Media) √ó 100
- Mide dispersi√≥n relativa (en porcentaje)
- √ötil para comparar variabilidad entre datasets con escalas diferentes

</details>

---

### 3.1 Rango

# ============================================
# Calcular el RANGO
# ============================================

# Valor m√≠nimo y m√°ximo
minimo = df['satisfaccion'].min()
maximo = df['satisfaccion'].max()

# Rango = M√°ximo - M√≠nimo
rango = maximo - minimo

print("üìä RANGO DE SATISFACCI√ìN")
print("=" * 50)
print(f"Valor m√≠nimo: {minimo}")
print(f"Valor m√°ximo: {maximo}")
print(f"Rango: {rango} puntos")
print(f"\n‚úì Interpretaci√≥n:")
print(f"  La satisfacci√≥n var√≠a desde {minimo} hasta {maximo}.")
print(f"  Hay una diferencia de {rango} puntos entre el m√°s")
print(f"  insatisfecho y el m√°s satisfecho.")

# Contexto
if rango <= 3:
    print(f"\n  ‚Üí Baja variabilidad: Las calificaciones son bastante uniformes.")
elif rango <= 6:
    print(f"\n  ‚Üí Variabilidad moderada: Hay cierta diversidad de opiniones.")
else:
    print(f"\n  ‚Üí Alta variabilidad: Las experiencias son MUY diferentes.")

In [None]:
---

### 3.2 Varianza y Desviaci√≥n Est√°ndar

**Varianza**: Mide qu√© tan dispersos est√°n los datos calculando el promedio de las desviaciones al cuadrado.
- Problema: Las unidades est√°n al cuadrado (dif√≠cil de interpretar)

**Desviaci√≥n Est√°ndar (SD)**: Es la ra√≠z cuadrada de la varianza.
- **Ventaja**: Tiene las mismas unidades que los datos originales
- **Interpretaci√≥n**: "En promedio, los datos se desv√≠an ¬±SD del promedio"

# ============================================
# Calcular VARIANZA y DESVIACI√ìN EST√ÅNDAR
# ============================================

# Varianza muestral (ddof=1 por defecto en pandas)
# ddof=1 usa n-1 en el denominador (estimador insesgado)
varianza = df['satisfaccion'].var()

# Desviaci√≥n est√°ndar muestral
desv_std = df['satisfaccion'].std()

print("üìä MEDIDAS DE DISPERSI√ìN")
print("=" * 50)
print(f"Varianza:           {varianza:.4f}")
print(f"Desviaci√≥n est√°ndar: {desv_std:.4f}")

print(f"\n‚úì Interpretaci√≥n de la desviaci√≥n est√°ndar:")
print(f"  En promedio, las calificaciones se desv√≠an ¬±{desv_std:.2f} puntos")
print(f"  de la media ({media_satisfaccion:.2f}).")
print(f"\n  Esto significa que:")
print(f"  ‚Ä¢ La mayor√≠a de calificaciones est√°n entre:")
print(f"    {media_satisfaccion - desv_std:.2f} y {media_satisfaccion + desv_std:.2f}")
print(f"    (aproximadamente 68% de los datos seg√∫n la regla emp√≠rica)")

<details>
<summary>üí° <b>Hint: ¬øQu√© es ddof=1?</b></summary>

<br>

**ddof** = "Delta Degrees of Freedom" (Grados de libertad)

- **ddof=0**: Divide por n (varianza poblacional)
- **ddof=1**: Divide por n-1 (varianza muestral) ‚Üê **pandas usa esto por defecto**

**¬øCu√°l usar?**
- Si tienes **toda la poblaci√≥n**: usa ddof=0
- Si tienes una **muestra** (lo m√°s com√∫n): usa ddof=1 (por defecto en pandas)

En an√°lisis de datos, casi siempre trabajamos con muestras, as√≠ que el default est√° bien.

</details>

In [None]:
# ============================================
# Calcular COEFICIENTE DE VARIACI√ìN (CV)
# ============================================

# CV = (Desviaci√≥n Est√°ndar / Media) √ó 100
cv = (desv_std / media_satisfaccion) * 100

print("üìä COEFICIENTE DE VARIACI√ìN")
print("=" * 50)
print(f"CV: {cv:.2f}%")

print(f"\n‚úì Interpretaci√≥n:")
print(f"  La desviaci√≥n est√°ndar representa el {cv:.2f}% de la media.")

# Clasificaci√≥n est√°ndar del CV
if cv < 15:
    print(f"\n  ‚Üí CV < 15%: Baja variabilidad")
    print(f"    Los datos son HOMOG√âNEOS (consistentes)")
    print(f"    La mayor√≠a de beneficiarios tienen experiencias similares.")
elif cv < 30:
    print(f"\n  ‚Üí CV entre 15-30%: Variabilidad moderada")
    print(f"    Hay cierta diversidad en las experiencias.")
else:
    print(f"\n  ‚Üí CV > 30%: Alta variabilidad")
    print(f"    Los datos son HETEROG√âNEOS (muy diversos)")
    print(f"    Las experiencias var√≠an mucho entre beneficiarios.")

<details>
<summary>üí° <b>Hint: ¬øPor qu√© usar CV en lugar de solo SD?</b></summary>

<br>

**Desviaci√≥n Est√°ndar (SD)**: Depende de la escala de los datos
- Satisfacci√≥n (escala 1-10): SD = 2.0
- Ingresos (escala $0-$100,000): SD = $15,000

¬øC√≥mo comparo cu√°l tiene m√°s variabilidad? Dif√≠cil porque las escalas son diferentes.

**Coeficiente de Variaci√≥n (CV)**: Estandariza la dispersi√≥n como porcentaje
- Satisfacci√≥n: CV = 25%
- Ingresos: CV = 30%

Ahora s√≠ puedo comparar: Los ingresos tienen m√°s variabilidad relativa.

**√ösalo cuando:**
- Comparas variables con diferentes unidades o escalas
- Quieres comunicar variabilidad de forma m√°s intuitiva (porcentaje)

</details>

In [None]:
# Escribe tu c√≥digo aqu√≠


### üéØ Try It Yourself: Analiza Calidad de Atenci√≥n

Ahora aplica lo que aprendiste a la variable `calidad_atencion`.

**Tu tarea:**
1. Calcula la **media** y **desviaci√≥n est√°ndar** de `calidad_atencion`
2. Calcula el **coeficiente de variaci√≥n (CV)**
3. Interpreta: ¬øLa calidad es homog√©nea o heterog√©nea?

<details>
<summary>üí° <b>Hint 1: ¬øC√≥mo empezar?</b></summary>

<br>

Usa los mismos m√©todos que usamos para `satisfaccion`:

```python
# Media
media_calidad = df['calidad_atencion'].mean()

# Desviaci√≥n est√°ndar
sd_calidad = df['calidad_atencion'].std()

# Coeficiente de variaci√≥n
cv_calidad = (sd_calidad / media_calidad) * 100

print(f"Media: {media_calidad:.2f}")
print(f"SD: {sd_calidad:.2f}")
print(f"CV: {cv_calidad:.2f}%")
```

</details>

<details>
<summary>üí° <b>Hint 2: Ver soluci√≥n completa con interpretaci√≥n</b></summary>

<br>

```python
# Calcular estad√≠sticas
media_calidad = df['calidad_atencion'].mean()
sd_calidad = df['calidad_atencion'].std()
cv_calidad = (sd_calidad / media_calidad) * 100

print("üìä AN√ÅLISIS DE CALIDAD DE ATENCI√ìN")
print("=" * 50)
print(f"Media: {media_calidad:.2f}")
print(f"Desviaci√≥n est√°ndar: ¬±{sd_calidad:.2f}")
print(f"Coeficiente de variaci√≥n: {cv_calidad:.2f}%")

print("\n‚úì Interpretaci√≥n:")
print(f"  La calidad promedio es {media_calidad:.2f}/10")
print(f"  Los datos se desv√≠an ¬±{sd_calidad:.2f} del promedio")

if cv_calidad < 15:
    print(f"\n  ‚Üí CV < 15%: La calidad es HOMOG√âNEA")
    print(f"    Todos los beneficiarios reciben atenci√≥n consistente")
elif cv_calidad < 30:
    print(f"\n  ‚Üí CV = 15-30%: Variabilidad moderada")
else:
    print(f"\n  ‚Üí CV > 30%: La calidad es HETEROG√âNEA")
    print(f"    La experiencia var√≠a mucho entre beneficiarios")
```

</details>

In [None]:
---

## 4. Resumen Estad√≠stico Completo

Python tiene un m√©todo muy √∫til llamado `.describe()` que calcula **todas las estad√≠sticas descriptivas** de una vez.

<details>
<summary>üí° <b>Hint: ¬øQu√© incluye describe()?</b></summary>

<br>

`.describe()` calcula autom√°ticamente:
- **count**: N√∫mero de observaciones (sin valores nulos)
- **mean**: Media
- **std**: Desviaci√≥n est√°ndar
- **min**: Valor m√≠nimo
- **25%**: Primer cuartil (Q1) - 25% de los datos est√°n por debajo
- **50%**: Mediana (Q2)
- **75%**: Tercer cuartil (Q3) - 75% de los datos est√°n por debajo
- **max**: Valor m√°ximo

Es como un "resumen ejecutivo" de tus datos en una sola l√≠nea de c√≥digo.

</details>

In [None]:
# ============================================
# Usar .describe() para obtener resumen completo
# ============================================

print("üìä RESUMEN ESTAD√çSTICO COMPLETO - SATISFACCI√ìN")
print("=" * 60)

# describe() calcula autom√°ticamente muchas estad√≠sticas
resumen = df['satisfaccion'].describe()
print(resumen)

print("\n" + "=" * 60)
print("üìñ C√ìMO LEER ESTE RESUMEN:")
print("=" * 60)
print(f"‚Ä¢ Tenemos {resumen['count']:.0f} observaciones")
print(f"‚Ä¢ Media: {resumen['mean']:.2f} (promedio)")
print(f"‚Ä¢ Desv. Est√°ndar: {resumen['std']:.2f} (dispersi√≥n t√≠pica)")
print(f"‚Ä¢ Rango: {resumen['min']:.0f} a {resumen['max']:.0f}")
print(f"‚Ä¢ El 50% central de los datos est√° entre {resumen['25%']:.0f} y {resumen['75%']:.0f}")

# Agregar estad√≠sticas que describe() no incluye
print("\nüìä ESTAD√çSTICAS ADICIONALES:")
print(f"‚Ä¢ Moda: {moda_satisfaccion}")
print(f"‚Ä¢ Coeficiente de Variaci√≥n: {cv:.2f}%")

In [None]:
# ============================================
# Crear tabla resumen personalizada m√°s visual
# ============================================

# Crear DataFrame con estad√≠sticas clave
resumen_tabla = pd.DataFrame({
    'Estad√≠stica': ['n (tama√±o)', 'Media', 'Mediana', 'Moda', 
                   'Desv. Est√°ndar', 'Varianza', 
                   'M√≠nimo', 'M√°ximo', 'Rango', 'CV (%)'],
    'Valor': [
        len(df),
        f"{media_satisfaccion:.2f}",
        f"{mediana_satisfaccion:.2f}",
        f"{moda_satisfaccion}",
        f"{desv_std:.2f}",
        f"{varianza:.2f}",
        f"{minimo}",
        f"{maximo}",
        f"{rango}",
        f"{cv:.2f}"
    ]
})

print("\nüìã TABLA RESUMEN - SATISFACCI√ìN")
print("=" * 60)
print(resumen_tabla.to_string(index=False))
print("=" * 60)

print("\n‚úì Esta tabla resume TODO lo que necesitas saber sobre")
print("  la distribuci√≥n de satisfacci√≥n en un solo vistazo.")

---

## 5. Comparaci√≥n entre Grupos (√Åreas)

### üéØ ¬øPor qu√© comparar entre grupos?

Una de las an√°lisis m√°s poderosos es **comparar estad√≠sticas entre diferentes grupos**.

**Preguntas clave:**
- ¬øQu√© √°rea tiene mayor satisfacci√≥n promedio?
- ¬øQu√© √°rea es m√°s **consistente** (menor variabilidad)?
- ¬øHay √°reas problem√°ticas que necesitan atenci√≥n?

**Esto te permite:**
- Identificar mejores pr√°cticas de √°reas exitosas
- Detectar √°reas que necesitan intervenci√≥n
- Justificar redistribuci√≥n de recursos

<details>
<summary>üí° <b>Hint: groupby() es tu mejor amigo</b></summary>

<br>

**groupby()** te permite dividir los datos por categor√≠as y calcular estad√≠sticas para cada grupo.

**Sintaxis b√°sica:**
```python
df.groupby('categoria')['variable_numerica'].funcion()
```

**Ejemplos:**
```python
# Media por √°rea
df.groupby('area')['satisfaccion'].mean()

# M√∫ltiples estad√≠sticas a la vez
df.groupby('area')['satisfaccion'].agg(['mean', 'median', 'std'])

# Agrupar por m√∫ltiples variables
df.groupby(['area', 'genero'])['satisfaccion'].mean()
```

Es una herramienta **esencial** para an√°lisis de datos.

</details>

In [None]:
# ============================================
# Calcular estad√≠sticas por √ÅREA usando groupby
# ============================================

# .agg() permite calcular m√∫ltiples estad√≠sticas simult√°neamente
estadisticas_por_area = df.groupby('area')['satisfaccion'].agg([
    ('n', 'count'),              # N√∫mero de observaciones
    ('Media', 'mean'),           # Promedio
    ('Mediana', 'median'),       # Mediana
    ('Desv.Std', 'std'),         # Desviaci√≥n est√°ndar
    ('M√≠nimo', 'min'),           # Valor m√≠nimo
    ('M√°ximo', 'max')            # Valor m√°ximo
]).round(2)  # Redondear a 2 decimales

print("üìä ESTAD√çSTICAS DE SATISFACCI√ìN POR √ÅREA")
print("=" * 80)
print(estadisticas_por_area)
print("=" * 80)

# Identificar √°rea con mejor desempe√±o
mejor_area = estadisticas_por_area['Media'].idxmax()
mejor_promedio = estadisticas_por_area.loc[mejor_area, 'Media']

print(f"\nüèÜ √Årea con MAYOR satisfacci√≥n promedio:")
print(f"   {mejor_area} ({mejor_promedio:.2f} puntos)")

# Identificar √°rea m√°s consistente (menor SD)
mas_consistente = estadisticas_por_area['Desv.Std'].idxmin()
menor_sd = estadisticas_por_area.loc[mas_consistente, 'Desv.Std']

print(f"\n‚úì √Årea m√°s CONSISTENTE (menor variabilidad):")
print(f"   {mas_consistente} (SD = {menor_sd:.2f})")
print(f"   ‚Üí Esta √°rea ofrece experiencias m√°s uniformes")

In [None]:
# ============================================
# Gr√°fico de comparaci√≥n con seaborn
# ============================================

plt.figure(figsize=(12, 6))

# barplot de seaborn calcula autom√°ticamente media y barras de error
sns.barplot(data=df, x='area', y='satisfaccion', 
            palette='Set2', errorbar='sd', 
            edgecolor='black', linewidth=1.5)

plt.title('Satisfacci√≥n Promedio por √Årea (con Desviaci√≥n Est√°ndar)', 
          fontsize=14, fontweight='bold')
plt.xlabel('√Årea de la ONG', fontsize=12)
plt.ylabel('Satisfacci√≥n Media (1-10)', fontsize=12)
plt.ylim(0, 10)

# L√≠nea de referencia
media_general = df['satisfaccion'].mean()
plt.axhline(y=media_general, color='red', linestyle='--', 
            linewidth=2, label=f'Media General = {media_general:.2f}')
plt.legend(fontsize=11)

plt.grid(alpha=0.3, axis='y')
plt.tight_layout()
plt.show()

print("\nüìä Interpretaci√≥n del gr√°fico:")
print("‚Ä¢ Las barras muestran el PROMEDIO de satisfacci√≥n por √°rea")
print("‚Ä¢ Las l√≠neas negras (error bars) muestran la VARIABILIDAD (¬±1 SD)")
print("‚Ä¢ La l√≠nea roja es la media general para comparaci√≥n")

In [None]:
# ============================================
# Boxplots comparativos
# ============================================

plt.figure(figsize=(12, 6))

sns.boxplot(data=df, x='area', y='satisfaccion', 
            palette='Set2', linewidth=1.5)

plt.title('Distribuci√≥n de Satisfacci√≥n por √Årea (Boxplot)', 
          fontsize=14, fontweight='bold')
plt.xlabel('√Årea de la ONG', fontsize=12)
plt.ylabel('Satisfacci√≥n (1-10)', fontsize=12)
plt.ylim(0, 10)

plt.grid(alpha=0.3, axis='y')
plt.tight_layout()
plt.show()

print("\nüì¶ C√≥mo leer un boxplot:")
print("‚Ä¢ La CAJA muestra el 50% central de los datos")
print("‚Ä¢ La l√≠nea NARANJA es la MEDIANA")
print("‚Ä¢ Los 'bigotes' muestran el rango t√≠pico")
print("\n‚Üí Cajas m√°s ALTAS = mayor variabilidad")

---

## 6. Interpretaci√≥n en Contexto de Negocio (ONGs)

### üéØ De los n√∫meros a la acci√≥n

Los n√∫meros por s√≠ solos no significan nada. Lo importante es **qu√© decisiones tomas** bas√°ndote en ellos.

**Como analista de datos para una ONG, debes:**
1. **Resumir hallazgos clave** en lenguaje simple
2. **Identificar problemas** que requieren atenci√≥n
3. **Proponer acciones concretas** basadas en datos
4. **Comunicar resultados** a personas no t√©cnicas

<details>
<summary>üí° <b>Hint: Framework para reportar resultados</b></summary>

<br>

Usa este framework simple:

**1. RESUMEN (What?)**: ¬øQu√© encontraste?
- "La satisfacci√≥n promedio es 7.5/10"

**2. CONTEXTO (So what?)**: ¬øPor qu√© importa?
- "Esto est√° por debajo de nuestro objetivo de 8.0"

**3. ACCI√ìN (Now what?)**: ¬øQu√© hacer?
- "Recomendamos entrevistar a beneficiarios del √°rea Legal para entender por qu√© califican bajo"

Este formato hace que tus an√°lisis sean **accionables**, no solo descriptivos.

</details>

In [None]:
# ============================================
# Generar REPORTE EJECUTIVO autom√°tico
# ============================================

print("="*70)
print("üìä REPORTE EJECUTIVO - AN√ÅLISIS DE SATISFACCI√ìN DE BENEFICIARIOS")
print("="*70)

# SECCI√ìN 1: Tendencia Central
print(f"\nüìå RESUMEN GENERAL:")
print(f"   ‚Ä¢ Satisfacci√≥n promedio: {media_satisfaccion:.2f}/10")
print(f"   ‚Ä¢ Mediana: {mediana_satisfaccion:.2f}/10")
print(f"   ‚Ä¢ Calificaci√≥n m√°s frecuente: {moda_satisfaccion}/10")

if media_satisfaccion >= 8:
    print(f"   ‚úì Evaluaci√≥n: EXCELENTE")
elif media_satisfaccion >= 7:
    print(f"   ‚ö†Ô∏è Evaluaci√≥n: BUENA - Hay espacio para mejora")
else:
    print(f"   ‚ùå Evaluaci√≥n: PREOCUPANTE - Se requieren acciones")

# SECCI√ìN 2: Dispersi√≥n
print(f"\nüìà VARIABILIDAD:")
print(f"   ‚Ä¢ Desviaci√≥n est√°ndar: ¬±{desv_std:.2f} puntos")
print(f"   ‚Ä¢ Coeficiente de variaci√≥n: {cv:.2f}%")

if cv < 15:
    print(f"   ‚úì Experiencias CONSISTENTES")
elif cv < 30:
    print(f"   ‚ö†Ô∏è Variabilidad moderada")
else:
    print(f"   ‚ùå Alta variabilidad - Experiencias MUY inconsistentes")

# SECCI√ìN 3: Comparaci√≥n
print(f"\nüèÜ DESEMPE√ëO POR √ÅREA:")
print(f"   ‚Ä¢ Mejor √°rea: {mejor_area} ({mejor_promedio:.2f} puntos)")
print(f"   ‚Ä¢ M√°s consistente: {mas_consistente} (SD = {menor_sd:.2f})")

peor_area = estadisticas_por_area['Media'].idxmin()
peor_promedio = estadisticas_por_area.loc[peor_area, 'Media']
print(f"   ‚Ä¢ √Årea que necesita atenci√≥n: {peor_area} ({peor_promedio:.2f})")

# SECCI√ìN 4: Recomendaciones
print(f"\nüí° RECOMENDACIONES:")
print(f"   1. Investigar mejores pr√°cticas del √°rea '{mejor_area}'")
print(f"   2. Enfocar esfuerzos de mejora en '{peor_area}'")
print(f"   3. Realizar entrevistas cualitativas para entender")
print(f"      las causas de la variabilidad (CV = {cv:.1f}%)")

print("\n" + "="*70)
print("üìß Este reporte puede enviarse al director ejecutivo")
print("="*70)

---

## üìö Resumen del Notebook

### ‚úÖ En este notebook aprendiste a:

**1. Medidas de Tendencia Central:**
- Calcular e interpretar **media, mediana y moda**
- Entender cu√°ndo usar cada una
- Identificar simetr√≠a vs sesgo en distribuciones

**2. Medidas de Dispersi√≥n:**
- Calcular **rango, varianza, desviaci√≥n est√°ndar**
- Interpretar el **coeficiente de variaci√≥n (CV)**
- Distinguir entre datos homog√©neos y heterog√©neos

**3. An√°lisis Comparativo:**
- Usar **groupby()** para comparar grupos
- Crear visualizaciones con seaborn (barplot, boxplot)
- Identificar √°reas de mejor y peor desempe√±o

**4. Interpretaci√≥n de Negocio:**
- Traducir n√∫meros a insights accionables
- Generar reportes ejecutivos
- Hacer recomendaciones basadas en datos

### üéØ Preparaci√≥n para Workshop 1

Los conceptos de este notebook son **fundamentales** para el Workshop 1, donde:
- Comparar√°s dos grupos usando pruebas t
- Interpretar√°s resultados estad√≠sticos
- Tomar√°s decisiones basadas en datos

**Siguiente paso:** Notebook de Pruebas de Hip√≥tesis (t-test, comparaci√≥n de medias)

---

### üí° Tips para recordar:

1. **Media vs Mediana**: Si media ‚â† mediana, hay valores extremos
2. **Desviaci√≥n Est√°ndar**: Mide dispersi√≥n en las mismas unidades que los datos
3. **CV < 15%**: Datos homog√©neos (consistentes)
4. **CV > 30%**: Datos heterog√©neos (muy variables)
5. **groupby()**: Tu herramienta favorita para comparaciones

---

¬°Excelente trabajo! Ahora est√°s listo para an√°lisis m√°s avanzados. üöÄ

In [None]:
# ============================================
# Escribe tu c√≥digo para los ejercicios aqu√≠
# ============================================

# Ejercicio 1: An√°lisis de calidad_atencion




# Ejercicio 2: Comparaci√≥n por g√©nero




# Ejercicio 3: An√°lisis multivariado (√°rea + g√©nero)


---

## 7. Ejercicios Propuestos

Ahora aplica todo lo aprendido. Estos ejercicios te preparan para el **Workshop 1**.

### üìù Ejercicio 1: An√°lisis Completo de Calidad de Atenci√≥n

**Objetivo:** Realizar un an√°lisis descriptivo completo de `calidad_atencion`.

**Tareas:**
1. Calcula las 3 medidas de tendencia central (media, mediana, moda)
2. Calcula las medidas de dispersi√≥n (rango, SD, CV)
3. Usa `.describe()` para obtener el resumen
4. Interpreta: ¬øLa calidad es mejor o peor que la satisfacci√≥n general?

<details>
<summary>üí° <b>Hint: Ver soluci√≥n completa</b></summary>

<br>

```python
print("üìä AN√ÅLISIS COMPLETO - CALIDAD DE ATENCI√ìN")
print("=" * 60)

# Tendencia central
media_cal = df['calidad_atencion'].mean()
mediana_cal = df['calidad_atencion'].median()
moda_cal = df['calidad_atencion'].mode()[0]

print(f"Media: {media_cal:.2f}")
print(f"Mediana: {mediana_cal:.2f}")
print(f"Moda: {moda_cal}")

# Dispersi√≥n
sd_cal = df['calidad_atencion'].std()
cv_cal = (sd_cal / media_cal) * 100

print(f"\\nDesv. Est√°ndar: {sd_cal:.2f}")
print(f"CV: {cv_cal:.2f}%")

# Comparaci√≥n
print(f"\\nComparaci√≥n con satisfacci√≥n:")
print(f"Satisfacci√≥n: {media_satisfaccion:.2f}")
print(f"Calidad:      {media_cal:.2f}")
```

</details>

---

### üìù Ejercicio 2: Comparaci√≥n por G√©nero

**Objetivo:** Comparar estad√≠sticas de satisfacci√≥n entre hombres y mujeres.

**Tareas:**
1. Usa `groupby('genero')` para calcular media, mediana, SD por g√©nero
2. Crea un gr√°fico de barras comparativo con seaborn
3. Interpreta: ¬øHay diferencias significativas?

<details>
<summary>üí° <b>Hint: Ver soluci√≥n</b></summary>

<br>

```python
# Estad√≠sticas por g√©nero
stats_genero = df.groupby('genero')['satisfaccion'].agg([
    ('n', 'count'),
    ('Media', 'mean'),
    ('Mediana', 'median'),
    ('Desv.Std', 'std')
]).round(2)

print(stats_genero)

# Gr√°fico
plt.figure(figsize=(10, 6))
sns.barplot(data=df, x='genero', y='satisfaccion', 
            palette='pastel', errorbar='sd')
plt.title('Satisfacci√≥n por G√©nero')
plt.ylabel('Satisfacci√≥n (1-10)')
plt.ylim(0, 10)
plt.show()
```

</details>

---

### üìù Ejercicio 3: An√°lisis Multivariado (Desaf√≠o)

**Objetivo:** Comparar satisfacci√≥n por **√°rea Y g√©nero** simult√°neamente.

**Tareas:**
1. Usa `groupby(['area', 'genero'])` para calcular la media
2. Crea un gr√°fico con `hue='genero'` para separar por g√©nero
3. Interpreta: ¬øHay interacciones interesantes?

<details>
<summary>üí° <b>Hint: Usar hue</b></summary>

<br>

```python
# Gr√°fico con hue
plt.figure(figsize=(12, 6))
sns.barplot(data=df, x='area', y='satisfaccion', hue='genero', errorbar='sd')
plt.title('Satisfacci√≥n por √Årea y G√©nero')
plt.legend(title='G√©nero')
plt.tight_layout()
plt.show()
```

</details>