<a href="https://colab.research.google.com/github/HesusG/diagnostico-lineas-accion/blob/main/Semana1/notebooks/01_introduccion_estadistica.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducci√≥n a Estad√≠stica con Python

## üéØ Objetivos de Aprendizaje

Al finalizar este notebook, podr√°s:
- Cargar y explorar datasets con pandas
- Entender la estructura b√°sica de tus datos
- Crear visualizaciones para explorar patrones
- Calcular estad√≠sticas descriptivas simples
- Identificar relaciones entre variables

## ¬øPor qu√© es importante?

Como futuro analista de datos para ONGs, necesitas poder:
1. **Entender tus datos** antes de tomar decisiones
2. **Comunicar hallazgos** con gr√°ficos claros
3. **Detectar patrones** que sugieran √°reas de mejora

Este notebook te ense√±a las herramientas fundamentales para hacerlo.

---

## 1. Importar Librer√≠as Necesarias

### ¬øQu√© son las librer√≠as?

Las librer√≠as son "cajas de herramientas" que contienen funciones pre-hechas para an√°lisis de datos. Es como tener una calculadora cient√≠fica en lugar de hacer todas las operaciones a mano.

### Las librer√≠as que usaremos:
- **pandas**: Para trabajar con tablas de datos (como Excel, pero en Python)
- **numpy**: Para operaciones matem√°ticas r√°pidas
- **seaborn**: Para crear gr√°ficos hermosos f√°cilmente
- **matplotlib**: La base de visualizaci√≥n (seaborn la usa internamente)
- **scipy**: Para estad√≠sticas avanzadas

In [None]:
# ============================================
# PASO 1: Importar librer√≠as principales
# ============================================

# pandas: La librer√≠a principal para trabajar con tablas (DataFrames)
# La importamos con el alias 'pd' para escribir menos
import pandas as pd

# numpy: Para operaciones matem√°ticas y arrays
# La importamos con el alias 'np'
import numpy as np

# scipy.stats: M√≥dulo de scipy con funciones estad√≠sticas
from scipy import stats

# ============================================
# PASO 2: Importar librer√≠as de visualizaci√≥n
# ============================================

# matplotlib.pyplot: La base de visualizaci√≥n en Python
import matplotlib.pyplot as plt

# seaborn: Hace que los gr√°ficos sean m√°s bonitos y f√°ciles de crear
import seaborn as sns

# ============================================
# PASO 3: Configurar el estilo de los gr√°ficos
# ============================================

# Usamos el estilo de seaborn para gr√°ficos m√°s profesionales
sns.set_style("whitegrid")  # Fondo blanco con l√≠neas de cuadr√≠cula sutiles
sns.set_palette("husl")     # Paleta de colores agradable

# Esta l√≠nea hace que los gr√°ficos aparezcan directamente en el notebook
%matplotlib inline

# ============================================
# PASO 4: Configurar pandas para mostrar m√°s datos
# ============================================

# Por defecto, pandas solo muestra algunas columnas/filas
# Aqu√≠ le decimos que muestre todas las columnas
pd.set_option('display.max_columns', None)

# Y hasta 100 filas (para datasets grandes)
pd.set_option('display.max_rows', 100)

# Mensaje de confirmaci√≥n
print("‚úÖ ¬°Librer√≠as importadas correctamente!")
print("üìä Configuraci√≥n de visualizaci√≥n lista")

## 2. Cargar Dataset de Ejemplo

### üìã Contexto del Dataset

Trabajaremos con datos **reales** de satisfacci√≥n de clientes de una organizaci√≥n sin fines de lucro (ONG).

**¬øQu√© contiene este dataset?**
- Informaci√≥n demogr√°fica de beneficiarios (edad, g√©nero)
- Evaluaciones de satisfacci√≥n (escala 1-10)
- Calidad de atenci√≥n percibida
- Tiempo de espera para recibir servicios
- √Årea de la ONG que los atendi√≥

**¬øPor qu√© usamos este dataset?**
Este tipo de an√°lisis es **crucial** para ONGs porque les permite:
- Identificar √°reas que necesitan mejora
- Justificar presupuestos con datos
- Demostrar impacto a donantes
- Mejorar la experiencia de beneficiarios

<details>
<summary>üí° <b>Hint: ¬øQu√© es un CSV?</b></summary>

<br>

**CSV** significa "Comma-Separated Values" (Valores Separados por Comas).

Es un formato de archivo muy simple donde:
- Cada fila es una observaci√≥n (una persona, un registro)
- Las columnas est√°n separadas por comas
- La primera fila usualmente tiene los nombres de las columnas

**Ejemplo:**
```
nombre,edad,satisfaccion
Ana,25,8
Juan,30,7
Mar√≠a,28,9
```

Pandas puede leer estos archivos muy f√°cilmente con `read_csv()`.

</details>

In [None]:
# =======================================================
# Cargar el dataset desde GitHub
# =======================================================

# pd.read_csv() lee un archivo CSV y lo convierte en un DataFrame
# DataFrame = una tabla con filas y columnas (como Excel)
# Guardamos el resultado en la variable 'df' (Data Frame)

df = pd.read_csv('https://raw.githubusercontent.com/HesusG/diagnostico-lineas-accion/main/Semana1/datos/ejemplo_satisfaccion_clientes.csv')

# =======================================================
# Ver informaci√≥n b√°sica del dataset
# =======================================================

# .shape nos da las dimensiones: (filas, columnas)
num_filas = df.shape[0]      # N√∫mero de observaciones/personas
num_columnas = df.shape[1]   # N√∫mero de variables/caracter√≠sticas

print(f"‚úÖ Dataset cargado exitosamente!")
print(f"üìä Dimensiones: {num_filas} personas (filas) √ó {num_columnas} variables (columnas)")
print(f"\nüëÄ Primeras 5 filas del dataset:\n")

# .head() muestra las primeras 5 filas por defecto
# Esto nos ayuda a ver c√≥mo se ven los datos
df.head()

## 3. Exploraci√≥n Inicial del Dataset

### ¬øPor qu√© explorar primero?

Antes de hacer cualquier an√°lisis sofisticado, necesitamos **conocer nuestros datos**:
- ¬øQu√© variables tenemos?
- ¬øQu√© tipo de datos son? (n√∫meros, texto, fechas)
- ¬øHay valores faltantes?
- ¬øCu√°l es el rango de los valores?

Es como revisar los ingredientes antes de cocinar: necesitas saber qu√© tienes disponible.

### üîç Herramientas de Exploraci√≥n

Pandas nos da varias funciones muy √∫tiles:
- **`.info()`**: Resumen general del dataset
- **`.describe()`**: Estad√≠sticas descriptivas de variables num√©ricas
- **`.isnull().sum()`**: Contar valores faltantes

In [None]:
# Informaci√≥n general del dataset
df.info()

In [None]:
# Resumen estad√≠stico de variables num√©ricas
df.describe()

In [None]:
# Verificar valores faltantes
print("Valores faltantes por columna:")
print(df.isnull().sum())

# Porcentaje de valores faltantes
porcentaje_faltantes = (df.isnull().sum() / len(df)) * 100
print("\nPorcentaje de valores faltantes:")
print(porcentaje_faltantes[porcentaje_faltantes > 0])

## 4. An√°lisis de Variables Categ√≥ricas

### ¬øQu√© son variables categ√≥ricas?

Son variables que representan **categor√≠as o grupos**, no n√∫meros:
- G√©nero: Masculino, Femenino, Otro
- √Årea: Legal, Tr√°mites, Atenci√≥n Social, etc.
- Nivel educativo: Primaria, Secundaria, Universidad

### ¬øPor qu√© analizarlas?

Queremos saber:
- ¬øC√≥mo se distribuyen los beneficiarios entre las categor√≠as?
- ¬øHay alg√∫n grupo sobrerrepresentado o subrepresentado?
- ¬øNecesitamos recolectar m√°s datos de alg√∫n grupo?

<details>
<summary>üí° <b>Hint: ¬øC√≥mo saber si una variable es categ√≥rica?</b></summary>

<br>

Una variable es **categ√≥rica** si:
- ‚úÖ Tiene un n√∫mero limitado de valores diferentes
- ‚úÖ Los valores son etiquetas/nombres, no cantidades
- ‚úÖ No tiene sentido calcular el promedio

**Ejemplos:**
- ‚úÖ Categ√≥rica: G√©nero (M, F, Otro) - no puedes promediar
- ‚úÖ Categ√≥rica: √Årea (Legal, Tr√°mites) - son etiquetas
- ‚ùå No categ√≥rica: Edad (25, 30, 45) - puedes calcular promedio
- ‚ùå No categ√≥rica: Satisfacci√≥n (7, 8, 9) - son cantidades

</details>

In [None]:
# Distribuci√≥n por √°rea
print("Distribuci√≥n por √Årea:")
print(df['area'].value_counts())
print("\nPorcentaje:")
print(df['area'].value_counts(normalize=True) * 100)

In [None]:
# =======================================================
# Gr√°fico de barras de distribuci√≥n por √°rea
# =======================================================

# Crear figura con tama√±o espec√≠fico
plt.figure(figsize=(10, 6))

# countplot() de seaborn cuenta autom√°ticamente y crea el gr√°fico
# Es MUCHO m√°s simple que matplotlib puro!
sns.countplot(data=df, x='area', palette='Set2', edgecolor='black')

# Personalizar el gr√°fico
plt.title('Distribuci√≥n de Beneficiarios por √Årea', fontsize=16, fontweight='bold')
plt.xlabel('√Årea de la ONG', fontsize=12)
plt.ylabel('N√∫mero de Beneficiarios', fontsize=12)
plt.xticks(rotation=0)  # Etiquetas horizontales (sin rotar)

# Agregar l√≠neas de cuadr√≠cula horizontales para facilitar lectura
plt.grid(axis='y', alpha=0.3, linestyle='--')

plt.tight_layout()  # Ajusta autom√°ticamente para que todo quepa bien
plt.show()

print("\nüìä Interpretaci√≥n:")
print(f"El √°rea con M√ÅS beneficiarios es: {df['area'].value_counts().index[0]}")
print(f"El √°rea con MENOS beneficiarios es: {df['area'].value_counts().index[-1]}")

### ü§î Pregunta de Reflexi√≥n

Observa el gr√°fico de barras que acabas de crear.

**Preguntas para pensar:**
1. ¬øQu√© √°rea atiende a m√°s beneficiarios? ¬øPor qu√© crees que sea as√≠?
2. ¬øHay √°reas con muy pocos beneficiarios? ¬øDeber√≠a la ONG preocuparse por esto?
3. Si fueras el director de la ONG, ¬øqu√© preguntas te surgen al ver esta distribuci√≥n?

<details>
<summary>üí≠ <b>Ver ejemplo de an√°lisis</b></summary>

<br>

**Ejemplo de interpretaci√≥n:**

"Si el √°rea de Legal tiene muchos m√°s beneficiarios que Tr√°mites, podr√≠a significar:
- Legal ofrece servicios m√°s demandados
- Tr√°mites tiene menos personal y no puede atender a tantas personas
- Los beneficiarios prefieren o necesitan m√°s servicios legales

**Acci√≥n recomendada:** Investigar si Tr√°mites necesita m√°s recursos, o si Legal deber√≠a expandirse."

</details>

---

In [None]:
## 5. An√°lisis de Variables Num√©ricas

### ¬øQu√© son variables num√©ricas?

Son variables que representan **cantidades medibles**:
- Edad (a√±os)
- Satisfacci√≥n (escala 1-10)
- Tiempo de espera (minutos)
- Calificaciones, ingresos, distancias, etc.

### ¬øPor qu√© usar histogramas?

Los **histogramas** nos muestran:
- ¬øC√≥mo se distribuyen los valores?
- ¬øHay concentraci√≥n en ciertos rangos?
- ¬øLa distribuci√≥n es sim√©trica o sesgada?
- ¬øHay valores inusuales (outliers)?

**Es como ver un "perfil" de tus datos.**

<details>
<summary>üìä <b>Hint: ¬øC√≥mo leer un histograma?</b></summary>

<br>

Un histograma divide los datos en **rangos** (bins) y cuenta cu√°ntas observaciones caen en cada rango.

**Ejemplo:** Histograma de edades
- Eje X (horizontal): Rangos de edad (20-25, 25-30, 30-35, etc.)
- Eje Y (vertical): Cu√°ntas personas hay en cada rango
- Barras altas = Muchas personas en ese rango
- Barras bajas = Pocas personas en ese rango

**Formas importantes:**
- üîî **Sim√©trica (campana):** La mayor√≠a est√° en el centro
- ‚ÜóÔ∏è **Sesgada a la derecha:** Muchos valores bajos, algunos muy altos
- ‚ÜñÔ∏è **Sesgada a la izquierda:** Muchos valores altos, algunos muy bajos

</details>

# =======================================================
# Histograma de Satisfacci√≥n (la variable m√°s importante)
# =======================================================

plt.figure(figsize=(10, 6))

# histplot() de seaborn es MUY poderoso y simple
# kde=True agrega una l√≠nea suave que muestra la tendencia
sns.histplot(data=df, x='satisfaccion', bins=15, kde=True, 
             color='skyblue', edgecolor='black', alpha=0.7)

# Personalizar
plt.title('Distribuci√≥n de Satisfacci√≥n de Beneficiarios', fontsize=16, fontweight='bold')
plt.xlabel('Nivel de Satisfacci√≥n (1 = Muy insatisfecho, 10 = Muy satisfecho)', fontsize=11)
plt.ylabel('Frecuencia (n√∫mero de personas)', fontsize=12)

# L√≠nea vertical en la media para referencia
media_satisfaccion = df['satisfaccion'].mean()
plt.axvline(media_satisfaccion, color='red', linestyle='--', linewidth=2, 
            label=f'Media = {media_satisfaccion:.2f}')
plt.legend()

plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

# =======================================================
# Interpretaci√≥n autom√°tica
# =======================================================
print(f"üìä Estad√≠sticas de Satisfacci√≥n:")
print(f"   ‚Ä¢ Media: {df['satisfaccion'].mean():.2f}")
print(f"   ‚Ä¢ Mediana: {df['satisfaccion'].median():.2f}")
print(f"   ‚Ä¢ M√≠nimo: {df['satisfaccion'].min()}")
print(f"   ‚Ä¢ M√°ximo: {df['satisfaccion'].max()}")

In [None]:
## 6. Boxplots para Detectar Outliers

### ¬øQu√© es un boxplot?

Un **boxplot** (diagrama de caja) es una visualizaci√≥n que muestra:
- La **mediana** (l√≠nea central)
- Los **cuartiles** (los bordes de la caja)
- Los **valores extremos** (outliers, puntos fuera de los "bigotes")

### ¬øPor qu√© son √∫tiles?

Los boxplots nos ayudan a:
1. **Comparar distribuciones** entre grupos
2. **Detectar outliers** (valores inusuales)
3. **Ver la variabilidad** de los datos

<details>
<summary>üìä <b>Hint: ¬øC√≥mo leer un boxplot?</b></summary>

<br>

**Anatom√≠a de un boxplot:**

```
        *  ‚Üê Outlier (valor extremo)
        |
    ----+----  ‚Üê M√°ximo (sin outliers)
    |       |
    |  ‚îÅ‚îÅ‚îÅ  |  ‚Üê Q3 (cuartil 3, 75%)
    |   ‚îÇ   |
    |  ‚îÅ‚îÅ‚îÅ  |  ‚Üê Mediana (50%)
    |   ‚îÇ   |
    |  ‚îÅ‚îÅ‚îÅ  |  ‚Üê Q1 (cuartil 1, 25%)
    |       |
    ----+----  ‚Üê M√≠nimo (sin outliers)
        |
        *  ‚Üê Outlier
```

**Interpretaci√≥n:**
- **Caja grande** = Mucha variabilidad en los datos
- **Caja peque√±a** = Datos muy consistentes
- **Mediana cerca del borde** = Distribuci√≥n sesgada
- **Puntos fuera de bigotes** = Outliers (valores inusuales)

</details>

# =======================================================
# Boxplots de variables clave con seaborn
# =======================================================

# Crear una figura con 3 subplots (mucho m√°s simple que antes)
fig, axes = plt.subplots(1, 3, figsize=(15, 5))

# Boxplot 1: Satisfacci√≥n
# seaborn hace todo el trabajo por nosotros!
sns.boxplot(y=df['satisfaccion'], ax=axes[0], color='skyblue')
axes[0].set_title('Satisfacci√≥n', fontweight='bold', fontsize=14)
axes[0].set_ylabel('Escala 1-10')
axes[0].grid(axis='y', alpha=0.3)

# Boxplot 2: Calidad de Atenci√≥n
sns.boxplot(y=df['calidad_atencion'], ax=axes[1], color='lightgreen')
axes[1].set_title('Calidad de Atenci√≥n', fontweight='bold', fontsize=14)
axes[1].set_ylabel('Escala 1-10')
axes[1].grid(axis='y', alpha=0.3)

# Boxplot 3: Tiempo de Espera
sns.boxplot(y=df['tiempo_espera'], ax=axes[2], color='gold')
axes[2].set_title('Tiempo de Espera', fontweight='bold', fontsize=14)
axes[2].set_ylabel('Minutos')
axes[2].grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.show()

# =======================================================
# Detectar outliers autom√°ticamente
# =======================================================

def contar_outliers(serie):
    """Funci√≥n para contar outliers usando el m√©todo IQR"""
    Q1 = serie.quantile(0.25)
    Q3 = serie.quantile(0.75)
    IQR = Q3 - Q1
    outliers = serie[(serie < Q1 - 1.5*IQR) | (serie > Q3 + 1.5*IQR)]
    return len(outliers)

print("\nüìä Detecci√≥n de Outliers:")
print(f"   ‚Ä¢ Satisfacci√≥n: {contar_outliers(df['satisfaccion'])} valores extremos")
print(f"   ‚Ä¢ Calidad de Atenci√≥n: {contar_outliers(df['calidad_atencion'])} valores extremos")
print(f"   ‚Ä¢ Tiempo de Espera: {contar_outliers(df['tiempo_espera'])} valores extremos")

In [None]:
## 7. An√°lisis por Grupos (Comparaciones)

### ¬øPor qu√© comparar grupos?

Raramente nos interesa **solo** el promedio general. Queremos saber:
- ¬øHay diferencias entre √°reas?
- ¬øHombres y mujeres tienen la misma satisfacci√≥n?
- ¬øLos beneficiarios m√°s j√≥venes califican diferente?

**Esto nos permite identificar d√≥nde enfocar recursos.**

### Herramientas de pandas para agrupar:

- **`.groupby()`**: Agrupa datos por una categor√≠a
- **`.agg()`**: Aplica m√∫ltiples funciones (mean, median, std)

<details>
<summary>üí° <b>Hint: ¬øC√≥mo funciona groupby?</b></summary>

<br>

**`.groupby()` divide tus datos en grupos y aplica operaciones a cada grupo.**

**Ejemplo conceptual:**
```
Dataset completo ‚Üí Dividir por 'area' ‚Üí Calcular promedio de cada grupo

Legal:       [8, 9, 8, 9] ‚Üí Media = 8.5
Tr√°mites:    [5, 6, 6, 7] ‚Üí Media = 6.0
Psicolog√≠a:  [7, 8, 8, 7] ‚Üí Media = 7.5
```

**En c√≥digo:**
```python
df.groupby('area')['satisfaccion'].mean()
```

Esto te da el promedio de satisfacci√≥n **para cada √°rea por separado**.

</details>

## 6. Boxplots para Detectar Outliers

In [None]:
# =======================================================
# Gr√°fico de barras con seaborn (¬°MUCHO m√°s simple!)
# =======================================================

plt.figure(figsize=(12, 6))

# barplot() calcula autom√°ticamente el promedio Y la desviaci√≥n est√°ndar
# No necesitas hacer groupby manualmente!
sns.barplot(data=df, x='area', y='satisfaccion', 
            palette='Set2', edgecolor='black', 
            errorbar='sd')  # 'sd' = desviaci√≥n est√°ndar como barras de error

# Personalizar
plt.title('Satisfacci√≥n Promedio por √Årea (con Desviaci√≥n Est√°ndar)', 
          fontsize=14, fontweight='bold')
plt.xlabel('√Årea de la ONG', fontsize=12)
plt.ylabel('Satisfacci√≥n Media', fontsize=12)
plt.ylim(0, 10)  # Escala de 0 a 10

# L√≠nea horizontal con la media general para comparaci√≥n
media_general = df['satisfaccion'].mean()
plt.axhline(y=media_general, color='red', linestyle='--', 
            linewidth=2, label=f'Media General = {media_general:.2f}')
plt.legend()

plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

# =======================================================
# Tabla de estad√≠sticas por √°rea
# =======================================================

print("\nüìä Estad√≠sticas Detalladas por √Årea:\n")
satisfaccion_por_area = df.groupby('area')['satisfaccion'].agg([
    ('Media', 'mean'),
    ('Mediana', 'median'),
    ('Desv.Est', 'std'),
    ('N', 'count')
]).round(2)

print(satisfaccion_por_area)
print(f"\n‚ö†Ô∏è √Årea con MAYOR satisfacci√≥n: {satisfaccion_por_area['Media'].idxmax()}")
print(f"‚úÖ √Årea con MENOR satisfacci√≥n: {satisfaccion_por_area['Media'].idxmin()}")

# =======================================================
# Boxplot comparativo por √°rea (versi√≥n seaborn simplificada)
# =======================================================

plt.figure(figsize=(12, 6))

# seaborn hace TODO el trabajo - incluso los colores!
sns.boxplot(data=df, x='area', y='satisfaccion', 
            palette='Set2', linewidth=1.5)

plt.title('Distribuci√≥n de Satisfacci√≥n por √Årea', fontsize=14, fontweight='bold')
plt.xlabel('√Årea de la ONG', fontsize=12)
plt.ylabel('Satisfacci√≥n (escala 1-10)', fontsize=12)
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

print("\nüí° Interpretaci√≥n del boxplot:")
print("   ‚Ä¢ Busca outliers (puntos fuera de los bigotes)")
print("   ‚Ä¢ Compara las medianas (l√≠nea central de cada caja)")
print("   ‚Ä¢ Observa el tama√±o de las cajas (variabilidad)")

## 8. Matriz de Correlaci√≥n

### ¬øQu√© es la correlaci√≥n?

La **correlaci√≥n** mide qu√© tan relacionadas est√°n dos variables num√©ricas:
- ¬øCuando una sube, la otra tambi√©n sube?
- ¬øCuando una sube, la otra baja?
- ¬øO no hay relaci√≥n aparente?

### Valores de correlaci√≥n:

- **+1.0**: Correlaci√≥n positiva perfecta (siempre suben juntas)
- **+0.7 a +0.9**: Correlaci√≥n positiva fuerte
- **+0.3 a +0.7**: Correlaci√≥n positiva moderada
- **-0.3 a +0.3**: Correlaci√≥n d√©bil o nula
- **-0.7 a -0.3**: Correlaci√≥n negativa moderada
- **-1.0**: Correlaci√≥n negativa perfecta (cuando una sube, la otra baja)

### ‚ö†Ô∏è Importante: Correlaci√≥n ‚â† Causaci√≥n

**Correlaci√≥n NO significa que una causa la otra.**

**Ejemplo:**
- Helados vendidos y ahogamientos est√°n correlacionados
- ‚ùå INCORRECTO: Los helados causan ahogamientos
- ‚úÖ CORRECTO: Ambos aumentan en verano (variable oculta: temperatura)

<details>
<summary>üìä <b>Hint: ¬øPara qu√© sirve la matriz de correlaci√≥n?</b></summary>

<br>

Una **matriz de correlaci√≥n** es como una tabla de multiplicar, pero de correlaciones:
- Cada celda muestra la correlaci√≥n entre dos variables
- La diagonal siempre es 1.0 (una variable siempre se correlaciona perfectamente consigo misma)
- Es sim√©trica: la correlaci√≥n de A con B = correlaci√≥n de B con A

**Usos pr√°cticos:**
- Identificar qu√© variables influyen m√°s en satisfacci√≥n
- Detectar multicolinealidad (variables que miden lo mismo)
- Decidir qu√© variables incluir en modelos predictivos

</details>

In [None]:
# Satisfacci√≥n promedio por √°rea
satisfaccion_por_area = df.groupby('area')['satisfaccion'].agg(['mean', 'median', 'std', 'count'])
satisfaccion_por_area.columns = ['Media', 'Mediana', 'Desv. Est√°ndar', 'N']
print("Satisfacci√≥n por √Årea:")
print(satisfaccion_por_area)

In [None]:
# =======================================================
# Heatmap de correlaci√≥n con seaborn
# =======================================================

# Paso 1: Seleccionar solo columnas num√©ricas
columnas_numericas = ['edad', 'tiempo_servicio', 'satisfaccion', 'calidad_atencion', 'tiempo_espera']
df_numerico = df[columnas_numericas]

# Paso 2: Calcular matriz de correlaci√≥n
# .corr() calcula la correlaci√≥n entre cada par de variables
correlacion = df_numerico.corr()

print("üìä Matriz de Correlaci√≥n:")
print(correlacion.round(2))  # Redondear a 2 decimales para legibilidad

# Paso 3: Crear heatmap visual
plt.figure(figsize=(10, 8))

# seaborn hace todo el trabajo de visualizaci√≥n!
sns.heatmap(correlacion, 
            annot=True,              # Mostrar n√∫meros en cada celda
            cmap='coolwarm',         # Colores: azul=negativo, rojo=positivo
            center=0,                # Centrar en 0
            square=True,             # Celdas cuadradas
            linewidths=1,            # L√≠neas entre celdas
            cbar_kws={"shrink": 0.8}, # Barra de color m√°s peque√±a
            fmt='.2f',               # Formato: 2 decimales
            vmin=-1, vmax=1)         # Rango de -1 a 1

plt.title('Matriz de Correlaci√≥n - Variables Num√©ricas', fontsize=16, fontweight='bold')
plt.tight_layout()
plt.show()

# =======================================================
# Identificar correlaciones fuertes con satisfacci√≥n
# =======================================================

print("\nüîç Variables m√°s correlacionadas con SATISFACCI√ìN:")
correlaciones_satisfaccion = correlacion['satisfaccion'].sort_values(ascending=False)

# Excluir la satisfacci√≥n consigo misma (siempre 1.0)
correlaciones_satisfaccion = correlaciones_satisfaccion[correlaciones_satisfaccion.index != 'satisfaccion']

for variable, valor in correlaciones_satisfaccion.items():
    if abs(valor) > 0.3:  # Solo mostrar correlaciones moderadas o fuertes
        direccion = "positiva" if valor > 0 else "negativa"
        fuerza = "fuerte" if abs(valor) > 0.7 else "moderada"
        print(f"   ‚Ä¢ {variable}: {valor:.3f} (correlaci√≥n {direccion} {fuerza})")

In [None]:
# Boxplot comparativo por √°rea
plt.figure(figsize=(12, 6))
df.boxplot(column='satisfaccion', by='area', grid=False, patch_artist=True)
plt.title('Distribuci√≥n de Satisfacci√≥n por √Årea', fontsize=14, fontweight='bold')
plt.suptitle('')  # Eliminar t√≠tulo autom√°tico
plt.xlabel('√Årea', fontsize=12)
plt.ylabel('Satisfacci√≥n (1-10)', fontsize=12)
plt.tight_layout()
plt.show()

## 10. Ejercicios Propuestos

Ahora es tu turno de aplicar lo que aprendiste. Estos ejercicios te preparan para el Workshop 1.

### üìù Ejercicio 1: An√°lisis por G√©nero

**Objetivo:** Comparar la satisfacci√≥n promedio entre g√©neros.

**Tareas:**
1. Calcula la satisfacci√≥n promedio para cada g√©nero
2. Crea un gr√°fico de barras comparativo
3. Interpreta: ¬øHay diferencias notables?

<details>
<summary>üí° <b>Hint 1: ¬øC√≥mo empezar?</b></summary>

<br>

Usa `groupby()` para agrupar por g√©nero:

```python
df.groupby('genero')['satisfaccion'].mean()
```

Para el gr√°fico, usa `sns.barplot()`:

```python
sns.barplot(data=df, x='genero', y='satisfaccion')
```

</details>

<details>
<summary>üí° <b>Hint 2: Ver soluci√≥n completa</b></summary>

<br>

```python
# C√°lculo de estad√≠sticas
print("Satisfacci√≥n promedio por g√©nero:")
print(df.groupby('genero')['satisfaccion'].mean())

# Gr√°fico
plt.figure(figsize=(10, 6))
sns.barplot(data=df, x='genero', y='satisfaccion', palette='pastel', errorbar='sd')
plt.title('Satisfacci√≥n Promedio por G√©nero', fontsize=14, fontweight='bold')
plt.ylabel('Satisfacci√≥n (1-10)')
plt.xlabel('G√©nero')
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

# Interpretaci√≥n
print("\nInterpretaci√≥n:")
print("Observamos que...")  # Completa tu an√°lisis aqu√≠
```

</details>

---

### üìù Ejercicio 2: Segmentaci√≥n por Edad

**Objetivo:** Crear grupos de edad y analizar diferencias.

**Tareas:**
1. Crea 3 grupos de edad: J√≥venes (18-30), Adultos (31-50), Mayores (51+)
2. Compara la satisfacci√≥n entre estos grupos
3. Visualiza con un boxplot

<details>
<summary>üí° <b>Hint 1: ¬øC√≥mo crear grupos de edad?</b></summary>

<br>

Usa `pd.cut()` para crear rangos:

```python
df['grupo_edad'] = pd.cut(df['edad'], 
                          bins=[17, 30, 50, 100],
                          labels=['J√≥venes', 'Adultos', 'Mayores'])
```

Luego agrupa y visualiza:

```python
sns.boxplot(data=df, x='grupo_edad', y='satisfaccion')
```

</details>

<details>
<summary>üí° <b>Hint 2: Ver soluci√≥n completa</b></summary>

<br>

```python
# Crear grupos de edad
df['grupo_edad'] = pd.cut(df['edad'], 
                          bins=[17, 30, 50, 100],
                          labels=['J√≥venes (18-30)', 'Adultos (31-50)', 'Mayores (51+)'])

# Estad√≠sticas por grupo
print("Satisfacci√≥n por grupo de edad:")
print(df.groupby('grupo_edad')['satisfaccion'].describe())

# Boxplot comparativo
plt.figure(figsize=(10, 6))
sns.boxplot(data=df, x='grupo_edad', y='satisfaccion', palette='Set3')
plt.title('Distribuci√≥n de Satisfacci√≥n por Grupo de Edad', fontsize=14, fontweight='bold')
plt.ylabel('Satisfacci√≥n (1-10)')
plt.xlabel('Grupo de Edad')
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()
```

</details>

---

### üìù Ejercicio 3: Relaci√≥n Tiempo de Servicio vs Satisfacci√≥n

**Objetivo:** Explorar si el tiempo usando el servicio afecta la satisfacci√≥n.

**Tareas:**
1. Crea un scatter plot (gr√°fico de dispersi√≥n) de tiempo_servicio vs satisfacci√≥n
2. Calcula la correlaci√≥n entre estas variables
3. Interpreta: ¬øClientes con m√°s antig√ºedad est√°n m√°s satisfechos?

<details>
<summary>üí° <b>Hint: Usar scatter plot</b></summary>

<br>

```python
plt.figure(figsize=(10, 6))
sns.scatterplot(data=df, x='tiempo_servicio', y='satisfaccion', alpha=0.6)
plt.title('Relaci√≥n entre Tiempo de Servicio y Satisfacci√≥n')
plt.show()

# Correlaci√≥n
print(f"Correlaci√≥n: {df['tiempo_servicio'].corr(df['satisfaccion']):.3f}")
```

</details>

---

### üìù Ejercicio 4: An√°lisis Multidimensional (Desaf√≠o)

**Objetivo:** Analizar satisfacci√≥n por √°rea Y g√©nero simult√°neamente.

**Tareas:**
1. Crea un gr√°fico que muestre satisfacci√≥n por √°rea, separando por g√©nero
2. Identifica si hay interacciones interesantes (ej: ¬øLos hombres prefieren ciertas √°reas?)

<details>
<summary>üí° <b>Hint: Usar hue en seaborn</b></summary>

<br>

El par√°metro `hue` en seaborn separa por una segunda variable:

```python
plt.figure(figsize=(12, 6))
sns.barplot(data=df, x='area', y='satisfaccion', hue='genero', errorbar='sd')
plt.title('Satisfacci√≥n por √Årea y G√©nero')
plt.xticks(rotation=45)
plt.legend(title='G√©nero')
plt.tight_layout()
plt.show()
```

</details>

In [None]:
# Seleccionar solo columnas num√©ricas
columnas_numericas = ['edad', 'tiempo_servicio', 'satisfaccion', 'calidad_atencion', 'tiempo_espera']
df_numerico = df[columnas_numericas]

# Calcular matriz de correlaci√≥n
correlacion = df_numerico.corr()

print("Matriz de Correlaci√≥n:")
print(correlacion)

In [None]:
# Heatmap de correlaci√≥n
plt.figure(figsize=(10, 8))
sns.heatmap(correlacion, annot=True, cmap='coolwarm', center=0, 
            square=True, linewidths=1, cbar_kws={"shrink": 0.8},
            fmt='.2f', vmin=-1, vmax=1)
plt.title('Matriz de Correlaci√≥n - Variables Num√©ricas', fontsize=16, fontweight='bold')
plt.tight_layout()
plt.show()

## 9. Insights Preliminares

Basado en el an√°lisis exploratorio, podemos observar:

### Observaciones:
- **Distribuci√≥n de satisfacci√≥n:** [Describir si es sim√©trica, sesgada, etc.]
- **Diferencias por √°rea:** [Indicar si se observan diferencias notables]
- **Correlaciones:** [Mencionar variables con correlaci√≥n fuerte]
- **Outliers:** [Indicar si se detectaron valores at√≠picos]

### Pr√≥ximos pasos:
1. Realizar pruebas de hip√≥tesis para confirmar diferencias entre √°reas
2. Analizar en profundidad las variables con alta correlaci√≥n
3. Investigar outliers identificados


## 10. Ejercicios Propuestos

1. **An√°lisis por g√©nero:** Compara la satisfacci√≥n promedio entre g√©neros
2. **Segmentaci√≥n por edad:** Crea grupos de edad (j√≥venes, adultos, mayores) y analiza diferencias
3. **Tiempo de servicio:** ¬øExiste relaci√≥n entre tiempo usando el servicio y satisfacci√≥n?
4. **Combinaciones:** Analiza satisfacci√≥n por √°rea Y g√©nero simult√°neamente


In [None]:
# Espacio para tus ejercicios


---

## Resumen

En este notebook aprendiste a:
- ‚úì Cargar y explorar datasets con pandas
- ‚úì Analizar variables categ√≥ricas y num√©ricas
- ‚úì Crear visualizaciones descriptivas
- ‚úì Calcular correlaciones entre variables
- ‚úì Identificar outliers con boxplots

**Siguiente notebook:** Medidas de Tendencia Central y Dispersi√≥n
