# üìä Notebook 1: An√°lisis Exploratorio - Fundaci√≥n Telet√≥n

**Curso:** CD2001B - Diagn√≥stico para L√≠neas de Acci√≥n  
**Proyecto:** Dashboard de Visualizaci√≥n de Datos  
**Dataset:** Encuesta de Satisfacci√≥n a Empresas Benefactoras  

---

## üéØ Objetivos de este Notebook

1. ‚úÖ Cargar y validar el dataset
2. ‚úÖ Realizar an√°lisis exploratorio de datos (EDA)
3. ‚úÖ Calcular todas las medidas estad√≠sticas requeridas
4. ‚úÖ Identificar outliers y patrones
5. ‚úÖ Generar visualizaciones exploratorias
6. ‚úÖ Documentar hallazgos preliminares

---

## üìã Subcompetencias Demostradas

- **SCD0104:** An√°lisis descriptivo con herramientas tecnol√≥gicas
- **SCD0105:** Generaci√≥n de gr√°ficos din√°micos para toma de decisiones

---

## 1. Configuraci√≥n Inicial

In [None]:
# Importar librer√≠as necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import warnings

# Configuraci√≥n de visualizaci√≥n
warnings.filterwarnings('ignore')
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette(['#F7C600', '#4B1F76', '#7E3AA7', '#D7268F', '#1A2A6C'])
%matplotlib inline

# Configuraci√≥n de pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.float_format', lambda x: '%.3f' % x)

print('‚úÖ Librer√≠as importadas correctamente')
print(f'üì¶ Versiones:')
print(f'   - pandas: {pd.__version__}')
print(f'   - numpy: {np.__version__}')
print(f'   - matplotlib: {plt.matplotlib.__version__}')
print(f'   - seaborn: {sns.__version__}')

---

## 2. Carga y Validaci√≥n de Datos

In [None]:
# Cargar el dataset
df = pd.read_excel('../teleton.xlsx')

print('='*80)
print('üìä INFORMACI√ìN GENERAL DEL DATASET')
print('='*80)
print(f'\nüìè Dimensiones: {df.shape[0]} filas √ó {df.shape[1]} columnas')
print(f'\nüíæ Tama√±o en memoria: {df.memory_usage(deep=True).sum() / 1024:.2f} KB')

In [None]:
# Ver primeras filas
print('\nüîç Primeras 5 filas del dataset:')
df.head()

In [None]:
# Informaci√≥n de columnas
print('\nüìã INFORMACI√ìN DE COLUMNAS')
print('='*80)
df.info()

In [None]:
# Renombrar columnas para facilitar el an√°lisis
# Nombres m√°s manejables para las columnas

columnas_nuevas = {
    'Marca temporal': 'fecha',
    'El promotor o promotora de Fundaci√≥n Telet√≥n se viste y se comporta apropiadamente al tratar con la empresa o instituci√≥n a la que usted representa': 'apariencia_comportamiento',
    'Los procedimientos y documentaci√≥n proporcionada por el promotor o promotora de Fundaci√≥n Telet√≥n son claros, f√°ciles de entender y suficientes para las actividades que realizan con la instituci√≥n/empresa a la que usted representa': 'claridad_procedimientos',
    'El promotor o promotora de Fundaci√≥n Telet√≥n cumple con los horarios y plazos prometidos para la entrega de servicios a los que se compromete': 'cumplimiento_horarios',
    'El promotor o promotora de Fundaci√≥n Telet√≥n muestra un alto nivel de conocimiento y competencia para el desarrollo de la campa√±a': 'conocimiento_competencia',
    'El promotor o promotora de Fundaci√≥n Telet√≥n proporcion√≥ la informaci√≥n de manera correcta y clara en el primer contacto que tuve con el/ella.': 'claridad_primer_contacto',
    'El promotor o promotora de Fundaci√≥n Telet√≥n responde de manera r√°pida a mis solicitudes y necesidades': 'rapidez_respuesta',
    'El promotor o promotora de Fundaci√≥n Telet√≥n siempre est√° dispuesto a ayudar y a resolver cualquier situaci√≥n que se me presente': 'disposicion_ayuda',
    'Fundaci√≥n Telet√≥n muestra flexibilidad para adaptarse a situaciones imprevistas o necesidades especiales que surjan con la instituci√≥n o empresa que represento': 'flexibilidad',
    'El promotor o promotora de Fundaci√≥n Telet√≥n muestra una actitud comprensiva y cercana hacia la instituci√≥n o empresa que represento': 'actitud_comprensiva',
    'El promotor o promotora de Fundaci√≥n Telet√≥n dedica tiempo suficiente para entender las necesidades de la instituci√≥n o empresa que represento': 'tiempo_dedicado',
    'En la instituci√≥n o empresa que represento, sentimos que Fundaci√≥n Telet√≥n entiende y se preocupa por nuestra situaci√≥n actual': 'preocupacion_situacion',
    'Fundaci√≥n Telet√≥n ofrece atenci√≥n personalizada a las instituciones/empresas y se adapta a nuestras circunstancias espec√≠ficas': 'atencion_personalizada',
    'Como instituci√≥n / empresa benefactora mi nivel de satisfacci√≥n en la colaboraci√≥n que tenemos con Fundaci√≥n Telet√≥n es:': 'satisfaccion_general',
    'Como instituci√≥n /empresa benefactora recomendar√≠a ser benefactor de Fundaci√≥n Telet√≥n en los diversos programas de recaudaci√≥n': 'nps',
    'Como instituci√≥n/empresa benefactora,  percibo que la calidad en el servicio que nos ofrece el promotor o promotora de Fundaci√≥n Telet√≥n es:': 'calidad_percibida',
    'Como instituci√≥n/empresa benefactora nos sentimos informados sobre el uso de los recursos que se obtienen de los diversos programas de recaudaci√≥n en los que participamos': 'transparencia',
    'Somos benefactores que participan en programas de recaudaci√≥n de Fundaci√≥n Telet√≥n desde (indicar por favor los a√±os en n√∫mero)': 'anos_benefactor',
    'El giro de la instituci√≥n empresa que represento es:': 'giro',
    'Puesto del responsable que contesta la encuesta': 'puesto',
    'Estado de la rep√∫blica en el que se encuentra la instituci√≥n/empresa a la que perteneces': 'estado'
}

df = df.rename(columns=columnas_nuevas)

print('‚úÖ Columnas renombradas exitosamente')
print('\nüìã Nuevos nombres de columnas:')
for i, col in enumerate(df.columns, 1):
    print(f'{i:2d}. {col}')

---

## 3. An√°lisis de Calidad de Datos

In [None]:
# Verificar valores faltantes
print('‚ö†Ô∏è  AN√ÅLISIS DE VALORES FALTANTES')
print('='*80)

valores_faltantes = df.isnull().sum()
porcentaje_faltantes = (df.isnull().sum() / len(df)) * 100

faltantes_df = pd.DataFrame({
    'Columna': valores_faltantes.index,
    'Valores Faltantes': valores_faltantes.values,
    'Porcentaje': porcentaje_faltantes.values
})

faltantes_df = faltantes_df[faltantes_df['Valores Faltantes'] > 0].sort_values('Valores Faltantes', ascending=False)

if len(faltantes_df) > 0:
    print(f'\n‚ö†Ô∏è  Se encontraron {len(faltantes_df)} columnas con valores faltantes:\n')
    print(faltantes_df.to_string(index=False))
else:
    print('\n‚úÖ No hay valores faltantes en el dataset')

In [None]:
# Tratamiento de valores faltantes si existen
# Estrategia: Imputaci√≥n con la mediana para variables num√©ricas

if 'claridad_primer_contacto' in df.columns and df['claridad_primer_contacto'].isnull().sum() > 0:
    mediana = df['claridad_primer_contacto'].median()
    df['claridad_primer_contacto'].fillna(mediana, inplace=True)
    print(f'‚úÖ Valores faltantes en "claridad_primer_contacto" imputados con mediana: {mediana}')

# Verificar que no haya m√°s valores faltantes
print(f'\n‚úÖ Total de valores faltantes despu√©s del tratamiento: {df.isnull().sum().sum()}')

In [None]:
# Verificar duplicados
duplicados = df.duplicated().sum()
print(f'\nüîç VERIFICACI√ìN DE DUPLICADOS')
print('='*80)
print(f'Registros duplicados: {duplicados}')

if duplicados > 0:
    print('\n‚ö†Ô∏è  Se encontraron registros duplicados. Considerando eliminaci√≥n...')
else:
    print('‚úÖ No hay registros duplicados')

---

## 4. Clasificaci√≥n de Variables

In [None]:
# Clasificar variables por tipo

# Variables de Calidad de Servicio (Likert 1-5)
vars_calidad_servicio = [
    'apariencia_comportamiento', 'claridad_procedimientos', 'cumplimiento_horarios',
    'conocimiento_competencia', 'claridad_primer_contacto', 'rapidez_respuesta',
    'disposicion_ayuda', 'flexibilidad', 'actitud_comprensiva', 'tiempo_dedicado',
    'preocupacion_situacion', 'atencion_personalizada'
]

# Variables de Satisfacci√≥n (Escala 1-10)
vars_satisfaccion = [
    'satisfaccion_general', 'nps', 'calidad_percibida', 'transparencia'
]

# Variables num√©ricas adicionales
vars_numericas_adicionales = ['anos_benefactor']

# Variables categ√≥ricas
vars_categoricas = ['giro', 'puesto', 'estado']

# Variables temporales
vars_temporales = ['fecha']

print('üìä CLASIFICACI√ìN DE VARIABLES')
print('='*80)
print(f'\nüîµ Variables Calidad de Servicio (Likert 1-5): {len(vars_calidad_servicio)}')
for var in vars_calidad_servicio:
    print(f'   - {var}')

print(f'\nüü¢ Variables de Satisfacci√≥n (Escala 1-10): {len(vars_satisfaccion)}')
for var in vars_satisfaccion:
    print(f'   - {var}')

print(f'\nüü° Variables Num√©ricas Adicionales: {len(vars_numericas_adicionales)}')
for var in vars_numericas_adicionales:
    print(f'   - {var}')

print(f'\nüü† Variables Categ√≥ricas: {len(vars_categoricas)}')
for var in vars_categoricas:
    print(f'   - {var}')

print(f'\nüî¥ Variables Temporales: {len(vars_temporales)}')
for var in vars_temporales:
    print(f'   - {var}')

---

## 5. Estad√≠sticas Descriptivas: Variables de Calidad de Servicio

In [None]:
# Funci√≥n para calcular todas las medidas estad√≠sticas
def estadisticas_completas(serie, nombre_variable):
    """
    Calcula todas las medidas estad√≠sticas requeridas para una variable.
    
    Medidas de Tendencia Central:
    - Media Aritm√©tica
    - Media Ponderada (igual a aritm√©tica si no hay pesos)
    - Media Geom√©trica
    - Mediana
    - Moda
    
    Medidas de Dispersi√≥n:
    - Rango
    - Desviaci√≥n Est√°ndar
    - Varianza
    - Rango Intercuart√≠lico (IQR)
    - Coeficiente de Variaci√≥n
    """
    
    # Eliminar valores nulos
    datos = serie.dropna()
    
    # Tendencia Central
    media_aritmetica = datos.mean()
    media_ponderada = media_aritmetica  # Sin pesos espec√≠ficos
    
    # Media geom√©trica (solo para valores positivos)
    if (datos > 0).all():
        media_geometrica = stats.gmean(datos)
    else:
        media_geometrica = np.nan
    
    mediana = datos.median()
    moda_valor = datos.mode()
    moda = moda_valor[0] if len(moda_valor) > 0 else np.nan
    
    # Dispersi√≥n
    rango = datos.max() - datos.min()
    desv_std = datos.std()
    varianza = datos.var()
    
    # Cuartiles
    q1 = datos.quantile(0.25)
    q3 = datos.quantile(0.75)
    iqr = q3 - q1
    
    # Coeficiente de variaci√≥n
    cv = (desv_std / media_aritmetica) * 100 if media_aritmetica != 0 else np.nan
    
    # Outliers (m√©todo IQR)
    limite_inferior = q1 - 1.5 * iqr
    limite_superior = q3 + 1.5 * iqr
    outliers_count = ((datos < limite_inferior) | (datos > limite_superior)).sum()
    
    resultados = {
        'Variable': nombre_variable,
        'N': len(datos),
        'Media Aritm√©tica': media_aritmetica,
        'Media Geom√©trica': media_geometrica,
        'Mediana': mediana,
        'Moda': moda,
        'Desv. Est√°ndar': desv_std,
        'Varianza': varianza,
        'Rango': rango,
        'IQR': iqr,
        'CV (%)': cv,
        'M√≠n': datos.min(),
        'Q1': q1,
        'Q3': q3,
        'M√°x': datos.max(),
        'Outliers': outliers_count
    }
    
    return resultados

print('‚úÖ Funci√≥n de estad√≠sticas completas definida')

In [None]:
# Calcular estad√≠sticas para variables de calidad de servicio
print('üìä ESTAD√çSTICAS DESCRIPTIVAS: VARIABLES DE CALIDAD DE SERVICIO')
print('='*80)
print('(Escala Likert 1-5)\n')

resultados_calidad = []

for var in vars_calidad_servicio:
    if var in df.columns:
        stats_var = estadisticas_completas(df[var], var)
        resultados_calidad.append(stats_var)

df_stats_calidad = pd.DataFrame(resultados_calidad)
df_stats_calidad

In [None]:
# Resumen ejecutivo de calidad de servicio
print('\nüìå RESUMEN EJECUTIVO: CALIDAD DE SERVICIO')
print('='*80)

# Calcular √≠ndice general de calidad (promedio de todas las dimensiones)
indice_calidad = df[vars_calidad_servicio].mean(axis=1).mean()
print(f'\nüéØ √çndice General de Calidad de Servicio: {indice_calidad:.2f}/5.0')
print(f'   Porcentaje: {(indice_calidad/5)*100:.1f}%')

# Dimensiones con mejor y peor desempe√±o
medias_dimensiones = df[vars_calidad_servicio].mean().sort_values(ascending=False)

print(f'\nüèÜ TOP 3 Dimensiones Mejor Evaluadas:')
for i, (dim, valor) in enumerate(medias_dimensiones.head(3).items(), 1):
    print(f'   {i}. {dim}: {valor:.2f}/5.0')

print(f'\n‚ö†Ô∏è  TOP 3 Dimensiones con Oportunidad de Mejora:')
for i, (dim, valor) in enumerate(medias_dimensiones.tail(3).items(), 1):
    print(f'   {i}. {dim}: {valor:.2f}/5.0')

---

## 6. Estad√≠sticas Descriptivas: Variables de Satisfacci√≥n

In [None]:
# Calcular estad√≠sticas para variables de satisfacci√≥n
print('üìä ESTAD√çSTICAS DESCRIPTIVAS: VARIABLES DE SATISFACCI√ìN')
print('='*80)
print('(Escala 1-10)\n')

resultados_satisfaccion = []

for var in vars_satisfaccion:
    if var in df.columns:
        stats_var = estadisticas_completas(df[var], var)
        resultados_satisfaccion.append(stats_var)

df_stats_satisfaccion = pd.DataFrame(resultados_satisfaccion)
df_stats_satisfaccion

In [None]:
# C√°lculo del Net Promoter Score (NPS)
print('\nüìä C√ÅLCULO DEL NET PROMOTER SCORE (NPS)')
print('='*80)

# Clasificar seg√∫n metodolog√≠a NPS
promotores = (df['nps'] >= 9).sum()  # Calificaci√≥n 9-10
pasivos = ((df['nps'] >= 7) & (df['nps'] <= 8)).sum()  # Calificaci√≥n 7-8
detractores = (df['nps'] <= 6).sum()  # Calificaci√≥n 1-6

total = len(df['nps'].dropna())

nps_score = ((promotores - detractores) / total) * 100

print(f'\nüéØ Net Promoter Score: {nps_score:.1f}')
print(f'\nüìä Distribuci√≥n:')
print(f'   üü¢ Promotores (9-10): {promotores} ({(promotores/total)*100:.1f}%)')
print(f'   üü° Pasivos (7-8): {pasivos} ({(pasivos/total)*100:.1f}%)')
print(f'   üî¥ Detractores (1-6): {detractores} ({(detractores/total)*100:.1f}%)')

# Interpretaci√≥n del NPS
print(f'\nüí° Interpretaci√≥n:')
if nps_score > 50:
    print('   ‚úÖ Excelente - Los benefactores est√°n muy satisfechos y recomiendan activamente')
elif nps_score > 0:
    print('   ‚ö†Ô∏è  Bueno - M√°s promotores que detractores, pero hay espacio para mejorar')
else:
    print('   üö® Cr√≠tico - M√°s detractores que promotores, requiere acci√≥n inmediata')

---

## 7. Estad√≠sticas Descriptivas: Variables Num√©ricas Adicionales

In [None]:
# An√°lisis de a√±os como benefactor
print('üìä ESTAD√çSTICAS: A√ëOS COMO BENEFACTOR')
print('='*80)

stats_anos = estadisticas_completas(df['anos_benefactor'], 'anos_benefactor')
df_stats_anos = pd.DataFrame([stats_anos])
df_stats_anos

In [None]:
# Segmentaci√≥n por antig√ºedad
print('\nüìä SEGMENTACI√ìN POR ANTIG√úEDAD')
print('='*80)

# Crear categor√≠as de antig√ºedad
df['segmento_antiguedad'] = pd.cut(df['anos_benefactor'], 
                                    bins=[0, 3, 7, 15, 100],
                                    labels=['Nuevo (0-3 a√±os)', 'Establecido (4-7 a√±os)', 
                                           'Veterano (8-15 a√±os)', 'Hist√≥rico (15+ a√±os)'])

segmentos = df['segmento_antiguedad'].value_counts().sort_index()

print('\nDistribuci√≥n por segmento:')
for segmento, count in segmentos.items():
    porcentaje = (count / len(df)) * 100
    print(f'   {segmento}: {count} ({porcentaje:.1f}%)')

# Satisfacci√≥n promedio por segmento
print('\nüí° Satisfacci√≥n promedio por segmento:')
sat_por_segmento = df.groupby('segmento_antiguedad')['satisfaccion_general'].mean().sort_index()
for segmento, sat in sat_por_segmento.items():
    print(f'   {segmento}: {sat:.2f}/10.0')

---

## 8. An√°lisis de Variables Categ√≥ricas

In [None]:
# An√°lisis de variables categ√≥ricas
print('üìä AN√ÅLISIS DE VARIABLES CATEG√ìRICAS')
print('='*80)

for var in vars_categoricas:
    if var in df.columns:
        print(f'\nüîπ {var.upper()}')
        print('-'*80)
        
        conteo = df[var].value_counts()
        porcentaje = (df[var].value_counts(normalize=True) * 100).round(1)
        
        resumen = pd.DataFrame({
            'Categor√≠a': conteo.index,
            'Frecuencia': conteo.values,
            'Porcentaje': porcentaje.values
        })
        
        print(resumen.to_string(index=False))
        print(f'\nTotal de categor√≠as √∫nicas: {df[var].nunique()}')

---

## 9. Identificaci√≥n de Outliers

In [None]:
# Funci√≥n para identificar outliers usando m√©todo IQR
def identificar_outliers(serie, nombre_var):
    q1 = serie.quantile(0.25)
    q3 = serie.quantile(0.75)
    iqr = q3 - q1
    
    limite_inferior = q1 - 1.5 * iqr
    limite_superior = q3 + 1.5 * iqr
    
    outliers = serie[(serie < limite_inferior) | (serie > limite_superior)]
    
    return {
        'Variable': nombre_var,
        'Q1': q1,
        'Q3': q3,
        'IQR': iqr,
        'L√≠mite Inferior': limite_inferior,
        'L√≠mite Superior': limite_superior,
        'N Outliers': len(outliers),
        'Porcentaje': (len(outliers) / len(serie)) * 100
    }

print('‚ö†Ô∏è  IDENTIFICACI√ìN DE OUTLIERS (M√©todo IQR)')
print('='*80)
print('\nCriterio: Valores fuera de [Q1 - 1.5√óIQR, Q3 + 1.5√óIQR]\n')

# Analizar todas las variables num√©ricas
todas_vars_numericas = vars_calidad_servicio + vars_satisfaccion + vars_numericas_adicionales

resultados_outliers = []
for var in todas_vars_numericas:
    if var in df.columns:
        outlier_info = identificar_outliers(df[var].dropna(), var)
        resultados_outliers.append(outlier_info)

df_outliers = pd.DataFrame(resultados_outliers)
df_outliers = df_outliers[df_outliers['N Outliers'] > 0].sort_values('N Outliers', ascending=False)

if len(df_outliers) > 0:
    print('Variables con outliers detectados:\n')
    print(df_outliers[['Variable', 'N Outliers', 'Porcentaje', 'L√≠mite Inferior', 'L√≠mite Superior']].to_string(index=False))
else:
    print('‚úÖ No se detectaron outliers significativos en las variables num√©ricas')

---

## 10. Visualizaciones Exploratorias

In [None]:
# Configurar estilo de gr√°ficos con paleta Telet√≥n
colores_teleton = ['#F7C600', '#4B1F76', '#7E3AA7', '#D7268F', '#1A2A6C']
sns.set_palette(colores_teleton)

print('‚úÖ Paleta de colores Telet√≥n configurada')

### 10.1 Distribuci√≥n de Variables de Satisfacci√≥n

In [None]:
# Histogramas de variables de satisfacci√≥n
fig, axes = plt.subplots(2, 2, figsize=(14, 10))
fig.suptitle('Distribuci√≥n de Variables de Satisfacci√≥n (Escala 1-10)', 
             fontsize=16, fontweight='bold', color='#4B1F76')

for idx, var in enumerate(vars_satisfaccion):
    ax = axes[idx // 2, idx % 2]
    
    # Histograma
    ax.hist(df[var].dropna(), bins=10, range=(0, 10), 
            color='#7E3AA7', alpha=0.7, edgecolor='white', linewidth=1.2)
    
    # Media y mediana
    media = df[var].mean()
    mediana = df[var].median()
    
    ax.axvline(media, color='#F7C600', linestyle='--', linewidth=2, label=f'Media: {media:.2f}')
    ax.axvline(mediana, color='#D7268F', linestyle=':', linewidth=2, label=f'Mediana: {mediana:.2f}')
    
    ax.set_title(var.replace('_', ' ').title(), fontsize=12, fontweight='bold')
    ax.set_xlabel('Calificaci√≥n', fontsize=10)
    ax.set_ylabel('Frecuencia', fontsize=10)
    ax.legend(loc='upper left')
    ax.grid(alpha=0.3)

plt.tight_layout()
plt.show()

### 10.2 Boxplots para Identificar Outliers

In [None]:
# Boxplots de variables de satisfacci√≥n
fig, ax = plt.subplots(figsize=(12, 6))

datos_boxplot = [df[var].dropna() for var in vars_satisfaccion]
labels_boxplot = [var.replace('_', '\n').title() for var in vars_satisfaccion]

bp = ax.boxplot(datos_boxplot, labels=labels_boxplot, patch_artist=True,
                notch=True, showmeans=True,
                boxprops=dict(facecolor='#7E3AA7', alpha=0.7),
                whiskerprops=dict(color='#4B1F76', linewidth=1.5),
                capprops=dict(color='#4B1F76', linewidth=1.5),
                medianprops=dict(color='#F7C600', linewidth=2),
                meanprops=dict(marker='D', markerfacecolor='#D7268F', markeredgecolor='white', markersize=8))

ax.set_title('Boxplots: Variables de Satisfacci√≥n (con identificaci√≥n de outliers)', 
             fontsize=14, fontweight='bold', color='#4B1F76')
ax.set_ylabel('Calificaci√≥n (1-10)', fontsize=12)
ax.set_ylim(0, 11)
ax.grid(alpha=0.3, axis='y')

# Leyenda
from matplotlib.lines import Line2D
legend_elements = [
    Line2D([0], [0], color='#F7C600', linewidth=2, label='Mediana'),
    Line2D([0], [0], marker='D', color='w', markerfacecolor='#D7268F', markersize=8, label='Media')
]
ax.legend(handles=legend_elements, loc='lower right')

plt.tight_layout()
plt.show()

### 10.3 Distribuci√≥n de A√±os como Benefactor

In [None]:
# Histograma de a√±os como benefactor
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 5))

# Histograma
ax1.hist(df['anos_benefactor'].dropna(), bins=20, color='#4B1F76', alpha=0.7, edgecolor='white')
ax1.axvline(df['anos_benefactor'].mean(), color='#F7C600', linestyle='--', linewidth=2, 
            label=f'Media: {df["anos_benefactor"].mean():.1f} a√±os')
ax1.axvline(df['anos_benefactor'].median(), color='#D7268F', linestyle=':', linewidth=2,
            label=f'Mediana: {df["anos_benefactor"].median():.1f} a√±os')
ax1.set_title('Distribuci√≥n de A√±os como Benefactor', fontsize=12, fontweight='bold')
ax1.set_xlabel('A√±os', fontsize=10)
ax1.set_ylabel('Frecuencia', fontsize=10)
ax1.legend()
ax1.grid(alpha=0.3)

# Boxplot
bp = ax2.boxplot([df['anos_benefactor'].dropna()], vert=False, patch_artist=True,
                  notch=True, showmeans=True,
                  boxprops=dict(facecolor='#7E3AA7', alpha=0.7),
                  whiskerprops=dict(color='#4B1F76', linewidth=1.5),
                  capprops=dict(color='#4B1F76', linewidth=1.5),
                  medianprops=dict(color='#F7C600', linewidth=2),
                  meanprops=dict(marker='D', markerfacecolor='#D7268F', markeredgecolor='white', markersize=8))

ax2.set_title('Boxplot: A√±os como Benefactor', fontsize=12, fontweight='bold')
ax2.set_xlabel('A√±os', fontsize=10)
ax2.set_yticklabels([''])
ax2.grid(alpha=0.3, axis='x')

plt.tight_layout()
plt.show()

### 10.4 Variables Categ√≥ricas

In [None]:
# Gr√°ficos de barras para variables categ√≥ricas
fig, axes = plt.subplots(1, 3, figsize=(16, 5))
fig.suptitle('Distribuci√≥n de Variables Categ√≥ricas', fontsize=16, fontweight='bold', color='#4B1F76')

colores = ['#4B1F76', '#7E3AA7', '#D7268F']

for idx, var in enumerate(vars_categoricas):
    ax = axes[idx]
    
    conteo = df[var].value_counts().head(10)  # Top 10 categor√≠as
    
    conteo.plot(kind='barh', ax=ax, color=colores[idx], alpha=0.8, edgecolor='white')
    
    ax.set_title(var.replace('_', ' ').title(), fontsize=12, fontweight='bold')
    ax.set_xlabel('Frecuencia', fontsize=10)
    ax.grid(alpha=0.3, axis='x')
    
    # Agregar valores en las barras
    for container in ax.containers:
        ax.bar_label(container, fmt='%d', padding=3)

plt.tight_layout()
plt.show()

### 10.5 Heatmap de Correlaci√≥n (Variables de Calidad)

In [None]:
# Matriz de correlaci√≥n para variables de calidad de servicio
correlacion = df[vars_calidad_servicio].corr()

fig, ax = plt.subplots(figsize=(14, 12))

# Crear heatmap
mask = np.triu(np.ones_like(correlacion, dtype=bool))  # Mostrar solo mitad inferior
sns.heatmap(correlacion, mask=mask, annot=True, fmt='.2f', 
            cmap='RdYlGn', center=0, vmin=-1, vmax=1,
            square=True, linewidths=0.5, 
            cbar_kws={'label': 'Coeficiente de Correlaci√≥n'},
            ax=ax)

# Etiquetas m√°s legibles
labels = [var.replace('_', ' ').title() for var in vars_calidad_servicio]
ax.set_xticklabels(labels, rotation=45, ha='right', fontsize=9)
ax.set_yticklabels(labels, rotation=0, fontsize=9)

ax.set_title('Matriz de Correlaci√≥n: Dimensiones de Calidad de Servicio', 
             fontsize=14, fontweight='bold', color='#4B1F76', pad=20)

plt.tight_layout()
plt.show()

print('\nüí° Interpretaci√≥n de correlaciones:')
print('   Verde intenso (cerca de 1): Alta correlaci√≥n positiva')
print('   Amarillo (cerca de 0): Sin correlaci√≥n')
print('   Rojo intenso (cerca de -1): Alta correlaci√≥n negativa')

### 10.6 Satisfacci√≥n por Estado (Top 10)

In [None]:
# Satisfacci√≥n promedio por estado (top 10 con m√°s benefactores)
estados_top = df['estado'].value_counts().head(10).index
df_top_estados = df[df['estado'].isin(estados_top)]

sat_por_estado = df_top_estados.groupby('estado')['satisfaccion_general'].agg(['mean', 'count']).reset_index()
sat_por_estado.columns = ['Estado', 'Satisfacci√≥n Promedio', 'N Benefactores']
sat_por_estado = sat_por_estado.sort_values('Satisfacci√≥n Promedio', ascending=True)

fig, ax = plt.subplots(figsize=(12, 8))

bars = ax.barh(sat_por_estado['Estado'], sat_por_estado['Satisfacci√≥n Promedio'], 
               color='#7E3AA7', alpha=0.8, edgecolor='white')

# Colorear barras seg√∫n satisfacci√≥n
for i, (idx, row) in enumerate(sat_por_estado.iterrows()):
    if row['Satisfacci√≥n Promedio'] >= 8:
        bars[i].set_color('#2ECC71')  # Verde
    elif row['Satisfacci√≥n Promedio'] >= 7:
        bars[i].set_color('#F7C600')  # Amarillo
    else:
        bars[i].set_color('#E74C3C')  # Rojo

# L√≠nea de referencia (media general)
media_general = df['satisfaccion_general'].mean()
ax.axvline(media_general, color='#4B1F76', linestyle='--', linewidth=2, 
           label=f'Media Nacional: {media_general:.2f}')

ax.set_title('Satisfacci√≥n Promedio por Estado (Top 10)', fontsize=14, fontweight='bold', color='#4B1F76')
ax.set_xlabel('Satisfacci√≥n Promedio (1-10)', fontsize=12)
ax.set_xlim(0, 10)
ax.legend()
ax.grid(alpha=0.3, axis='x')

# Agregar N benefactores como texto
for idx, row in sat_por_estado.iterrows():
    ax.text(row['Satisfacci√≥n Promedio'] + 0.1, idx, 
            f"{row['Satisfacci√≥n Promedio']:.2f} (n={int(row['N Benefactores'])})",
            va='center', fontsize=9)

plt.tight_layout()
plt.show()

---

## 11. An√°lisis de Segmentos

In [None]:
# An√°lisis comparativo: Satisfacci√≥n por giro de empresa
print('üìä AN√ÅLISIS POR GIRO DE EMPRESA')
print('='*80)

# Top 5 giros con m√°s benefactores
top_giros = df['giro'].value_counts().head(5).index
df_top_giros = df[df['giro'].isin(top_giros)]

analisis_giro = df_top_giros.groupby('giro').agg({
    'satisfaccion_general': ['mean', 'std', 'count'],
    'nps': 'mean',
    'calidad_percibida': 'mean',
    'anos_benefactor': 'mean'
}).round(2)

analisis_giro.columns = ['Satisfacci√≥n Media', 'Satisfacci√≥n Desv.Std', 'N Benefactores', 
                         'NPS Medio', 'Calidad Media', 'A√±os Promedio']

print('\nTop 5 giros de empresa:\n')
print(analisis_giro.sort_values('N Benefactores', ascending=False))

In [None]:
# Visualizaci√≥n: Satisfacci√≥n por giro
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 6))

# Gr√°fico 1: Satisfacci√≥n por giro
sat_giro = df_top_giros.groupby('giro')['satisfaccion_general'].mean().sort_values(ascending=True)
sat_giro.plot(kind='barh', ax=ax1, color='#7E3AA7', alpha=0.8, edgecolor='white')

ax1.set_title('Satisfacci√≥n Promedio por Giro de Empresa', fontsize=12, fontweight='bold')
ax1.set_xlabel('Satisfacci√≥n (1-10)', fontsize=10)
ax1.axvline(df['satisfaccion_general'].mean(), color='#F7C600', linestyle='--', linewidth=2,
            label='Media General')
ax1.legend()
ax1.grid(alpha=0.3, axis='x')

# Gr√°fico 2: N benefactores por giro
count_giro = df_top_giros['giro'].value_counts().sort_values(ascending=True)
count_giro.plot(kind='barh', ax=ax2, color='#4B1F76', alpha=0.8, edgecolor='white')

ax2.set_title('N√∫mero de Benefactores por Giro', fontsize=12, fontweight='bold')
ax2.set_xlabel('Cantidad', fontsize=10)
ax2.grid(alpha=0.3, axis='x')

plt.tight_layout()
plt.show()

---

## 12. Hallazgos y Conclusiones Preliminares

In [None]:
print('üìå HALLAZGOS CLAVE DEL AN√ÅLISIS EXPLORATORIO')
print('='*80)

print('\nüéØ KPIs PRINCIPALES:')
print(f'   - Satisfacci√≥n General: {df["satisfaccion_general"].mean():.2f}/10.0')
print(f'   - Net Promoter Score (NPS): {nps_score:.1f}')
print(f'   - √çndice Calidad de Servicio: {indice_calidad:.2f}/5.0')
print(f'   - Calidad Percibida: {df["calidad_percibida"].mean():.2f}/10.0')
print(f'   - Transparencia: {df["transparencia"].mean():.2f}/10.0')
print(f'   - Antig√ºedad Promedio: {df["anos_benefactor"].mean():.1f} a√±os')

print('\nüí° INSIGHTS ESTAD√çSTICOS:')

# 1. Consistencia en calidad de servicio
cv_promedio = df[vars_calidad_servicio].std() / df[vars_calidad_servicio].mean() * 100
print(f'   1. Coeficiente de Variaci√≥n promedio (Calidad): {cv_promedio.mean():.1f}%')
if cv_promedio.mean() < 20:
    print('      ‚Üí Baja variabilidad: El servicio es consistente entre benefactores')
else:
    print('      ‚Üí Alta variabilidad: Experiencias heterog√©neas entre benefactores')

# 2. Distribuci√≥n de satisfacci√≥n
percentil_75_sat = df['satisfaccion_general'].quantile(0.75)
print(f'\n   2. 75% de benefactores tienen satisfacci√≥n ‚â• {percentil_75_sat:.1f}/10.0')

# 3. Correlaci√≥n calidad-satisfacci√≥n
corr_calidad_sat = df[vars_calidad_servicio].mean(axis=1).corr(df['satisfaccion_general'])
print(f'\n   3. Correlaci√≥n entre Calidad de Servicio y Satisfacci√≥n: {corr_calidad_sat:.3f}')
if corr_calidad_sat > 0.7:
    print('      ‚Üí Correlaci√≥n fuerte: Mejorar calidad impacta directamente en satisfacci√≥n')
elif corr_calidad_sat > 0.4:
    print('      ‚Üí Correlaci√≥n moderada: Calidad es importante pero no √∫nico factor')
else:
    print('      ‚Üí Correlaci√≥n d√©bil: Otros factores influyen m√°s en la satisfacci√≥n')

# 4. Segmentos de atenci√≥n prioritaria
estados_baja_sat = sat_por_estado[sat_por_estado['Satisfacci√≥n Promedio'] < media_general]['Estado'].tolist()
print(f'\n   4. Estados con satisfacci√≥n bajo la media: {len(estados_baja_sat)}')
if estados_baja_sat:
    print(f'      Estados: {estados_baja_sat[:5]}')

print('\nüöÄ RECOMENDACIONES PARA EL DASHBOARD:')
print('   ‚úÖ Incluir KPIs destacados en la parte superior')
print('   ‚úÖ Visualizar top/bottom dimensiones de calidad para acci√≥n')
print('   ‚úÖ Mapa geogr√°fico para identificar regiones de oportunidad')
print('   ‚úÖ Segmentaci√≥n por antig√ºedad para estrategias diferenciadas')
print('   ‚úÖ An√°lisis de tendencias temporales si hay suficiente data hist√≥rica')

---

## 13. Preparaci√≥n de Datos para Dashboard

Exportar datasets limpios y procesados para uso en dashboards

In [None]:
# Exportar dataset limpio
df_limpio = df.copy()

# Calcular columnas adicionales √∫tiles para dashboard
df_limpio['indice_calidad_servicio'] = df[vars_calidad_servicio].mean(axis=1)
df_limpio['nps_categoria'] = pd.cut(df['nps'], bins=[0, 6, 8, 10], 
                                     labels=['Detractor', 'Pasivo', 'Promotor'])

# Exportar a CSV
df_limpio.to_csv('../datos/teleton_limpio.csv', index=False, encoding='utf-8-sig')

print('‚úÖ Dataset limpio exportado: datos/teleton_limpio.csv')
print(f'   - {len(df_limpio)} registros')
print(f'   - {len(df_limpio.columns)} columnas')

---

## üìö Resumen del Notebook

### ‚úÖ Tareas Completadas

1. ‚úÖ Carga y validaci√≥n del dataset (274 registros, 21 variables)
2. ‚úÖ Tratamiento de valores faltantes
3. ‚úÖ C√°lculo de todas las medidas estad√≠sticas requeridas:
   - Tendencia Central: Media, Mediana, Moda, Media Geom√©trica
   - Dispersi√≥n: Rango, Desviaci√≥n Est√°ndar, Varianza, IQR, CV
4. ‚úÖ Identificaci√≥n de outliers (m√©todo IQR)
5. ‚úÖ An√°lisis de variables categ√≥ricas
6. ‚úÖ C√°lculo de KPIs clave (NPS, √çndice Calidad, etc.)
7. ‚úÖ Generaci√≥n de visualizaciones exploratorias
8. ‚úÖ An√°lisis de correlaci√≥n entre dimensiones
9. ‚úÖ Segmentaci√≥n por estado, giro y antig√ºedad
10. ‚úÖ Documentaci√≥n de hallazgos y recomendaciones

### üìä Pr√≥ximos Pasos

- **Notebook 2:** Preparaci√≥n de datos para Streamlit
- **Notebook 3:** Preparaci√≥n de datos para Looker Studio / BigQuery
- **Dashboard:** Implementaci√≥n de visualizaciones interactivas

---

**Autor:** [Tu nombre]  
**Fecha:** [Fecha actual]  
**Curso:** CD2001B - Tec de Monterrey