<a href="https://colab.research.google.com/github/HesusG/diagnostico-lineas-accion/blob/main/Semana3/notebooks/02_analisis_datos_ong.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# An√°lisis Exploratorio de Datos de la ONG

**Curso:** CD2001B - Diagn√≥stico para L√≠neas de Acci√≥n  
**Semana 3:** √âtica, Compromiso Social y Diagn√≥stico Estrat√©gico  
**Objetivo:** Realizar an√°lisis exploratorio de los datos proporcionados por tu ONG socio formador

---

## üìã Contenido del Notebook

1. Carga y preparaci√≥n de datos
2. An√°lisis descriptivo b√°sico
3. Identificaci√≥n de variables clave (potenciales KPIs)
4. Visualizaciones exploratorias
5. Hallazgos preliminares
6. Preparaci√≥n para Actividad #1 Parte 2

## 1. Carga y Preparaci√≥n de Datos

### 1.1 Importar Librer√≠as

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

# Configuraci√≥n de visualizaciones
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
%matplotlib inline

# Configuraci√≥n pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.precision', 2)

print("‚úÖ Librer√≠as importadas correctamente")

### 1.2 Cargar Datos de la ONG

**IMPORTANTE:** Reemplaza la ruta con el archivo de datos que te proporcion√≥ tu ONG.

Los datos pueden estar en diferentes formatos:
- CSV: `pd.read_csv('ruta/archivo.csv')`
- Excel: `pd.read_excel('ruta/archivo.xlsx')`
- Google Sheets: Ver gu√≠a de conexi√≥n

**Ejemplo con datos simulados:**

In [None]:
# OPCI√ìN 1: Si tienes un archivo CSV de tu ONG
# df = pd.read_csv('ruta_a_tus_datos/datos_ong.csv')

# OPCI√ìN 2: Crear datos de ejemplo (elimina esto cuando tengas datos reales)
# Este ejemplo simula datos de un comedor comunitario
np.random.seed(42)
n_registros = 200

df_ejemplo = pd.DataFrame({
    'fecha': pd.date_range(start='2024-01-01', periods=n_registros, freq='D'),
    'beneficiario_id': np.arange(1, n_registros + 1),
    'edad': np.random.choice([5, 6, 7, 8, 9, 10, 11, 12], n_registros),
    'genero': np.random.choice(['F', 'M'], n_registros),
    'colonia': np.random.choice(['Centro', 'La Margarita', 'Analco', 'Los Remedios'], n_registros),
    'tipo_servicio': np.random.choice(['Desayuno', 'Comida', 'Ambos'], n_registros, p=[0.4, 0.3, 0.3]),
    'satisfaccion': np.random.randint(1, 11, n_registros),  # Escala 1-10
    'asistencia_mensual': np.random.randint(10, 31, n_registros),  # D√≠as asistidos en el mes
    'tiempo_espera_min': np.random.randint(5, 45, n_registros),
    'calidad_comida': np.random.randint(1, 11, n_registros)
})

df = df_ejemplo  # Reemplaza esto con tus datos reales

print(f"‚úÖ Datos cargados: {len(df)} registros, {len(df.columns)} variables")
print("\nüîç Primeras 5 filas:")
df.head()

### 1.3 Inspecci√≥n Inicial

In [None]:
# Informaci√≥n general del dataset
print("INFORMACI√ìN DEL DATASET")
print("="*70)
df.info()

print("\n" + "="*70)
print("ESTAD√çSTICAS DESCRIPTIVAS")
print("="*70)
df.describe()

In [None]:
# Verificar valores faltantes
print("VALORES FALTANTES")
print("="*70)
missing = df.isnull().sum()
missing_pct = (df.isnull().sum() / len(df)) * 100

missing_df = pd.DataFrame({
    'Valores Faltantes': missing,
    'Porcentaje (%)': missing_pct
})

missing_df = missing_df[missing_df['Valores Faltantes'] > 0].sort_values('Valores Faltantes', ascending=False)

if len(missing_df) > 0:
    print(missing_df)
    print("\n‚ö†Ô∏è Hay variables con valores faltantes. Considera estrategias de limpieza.")
else:
    print("‚úÖ No hay valores faltantes en el dataset")

## 2. An√°lisis Descriptivo por Variable

### 2.1 Variables Demogr√°ficas

In [None]:
# Distribuci√≥n por g√©nero (ajusta seg√∫n tus variables)
if 'genero' in df.columns or 'sexo' in df.columns:
    col_genero = 'genero' if 'genero' in df.columns else 'sexo'
    
    print("DISTRIBUCI√ìN POR G√âNERO")
    print("="*70)
    print(df[col_genero].value_counts())
    print(f"\nPorcentajes:")
    print(df[col_genero].value_counts(normalize=True) * 100)
    
    # Visualizaci√≥n
    fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 4))
    
    df[col_genero].value_counts().plot(kind='bar', ax=ax1, color=['#0062A4', '#009FDA'])
    ax1.set_title('Distribuci√≥n por G√©nero', fontsize=14, fontweight='bold')
    ax1.set_xlabel('G√©nero')
    ax1.set_ylabel('Frecuencia')
    ax1.tick_params(axis='x', rotation=0)
    
    df[col_genero].value_counts().plot(kind='pie', ax=ax2, autopct='%1.1f%%', 
                                        colors=['#0062A4', '#009FDA'])
    ax2.set_title('Proporci√≥n por G√©nero', fontsize=14, fontweight='bold')
    ax2.set_ylabel('')
    
    plt.tight_layout()
    plt.show()

In [None]:
# Distribuci√≥n por edad (ajusta seg√∫n tus variables)
if 'edad' in df.columns:
    print("DISTRIBUCI√ìN POR EDAD")
    print("="*70)
    print(df['edad'].describe())
    
    fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 5))
    
    # Histograma
    ax1.hist(df['edad'], bins=20, color='#0062A4', alpha=0.7, edgecolor='black')
    ax1.axvline(df['edad'].mean(), color='#FF6F31', linestyle='--', linewidth=2, label=f'Media: {df["edad"].mean():.1f}')
    ax1.axvline(df['edad'].median(), color='#8CC63F', linestyle='--', linewidth=2, label=f'Mediana: {df["edad"].median():.1f}')
    ax1.set_title('Distribuci√≥n de Edad', fontsize=14, fontweight='bold')
    ax1.set_xlabel('Edad')
    ax1.set_ylabel('Frecuencia')
    ax1.legend()
    ax1.grid(True, alpha=0.3)
    
    # Boxplot
    ax2.boxplot(df['edad'], vert=True)
    ax2.set_title('Boxplot de Edad', fontsize=14, fontweight='bold')
    ax2.set_ylabel('Edad')
    ax2.grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()

### 2.2 Variables de Calidad del Servicio (Potenciales KPIs)

In [None]:
# Identifica las variables que miden calidad del servicio
# Estas son candidatas a KPIs

# Ejemplo: Satisfacci√≥n
if 'satisfaccion' in df.columns:
    print("KPI POTENCIAL: SATISFACCI√ìN DEL BENEFICIARIO")
    print("="*70)
    print(f"Media: {df['satisfaccion'].mean():.2f}")
    print(f"Mediana: {df['satisfaccion'].median():.2f}")
    print(f"Desviaci√≥n Est√°ndar: {df['satisfaccion'].std():.2f}")
    print(f"M√≠nimo: {df['satisfaccion'].min()}")
    print(f"M√°ximo: {df['satisfaccion'].max()}")
    
    # Clasificaci√≥n por niveles
    df['nivel_satisfaccion'] = pd.cut(df['satisfaccion'], 
                                       bins=[0, 4, 7, 10], 
                                       labels=['Baja', 'Media', 'Alta'])
    
    print(f"\nDistribuci√≥n por nivel:")
    print(df['nivel_satisfaccion'].value_counts())
    print(f"\nPorcentaje con satisfacci√≥n Alta (>7): {(df['satisfaccion'] > 7).sum() / len(df) * 100:.1f}%")
    
    # Visualizaci√≥n
    fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 5))
    
    df['satisfaccion'].hist(bins=10, ax=ax1, color='#0062A4', edgecolor='black')
    ax1.axvline(df['satisfaccion'].mean(), color='#FF6F31', linestyle='--', linewidth=2, 
                label=f'Media: {df["satisfaccion"].mean():.2f}')
    ax1.set_title('Distribuci√≥n de Satisfacci√≥n', fontsize=14, fontweight='bold')
    ax1.set_xlabel('Nivel de Satisfacci√≥n (1-10)')
    ax1.set_ylabel('Frecuencia')
    ax1.legend()
    ax1.grid(True, alpha=0.3)
    
    df['nivel_satisfaccion'].value_counts().plot(kind='bar', ax=ax2, 
                                                  color=['#FF6F31', '#939598', '#8CC63F'])
    ax2.set_title('Satisfacci√≥n por Nivel', fontsize=14, fontweight='bold')
    ax2.set_xlabel('Nivel')
    ax2.set_ylabel('Frecuencia')
    ax2.tick_params(axis='x', rotation=0)
    
    plt.tight_layout()
    plt.show()

In [None]:
# Ejemplo: Tiempo de espera
if 'tiempo_espera_min' in df.columns or 'tiempo_espera' in df.columns:
    col_tiempo = 'tiempo_espera_min' if 'tiempo_espera_min' in df.columns else 'tiempo_espera'
    
    print("KPI POTENCIAL: TIEMPO DE ESPERA")
    print("="*70)
    print(f"Media: {df[col_tiempo].mean():.2f} minutos")
    print(f"Mediana: {df[col_tiempo].median():.2f} minutos")
    print(f"Desviaci√≥n Est√°ndar: {df[col_tiempo].std():.2f} minutos")
    print(f"\nPorcentaje con espera < 15 min: {(df[col_tiempo] < 15).sum() / len(df) * 100:.1f}%")
    print(f"Porcentaje con espera > 30 min: {(df[col_tiempo] > 30).sum() / len(df) * 100:.1f}%")
    
    # Visualizaci√≥n
    plt.figure(figsize=(12, 5))
    
    plt.subplot(1, 2, 1)
    plt.hist(df[col_tiempo], bins=20, color='#009FDA', alpha=0.7, edgecolor='black')
    plt.axvline(df[col_tiempo].mean(), color='#FF6F31', linestyle='--', linewidth=2, 
                label=f'Media: {df[col_tiempo].mean():.1f} min')
    plt.axvline(15, color='#8CC63F', linestyle=':', linewidth=2, label='Meta: 15 min')
    plt.title('Distribuci√≥n de Tiempo de Espera', fontsize=14, fontweight='bold')
    plt.xlabel('Tiempo (minutos)')
    plt.ylabel('Frecuencia')
    plt.legend()
    plt.grid(True, alpha=0.3)
    
    plt.subplot(1, 2, 2)
    plt.boxplot(df[col_tiempo])
    plt.title('Boxplot de Tiempo de Espera', fontsize=14, fontweight='bold')
    plt.ylabel('Tiempo (minutos)')
    plt.grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()

## 3. An√°lisis Cruzado

### 3.1 Satisfacci√≥n por Grupo Demogr√°fico

In [None]:
# Satisfacci√≥n por g√©nero
if 'satisfaccion' in df.columns and ('genero' in df.columns or 'sexo' in df.columns):
    col_genero = 'genero' if 'genero' in df.columns else 'sexo'
    
    print("SATISFACCI√ìN POR G√âNERO")
    print("="*70)
    satisfaccion_genero = df.groupby(col_genero)['satisfaccion'].agg(['mean', 'median', 'std', 'count'])
    print(satisfaccion_genero)
    
    # Prueba t para ver si hay diferencia significativa
    grupos = df[col_genero].unique()
    if len(grupos) == 2:
        grupo1 = df[df[col_genero] == grupos[0]]['satisfaccion']
        grupo2 = df[df[col_genero] == grupos[1]]['satisfaccion']
        t_stat, p_value = stats.ttest_ind(grupo1, grupo2)
        
        print(f"\nPrueba t independiente:")
        print(f"t = {t_stat:.3f}, p-valor = {p_value:.4f}")
        if p_value < 0.05:
            print("‚úÖ Hay diferencia SIGNIFICATIVA entre grupos (p < 0.05)")
        else:
            print("‚ùå NO hay diferencia significativa entre grupos (p >= 0.05)")
    
    # Visualizaci√≥n
    plt.figure(figsize=(10, 6))
    df.boxplot(column='satisfaccion', by=col_genero, figsize=(8, 6))
    plt.title('Satisfacci√≥n por G√©nero', fontsize=14, fontweight='bold')
    plt.suptitle('')  # Remove auto title
    plt.xlabel('G√©nero')
    plt.ylabel('Satisfacci√≥n (1-10)')
    plt.grid(True, alpha=0.3)
    plt.show()

In [None]:
# Satisfacci√≥n por ubicaci√≥n geogr√°fica
if 'satisfaccion' in df.columns and ('colonia' in df.columns or 'zona' in df.columns or 'municipio' in df.columns):
    col_ubicacion = next((col for col in ['colonia', 'zona', 'municipio'] if col in df.columns), None)
    
    if col_ubicacion:
        print(f"SATISFACCI√ìN POR {col_ubicacion.upper()}")
        print("="*70)
        satisfaccion_ubicacion = df.groupby(col_ubicacion)['satisfaccion'].agg(['mean', 'median', 'std', 'count'])
        satisfaccion_ubicacion = satisfaccion_ubicacion.sort_values('mean', ascending=False)
        print(satisfaccion_ubicacion)
        
        # Visualizaci√≥n
        plt.figure(figsize=(12, 6))
        satisfaccion_ubicacion['mean'].plot(kind='bar', color='#0062A4', alpha=0.7)
        plt.axhline(df['satisfaccion'].mean(), color='#FF6F31', linestyle='--', linewidth=2, 
                    label=f'Media general: {df["satisfaccion"].mean():.2f}')
        plt.title(f'Satisfacci√≥n Promedio por {col_ubicacion.title()}', fontsize=14, fontweight='bold')
        plt.xlabel(col_ubicacion.title())
        plt.ylabel('Satisfacci√≥n Promedio')
        plt.legend()
        plt.xticks(rotation=45, ha='right')
        plt.grid(True, alpha=0.3, axis='y')
        plt.tight_layout()
        plt.show()

### 3.2 Correlaciones entre Variables

In [None]:
# Matriz de correlaci√≥n para variables num√©ricas
numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist()

# Excluir IDs y fechas si existen
exclude_cols = [col for col in numeric_cols if 'id' in col.lower() or 'fecha' in col.lower()]
numeric_cols = [col for col in numeric_cols if col not in exclude_cols]

if len(numeric_cols) >= 2:
    print("MATRIZ DE CORRELACI√ìN")
    print("="*70)
    
    correlation_matrix = df[numeric_cols].corr()
    print(correlation_matrix)
    
    # Visualizaci√≥n
    plt.figure(figsize=(10, 8))
    sns.heatmap(correlation_matrix, annot=True, fmt='.2f', cmap='coolwarm', 
                center=0, vmin=-1, vmax=1, square=True, linewidths=1)
    plt.title('Matriz de Correlaci√≥n entre Variables', fontsize=14, fontweight='bold', pad=20)
    plt.tight_layout()
    plt.show()
    
    # Identificar correlaciones fuertes
    print("\n" + "="*70)
    print("CORRELACIONES FUERTES (|r| > 0.5):")
    print("="*70)
    
    strong_corr = []
    for i in range(len(correlation_matrix.columns)):
        for j in range(i+1, len(correlation_matrix.columns)):
            if abs(correlation_matrix.iloc[i, j]) > 0.5:
                strong_corr.append({
                    'Variable 1': correlation_matrix.columns[i],
                    'Variable 2': correlation_matrix.columns[j],
                    'Correlaci√≥n': correlation_matrix.iloc[i, j]
                })
    
    if strong_corr:
        strong_corr_df = pd.DataFrame(strong_corr).sort_values('Correlaci√≥n', key=abs, ascending=False)
        print(strong_corr_df.to_string(index=False))
    else:
        print("No se encontraron correlaciones fuertes entre variables.")

## 4. Identificaci√≥n de KPIs

Bas√°ndote en el an√°lisis anterior, identifica los KPIs m√°s relevantes para tu ONG.

In [None]:
# Plantilla para documentar KPIs identificados
kpis_identificados = [
    {
        'nombre': 'Satisfacci√≥n del Beneficiario',
        'variable': 'satisfaccion',
        'tipo': 'Calidad del servicio',
        'valor_actual': df['satisfaccion'].mean() if 'satisfaccion' in df.columns else 0,
        'meta_propuesta': 8.5,
        'justificacion': 'Indicador directo de percepci√≥n de calidad por parte de beneficiarios'
    },
    {
        'nombre': 'Tiempo de Espera Promedio',
        'variable': 'tiempo_espera_min',
        'tipo': 'Eficiencia operativa',
        'valor_actual': df['tiempo_espera_min'].mean() if 'tiempo_espera_min' in df.columns else 0,
        'meta_propuesta': 15,  # minutos
        'justificacion': 'Mide eficiencia del proceso y respeto al tiempo de beneficiarios'
    },
    # Agrega m√°s KPIs seg√∫n tu an√°lisis
]

print("KPIs IDENTIFICADOS")
print("="*70)
for i, kpi in enumerate(kpis_identificados, 1):
    print(f"\n{i}. {kpi['nombre']}")
    print(f"   Variable: {kpi['variable']}")
    print(f"   Tipo: {kpi['tipo']}")
    print(f"   Valor actual: {kpi['valor_actual']:.2f}")
    print(f"   Meta propuesta: {kpi['meta_propuesta']}")
    print(f"   Justificaci√≥n: {kpi['justificacion']}")

# Crear DataFrame para exportar
kpis_df = pd.DataFrame(kpis_identificados)
print("\n" + "="*70)
print("RESUMEN DE KPIs")
print("="*70)
print(kpis_df[['nombre', 'valor_actual', 'meta_propuesta']].to_string(index=False))

## 5. Hallazgos Preliminares

Documenta los hallazgos principales de tu an√°lisis.

In [None]:
hallazgos = """
HALLAZGOS PRINCIPALES DEL AN√ÅLISIS EXPLORATORIO
{'='*70}

1. PERFIL DE BENEFICIARIOS:
   - [Describe caracter√≠sticas demogr√°ficas principales]
   - [Menciona si hay segmentos claramente diferenciados]

2. CALIDAD DEL SERVICIO:
   - [Nivel de satisfacci√≥n general]
   - [Variables que m√°s impactan la satisfacci√≥n]
   - [√Åreas de oportunidad identificadas]

3. DIFERENCIAS POR GRUPO:
   - [Si hay diferencias por g√©nero, ubicaci√≥n, etc.]
   - [Cu√°les grupos tienen mejor/peor experiencia]

4. KPIS PRIORITARIOS:
   - [Lista los 3-5 KPIs m√°s importantes para esta ONG]
   - [Justifica por qu√© son prioritarios]

5. RECOMENDACIONES PRELIMINARES:
   - [Sugerencias basadas en los datos]
   - [√Åreas que requieren atenci√≥n inmediata]
"""

print(hallazgos)

# Opcional: Guardar hallazgos
# with open('hallazgos_preliminares.txt', 'w', encoding='utf-8') as f:
#     f.write(hallazgos)

## 6. Exportar Datos para Actividad #1 Parte 2

In [None]:
# Crear resumen para incluir en tu entregable
resumen_actividad = f"""
ACTIVIDAD #1 PARTE 2: DIAGN√ìSTICO ESTRAT√âGICO
ANEXO: AN√ÅLISIS DE DATOS
{'='*70}

DATASET ANALIZADO:
- N√∫mero de registros: {len(df)}
- Variables analizadas: {len(df.columns)}
- Periodo de datos: [Completa con fechas si aplica]

KPIs IDENTIFICADOS:
"""

for i, kpi in enumerate(kpis_identificados, 1):
    resumen_actividad += f"""
{i}. {kpi['nombre']}
   - Valor actual: {kpi['valor_actual']:.2f}
   - Meta propuesta: {kpi['meta_propuesta']}
   - Justificaci√≥n: {kpi['justificacion']}
"""

print(resumen_actividad)

# Guardar
# with open('resumen_analisis_datos.txt', 'w', encoding='utf-8') as f:
#     f.write(resumen_actividad)

## ‚úÖ Checklist de Completitud

Antes de continuar, verifica que has:

- [ ] Cargado y revisado los datos de tu ONG
- [ ] Identificado y tratado valores faltantes
- [ ] Analizado variables demogr√°ficas principales
- [ ] Analizado variables de calidad del servicio
- [ ] Realizado an√°lisis cruzado (satisfacci√≥n por grupos)
- [ ] Creado visualizaciones relevantes
- [ ] Identificado correlaciones importantes
- [ ] Documentado 3-5 KPIs prioritarios
- [ ] Redactado hallazgos preliminares
- [ ] Preparado resumen para Actividad #1 Parte 2

---

## üìö Pr√≥ximos Pasos

1. Completa tu **Actividad #1 Parte 2** con:
   - Diamante de Porter (ver `guias/guia_diamante_porter.md`)
   - Matriz BCG (ver `guias/guia_matriz_bcg.md`)
   - Customer Journey Map (ver `guias/guia_customer_journey_map.md`)
   - KPIs identificados en este an√°lisis

2. **Semana 4:** Crear√°s visualizaciones con Looker Studio bas√°ndote en estos KPIs

---

**üí° TIP:** Guarda este notebook con tus an√°lisis. Lo usar√°s en Semana 5 para el reporte final.
