# Análisis de Grupos por Grado y Centro Educativo

Este notebook analiza la distribución de grupos (ciclo_estudiantes) por grado educativo y centro, usando los datos del archivo UNION.xlsx.

In [None]:
# Importar librerías necesarias
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Configurar estilo de gráficos
plt.style.use('default')
sns.set_palette("husl")

print("Librerías importadas correctamente")

In [None]:
# Cargar los datos
try:
    df = pd.read_excel("TablasActuales/UNION.xlsx")
    print(f"✓ Datos cargados exitosamente")
    print(f"  - Filas: {len(df):,}")
    print(f"  - Columnas: {len(df.columns)}")
    
    # Mostrar información básica
    print(f"\nPrimeras 5 filas del dataset:")
    display(df.head())
    
except Exception as e:
    print(f"Error al cargar los datos: {e}")

In [None]:
# Verificar las columnas necesarias
columnas_necesarias = ['grado_estudiante', 'ciclo_estudiantes', 'id_centro_docente']

print("Verificando columnas necesarias:")
for col in columnas_necesarias:
    if col in df.columns:
        print(f"✓ {col}")
    else:
        print(f"✗ {col} - NO ENCONTRADA")

# Mostrar todas las columnas disponibles
print(f"\nTodas las columnas disponibles ({len(df.columns)}):")
for i, col in enumerate(df.columns, 1):
    print(f"{i:2d}. {col}")

# Verificar si podemos continuar
columnas_disponibles = all(col in df.columns for col in columnas_necesarias)
print(f"\n¿Podemos continuar con el análisis? {'✓ SÍ' if columnas_disponibles else '✗ NO'}")

In [None]:
# Análisis de grupos por grado
if columnas_disponibles:
    print("=== ANÁLISIS DE GRUPOS POR GRADO ===\n")
    
    # Contar grupos únicos por grado
    grupos_por_grado = df.groupby('grado_estudiante')['ciclo_estudiantes'].nunique().sort_index()
    
    print("Número de grupos por grado:")
    for grado, num_grupos in grupos_por_grado.items():
        print(f"  Grado {grado}: {num_grupos} grupos")
    
    print(f"\nTotal de grupos únicos: {df['ciclo_estudiantes'].nunique()}")
    
    # Crear gráfico
    plt.figure(figsize=(8, 6))
    grupos_por_grado.plot(kind='bar', color='skyblue', edgecolor='black')
    plt.title('Número de Grupos por Grado', fontsize=14, fontweight='bold')
    plt.xlabel('Grado')
    plt.ylabel('Número de Grupos')
    plt.xticks(rotation=0)
    plt.grid(axis='y', alpha=0.3)
    plt.tight_layout()
    plt.show()
    
else:
    print("No se puede realizar el análisis - faltan columnas necesarias")

In [None]:
# Análisis de grupos por centro educativo
if columnas_disponibles:
    print("=== ANÁLISIS DE GRUPOS POR CENTRO EDUCATIVO ===\n")
    
    # Contar grupos únicos por centro
    grupos_por_centro = df.groupby('id_centro_docente')['ciclo_estudiantes'].nunique().sort_values(ascending=False)
    
    print("Top 10 centros con más grupos:")
    for i, (centro, num_grupos) in enumerate(grupos_por_centro.head(10).items(), 1):
        print(f"{i:2d}. Centro {centro}: {num_grupos} grupos")
    
    print(f"\nCentros con menos grupos:")
    print(f"Mínimo: {grupos_por_centro.min()} grupos")
    print(f"Centros con 1 solo grupo: {(grupos_por_centro == 1).sum()}")
    
    # Crear gráfico
    plt.figure(figsize=(12, 6))
    grupos_por_centro.head(15).plot(kind='bar', color='lightcoral', edgecolor='black')
    plt.title('Top 15 Centros por Número de Grupos', fontsize=14, fontweight='bold')
    plt.xlabel('ID Centro Docente')
    plt.ylabel('Número de Grupos')
    plt.xticks(rotation=45)
    plt.grid(axis='y', alpha=0.3)
    plt.tight_layout()
    plt.show()
    
else:
    print("No se puede realizar el análisis - faltan columnas necesarias")

In [None]:
# Estadísticas resumen
if columnas_disponibles:
    print("=== ESTADÍSTICAS RESUMEN ===\n")
    
    total_centros = df['id_centro_docente'].nunique()
    total_grados = df['grado_estudiante'].nunique()
    total_grupos = df['ciclo_estudiantes'].nunique()
    promedio_grupos_centro = grupos_por_centro.mean()
    
    print(f"📊 Estadísticas Generales:")
    print(f"   • Total de centros educativos: {total_centros}")
    print(f"   • Total de grados diferentes: {total_grados}")
    print(f"   • Total de grupos únicos: {total_grupos}")
    print(f"   • Promedio de grupos por centro: {promedio_grupos_centro:.1f}")
    
    print(f"\n📈 Distribución de Grupos por Centro:")
    print(f"   • Centro con más grupos: {grupos_por_centro.index[0]} ({grupos_por_centro.iloc[0]} grupos)")
    print(f"   • Centro con menos grupos: {grupos_por_centro.index[-1]} ({grupos_por_centro.iloc[-1]} grupos)")
    print(f"   • Mediana de grupos por centro: {grupos_por_centro.median():.1f}")
    
    # Verificar si hay grupos mixtos (estudiantes de diferentes grados)
    print(f"\n🔍 Verificación de Grupos Mixtos:")
    grupos_mixtos = df.groupby('ciclo_estudiantes')['grado_estudiante'].nunique()
    grupos_con_multiple_grado = grupos_mixtos[grupos_mixtos > 1]
    
    if len(grupos_con_multiple_grado) > 0:
        print(f"   ⚠️  Hay {len(grupos_con_multiple_grado)} grupos con estudiantes de múltiples grados")
    else:
        print(f"   ✓ Todos los grupos tienen estudiantes del mismo grado")
        
else:
    print("No se puede generar el resumen - faltan columnas necesarias")

In [None]:
# Visualizaciones adicionales
if columnas_disponibles:
    print("=== VISUALIZACIONES ADICIONALES ===\n")
    
    # Crear subplots
    fig, axes = plt.subplots(2, 2, figsize=(15, 12))
    
    # 1. Distribución de grupos por centro (histograma)
    axes[0, 0].hist(grupos_por_centro, bins=15, color='lightblue', edgecolor='black', alpha=0.7)
    axes[0, 0].set_title('Distribución de Grupos por Centro', fontweight='bold')
    axes[0, 0].set_xlabel('Número de Grupos')
    axes[0, 0].set_ylabel('Número de Centros')
    axes[0, 0].grid(alpha=0.3)
    
    # 2. Grados vs número de grupos (barras)
    grupos_por_grado.plot(kind='bar', ax=axes[0, 1], color='lightgreen', edgecolor='black')
    axes[0, 1].set_title('Grupos por Grado Educativo', fontweight='bold')
    axes[0, 1].set_xlabel('Grado')
    axes[0, 1].set_ylabel('Número de Grupos')
    axes[0, 1].tick_params(axis='x', rotation=0)
    axes[0, 1].grid(axis='y', alpha=0.3)
    
    # 3. Top centros (horizontal)
    top_centros = grupos_por_centro.head(10)
    axes[1, 0].barh(range(len(top_centros)), top_centros.values, color='salmon', edgecolor='black')
    axes[1, 0].set_yticks(range(len(top_centros)))
    axes[1, 0].set_yticklabels([f'Centro {c}' for c in top_centros.index])
    axes[1, 0].set_title('Top 10 Centros por Número de Grupos', fontweight='bold')
    axes[1, 0].set_xlabel('Número de Grupos')
    axes[1, 0].grid(axis='x', alpha=0.3)
    
    # 4. Box plot de distribución
    axes[1, 1].boxplot(grupos_por_centro, patch_artist=True, 
                       boxprops=dict(facecolor='lightcyan', alpha=0.7))
    axes[1, 1].set_title('Distribución de Grupos por Centro (Box Plot)', fontweight='bold')
    axes[1, 1].set_ylabel('Número de Grupos')
    axes[1, 1].grid(alpha=0.3)
    
    plt.tight_layout()
    plt.show()
    
else:
    print("No se pueden crear las visualizaciones - faltan columnas necesarias")