In [3]:
import pandas as pd

# Cargar los archivos CSV
alumnos_df = pd.read_csv('csv/alumnos.csv')
carreras_df = pd.read_csv('csv/carreras.csv')
encuestas_df = pd.read_csv('csv/encuestas.csv')
grupos_df = pd.read_csv('csv/grupos.csv')
predicciones_df = pd.read_csv('csv/predicciones.csv')

# Función para mostrar información básica de los DataFrames
def mostrar_info(df, nombre):
    print(f"\nInformación de {nombre}:")
    print(f"Total de registros: {len(df)}")
    print("\nPrimeras filas:")
    print(df.head())
    print("\nColumnas disponibles:")
    print(df.columns.tolist())

# Mostrar información de cada DataFrame
mostrar_info(alumnos_df, "alumnos")
mostrar_info(carreras_df, "carreras")
mostrar_info(encuestas_df, "encuestas")
mostrar_info(grupos_df, "grupos")
mostrar_info(predicciones_df, "predicciones")

# Función para unir datos de alumnos con sus carreras y grupos
def unir_datos_alumnos(alumnos, carreras, grupos):
    # Primero unir alumnos con carreras
    merged = pd.merge(alumnos, carreras, left_on='id_carrera', right_on='_id', how='left')
    merged = merged.rename(columns={'nombre_y': 'nombre_carrera'})
    
    # Luego unir con grupos
    merged = pd.merge(merged, grupos, left_on='id_grupo', right_on='_id', how='left')
    merged = merged.rename(columns={'nombre': 'nombre_grupo'})
    
    # Seleccionar columnas relevantes
    resultado = merged[['id_alumno', 'nombre_x', 'app', 'apm', 'nombre_carrera', 'nombre_grupo']]
    return resultado.rename(columns={'nombre_x': 'nombre'})

# Unir datos de alumnos
alumnos_completos = unir_datos_alumnos(alumnos_df, carreras_df, grupos_df)
print("\nDatos completos de alumnos:")
print(alumnos_completos.head())

# Función para analizar encuestas
def analizar_encuestas(encuestas):
    # Filtrar encuestas completas (con correo)
    encuestas_completas = encuestas[encuestas['correo'].notna()]
    
    # Estadísticas básicas
    print(f"\nTotal de encuestas: {len(encuestas)}")
    print(f"Encuestas completas: {len(encuestas_completas)}")
    
    # Análisis por género
    if 'genero' in encuestas.columns:
        print("\nDistribución por género:")
        print(encuestas['genero'].value_counts())
    
    # Análisis por programa educativo
    if 'programa_educativo' in encuestas.columns:
        print("\nDistribución por programa educativo:")
        print(encuestas['programa_educativo'].value_counts())
    
    return encuestas_completas

# Analizar encuestas
encuestas_completas = analizar_encuestas(encuestas_df)

# Función para unir predicciones con alumnos
def unir_predicciones(predicciones, alumnos):
    # Verificar si hay datos válidos en id_alumno
    if predicciones['id_alumno'].isna().all():
        print("\nAdvertencia: No hay datos válidos en 'id_alumno' en las predicciones.")
        return pd.DataFrame(columns=['id_alumno', 'nombre', 'app', 'apm', 'riesgo'])
    
    # Convertir a tipo string para evitar problemas de tipo
    alumnos['id_alumno'] = alumnos['id_alumno'].astype(str)
    predicciones['id_alumno'] = predicciones['id_alumno'].astype(str)
    
    # Filtrar predicciones con id_alumno válido
    predicciones_validas = predicciones[predicciones['id_alumno'].notna()]
    
    # Unir con datos de alumnos
    merged = pd.merge(predicciones_validas, alumnos, on='id_alumno', how='left')
    
    # Seleccionar columnas relevantes
    resultado = merged[['id_alumno', 'nombre', 'app', 'apm', 'riesgo']]
    return resultado

# Unir predicciones
predicciones_alumnos = unir_predicciones(predicciones_df, alumnos_df)
print("\nPredicciones de riesgo por alumno:")
print(predicciones_alumnos.head())

# Guardar datos procesados
alumnos_completos.to_csv('alumnos_procesados.csv', index=False)
encuestas_completas.to_csv('encuestas_procesadas.csv', index=False)
predicciones_alumnos.to_csv('predicciones_procesadas.csv', index=False)


Información de alumnos:
Total de registros: 14

Primeras filas:
                        _id    nombre      app        apm  \
0  65e9f1c8a1b2c3d4e5f67932    Daniel  Mendoza      López   
1  65e9f1c8a1b2c3d4e5f67930      Luis    Gómez  Fernández   
2  65e9f1c8a1b2c3d4e5f67931   Hamblet    Ariel    Aguilar   
3  65e9f1c8a1b2c3d4e5f67933  Berenice  Anzaldo    Aguilar   
4  67e0fc8eff0a98cbb20b8de3      Juan      NaN        NaN   

                 id_carrera                  id_grupo  id_alumno  \
0  65e9f1c8a1b2c3d4e5f67910  65e9f1c8a1b2c3d4e5f67921  222210708   
1  65e9f1c8a1b2c3d4e5f67910  65e9f1c8a1b2c3d4e5f67920  222210709   
2  65e9f1c8a1b2c3d4e5f67910  65e9f1c8a1b2c3d4e5f67920  222210613   
3  65e9f1c8a1b2c3d4e5f67910  65e9f1c8a1b2c3d4e5f67921  222210689   
4  67d7a402693e07166103f482  67d7a45f693e07166103f485  222210636   

  apellido_paterno apellido_materno programa_educativo                curp  \
0              NaN              NaN                NaN                 NaN   
1  