In [19]:
# 1. Importar librerías
import pandas as pd

# 2. Cargar los archivos CSV
try:
    alumnos = pd.read_csv('csv/alumnos.csv')
    carreras = pd.read_csv('csv/carreras.csv')
    predicciones = pd.read_csv('csv/predicciones.csv')
except FileNotFoundError as e:
    print(f"Error: No se encontró el archivo {e}. Asegúrate de que los archivos estén en la carpeta 'csv'.")
    raise

# 3. Eliminar duplicados en alumnos basándose en id_alumno
alumnos = alumnos.drop_duplicates(subset='id_alumno')

# 4. Renombrar columnas para evitar conflictos
alumnos.rename(columns={'nombre': 'nombre_alumno'}, inplace=True)
carreras.rename(columns={'nombre': 'nombre_carrera'}, inplace=True)

# 5. Unir alumnos con carreras usando id_carrera
alumnos_carreras = pd.merge(alumnos, carreras, left_on='id_carrera', right_on='_id', how='left')

# 6. Convertir id_alumno a tipo numérico (int64) para evitar errores
alumnos_carreras['id_alumno'] = pd.to_numeric(alumnos_carreras['id_alumno'], errors='coerce').astype('Int64')
predicciones['id_alumno'] = pd.to_numeric(predicciones['id_alumno'], errors='coerce').astype('Int64')

# 7. Unir con predicciones usando id_alumno
df_final = pd.merge(alumnos_carreras, predicciones, on='id_alumno', how='left')

# 8. Rellenar valores nulos en riesgo
df_final['riesgo'] = df_final['riesgo'].fillna('Sin riesgo')

# 9. Mostrar las primeras filas del DataFrame final
print("Primeras filas del DataFrame final:")
print(df_final[['id_alumno', 'nombre_alumno', 'nombre_carrera', 'riesgo']].head())

# 10. Verificar los nombres de carrera y riesgo disponibles
print("\nNombres de carreras disponibles:")
print(df_final['nombre_carrera'].unique())

print("\nNiveles de riesgo disponibles:")
print(df_final['riesgo'].unique())

# 11. Filtrar alumnos de 'Ingeniería en Desarrollo y Gestion de Software' con riesgo 'Bajo'
print("\nFiltrar alumnos de una carrera con riesgo Bajo:")
df_filtrado = df_final[
    (df_final['nombre_carrera'] == 'Ingeniería en Desarrollo y Gestion de Software') &
    (df_final['riesgo'] == 'Bajo')
]
print(df_filtrado[['id_alumno', 'nombre_alumno', 'nombre_carrera', 'riesgo']])

# 12. Conteo de alumnos filtrados por carrera y riesgo
print("\nConteo de alumnos filtrados por carrera y riesgo:")
conteo = df_final[
    (df_final['nombre_carrera'] == 'Ingeniería en Desarrollo y Gestion de Software') &
    (df_final['riesgo'] == 'Bajo')
].value_counts('nombre_carrera')
print(conteo)

# 13. Filtrar alumnos sin riesgo asignado
print("\nFiltrar alumnos sin riesgo asignado:")
df_sin_riesgo = df_final[df_final['riesgo'] == 'Sin riesgo']
print(df_sin_riesgo[['id_alumno', 'nombre_alumno', 'nombre_carrera', 'riesgo']].head())

# 14. Filtrar alumnos de 'Ingeniería en Desarrollo y Gestion de Software' con id_alumno <= 220230
print("\nFiltrar alumnos de una carrera con id_alumno <= 220230:")
df_filtrado_carrera_id = df_final[
    (df_final['nombre_carrera'] == 'Ingeniería en Desarrollo y Gestion de Software') &
    (df_final['id_alumno'] <= 220230)
]
print(df_filtrado_carrera_id[['id_alumno', 'nombre_alumno', 'nombre_carrera']])

Primeras filas del DataFrame final:
   id_alumno nombre_alumno                                  nombre_carrera  \
0  222210708        Daniel  Ingeniería en Desarrollo y Gestion de Software   
1  222210709          Luis  Ingeniería en Desarrollo y Gestion de Software   
2  222210613       Hamblet  Ingeniería en Desarrollo y Gestion de Software   
3  222210689      Berenice  Ingeniería en Desarrollo y Gestion de Software   
4  222210636          Juan  Ingeniería en Desarrollo y Gestion de Software   

       riesgo  
0  Sin riesgo  
1  Sin riesgo  
2  Sin riesgo  
3  Sin riesgo  
4        Bajo  

Nombres de carreras disponibles:
['Ingeniería en Desarrollo y Gestion de Software'
 'Ingeniería en Redes Inteligentes y Ciberseguridad']

Niveles de riesgo disponibles:
['Sin riesgo' 'Bajo']

Filtrar alumnos de una carrera con riesgo Bajo:
   id_alumno nombre_alumno                                  nombre_carrera  \
4  222210636          Juan  Ingeniería en Desarrollo y Gestion de Software   
5 