<a href="https://colab.research.google.com/github/AndrewHerrada/Timetabling/blob/main/Tablas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import pandas as pd

In [2]:
# Rutas relativas a los archivos dentro de la carpeta "db"
ruta_archivo1 = "db/tablas_procesadas/Materia.xlsx"  
ruta_archivo2 = "db/tablas_procesadas/Detalle_materia.xlsx"  

In [3]:
df_materias = pd.read_excel(ruta_archivo1, engine='openpyxl')
df_detalle_materia = pd.read_excel(ruta_archivo2, engine='openpyxl')

In [4]:
# Realizar el merge (login) usando "materia_id" como clave
df_merged = pd.merge(
    df_materias,         # Tabla izquierda (materias)
    df_detalle_materia, # Detalle solo de las regulares
    on="materia_id",     # Columna común
    how="inner"          # Tipo de join (inner para datos que coincidan en ambas tablas)
)

# Mostrar las primeras filas del resultado
print(df_merged.head())

  materia_id         nombre_materia  horas_semanales_tipicas tipo_materia  \
0  CI-IC-001         Canto Infantil                        2      Regular   
1  CI-IC-001         Canto Infantil                        2      Regular   
2  TC-IC-001                Teclado                        2      Regular   
3  TC-IC-001                Teclado                        2      Regular   
4  CA-IC-001  Creatividad Artistica                        2      Regular   

  seccion  cantidad_docente  requisito_id   curso_id  frecuencia_semanal  \
0   Todos                 2         25001  1°Inf (A)                   2   
1   Todos                 2         25006  1°Inf (B)                   2   
2   Todos                 1         25002  1°Inf (A)                   2   
3   Todos                 1         25007  1°Inf (B)                   2   
4   Todos                 1         25003  1°Inf (A)                   2   

   duracion_sesion_horas  
0                      1  
1                      1  

In [5]:
df_merged

Unnamed: 0,materia_id,nombre_materia,horas_semanales_tipicas,tipo_materia,seccion,cantidad_docente,requisito_id,curso_id,frecuencia_semanal,duracion_sesion_horas
0,CI-IC-001,Canto Infantil,2,Regular,Todos,2,25001,1°Inf (A),2,1
1,CI-IC-001,Canto Infantil,2,Regular,Todos,2,25006,1°Inf (B),2,1
2,TC-IC-001,Teclado,2,Regular,Todos,1,25002,1°Inf (A),2,1
3,TC-IC-001,Teclado,2,Regular,Todos,1,25007,1°Inf (B),2,1
4,CA-IC-001,Creatividad Artistica,2,Regular,Todos,1,25003,1°Inf (A),2,1
...,...,...,...,...,...,...,...,...,...,...
145,OCB,Orquesta de Cuerdas (B),4,Orquestal,Cuerda,1,35008,Orquestal,2,2
146,OGB,Orquesta de Guitarras (B),4,Orquestal,Guitarra,1,35009,Orquestal,2,2
147,OVB,Orquesta de Vientos (B),4,Orquestal,Piano,1,35010,Orquestal,2,2
148,OPB,Orquestas de Precusion (B),2,Orquestal,Percusion,1,35011,Orquestal,1,2


In [6]:
print("Filas en df_merged:", len(df_merged))

Filas en df_merged: 150


No hay existencia de filas duplicadas

In [7]:
print(df_merged.isnull().sum())

materia_id                 0
nombre_materia             0
horas_semanales_tipicas    0
tipo_materia               0
seccion                    0
cantidad_docente           0
requisito_id               0
curso_id                   0
frecuencia_semanal         0
duracion_sesion_horas      0
dtype: int64


No hay valores nulos

In [8]:
ruta_archivo3 = "db/tablas_procesadas/Dia_operativo_curso.xlsx"
df_dia_operativo = pd.read_excel(ruta_archivo3, engine='openpyxl')

In [9]:
df_merged2 = pd.merge(
    df_merged,       # DataFrame combinado anteriormente (materias + requisitos)
    df_dia_operativo,         # Nueva tabla de dia_operativo
    on="curso_id",   # Columna común
    how="left"       # Mantener todos los registros de df_merged, incluso si no hay coincidencia en días
)

In [10]:
df_merged2

Unnamed: 0,materia_id,nombre_materia,horas_semanales_tipicas,tipo_materia,seccion,cantidad_docente,requisito_id,curso_id,frecuencia_semanal,duracion_sesion_horas,lunes,martes,miercoles,jueves,viernes
0,CI-IC-001,Canto Infantil,2,Regular,Todos,2,25001,1°Inf (A),2,1,False,True,True,True,False
1,CI-IC-001,Canto Infantil,2,Regular,Todos,2,25006,1°Inf (B),2,1,False,True,True,True,False
2,TC-IC-001,Teclado,2,Regular,Todos,1,25002,1°Inf (A),2,1,False,True,True,True,False
3,TC-IC-001,Teclado,2,Regular,Todos,1,25007,1°Inf (B),2,1,False,True,True,True,False
4,CA-IC-001,Creatividad Artistica,2,Regular,Todos,1,25003,1°Inf (A),2,1,False,True,True,True,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
145,OCB,Orquesta de Cuerdas (B),4,Orquestal,Cuerda,1,35008,Orquestal,2,2,False,True,False,True,False
146,OGB,Orquesta de Guitarras (B),4,Orquestal,Guitarra,1,35009,Orquestal,2,2,False,True,False,True,False
147,OVB,Orquesta de Vientos (B),4,Orquestal,Piano,1,35010,Orquestal,2,2,False,True,False,True,False
148,OPB,Orquestas de Precusion (B),2,Orquestal,Percusion,1,35011,Orquestal,1,2,False,True,False,True,False


In [11]:
# Verificar si hay cursos en df_merged que no están en df_dias
cursos_sin_dias = df_merged[~df_merged["curso_id"].isin(df_dia_operativo["curso_id"])]
print("Cursos sin datos de días:", len(cursos_sin_dias))

Cursos sin datos de días: 0


In [12]:
print(df_merged2[["curso_id", "lunes", "martes"]].isnull().sum())

curso_id    0
lunes       0
martes      0
dtype: int64


No hay valores nulos

In [13]:
ruta_archivo4 = "db/tablas_procesadas/Clase_compartida.xlsx"
df_clase_compartida = pd.read_excel(ruta_archivo4, engine='openpyxl')

In [14]:
df_clase_compartida

Unnamed: 0,materia_id,clase_compartida
0,CJ-ITC-001,Practica Coral (CJ)
1,CJ-ITC-002,Practica Coral (CJ)
2,CJ-IMC-001,Practica Coral (CJ)
3,CJ-IMC-002,Practica Coral (CJ)
4,CJ-IMC-003,Practica Coral (CJ)
5,OF-BC-001,Orquesta Folklorica (A)
6,OF-BC-002,Orquesta Folklorica (A)
7,OF-BC-003,Orquesta Folklorica (A)
8,OF-ITC-001,Orquesta Folklorica (A)
9,OF-ITC-002,Orquesta Folklorica (A)


Duplicados en df_clase_compartida: Hay filas repetidas (ej: PC-ITC-001 aparece dos veces).

In [15]:
df_clase_compartida = df_clase_compartida.drop_duplicates(subset="materia_id")

In [16]:
# Realizar el merge usando "materia_id" (asumo que "clase_id" se relaciona con "materia_id")
df_merged3 = pd.merge(
    df_merged2,                        # DataFrame anterior (con materias + requisitos + días)
    df_clase_compartida,             # DataFrame de clases compartidas
    on="materia_id",                 # Columna común (materia_id)
    how="left"                       # Mantener todas las filas del DataFrame izquierdo
)

# Asignar "Individual" a las filas sin coincidencia en "clase_id"
df_merged3["clase_compartida"] = df_merged3["clase_compartida"].fillna("Individual")

In [17]:
df_merged3

Unnamed: 0,materia_id,nombre_materia,horas_semanales_tipicas,tipo_materia,seccion,cantidad_docente,requisito_id,curso_id,frecuencia_semanal,duracion_sesion_horas,lunes,martes,miercoles,jueves,viernes,clase_compartida
0,CI-IC-001,Canto Infantil,2,Regular,Todos,2,25001,1°Inf (A),2,1,False,True,True,True,False,Individual
1,CI-IC-001,Canto Infantil,2,Regular,Todos,2,25006,1°Inf (B),2,1,False,True,True,True,False,Individual
2,TC-IC-001,Teclado,2,Regular,Todos,1,25002,1°Inf (A),2,1,False,True,True,True,False,Individual
3,TC-IC-001,Teclado,2,Regular,Todos,1,25007,1°Inf (B),2,1,False,True,True,True,False,Individual
4,CA-IC-001,Creatividad Artistica,2,Regular,Todos,1,25003,1°Inf (A),2,1,False,True,True,True,False,Individual
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
145,OCB,Orquesta de Cuerdas (B),4,Orquestal,Cuerda,1,35008,Orquestal,2,2,False,True,False,True,False,Individual
146,OGB,Orquesta de Guitarras (B),4,Orquestal,Guitarra,1,35009,Orquestal,2,2,False,True,False,True,False,Individual
147,OVB,Orquesta de Vientos (B),4,Orquestal,Piano,1,35010,Orquestal,2,2,False,True,False,True,False,Individual
148,OPB,Orquestas de Precusion (B),2,Orquestal,Percusion,1,35011,Orquestal,1,2,False,True,False,True,False,Individual


In [18]:
df_merged3

Unnamed: 0,materia_id,nombre_materia,horas_semanales_tipicas,tipo_materia,seccion,cantidad_docente,requisito_id,curso_id,frecuencia_semanal,duracion_sesion_horas,lunes,martes,miercoles,jueves,viernes,clase_compartida
0,CI-IC-001,Canto Infantil,2,Regular,Todos,2,25001,1°Inf (A),2,1,False,True,True,True,False,Individual
1,CI-IC-001,Canto Infantil,2,Regular,Todos,2,25006,1°Inf (B),2,1,False,True,True,True,False,Individual
2,TC-IC-001,Teclado,2,Regular,Todos,1,25002,1°Inf (A),2,1,False,True,True,True,False,Individual
3,TC-IC-001,Teclado,2,Regular,Todos,1,25007,1°Inf (B),2,1,False,True,True,True,False,Individual
4,CA-IC-001,Creatividad Artistica,2,Regular,Todos,1,25003,1°Inf (A),2,1,False,True,True,True,False,Individual
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
145,OCB,Orquesta de Cuerdas (B),4,Orquestal,Cuerda,1,35008,Orquestal,2,2,False,True,False,True,False,Individual
146,OGB,Orquesta de Guitarras (B),4,Orquestal,Guitarra,1,35009,Orquestal,2,2,False,True,False,True,False,Individual
147,OVB,Orquesta de Vientos (B),4,Orquestal,Piano,1,35010,Orquestal,2,2,False,True,False,True,False,Individual
148,OPB,Orquestas de Precusion (B),2,Orquestal,Percusion,1,35011,Orquestal,1,2,False,True,False,True,False,Individual


In [19]:
ruta_archivo4 = "db/tablas_procesadas/Curso.xlsx"
df_curso = pd.read_excel(ruta_archivo4, engine='openpyxl')

In [20]:
df_final = pd.merge(
    df_merged3,                  # DataFrame con toda la información previa
    df_curso,        # Nueva tabla de horarios de cursos
    on="curso_id",             # Columna común
    how="left"                 # Mantener todos los registros de df_final
)

In [21]:
df_final

Unnamed: 0,materia_id,nombre_materia,horas_semanales_tipicas,tipo_materia,seccion,cantidad_docente,requisito_id,curso_id,frecuencia_semanal,duracion_sesion_horas,...,martes,miercoles,jueves,viernes,clase_compartida,nombre_curso,nivel,horario_entrada,horario_salida,inscritos
0,CI-IC-001,Canto Infantil,2,Regular,Todos,2,25001,1°Inf (A),2,1,...,True,True,True,False,Individual,1°Infantil (A),Infantil,15:00:00,18:00:00,15
1,CI-IC-001,Canto Infantil,2,Regular,Todos,2,25006,1°Inf (B),2,1,...,True,True,True,False,Individual,1°Infantil (B),Infantil,15:00:00,18:00:00,15
2,TC-IC-001,Teclado,2,Regular,Todos,1,25002,1°Inf (A),2,1,...,True,True,True,False,Individual,1°Infantil (A),Infantil,15:00:00,18:00:00,15
3,TC-IC-001,Teclado,2,Regular,Todos,1,25007,1°Inf (B),2,1,...,True,True,True,False,Individual,1°Infantil (B),Infantil,15:00:00,18:00:00,15
4,CA-IC-001,Creatividad Artistica,2,Regular,Todos,1,25003,1°Inf (A),2,1,...,True,True,True,False,Individual,1°Infantil (A),Infantil,15:00:00,18:00:00,15
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
145,OCB,Orquesta de Cuerdas (B),4,Orquestal,Cuerda,1,35008,Orquestal,2,2,...,True,False,True,False,Individual,Orquesta,3°Ini-3°Int,15:00:00,21:00:00,200
146,OGB,Orquesta de Guitarras (B),4,Orquestal,Guitarra,1,35009,Orquestal,2,2,...,True,False,True,False,Individual,Orquesta,3°Ini-3°Int,15:00:00,21:00:00,200
147,OVB,Orquesta de Vientos (B),4,Orquestal,Piano,1,35010,Orquestal,2,2,...,True,False,True,False,Individual,Orquesta,3°Ini-3°Int,15:00:00,21:00:00,200
148,OPB,Orquestas de Precusion (B),2,Orquestal,Percusion,1,35011,Orquestal,1,2,...,True,False,True,False,Individual,Orquesta,3°Ini-3°Int,15:00:00,21:00:00,200


In [22]:
cursos_sin_horario = df_final[df_final["nombre_curso"].isnull()]
print("Cursos sin horario registrado:", len(cursos_sin_horario))

Cursos sin horario registrado: 0


No existen valores nulos

In [23]:
df_final

Unnamed: 0,materia_id,nombre_materia,horas_semanales_tipicas,tipo_materia,seccion,cantidad_docente,requisito_id,curso_id,frecuencia_semanal,duracion_sesion_horas,...,martes,miercoles,jueves,viernes,clase_compartida,nombre_curso,nivel,horario_entrada,horario_salida,inscritos
0,CI-IC-001,Canto Infantil,2,Regular,Todos,2,25001,1°Inf (A),2,1,...,True,True,True,False,Individual,1°Infantil (A),Infantil,15:00:00,18:00:00,15
1,CI-IC-001,Canto Infantil,2,Regular,Todos,2,25006,1°Inf (B),2,1,...,True,True,True,False,Individual,1°Infantil (B),Infantil,15:00:00,18:00:00,15
2,TC-IC-001,Teclado,2,Regular,Todos,1,25002,1°Inf (A),2,1,...,True,True,True,False,Individual,1°Infantil (A),Infantil,15:00:00,18:00:00,15
3,TC-IC-001,Teclado,2,Regular,Todos,1,25007,1°Inf (B),2,1,...,True,True,True,False,Individual,1°Infantil (B),Infantil,15:00:00,18:00:00,15
4,CA-IC-001,Creatividad Artistica,2,Regular,Todos,1,25003,1°Inf (A),2,1,...,True,True,True,False,Individual,1°Infantil (A),Infantil,15:00:00,18:00:00,15
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
145,OCB,Orquesta de Cuerdas (B),4,Orquestal,Cuerda,1,35008,Orquestal,2,2,...,True,False,True,False,Individual,Orquesta,3°Ini-3°Int,15:00:00,21:00:00,200
146,OGB,Orquesta de Guitarras (B),4,Orquestal,Guitarra,1,35009,Orquestal,2,2,...,True,False,True,False,Individual,Orquesta,3°Ini-3°Int,15:00:00,21:00:00,200
147,OVB,Orquesta de Vientos (B),4,Orquestal,Piano,1,35010,Orquestal,2,2,...,True,False,True,False,Individual,Orquesta,3°Ini-3°Int,15:00:00,21:00:00,200
148,OPB,Orquestas de Precusion (B),2,Orquestal,Percusion,1,35011,Orquestal,1,2,...,True,False,True,False,Individual,Orquesta,3°Ini-3°Int,15:00:00,21:00:00,200


In [24]:
# Rellenar nulos en columnas críticas
df_final["clase_compartida"] = df_final["clase_compartida"].fillna("Individual")
df_final["nombre_curso"] = df_final["nombre_curso"].fillna("Curso no definido")

In [25]:
# Eliminar filas duplicadas (si las hay)
df_final = df_final.drop_duplicates()

In [26]:
# Lista de columnas de días
columnas_dias = ["lunes", "martes", "miercoles", "jueves", "viernes"]

# Convertir True -> 1 y False -> 0
df_final[columnas_dias] = df_final[columnas_dias].astype(int)

# Verificar el resultado
print(df_final[columnas_dias].head())

   lunes  martes  miercoles  jueves  viernes
0      0       1          1       1        0
1      0       1          1       1        0
2      0       1          1       1        0
3      0       1          1       1        0
4      0       1          1       1        0


In [27]:
df_final

Unnamed: 0,materia_id,nombre_materia,horas_semanales_tipicas,tipo_materia,seccion,cantidad_docente,requisito_id,curso_id,frecuencia_semanal,duracion_sesion_horas,...,martes,miercoles,jueves,viernes,clase_compartida,nombre_curso,nivel,horario_entrada,horario_salida,inscritos
0,CI-IC-001,Canto Infantil,2,Regular,Todos,2,25001,1°Inf (A),2,1,...,1,1,1,0,Individual,1°Infantil (A),Infantil,15:00:00,18:00:00,15
1,CI-IC-001,Canto Infantil,2,Regular,Todos,2,25006,1°Inf (B),2,1,...,1,1,1,0,Individual,1°Infantil (B),Infantil,15:00:00,18:00:00,15
2,TC-IC-001,Teclado,2,Regular,Todos,1,25002,1°Inf (A),2,1,...,1,1,1,0,Individual,1°Infantil (A),Infantil,15:00:00,18:00:00,15
3,TC-IC-001,Teclado,2,Regular,Todos,1,25007,1°Inf (B),2,1,...,1,1,1,0,Individual,1°Infantil (B),Infantil,15:00:00,18:00:00,15
4,CA-IC-001,Creatividad Artistica,2,Regular,Todos,1,25003,1°Inf (A),2,1,...,1,1,1,0,Individual,1°Infantil (A),Infantil,15:00:00,18:00:00,15
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
145,OCB,Orquesta de Cuerdas (B),4,Orquestal,Cuerda,1,35008,Orquestal,2,2,...,1,0,1,0,Individual,Orquesta,3°Ini-3°Int,15:00:00,21:00:00,200
146,OGB,Orquesta de Guitarras (B),4,Orquestal,Guitarra,1,35009,Orquestal,2,2,...,1,0,1,0,Individual,Orquesta,3°Ini-3°Int,15:00:00,21:00:00,200
147,OVB,Orquesta de Vientos (B),4,Orquestal,Piano,1,35010,Orquestal,2,2,...,1,0,1,0,Individual,Orquesta,3°Ini-3°Int,15:00:00,21:00:00,200
148,OPB,Orquestas de Precusion (B),2,Orquestal,Percusion,1,35011,Orquestal,1,2,...,1,0,1,0,Individual,Orquesta,3°Ini-3°Int,15:00:00,21:00:00,200


In [28]:
# Eliminar columnas no necesarias
df_final = df_final.drop(columns="nombre_curso") 

# Verificar las columnas restantes
print("Columnas finales:", df_final.columns.tolist())

Columnas finales: ['materia_id', 'nombre_materia', 'horas_semanales_tipicas', 'tipo_materia', 'seccion', 'cantidad_docente', 'requisito_id', 'curso_id', 'frecuencia_semanal', 'duracion_sesion_horas', 'lunes', 'martes', 'miercoles', 'jueves', 'viernes', 'clase_compartida', 'nivel', 'horario_entrada', 'horario_salida', 'inscritos']


In [29]:
columnas = [
    'requisito_id', 
    'curso_id',
    'materia_id', 
    'nivel',
    'inscritos',  
    'nombre_materia',
    'cantidad_docente',
    'seccion',
    'clase_compartida', 
    'tipo_materia', 
    'horas_semanales_tipicas',
    'frecuencia_semanal',
    'duracion_sesion_horas',
    'horario_entrada', 
    'horario_salida', 
    'lunes', 
    'martes', 
    'miercoles', 
    'jueves', 
    'viernes',    
]

# Reordenar el DataFrame
df_final = df_final[columnas]

In [30]:
df_final

Unnamed: 0,requisito_id,curso_id,materia_id,nivel,inscritos,nombre_materia,cantidad_docente,seccion,clase_compartida,tipo_materia,horas_semanales_tipicas,frecuencia_semanal,duracion_sesion_horas,horario_entrada,horario_salida,lunes,martes,miercoles,jueves,viernes
0,25001,1°Inf (A),CI-IC-001,Infantil,15,Canto Infantil,2,Todos,Individual,Regular,2,2,1,15:00:00,18:00:00,0,1,1,1,0
1,25006,1°Inf (B),CI-IC-001,Infantil,15,Canto Infantil,2,Todos,Individual,Regular,2,2,1,15:00:00,18:00:00,0,1,1,1,0
2,25002,1°Inf (A),TC-IC-001,Infantil,15,Teclado,1,Todos,Individual,Regular,2,2,1,15:00:00,18:00:00,0,1,1,1,0
3,25007,1°Inf (B),TC-IC-001,Infantil,15,Teclado,1,Todos,Individual,Regular,2,2,1,15:00:00,18:00:00,0,1,1,1,0
4,25003,1°Inf (A),CA-IC-001,Infantil,15,Creatividad Artistica,1,Todos,Individual,Regular,2,2,1,15:00:00,18:00:00,0,1,1,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
145,35008,Orquestal,OCB,3°Ini-3°Int,200,Orquesta de Cuerdas (B),1,Cuerda,Individual,Orquestal,4,2,2,15:00:00,21:00:00,0,1,0,1,0
146,35009,Orquestal,OGB,3°Ini-3°Int,200,Orquesta de Guitarras (B),1,Guitarra,Individual,Orquestal,4,2,2,15:00:00,21:00:00,0,1,0,1,0
147,35010,Orquestal,OVB,3°Ini-3°Int,200,Orquesta de Vientos (B),1,Piano,Individual,Orquestal,4,2,2,15:00:00,21:00:00,0,1,0,1,0
148,35011,Orquestal,OPB,3°Ini-3°Int,200,Orquestas de Precusion (B),1,Percusion,Individual,Orquestal,2,1,2,15:00:00,21:00:00,0,1,0,1,0


In [31]:
df_final.to_excel("tabla_minable.xlsx", index=False)