Este notebook recorre los archivos html de la carpeta `./data/raw`, y exporta de ahi el js del cuatrimestre

Ese `horarios.js` hay que ponerlo en la carpeta src/data

La carpeta data tiene que tener un archivo html por **cada carrera**

El html se consigue de la siguiente manera
- Loggearse al SIU, ir a "Reportes" > "Oferta de comisiones"
- Conseguir el HTML de ese sitio (CTRL+U)

In [None]:
import os
from bs4 import BeautifulSoup

replacements = {
    r'\"': r'"',
    r'<\/': r'</',
    r'\n': '',
    '\n': '',
    '\t': '',
    r'\t': '',
    'á':'a',
    'é':'e',
    'í':'i',
    'ó':'o',
    'ú':'u',
    'Á':'A',
    'É':'E',
    'Í':'I',
    'Ó':'O',
    'Ú':'U'
}


for f in sorted(os.listdir('raw'), key=os.path.getmtime):
    with open('raw/'+f, 'r') as fsub:
        print(f, end="")
        txt = fsub.read()
        txt = txt.encode('iso-8859-1').decode('unicode_escape')
        for k,v in replacements.items():
            txt = txt.replace(k,v)
        start = txt.find("kernel.renderer.on_arrival({")
        end = txt.find("})", start)
        content = txt.find('content', start, end)
        contentstart = txt.find('"<', content)
        contentend = txt.find('>",', contentstart)
        txt = txt[contentstart+1:contentend+1]
        soup = BeautifulSoup(txt, 'html.parser')
        ultimocuatri = soup.find_all('div', {'class': 'js-recuadro_periodo'})[-1]
        with open('clean/'+f, 'wb') as newf:
            newf.write(ultimocuatri.prettify("utf-8"))
        print(" -> clean/" + f)
        
        

In [None]:
from collections import namedtuple
import re
import json

REGEX = r'(.*) (\(\d\d\d\d\))'
materia_regex = re.compile(REGEX)
DIAS_DE_LA_HERMOSA_SEMANA = ["Domingo", "Lunes", "Martes", "Miercoles", "Jueves", "Viernes", "Sabado"]

In [None]:
def get_ids_materias(soup):
    codigos_materias = []
    actividades = soup.find_all('div', {'class': 'js-recuadro_actividad'})
    for act in actividades:
        nombre, codigo = materia_regex.search(act.get('actividad')).groups()
        codigo = re.sub('\(|\)', "", codigo)
        codigos_materias.append(codigo)
    return codigos_materias

soup = BeautifulSoup(open("clean/informatica.html"), "html.parser")
get_ids_materias(soup)

In [None]:
def get_ids_comisiones(soup):
    ids_comisiones = []
    comisiones_soup = soup.find_all('table', {'class': 'comision'})
    for comision in comisiones_soup:
        comision_id = comision.get('comision')
        ids_comisiones.append(comision_id)
    return ids_comisiones

def get_materias(soup):
    materias = []
    actividades = soup.find_all('div', {'class': 'js-recuadro_actividad'})
    for act in actividades:
        nombre, codigo = materia_regex.search(act.get('actividad')).groups()
        codigo = re.sub('\(|\)', "", codigo)
        ids_comisiones = get_ids_comisiones(act)
        
        materias.append({
            "codigo": codigo,
            "nombre": nombre,
            "cursos": ids_comisiones
        })
        
    return materias

soup = BeautifulSoup(open("clean/informatica.html"), "html.parser")
get_materias(soup)

In [None]:
def get_comision(soup, codigo):
    comision_soup = soup.find('table', {'comision': codigo})
    docentes = comision_soup.get('docentes')
    comision_id = comision_soup.get('comision')
    clases = []

    for dia_semana_soup in comision_soup.find_all('tr', {'class': ['js-dia']}):
        dia_semana = dia_semana_soup.get('dia_sem')
        horas_soup = dia_semana_soup.find('td', text=re.compile(r'\d\d\:\d\d'))
        if not horas_soup:
            continue
        horas = horas_soup.contents[0]
        inicio, fin = horas.split(' a ')

        clases.append({'dia': DIAS_DE_LA_HERMOSA_SEMANA.index(dia_semana), 'inicio': inicio, 'fin': fin})

    return {
        "docentes": docentes,
        "codigo": codigo,
        "clases": clases
    }

soup = BeautifulSoup(open("clean/informatica.html"), "html.parser")
get_comision(soup, "31265")

In [None]:
import datetime

NOMBRES = {
    "clean/informatica.html": "Ingeniería en Informática",
    "clean/civil.html": "Ingeniería Civil",
    "clean/industrial.html": "Ingeniería Industrial",
    "clean/mecanica.html": "Ingeniería Mecánica",
    "clean/quimica.html": "Ingeniería Química",
    "clean/sistemas.html": "Licenciatura en Análisis de Sistemas",
    "clean/sistemas86.html": "Licenciatura en Análisis de Sistemas (Plan viejo)",
    "clean/electronica.html": "Ingeniería Electrónica",
    "clean/alimentos.html": "Ingeniería de Alimentos",
    "clean/agrimensura.html": "Ingeniería en Agrimensura",
    "clean/naval-mecanica.html": "Ingeniería Naval y Mecánica",
    "clean/petroleo.html": "Ingeniería en Petroleo",
    "clean/electricista.html": "Ingeniería Electricista"
}

carreras = []
codigos_materias_agregadas = []
materias = []
codigos_comisiones_agregadas = []
comisiones = []

for f in sorted(os.listdir('clean'), key=os.path.getmtime, reverse=True):
    f = 'clean/'+f
    soup = BeautifulSoup(open(f), "html.parser")

    carreras.append({
        "nombre": NOMBRES[f],
        'materias': get_ids_materias(soup)
    })
    
    materias_carrera = get_materias(soup)
    materias_carrera = [x for x in materias_carrera if x['codigo'] not in codigos_materias_agregadas]
    for m in materias_carrera:
        codigos_materias_agregadas.append(m['codigo'])
        comisiones_materia = m.get('cursos')
        comisiones_materia = [x for x in comisiones_materia if x not in codigos_comisiones_agregadas]
        for c in comisiones_materia:
            codigos_comisiones_agregadas.append(c)
            comisiones.append(get_comision(soup, c))
            
        comisiones_sin_clases = filter(lambda x: not x['clases'], comisiones)
        comisiones_sin_clases_codigos = map(lambda x: x['codigo'], comisiones_sin_clases)
        m['cursos'] = list(filter(lambda x: x not in comisiones_sin_clases_codigos, m['cursos']))
    
    comisiones = list(filter(lambda x: x['clases'], comisiones))
    materias.extend(materias_carrera) 
    
obj = {
    "cuatrimestre": "2021C1",
    "timestamp": str(datetime.datetime.now()),
    "carreras": sorted(carreras, key=lambda x: x['nombre']),
    "materias": sorted(materias, key=lambda x: x['codigo']),
    "cursos": sorted(comisiones, key=lambda x: x['codigo'])
}

obj_dump = json.dumps(obj, indent=2, ensure_ascii=False)        

with open('horarios.js', 'w') as fw:
    fw.write("export const data = ")
    fw.write(obj_dump)

print(obj_dump)    