In [None]:

# requirements: pdfplumber, pandas, tabula-py , numpy
import re, pdfplumber, pandas as pd, numpy as np
import mysql.connector 
from sqlalchemy import create_engine
from pathlib import Path
from mysql.connector import errorcode



In [None]:
PDFS = [
    "pdfs/PA_OTO√ëO_2025_SEMESTRAL_ICC.pdf",
    "pdfs/PA_OTO√ëO_2025_SEMESTRAL_ITI.pdf",
    "pdfs/PA_OTO√ëO_2025_SEMESTRAL_LCC.pdf",
]

In [91]:
def clean_header(cols):
    return [re.sub(r"\s+", " ", c).strip().lower() for c in cols]

def extract_tables_pdfplumber(pdf_path):
    rows = []
    with pdfplumber.open(pdf_path) as pdf:
        for page in pdf.pages:
            for table in page.extract_tables():
                if not table or len(table) < 2: 
                    continue
                header = clean_header(table[0])
                # heur√≠stica: columnas esperadas
                if {"nrc","clave","materia","d√≠as","hora","profesor","sal√≥n"}.issubset(set(header)) or \
                   {"nrc","clave","materia","dias","hora","profesor","salon"}.issubset(set(header)):
                    for r in table[1:]:
                        if r and any(x for x in r):
                            rows.append(dict(zip(header, r)))
    return pd.DataFrame(rows) if rows else pd.DataFrame()

def extract_all():
    frames = []
    for p in PDFS:
        if Path(p).exists():
            df = extract_tables_pdfplumber(p)
            if not df.empty:
                df["origen_pdf"] = Path(p).name
                frames.append(df)
    return pd.concat(frames, ignore_index=True) if frames else pd.DataFrame()

raw = extract_all()


In [None]:
# Normalizaci√≥n de encabezados frecuentes
raw = raw.rename(columns={
    "dias": "d√≠as", "salon": "sal√≥n"
})

# Limpieza de profesor
def normalizar_profesor(x: str):
    if not isinstance(x, str):
        return None
    x = re.sub(r"\s+", " ", x).strip()
    x = x.replace(" - ", " ")
    return x.title()

raw["profesor"] = raw["profesor"].apply(normalizar_profesor)

# Pasar todo a min√∫sculas y eliminar espacios
raw.columns = [c.strip().lower() for c in raw.columns]

# Asegurar que exista la columna 'hora'
if "horario" in raw.columns and "hora" not in raw.columns:
    raw.rename(columns={"horario": "hora"}, inplace=True)
elif "hora " in raw.columns:
    raw.rename(columns={"hora ": "hora"}, inplace=True)
elif "hora\n" in raw.columns:
    raw.rename(columns={"hora\n": "hora"}, inplace=True)
elif "h" in raw.columns:  # casos raros de extracci√≥n truncada
    raw.rename(columns={"h": "hora"}, inplace=True)

# Si sigue sin existir, crear una columna vac√≠a para evitar errores posteriores
if "hora" not in raw.columns:
    raw["hora"] = None

# ---------------------------------------------------------
# Funci√≥n para parsear horas de forma robusta
# ---------------------------------------------------------
def parse_hora(rango):
    """Parses hour ranges like '0700-0859', '07:00-08:59', '7:00 - 8:59'."""
    if not isinstance(rango, str):
        return pd.Series([None, None, None])
    
    s = rango.strip()
    s = re.sub(r"\s+", "", s)
    if s.lower() in ["nan", "none", ""]:
        return pd.Series([None, None, None])

    patron = r"(\d{1,2}):?(\d{2})-(\d{1,2}):?(\d{2})"
    m = re.match(patron, s)
    if not m:
        return pd.Series([None, None, None])

    h1, m1, h2, m2 = map(int, m.groups())
    start = pd.to_datetime(f"{h1:02d}:{m1:02d}", format="%H:%M", errors="coerce")
    end   = pd.to_datetime(f"{h2:02d}:{m2:02d}", format="%H:%M", errors="coerce")

    if pd.isna(start) or pd.isna(end):
        return pd.Series([None, None, None])
    duracion = int((end - start).total_seconds() / 60)
    if duracion <= 0:
        return pd.Series([None, None, None])

    return pd.Series([start.time(), end.time(), duracion])

# ---------------------------------------------------------
# Aplicar la funci√≥n y crear las tres columnas
# ---------------------------------------------------------
raw[["h_inicio", "h_fin", "duracion_min"]] = raw["hora"].apply(parse_hora)


In [94]:
DIA_MAP = {"L":"Lunes","A":"Martes","M":"Miercoles",
           "J":"Jueves","V":"Viernes","S":"S√°bado"}

# Expandir por m√∫ltiples d√≠as en una sola fila (si aplica)
def explotar_por_dia(df):
    out = []
    for _, row in df.iterrows():
        dias = str(row["d√≠as"]).replace(" ", "")
        if "," in dias:
            tokens = dias.split(",")
        else:
            tokens = list(dias)  # "AJL" -> ["A","J","L"]
        for d in tokens:
            r = row.copy()
            r["dia_codigo"] = d
            r["dia_semana"] = DIA_MAP.get(d, d)
            out.append(r)
    return pd.DataFrame(out)

curated = explotar_por_dia(raw)


In [None]:
# Sal√≥n -> edificio/aula: "1CCO4/203" -> edificio=1CCO4, aula=203
def split_salon(s):
    if not isinstance(s, str): return pd.Series([None, None, None])
    s = s.strip()
    m = re.match(r"([^/]+)/?(\w+)?", s)
    if not m: return pd.Series([s, None, s])
    edificio, aula = m.group(1), m.group(2)
    return pd.Series([edificio, aula, s])

curated[["edificio","aula","codigo_salon"]] = curated["sal√≥n"].apply(split_salon)

# Dimensiones (surrogate keys)
def build_dim(df, col_key, cols_keep, start_id=1, name_id="id"):
    d = df[cols_keep].drop_duplicates().reset_index(drop=True)
    d.insert(0, name_id, range(start_id, start_id+len(d)))
    return d

dim_docente = build_dim(curated, "profesor", ["profesor"], name_id="id_docente")
dim_materia = build_dim(curated, "materia", ["clave","materia"], name_id="id_materia")
dim_espacio = build_dim(curated, "codigo_salon", ["edificio","aula","codigo_salon"], name_id="id_espacio")

# dim_tiempo por fila (d√≠a + rango)
dim_tiempo = curated[["dia_codigo","dia_semana","h_inicio","h_fin"]].drop_duplicates().reset_index(drop=True)
dim_tiempo.insert(0, "id_tiempo", range(1, len(dim_tiempo)+1))

# Hechos (join a dimensiones)
def map_id(df, dim, key_cols_df, key_cols_dim, id_col):
    if isinstance(key_cols_df, str):
        key_cols_df = [key_cols_df]
    if isinstance(key_cols_dim, str):
        key_cols_dim = [key_cols_dim]

    df["_key_"] = df[key_cols_df].astype(str).agg("|".join, axis=1)
    dim["_key_"] = dim[key_cols_dim].astype(str).agg("|".join, axis=1)

    merged = df.merge(dim[["_key_", id_col]], on="_key_", how="left", validate="m:1")
    result = merged[id_col].values

    df.drop(columns="_key_", inplace=True, errors="ignore")
    dim.drop(columns="_key_", inplace=True, errors="ignore")

    return result

hechos = curated.copy()
hechos["id_docente"] = map_id(hechos, dim_docente, "profesor", "profesor", "id_docente")
hechos["id_materia"] = map_id(hechos, dim_materia, ["clave","materia"], ["clave","nombreMateria" if "nombreMateria" in dim_materia.columns else "materia"], "id_materia")
hechos["id_espacio"] = map_id(hechos, dim_espacio, "codigo_salon", "codigo_salon", "id_espacio")
hechos = hechos.merge(dim_tiempo, on=["dia_codigo","dia_semana","h_inicio","h_fin"], how="left")

print("Filas sin id_materia:", hechos["id_materia"].isna().sum())

hechos_horarios = hechos[[
    "id_docente"    ,"id_materia","id_espacio","id_tiempo",
    "nrc","clave","secc" if "secc" in hechos.columns else "secci√≥n" if "secci√≥n" in hechos.columns else "d√≠as",
    "duracion_min"
]].rename(columns=lambda c: {"d√≠as":"seccion"}.get(c, c))


Filas sin id_materia: 0


In [96]:
"""-------------------------------------------------------------
# Guardar los resultados intermedios en archivos CSV
#-------------------------------------------------------------
output_dir = Path("data_export")
output_dir.mkdir(exist_ok=True)

#print(">> Guardando archivos CSV intermedios en ./data_export/")

raw.to_csv(output_dir / "data_raw.csv", index=False, encoding="utf-8-sig")
curated.to_csv(output_dir / "data_curated.csv", index=False, encoding="utf-8-sig")
hechos_clase.to_csv(output_dir / "data_hechos.csv", index=False, encoding="utf-8-sig")
dim_docente.to_csv(output_dir / "dim_docente.csv", index=False, encoding="utf-8-sig")
dim_materia.to_csv(output_dir / "dim_materia.csv", index=False, encoding="utf-8-sig")
dim_espacio.to_csv(output_dir / "dim_espacio.csv", index=False, encoding="utf-8-sig")
dim_tiempo.to_csv(output_dir / "dim_tiempo.csv", index=False, encoding="utf-8-sig")

print(">> Archivos CSV guardados correctamente en la carpeta 'data_export'")
"""

'-------------------------------------------------------------\n# Guardar los resultados intermedios en archivos CSV\n#-------------------------------------------------------------\noutput_dir = Path("data_export")\noutput_dir.mkdir(exist_ok=True)\n\n#print(">> Guardando archivos CSV intermedios en ./data_export/")\n\nraw.to_csv(output_dir / "data_raw.csv", index=False, encoding="utf-8-sig")\ncurated.to_csv(output_dir / "data_curated.csv", index=False, encoding="utf-8-sig")\nhechos_clase.to_csv(output_dir / "data_hechos.csv", index=False, encoding="utf-8-sig")\ndim_docente.to_csv(output_dir / "dim_docente.csv", index=False, encoding="utf-8-sig")\ndim_materia.to_csv(output_dir / "dim_materia.csv", index=False, encoding="utf-8-sig")\ndim_espacio.to_csv(output_dir / "dim_espacio.csv", index=False, encoding="utf-8-sig")\ndim_tiempo.to_csv(output_dir / "dim_tiempo.csv", index=False, encoding="utf-8-sig")\n\nprint(">> Archivos CSV guardados correctamente en la carpeta \'data_export\'")\n'

In [None]:
# -------------------------------------------------------------
# Limpieza y validaci√≥n robusta de horas antes de la carga
# -------------------------------------------------------------

# Normaliza tipos de hora
raw["h_inicio"] = pd.to_datetime(raw["h_inicio"], errors="coerce").dt.time
raw["h_fin"] = pd.to_datetime(raw["h_fin"], errors="coerce").dt.time

# Quita filas sin hora v√°lida
raw = raw.dropna(subset=["h_inicio", "h_fin"]).reset_index(drop=True)

# Filtra filas donde h_fin <= h_inicio
def es_valida(row):
    try:
        return row["h_fin"] > row["h_inicio"]
    except Exception:
        return False

mask_validas = raw.apply(es_valida, axis=1)
raw = raw.loc[mask_validas].copy().reset_index(drop=True)

# Recalcula duraci√≥n por consistencia
def calcular_duracion(row):
    try:
        start = pd.to_datetime(str(row["h_inicio"]), format="%H:%M:%S")
        end = pd.to_datetime(str(row["h_fin"]), format="%H:%M:%S")
        dur = int((end - start).total_seconds() / 60)
        return dur if dur > 0 else None
    except Exception:
        return None

raw["duracion_min"] = raw.apply(calcular_duracion, axis=1)
raw = raw.dropna(subset=["duracion_min"]).reset_index(drop=True)


In [None]:
# pip install mysql-connector-python

# ---------------------------------------------------------------------------
# CONFIGURACI√ìN GLOBAL
# ---------------------------------------------------------------------------

DB_CONFIG = {
    "user": "root",
    "password": "changocome",  
    "host": "localhost",
    "database": "horarios",
    "allow_local_infile": True
}

# ---------------------------------------------------------------------------
# CONEXI√ìN A MYSQL
# ---------------------------------------------------------------------------

try:
    conn = mysql.connector.connect(**DB_CONFIG)
    cursor = conn.cursor()
    print("‚úÖ Conexi√≥n a MySQL establecida correctamente.")
except mysql.connector.Error as err:
    if err.errno == errorcode.ER_ACCESS_DENIED_ERROR:
        print("‚ùå Error: usuario o contrase√±a incorrectos.")
    elif err.errno == errorcode.ER_BAD_DB_ERROR:
        print("‚ùå Error: la base de datos no existe.")
    else:
        print(f"‚ùå Error al conectar a MySQL: {err}")
    raise SystemExit()

# ---------------------------------------------------------------------------
# CREACI√ìN DE TABLAS (modelo estrella)
# ---------------------------------------------------------------------------

ddl_statements = [
    """
    CREATE TABLE IF NOT EXISTS dim_docente (
        id_docente INT PRIMARY KEY,
        nombre_completo VARCHAR(200)
    )
    """,
    """
    CREATE TABLE IF NOT EXISTS dim_materia (
        id_materia INT PRIMARY KEY,
        clave VARCHAR(50),
        nombre_materia VARCHAR(200)
    )
    """,
    """
    CREATE TABLE IF NOT EXISTS dim_espacio (
        id_espacio INT PRIMARY KEY,
        edificio VARCHAR(50),
        aula VARCHAR(50),
        codigo_salon VARCHAR(100)
    )
    """,
    """
    CREATE TABLE IF NOT EXISTS dim_tiempo (
        id_tiempo INT PRIMARY KEY,
        dia_codigo VARCHAR(10),
        dia_semana VARCHAR(20),
        hora_inicio TIME,
        hora_fin TIME
    )
    """,
    """
    CREATE TABLE IF NOT EXISTS hechos_horarios (
        id_hecho INT AUTO_INCREMENT PRIMARY KEY,
        id_docente INT,
        id_materia INT,
        id_espacio INT,
        id_tiempo INT,
        nrc VARCHAR(20),
        clave VARCHAR(50),
        seccion VARCHAR(50),
        duracion_min INT,
        FOREIGN KEY (id_docente) REFERENCES dim_docente(id_docente),
        FOREIGN KEY (id_materia) REFERENCES dim_materia(id_materia),
        FOREIGN KEY (id_espacio) REFERENCES dim_espacio(id_espacio),
        FOREIGN KEY (id_tiempo) REFERENCES dim_tiempo(id_tiempo)
    )
    """
]

print(">> Creando tablas si no existen...")
for ddl in ddl_statements:
    cursor.execute(ddl)
conn.commit()
print("Tablas creadas o verificadas correctamente.")

# ---------------------------------------------------------------------------
# Limpieza y normalizaci√≥n
# ---------------------------------------------------------------------------

# Renombrar columnas si existen
if "profesor" in dim_docente.columns:
    dim_docente.rename(columns={"profesor": "nombreCompleto"}, inplace=True)
if "materia" in dim_materia.columns:
    dim_materia.rename(columns={"materia": "nombreMateria"}, inplace=True)

# Normalizar nombre de columna 'secc' -> 'seccion'
if "secc" in hechos_horarios.columns:
    hechos_horarios.rename(columns={"secc": "seccion"}, inplace=True)
elif "secci√≥n" in hechos_horarios.columns:
    hechos_horarios.rename(columns={"secci√≥n": "seccion"}, inplace=True)
elif "d√≠as" in hechos_horarios.columns:
    hechos_horarios.rename(columns={"d√≠as": "seccion"}, inplace=True)

# Reemplazar NaN y valores "nan" o "NaT" por None
def clean_dataframe(df: pd.DataFrame) -> pd.DataFrame:
    df = df.replace({np.nan: None, "nan": None, "NaN": None, "NaT": None})
    for col in df.columns:
        if df[col].dtype == object:
            df[col] = df[col].astype(str).replace(
                {"nan": None, "None": None, "NaN": None, "NaT": None, "": None}
            )
    return df

for df_name, df in {
    "dim_docente": dim_docente,
    "dim_materia": dim_materia,
    "dim_espacio": dim_espacio,
    "dim_tiempo": dim_tiempo,
    "hechos_horarios": hechos_horarios,
}.items():
    locals()[df_name] = clean_dataframe(df)
    print(f"NaN limpiados en {df_name}")

# ---------------------------------------------------------------------------
# Limpieza previa en base de datos
# ---------------------------------------------------------------------------

print(">> Limpiando tablas existentes...")
cursor.execute("SET FOREIGN_KEY_CHECKS = 0;")

for table in ["hechos_horarios", "dim_docente", "dim_materia", "dim_espacio", "dim_tiempo"]:
    cursor.execute(f"TRUNCATE TABLE {table}")

cursor.execute("SET FOREIGN_KEY_CHECKS = 1;")
conn.commit()
print("Tablas limpiadas correctamente (Foreign Keys reactivadas).")

# ---------------------------------------------------------------------------
# Helper: inserci√≥n segura de DataFrames
# ---------------------------------------------------------------------------

def insert_dataframe(df: pd.DataFrame, table_name: str):
    if df.empty:
        print(f"({table_name} est√° vac√≠o, no se inserta nada)")
        return
    cols = ", ".join(df.columns)
    placeholders = ", ".join(["%s"] * len(df.columns))
    sql = f"INSERT INTO {table_name} ({cols}) VALUES ({placeholders})"
    data = []
    for row in df.itertuples(index=False, name=None):
        clean_row = tuple(
            None if (isinstance(x, float) and pd.isna(x)) or str(x).lower() in ["nan", "nat", "none", ""] else x
            for x in row
        )
        data.append(clean_row)
    cursor.executemany(sql, data)
    conn.commit()
    print(f"{len(df)} filas insertadas en {table_name}")

# ---------------------------------------------------------------------------
# Inserci√≥n de datos (ajustada para mantener coherencia con el cubo)
# ---------------------------------------------------------------------------

# Convertir columnas de hora a formato HH:MM:SS
for col in ["h_inicio", "h_fin"]:
    if col in dim_tiempo.columns:
        def to_mysql_time(x):
            if pd.isna(x) or x in [None, "", "None", "nan", "NaT"]:
                return None
            # si es datetime.time
            if hasattr(x, "strftime"):
                return x.strftime("%H:%M:%S")
            # si es string, intenta parsear
            try:
                return pd.to_datetime(x, errors="coerce").strftime("%H:%M:%S")
            except Exception:
                return None
        dim_tiempo[col] = dim_tiempo[col].apply(to_mysql_time)

insert_dataframe(dim_docente, "dim_docente")
insert_dataframe(dim_materia, "dim_materia")
insert_dataframe(dim_espacio, "dim_espacio")
insert_dataframe(dim_tiempo, "dim_tiempo")

# Asegurar tipo entero antes de insertar
if "duracion_min" in hechos_horarios.columns:
    hechos_horarios["duracion_min"] = hechos_horarios["duracion_min"].astype(int)

print("Columnas en hechos_horarios:", hechos_horarios.columns.tolist())
insert_dataframe(hechos_horarios, "hechos_horarios")

print("Todos los datos cargados exitosamente en MySQL.")

# ---------------------------------------------------------------------------
#  Cierre
# ---------------------------------------------------------------------------
cursor.close()
conn.close()
print("Conexi√≥n a MySQL cerrada.")


‚úÖ Conexi√≥n a MySQL establecida correctamente.
>> Creando tablas si no existen...
‚úÖ Tablas creadas o verificadas correctamente.
NaN limpiados en dim_docente
NaN limpiados en dim_materia
NaN limpiados en dim_espacio
NaN limpiados en dim_tiempo
NaN limpiados en hechos_clase
>> Limpiando tablas existentes...
‚úÖ Tablas limpiadas correctamente (Foreign Keys reactivadas).
‚úÖ 105 filas insertadas en dim_docente
‚úÖ 96 filas insertadas en dim_materia
‚úÖ 42 filas insertadas en dim_espacio
‚úÖ 47 filas insertadas en dim_tiempo
Columnas en hechos_clase: ['id_docente', 'id_materia', 'id_espacio', 'id_tiempo', 'nrc', 'clave', 'seccion', 'duracion_min']
‚úÖ 1184 filas insertadas en hechos_clase
‚úÖ Todos los datos cargados exitosamente en MySQL.
üîö Conexi√≥n a MySQL cerrada.
