In [32]:
import sys
from pathlib import Path

# Agrega el path raíz del proyecto (donde está src/)
sys.path.append(str(Path().resolve().parent))

from src.etl.procesar_archivo import procesar_hoja

# Ruta relativa al archivo de ejemplo
archivo = "../data/raw/2015/2015_PEB_Escuelas_01.xlsx"

# Procesamos la hoja de primarias
df_primarias = procesar_hoja(filepath=archivo, hoja="primarias", anio=2015)

# Vista preliminar
print("🔎 Vista previa del DataFrame:")
print(df_primarias.head())

# Información general
print("\n📊 Info general:")
print(df_primarias.info())

# Validación: columnas esperadas
print("\n✅ Columnas:")
print(df_primarias.columns.tolist())

# Crear carpeta 'output' si no existe
Path("../output").mkdir(parents=True, exist_ok=True)

# Guardar temporalmente en /output/
df_primarias.to_csv("../output/df_primarias_2015.csv", index=False, encoding="latin1")
print("\n📁 Archivo guardado en: output/df_primarias_2015.csv")

🔎 Vista previa del DataFrame:
   ENT               NOMBRE_ESCUELA CLAVE_ESCUELA       TURNO  \
0    1       ANTONIO VENTURA MEDINA    01DPR0002U    COMPLETO   
1    1               BENIGNO CHAVEZ    01DPR0003T  VESPERTINO   
2    1             15 DE SEPTIEMBRE    01DPR0005R    MATUTINO   
3    1             TIERRA SOLIDARIA    01DPR0006Q    MATUTINO   
4    1  MIGUEL ANGEL BARBERENA VEGA    01DPR0007P    MATUTINO   

            MUNICIPIO           LOCALIDAD     TIPO_ESCUELA  \
0  SAN JOSÉ DE GRACIA  SAN JOSE DE GRACIA  General Pública   
1         JESÚS MARÍA         JESUS MARIA  General Pública   
2      AGUASCALIENTES      AGUASCALIENTES  General Pública   
3      AGUASCALIENTES      AGUASCALIENTES  General Pública   
4      AGUASCALIENTES      AGUASCALIENTES  General Pública   

          GRADO_EVALUADO GRADO_MARGINACION  ALUMNOS_PROGRAMADOS  ...  \
0  sexto año de primaria   No identificada                   35  ...   
1  sexto año de primaria   Muy alta o Alta                   7

In [57]:
import pandas as pd
from src.etl.columnas_estandar import columnas_estandar

# Diccionario de claves ENT a nombres de entidad
ENTIDADES = {
    1: "Aguascalientes", 2: "Baja California", 3: "Baja California Sur", 4: "Campeche",
    5: "Coahuila", 6: "Colima", 7: "Chiapas", 8: "Chihuahua", 9: "Ciudad de México",
    10: "Durango", 11: "Guanajuato", 12: "Guerrero", 13: "Hidalgo", 14: "Jalisco",
    15: "Estado de México", 16: "Michoacán", 17: "Morelos", 18: "Nayarit", 19: "Nuevo León",
    20: "Oaxaca", 21: "Puebla", 22: "Querétaro", 23: "Quintana Roo", 24: "San Luis Potosí",
    25: "Sinaloa", 26: "Sonora", 27: "Tabasco", 28: "Tamaulipas", 29: "Tlaxcala",
    30: "Veracruz", 31: "Yucatán", 32: "Zacatecas"
}
anio = "2015"

archivo = "../data/raw/2015/2015_PEB_Escuelas_01.xlsx"
df = pd.read_excel(archivo, sheet_name="primarias", header=None, skiprows=3)

# Renombra columnas
df.columns = columnas_estandar

# Agrega columnas auxiliares
df["ANIO_EVALUACION"] = anio
df["ARCHIVO_ORIGEN"] = Path(archivo).name
df["NOMBRE_ENTIDAD"] = df["ENT"].map(ENTIDADES)

print(df)

     ENT               NOMBRE_ESCUELA CLAVE_ESCUELA       TURNO  \
0      1      RODRIGO RINCON GALLARDO    01DPR0001V    MATUTINO   
1      1       ANTONIO VENTURA MEDINA    01DPR0002U    COMPLETO   
2      1               BENIGNO CHAVEZ    01DPR0003T  VESPERTINO   
3      1             15 DE SEPTIEMBRE    01DPR0005R    MATUTINO   
4      1             TIERRA SOLIDARIA    01DPR0006Q    MATUTINO   
..   ...                          ...           ...         ...   
681    1    COLEGIO NUEVOS HORIZONTES    01PPR0133R    MATUTINO   
682    1  COLEGIO KAROL JOZEF WOJTYLA    01PPR0134Q    MATUTINO   
683    1            COLEGIO MARANATHA    01PPR0138M    MATUTINO   
684    1       INSTITUTO MENDEL, A.C.    01PPR0140A    MATUTINO   
685    1          PRIMARIA ZAUBERLAND    01PPR0142Z    MATUTINO   

              MUNICIPIO           LOCALIDAD     TIPO_ESCUELA  \
0       RINCÓN DE ROMOS     RINCON DE ROMOS  General Pública   
1    SAN JOSÉ DE GRACIA  SAN JOSE DE GRACIA  General Pública   
2  

In [58]:
import sys
from pathlib import Path

# Agrega el path raíz del proyecto (donde está src/)
sys.path.append(str(Path().resolve().parent))

from src.etl.procesar_archivo import procesar_hoja

# Ruta relativa al archivo de ejemplo
archivo = "../data/raw/2015/2015_PEB_Escuelas_01.xlsx"

# Procesamos la hoja de primarias
df_primarias = procesar_hoja(filepath=archivo, hoja="primarias", anio=2015)
print(df_primarias)

     ENT               NOMBRE_ESCUELA CLAVE_ESCUELA       TURNO  \
0      1       ANTONIO VENTURA MEDINA    01DPR0002U    COMPLETO   
1      1               BENIGNO CHAVEZ    01DPR0003T  VESPERTINO   
2      1             15 DE SEPTIEMBRE    01DPR0005R    MATUTINO   
3      1             TIERRA SOLIDARIA    01DPR0006Q    MATUTINO   
4      1  MIGUEL ANGEL BARBERENA VEGA    01DPR0007P    MATUTINO   
..   ...                          ...           ...         ...   
680    1    COLEGIO NUEVOS HORIZONTES    01PPR0133R    MATUTINO   
681    1  COLEGIO KAROL JOZEF WOJTYLA    01PPR0134Q    MATUTINO   
682    1            COLEGIO MARANATHA    01PPR0138M    MATUTINO   
683    1       INSTITUTO MENDEL, A.C.    01PPR0140A    MATUTINO   
684    1          PRIMARIA ZAUBERLAND    01PPR0142Z    MATUTINO   

              MUNICIPIO           LOCALIDAD     TIPO_ESCUELA  \
0    SAN JOSÉ DE GRACIA  SAN JOSE DE GRACIA  General Pública   
1           JESÚS MARÍA         JESUS MARIA  General Pública   
2  