# PAES 2026 - Base de Datos

Creación de base de datos DuckDB con datos de la PAES (Prueba de Acceso a la Educación Superior) de Chile.

In [None]:
import duckdb
import pandas as pd
from pathlib import Path

# Rutas
DATA_DIR = Path("../../raw-data/paes-2026")
DB_PATH = "../../paes.duckdb"

# Crear/conectar a la base de datos
con = duckdb.connect(DB_PATH)
print(f"DuckDB version: {duckdb.__version__}")

## 1. Tabla de Establecimientos

Fuente: [Directorio Oficial de Establecimientos MINEDUC](https://datosabiertos.mineduc.cl/directorio-de-establecimientos-educacionales/)

El nuevo directorio incluye información detallada:
- Ubicación geográfica (latitud, longitud)
- Dependencia administrativa (COD_DEPE, COD_DEPE2)
- Matrícula por nivel educativo
- Estado del establecimiento
- Programas (PIE, PACE)
- Orientación religiosa y costos

In [None]:
# Crear tabla de establecimientos desde CSV MINEDUC
# Fuente: https://datosabiertos.mineduc.cl/directorio-de-establecimientos-educacionales/

con.execute(f"""
    CREATE OR REPLACE TABLE establecimientos (
        rbd INTEGER PRIMARY KEY,           -- Rol Base de Datos (ID único del establecimiento)
        dgv_rbd INTEGER,                   -- Dígito verificador del RBD
        nombre VARCHAR,                    -- Nombre del establecimiento educacional
        cod_region INTEGER,                -- Código de región
        nom_region VARCHAR,                -- Nombre abreviado de la región
        cod_provincia INTEGER,             -- Código de provincia
        cod_comuna INTEGER,                -- Código de comuna
        nom_comuna VARCHAR,                -- Nombre de la comuna
        cod_deprov INTEGER,                -- Código Departamento Provincial de Educación
        nom_deprov VARCHAR,                -- Nombre Departamento Provincial de Educación
        cod_depe INTEGER,                  -- Dependencia detallada (1-6)
        cod_depe2 INTEGER,                 -- Dependencia agrupada (1-5)
        rural INTEGER,                     -- 0=Urbano, 1=Rural
        latitud DOUBLE,                    -- Latitud del establecimiento
        longitud DOUBLE,                   -- Longitud del establecimiento
        convenio_pie INTEGER,              -- 0=Sin convenio PIE, 1=Con convenio
        pace INTEGER,                      -- 0=Sin programa PACE, 1=Con programa
        mat_parvulario INTEGER,            -- Matrícula nivel parvulario
        mat_basica INTEGER,                -- Matrícula nivel básica regular
        mat_basica_adultos INTEGER,        -- Matrícula básica adultos
        mat_especial INTEGER,              -- Matrícula educación especial
        mat_media_hc INTEGER,              -- Matrícula media HC jóvenes
        mat_media_hc_adultos INTEGER,      -- Matrícula media HC adultos
        mat_media_tp INTEGER,              -- Matrícula media TP jóvenes
        mat_media_tp_adultos INTEGER,      -- Matrícula media TP adultos
        mat_total INTEGER,                 -- Matrícula total del establecimiento
        tiene_matricula INTEGER,           -- 0=Sin matrícula, 1=Con matrícula
        estado_estab INTEGER,              -- 1=Funcionando, 2=Receso, 3=Cerrado, 4=Autorizado sin matrícula
        ori_religiosa INTEGER,             -- Orientación religiosa (1-9)
        pago_matricula VARCHAR,            -- Tramo de pago de matrícula
        pago_mensual VARCHAR               -- Tramo de pago mensual
    );
""")

# Insertar datos desde CSV, convirtiendo latitud/longitud de formato con coma a punto
# Usar TRY_CAST para manejar valores vacíos o inválidos
con.execute(f"""
    INSERT INTO establecimientos
    SELECT
        CAST(RBD AS INTEGER) as rbd,
        TRY_CAST(DGV_RBD AS INTEGER) as dgv_rbd,
        NOM_RBD as nombre,
        TRY_CAST(COD_REG_RBD AS INTEGER) as cod_region,
        NOM_REG_RBD_A as nom_region,
        TRY_CAST(COD_PRO_RBD AS INTEGER) as cod_provincia,
        TRY_CAST(COD_COM_RBD AS INTEGER) as cod_comuna,
        NOM_COM_RBD as nom_comuna,
        TRY_CAST(COD_DEPROV_RBD AS INTEGER) as cod_deprov,
        NOM_DEPROV_RBD as nom_deprov,
        TRY_CAST(COD_DEPE AS INTEGER) as cod_depe,
        TRY_CAST(COD_DEPE2 AS INTEGER) as cod_depe2,
        TRY_CAST(RURAL_RBD AS INTEGER) as rural,
        TRY_CAST(REPLACE(NULLIF(TRIM(LATITUD), ''), ',', '.') AS DOUBLE) as latitud,
        TRY_CAST(REPLACE(NULLIF(TRIM(LONGITUD), ''), ',', '.') AS DOUBLE) as longitud,
        TRY_CAST(CONVENIO_PIE AS INTEGER) as convenio_pie,
        TRY_CAST(PACE AS INTEGER) as pace,
        TRY_CAST(MAT_ENS_1 AS INTEGER) as mat_parvulario,
        TRY_CAST(MAT_ENS_2 AS INTEGER) as mat_basica,
        TRY_CAST(MAT_ENS_3 AS INTEGER) as mat_basica_adultos,
        TRY_CAST(MAT_ENS_4 AS INTEGER) as mat_especial,
        TRY_CAST(MAT_ENS_5 AS INTEGER) as mat_media_hc,
        TRY_CAST(MAT_ENS_6 AS INTEGER) as mat_media_hc_adultos,
        TRY_CAST(MAT_ENS_7 AS INTEGER) as mat_media_tp,
        TRY_CAST(MAT_ENS_8 AS INTEGER) as mat_media_tp_adultos,
        TRY_CAST(MAT_TOTAL AS INTEGER) as mat_total,
        TRY_CAST(MATRICULA AS INTEGER) as tiene_matricula,
        TRY_CAST(ESTADO_ESTAB AS INTEGER) as estado_estab,
        TRY_CAST(ORI_RELIGIOSA AS INTEGER) as ori_religiosa,
        PAGO_MATRICULA as pago_matricula,
        PAGO_MENSUAL as pago_mensual
    FROM read_csv('{DATA_DIR}/20250926_Directorio_Oficial_EE_2025_20250430_WEB.csv',
                  delim=';',
                  header=true)
    WHERE ESTADO_ESTAB = '1'  -- Solo establecimientos funcionando
""")

# Agregar comentarios a la tabla
con.execute("COMMENT ON TABLE establecimientos IS 'Directorio Oficial de Establecimientos Educacionales - MINEDUC 2025'")

total_estab = con.execute('SELECT COUNT(*) FROM establecimientos').fetchone()[0]
con_coords = con.execute('SELECT COUNT(*) FROM establecimientos WHERE latitud IS NOT NULL').fetchone()[0]
print(f"Establecimientos cargados: {total_estab:,}")
print(f"Con coordenadas geográficas: {con_coords:,}")

## 2. Tabla de Comunas y Regiones

In [None]:
# Cargar comunas desde Excel
df_comunas = pd.read_excel(DATA_DIR / 'Libro_CódigosADM2026_ArchivoC.xlsx', sheet_name='Anexo - ComunasRegiones')

# Registrar DataFrame en DuckDB y crear tabla
con.execute("""
    CREATE OR REPLACE TABLE comunas (
        cod_region INTEGER,                -- Código de región (1-16)
        region VARCHAR,                    -- Nombre de la región
        cod_provincia INTEGER,             -- Código de provincia
        provincia VARCHAR,                 -- Nombre de la provincia
        cod_comuna INTEGER PRIMARY KEY,    -- Código de comuna (único)
        comuna VARCHAR                     -- Nombre de la comuna
    )
""")

con.execute("""
    INSERT INTO comunas
    SELECT 
        "COD REG." as cod_region,
        "REGION NOMBRE" as region,
        "COD.PRV" as cod_provincia,
        "PRV NOMBRE" as provincia,
        "COD.COMUNA" as cod_comuna,
        "COM NOMBRE" as comuna
    FROM df_comunas
""")

con.execute("COMMENT ON TABLE comunas IS 'División político-administrativa de Chile: regiones, provincias y comunas'")

print(f"Comunas cargadas: {con.execute('SELECT COUNT(*) FROM comunas').fetchone()[0]}")
con.execute("SELECT * FROM comunas LIMIT 5").df()

## 3. Tabla de Códigos de Enseñanza

In [None]:
# Cargar códigos de enseñanza desde Excel
df_ensenanza = pd.read_excel(DATA_DIR / 'Libro_CódigosADM2026_ArchivoC.xlsx', sheet_name='Anexo - COD_ENS')

con.execute("""
    CREATE OR REPLACE TABLE cod_ensenanza (
        codigo INTEGER PRIMARY KEY,        -- Código MINEDUC de tipo de enseñanza
        descripcion VARCHAR                -- Descripción del tipo de enseñanza
    )
""")

con.execute("""
    INSERT INTO cod_ensenanza
    SELECT 
        "Código" as codigo,
        "Descripción" as descripcion
    FROM df_ensenanza
""")

con.execute("COMMENT ON TABLE cod_ensenanza IS 'Códigos de enseñanza MINEDUC (HC=Humanista-Científico, TP=Técnico-Profesional)'")

print(f"Códigos de enseñanza cargados: {con.execute('SELECT COUNT(*) FROM cod_ensenanza').fetchone()[0]}")
con.execute("SELECT * FROM cod_ensenanza").df()

## 4. Tablas de Referencia (Dependencia, Rama, Situación Egreso)

In [None]:
# Crear tablas de referencia para códigos categóricos

# Dependencia administrativa (según clasificación PAES/universidades - usada en resultados_paes)
con.execute("""
    CREATE OR REPLACE TABLE ref_dependencia (
        codigo INTEGER PRIMARY KEY,
        descripcion VARCHAR
    );
    INSERT INTO ref_dependencia VALUES
        (1, 'Particular Pagado'),
        (2, 'Particular Subvencionado'),
        (3, 'Municipal'),
        (4, 'Serv. Local Educación'),
        (5, 'Corp. Administración Delegada');
    COMMENT ON TABLE ref_dependencia IS 'Dependencia administrativa del establecimiento según norma universidades (GRUPO_DEPENDENCIA)';
""")

# Dependencia MINEDUC COD_DEPE (detallada)
con.execute("""
    CREATE OR REPLACE TABLE ref_dependencia_mineduc (
        codigo INTEGER PRIMARY KEY,
        descripcion VARCHAR
    );
    INSERT INTO ref_dependencia_mineduc VALUES
        (1, 'Corporación Municipal'),
        (2, 'Municipal DAEM'),
        (3, 'Particular Subvencionado'),
        (4, 'Particular Pagado'),
        (5, 'Corp. Administración Delegada'),
        (6, 'Servicio Local de Educación');
    COMMENT ON TABLE ref_dependencia_mineduc IS 'Dependencia administrativa según MINEDUC (COD_DEPE)';
""")

# Dependencia MINEDUC COD_DEPE2 (agrupada)
con.execute("""
    CREATE OR REPLACE TABLE ref_dependencia_mineduc2 (
        codigo INTEGER PRIMARY KEY,
        descripcion VARCHAR
    );
    INSERT INTO ref_dependencia_mineduc2 VALUES
        (1, 'Municipal'),
        (2, 'Particular Subvencionado'),
        (3, 'Particular Pagado'),
        (4, 'Corp. Administración Delegada'),
        (5, 'Servicio Local de Educación');
    COMMENT ON TABLE ref_dependencia_mineduc2 IS 'Dependencia administrativa agrupada según MINEDUC (COD_DEPE2)';
""")

# Rama educacional
con.execute("""
    CREATE OR REPLACE TABLE ref_rama (
        codigo VARCHAR PRIMARY KEY,
        descripcion VARCHAR
    );
    INSERT INTO ref_rama VALUES
        ('H1', 'Humanista Científico Diurno'),
        ('H2', 'Humanista Científico Nocturno'),
        ('H3', 'Humanista Científico - Validación de estudios'),
        ('H4', 'Humanista Científico - Reconocimiento de estudios'),
        ('T1', 'Técnico Profesional Comercial'),
        ('T2', 'Técnico Profesional Industrial'),
        ('T3', 'Técnico Profesional Servicios y Técnica'),
        ('T4', 'Técnico Profesional Agrícola'),
        ('T5', 'Técnico Profesional Marítima');
    COMMENT ON TABLE ref_rama IS 'Rama educacional del establecimiento de egreso';
""")

# Situación de egreso
con.execute("""
    CREATE OR REPLACE TABLE ref_situacion_egreso (
        codigo INTEGER PRIMARY KEY,
        descripcion VARCHAR
    );
    INSERT INTO ref_situacion_egreso VALUES
        (1, 'Promoción Año: Nacional - alumno regular'),
        (2, 'Promoción Año: Nacional - validación estudios'),
        (3, 'Promoción Año: Extranjero - con curso en Chile'),
        (4, 'Promoción Año: Extranjero - no acredita notas'),
        (5, 'Promoción Anterior: Nacional - alumno regular'),
        (6, 'Promoción Anterior: Nacional - validación estudios'),
        (7, 'Promoción Anterior: Extranjero - con curso en Chile'),
        (8, 'Promoción Anterior: Extranjero - no acredita notas');
    COMMENT ON TABLE ref_situacion_egreso IS 'Tipificación de estudios cursados por el postulante';
""")

# Módulos de ciencias
con.execute("""
    CREATE OR REPLACE TABLE ref_modulo_ciencias (
        codigo VARCHAR PRIMARY KEY,
        descripcion VARCHAR
    );
    INSERT INTO ref_modulo_ciencias VALUES
        ('BIO', 'Biología'),
        ('FIS', 'Física'),
        ('QUI', 'Química'),
        ('TEC', 'Técnico Profesional');
    COMMENT ON TABLE ref_modulo_ciencias IS 'Módulo rendido en prueba de Ciencias';
""")

# Orientación religiosa (del directorio MINEDUC)
con.execute("""
    CREATE OR REPLACE TABLE ref_orientacion_religiosa (
        codigo INTEGER PRIMARY KEY,
        descripcion VARCHAR
    );
    INSERT INTO ref_orientacion_religiosa VALUES
        (1, 'Laica'),
        (2, 'Católica'),
        (3, 'Evangélica'),
        (4, 'Musulmana'),
        (5, 'Judía'),
        (6, 'Budista'),
        (7, 'Otra'),
        (9, 'Sin información');
    COMMENT ON TABLE ref_orientacion_religiosa IS 'Orientación religiosa del establecimiento';
""")

# Estado del establecimiento
con.execute("""
    CREATE OR REPLACE TABLE ref_estado_establecimiento (
        codigo INTEGER PRIMARY KEY,
        descripcion VARCHAR
    );
    INSERT INTO ref_estado_establecimiento VALUES
        (1, 'Funcionando'),
        (2, 'En receso'),
        (3, 'Cerrado'),
        (4, 'Autorizado sin matrícula');
    COMMENT ON TABLE ref_estado_establecimiento IS 'Estado operativo del establecimiento';
""")

print("Tablas de referencia creadas:")
print("- ref_dependencia (clasificación PAES)")
print("- ref_dependencia_mineduc (COD_DEPE detallado)")
print("- ref_dependencia_mineduc2 (COD_DEPE2 agrupado)")
print("- ref_rama")
print("- ref_situacion_egreso")
print("- ref_modulo_ciencias")
print("- ref_orientacion_religiosa")
print("- ref_estado_establecimiento")

## 5. Tabla Principal: Resultados PAES

In [None]:
# Crear tabla de resultados PAES desde CSV
con.execute("""
    CREATE OR REPLACE TABLE resultados_paes (
        -- Identificación
        id VARCHAR PRIMARY KEY,                    -- Identificador único del postulante
        rbd INTEGER,                               -- RBD del establecimiento de egreso
        cod_ensenanza INTEGER,                     -- Código de enseñanza MINEDUC
        dependencia INTEGER,                       -- Dependencia: 1=Part.Pagado, 2=Part.Subv, 3=Municipal, 4=SLE
        rama VARCHAR,                              -- Rama educacional: H1-H4 (humanista), T1-T5 (técnico)
        situacion_egreso INTEGER,                  -- Situación de egreso (1-8)
        cod_region INTEGER,                        -- Código de región del establecimiento
        cod_comuna INTEGER,                        -- Código de comuna del establecimiento
        
        -- Notas de Enseñanza Media
        promedio_notas DECIMAL(4,2),               -- Promedio de notas de enseñanza media
        percentil_notas INTEGER,                   -- Percentil superior de notas (0-100)
        puntaje_nem INTEGER,                       -- Puntaje NEM estandarizado (100-1000)
        puntaje_ranking INTEGER,                   -- Puntaje Ranking estandarizado (100-1000)
        
        -- PAES Regular Actual (Proceso 2026)
        lectora_reg INTEGER,                       -- Competencia Lectora Regular
        mate1_reg INTEGER,                         -- Matemática 1 Regular
        mate2_reg INTEGER,                         -- Matemática 2 Regular
        historia_reg INTEGER,                      -- Historia y Cs. Sociales Regular
        ciencias_reg INTEGER,                      -- Ciencias Regular
        modulo_reg VARCHAR,                        -- Módulo Ciencias Regular (BIO/FIS/QUI/TEC)
        
        -- PAES Invierno Actual (Proceso 2026)
        lectora_inv INTEGER,                       -- Competencia Lectora Invierno
        mate1_inv INTEGER,                         -- Matemática 1 Invierno
        mate2_inv INTEGER,                         -- Matemática 2 Invierno
        historia_inv INTEGER,                      -- Historia y Cs. Sociales Invierno
        ciencias_inv INTEGER,                      -- Ciencias Invierno
        modulo_inv VARCHAR,                        -- Módulo Ciencias Invierno (BIO/FIS/QUI/TEC)
        
        -- PAES Regular Anterior (Proceso 2025)
        lectora_reg_ant INTEGER,                   -- Competencia Lectora Regular Anterior
        mate1_reg_ant INTEGER,                     -- Matemática 1 Regular Anterior
        mate2_reg_ant INTEGER,                     -- Matemática 2 Regular Anterior
        historia_reg_ant INTEGER,                  -- Historia y Cs. Sociales Regular Anterior
        ciencias_reg_ant INTEGER,                  -- Ciencias Regular Anterior
        modulo_reg_ant VARCHAR,                    -- Módulo Ciencias Regular Anterior
        
        -- PAES Invierno Anterior (Proceso 2025)
        lectora_inv_ant INTEGER,                   -- Competencia Lectora Invierno Anterior
        mate1_inv_ant INTEGER,                     -- Matemática 1 Invierno Anterior
        mate2_inv_ant INTEGER,                     -- Matemática 2 Invierno Anterior
        historia_inv_ant INTEGER,                  -- Historia y Cs. Sociales Invierno Anterior
        ciencias_inv_ant INTEGER,                  -- Ciencias Invierno Anterior
        modulo_inv_ant VARCHAR,                    -- Módulo Ciencias Invierno Anterior
        
        -- Indicadores de participación
        rindio_anterior BOOLEAN,                   -- Rindió al menos una prueba proceso 2025
        rindio_actual INTEGER                      -- Proceso 2026: 1=Regular, 2=Invierno, 3=Ambas
    );
""")

print("Tabla resultados_paes creada. Cargando datos...")

In [None]:
# Cargar datos desde CSV
con.execute(f"""
    INSERT INTO resultados_paes
    SELECT 
        -- Identificación
        ID_aux as id,
        CAST(RBD AS INTEGER) as rbd,
        CAST(COD_ENS AS INTEGER) as cod_ensenanza,
        CAST(GRUPO_DEPENDENCIA AS INTEGER) as dependencia,
        RAMA_EDUCACIONAL as rama,
        SITUACION_EGRESO as situacion_egreso,
        CAST(CODIGO_REGION AS INTEGER) as cod_region,
        CAST(CODIGO_COMUNA AS INTEGER) as cod_comuna,
        
        -- Notas (decimal_separator=',' ya maneja el formato)
        CAST(PROMEDIO_NOTAS AS DECIMAL(4,2)) as promedio_notas,
        PORC_SUP_NOTAS as percentil_notas,
        PTJE_NEM as puntaje_nem,
        PTJE_RANKING as puntaje_ranking,
        
        -- PAES Regular Actual
        NULLIF(CAST(CLEC_REG_ACTUAL AS INTEGER), 0),
        NULLIF(CAST(MATE1_REG_ACTUAL AS INTEGER), 0),
        NULLIF(CAST(MATE2_REG_ACTUAL AS INTEGER), 0),
        NULLIF(CAST(HCSOC_REG_ACTUAL AS INTEGER), 0),
        NULLIF(CAST(CIEN_REG_ACTUAL AS INTEGER), 0),
        NULLIF(MODULO_REG_ACTUAL, ''),
        
        -- PAES Invierno Actual
        NULLIF(CAST(CLEC_INV_ACTUAL AS INTEGER), 0),
        NULLIF(CAST(MATE1_INV_ACTUAL AS INTEGER), 0),
        NULLIF(CAST(MATE2_INV_ACTUAL AS INTEGER), 0),
        NULLIF(CAST(HCSOC_INV_ACTUAL AS INTEGER), 0),
        NULLIF(CAST(CIEN_INV_ACTUAL AS INTEGER), 0),
        NULLIF(MODULO_INV_ACTUAL, ''),
        
        -- PAES Regular Anterior
        NULLIF(CAST(CLEC_REG_ANTERIOR AS INTEGER), 0),
        NULLIF(CAST(MATE1_REG_ANTERIOR AS INTEGER), 0),
        NULLIF(CAST(MATE2_REG_ANTERIOR AS INTEGER), 0),
        NULLIF(CAST(HCSOC_REG_ANTERIOR AS INTEGER), 0),
        NULLIF(CAST(CIEN_REG_ANTERIOR AS INTEGER), 0),
        NULLIF(MODULO_REG_ANTERIOR, ''),
        
        -- PAES Invierno Anterior
        NULLIF(CAST(CLEC_INV_ANTERIOR AS INTEGER), 0),
        NULLIF(CAST(MATE1_INV_ANTERIOR AS INTEGER), 0),
        NULLIF(CAST(MATE2_INV_ANTERIOR AS INTEGER), 0),
        NULLIF(CAST(HCSOC_INV_ANTERIOR AS INTEGER), 0),
        NULLIF(CAST(CIEN_INV_ANTERIOR AS INTEGER), 0),
        NULLIF(MODULO_INV_ANTERIOR, ''),
        
        -- Indicadores
        RINDIO_PROCESO_ANTERIOR = 1 as rindio_anterior,
        RINDIO_PROCESO_ACTUAL as rindio_actual
        
    FROM read_csv('{DATA_DIR}/ArchivoC_Adm2026REG.csv', 
                  delim=';', 
                  header=true,
                  decimal_separator=',')
""")

# Agregar comentario a la tabla
con.execute("COMMENT ON TABLE resultados_paes IS 'Resultados PAES Admisión 2026 - Puntajes de pruebas y datos académicos de postulantes'")

total = con.execute("SELECT COUNT(*) FROM resultados_paes").fetchone()[0]
print(f"Registros cargados: {total:,}")

## 6. Verificación de Datos

In [None]:
# Resumen de tablas
print("=== TABLAS EN LA BASE DE DATOS ===")
con.execute("SHOW TABLES").df()

In [None]:
# Estructura de la tabla principal
print("=== ESTRUCTURA: resultados_paes ===")
con.execute("DESCRIBE resultados_paes").df()

In [None]:
# Muestra de datos
print("=== MUESTRA DE DATOS ===")
con.execute("""
    SELECT id, rbd, rama, dependencia, puntaje_nem, puntaje_ranking,
           lectora_reg, mate1_reg, mate2_reg, historia_reg, ciencias_reg
    FROM resultados_paes 
    WHERE lectora_reg IS NOT NULL
    LIMIT 10
""").df()

In [None]:
# Estadísticas básicas
print("=== ESTADÍSTICAS PUNTAJES PAES REGULAR ===")
con.execute("""
    SELECT 
        'Lectora' as prueba,
        COUNT(lectora_reg) as n,
        ROUND(AVG(lectora_reg), 1) as promedio,
        MIN(lectora_reg) as min,
        MAX(lectora_reg) as max
    FROM resultados_paes WHERE lectora_reg IS NOT NULL
    UNION ALL
    SELECT 'Matemática 1', COUNT(mate1_reg), ROUND(AVG(mate1_reg), 1), MIN(mate1_reg), MAX(mate1_reg)
    FROM resultados_paes WHERE mate1_reg IS NOT NULL
    UNION ALL
    SELECT 'Matemática 2', COUNT(mate2_reg), ROUND(AVG(mate2_reg), 1), MIN(mate2_reg), MAX(mate2_reg)
    FROM resultados_paes WHERE mate2_reg IS NOT NULL
    UNION ALL
    SELECT 'Historia', COUNT(historia_reg), ROUND(AVG(historia_reg), 1), MIN(historia_reg), MAX(historia_reg)
    FROM resultados_paes WHERE historia_reg IS NOT NULL
    UNION ALL
    SELECT 'Ciencias', COUNT(ciencias_reg), ROUND(AVG(ciencias_reg), 1), MIN(ciencias_reg), MAX(ciencias_reg)
    FROM resultados_paes WHERE ciencias_reg IS NOT NULL
""").df()

In [None]:
# Distribución por dependencia
print("=== DISTRIBUCIÓN POR DEPENDENCIA ===")
con.execute("""
    SELECT 
        d.descripcion as dependencia,
        COUNT(*) as postulantes,
        ROUND(AVG(r.puntaje_nem), 1) as prom_nem,
        ROUND(AVG(r.lectora_reg), 1) as prom_lectora
    FROM resultados_paes r
    JOIN ref_dependencia d ON r.dependencia = d.codigo
    GROUP BY d.descripcion
    ORDER BY postulantes DESC
""").df()

In [None]:
# Cerrar conexión
con.close()
print("Base de datos guardada en: paes.duckdb")