In [1]:
import pandas as pd
import requests
import sqlite3

In [2]:
api_url = "https://www.datos.gov.co/resource/nudc-7mev.json?$limit=50000"

print(f"📥 Extrayendo datos desde: {api_url}")

try:
    response = requests.get(api_url)
    response.raise_for_status()  # Lanza un error si la petición falla (ej: 404)
    data = response.json()
    df_raw = pd.DataFrame(data)
    print(f"✅ ¡Extracción exitosa! Se cargaron {len(df_raw)} filas.")
    display(df_raw.head())

except requests.exceptions.RequestException as e:
    print(f"❌ Error al extraer los datos: {e}")
    df_raw = pd.DataFrame() # Creamos un dataframe vacío para evitar errores posteriores

except Exception as e:
    print(f"❌ Ocurrió un error inesperado: {e}")
    df_raw = pd.DataFrame()

📥 Extrayendo datos desde: https://www.datos.gov.co/resource/nudc-7mev.json?$limit=50000
✅ ¡Extracción exitosa! Se cargaron 14585 filas.


Unnamed: 0,a_o,c_digo_municipio,municipio,c_digo_departamento,departamento,c_digo_etc,etc,poblaci_n_5_16,tasa_matriculaci_n_5_16,cobertura_neta,...,reprobaci_n_primaria,reprobaci_n_secundaria,reprobaci_n_media,repitencia,repitencia_transici_n,repitencia_primaria,repitencia_secundaria,repitencia_media,tama_o_promedio_de_grupo,sedes_conectadas_a_internet
0,2023,5004,Abriaquí,5,Antioquia,3758,Antioquia (ETC),503,62.62,62.62,...,1.96,16.51,2.04,9.52,0.0,10.46,13.76,2.04,,
1,2023,95025,El Retorno,95,Guaviare,3830,Guaviare (ETC),4438,53.27,53.27,...,7.11,9.39,1.75,9.34,6.95,11.84,8.48,3.16,,
2,2023,95200,Miraflores,95,Guaviare,3830,Guaviare (ETC),2014,32.52,32.52,...,6.93,14.13,7.81,8.65,6.67,9.04,10.25,1.54,,
3,2023,97001,Mitú,97,Vaupés,3831,Vaupés (ETC),10986,59.57,59.57,...,4.04,8.33,4.6,16.18,7.75,21.04,13.84,7.18,,
4,2023,97161,Caruru,97,Vaupés,3831,Vaupés (ETC),1228,51.3,51.3,...,7.32,15.28,7.27,9.24,2.86,7.62,14.85,3.64,,


In [None]:
print(df_raw.columns)  



Index(['a_o', 'c_digo_municipio', 'municipio', 'c_digo_departamento',
       'departamento', 'c_digo_etc', 'etc', 'poblaci_n_5_16',
       'tasa_matriculaci_n_5_16', 'cobertura_neta',
       'cobertura_neta_transici_n', 'cobertura_neta_primaria',
       'cobertura_neta_secundaria', 'cobertura_neta_media', 'cobertura_bruta',
       'cobertura_bruta_transici_n', 'cobertura_bruta_primaria',
       'cobertura_bruta_secundaria', 'cobertura_bruta_media', 'deserci_n',
       'deserci_n_transici_n', 'deserci_n_primaria', 'deserci_n_secundaria',
       'deserci_n_media', 'aprobaci_n', 'aprobaci_n_transici_n',
       'aprobaci_n_primaria', 'aprobaci_n_secundaria', 'aprobaci_n_media',
       'reprobaci_n', 'reprobaci_n_transici_n', 'reprobaci_n_primaria',
       'reprobaci_n_secundaria', 'reprobaci_n_media', 'repitencia',
       'repitencia_transici_n', 'repitencia_primaria', 'repitencia_secundaria',
       'repitencia_media', 'tama_o_promedio_de_grupo',
       'sedes_conectadas_a_internet'],
   

In [3]:
# Para mostrar todas las columnas 
pd.set_option('display.max_columns', None)

# Muestra 5 filas aleatorias con todas las columnas visibles
df_raw.sample(5)


Unnamed: 0,a_o,c_digo_municipio,municipio,c_digo_departamento,departamento,c_digo_etc,etc,poblaci_n_5_16,tasa_matriculaci_n_5_16,cobertura_neta,cobertura_neta_transici_n,cobertura_neta_primaria,cobertura_neta_secundaria,cobertura_neta_media,cobertura_bruta,cobertura_bruta_transici_n,cobertura_bruta_primaria,cobertura_bruta_secundaria,cobertura_bruta_media,deserci_n,deserci_n_transici_n,deserci_n_primaria,deserci_n_secundaria,deserci_n_media,aprobaci_n,aprobaci_n_transici_n,aprobaci_n_primaria,aprobaci_n_secundaria,aprobaci_n_media,reprobaci_n,reprobaci_n_transici_n,reprobaci_n_primaria,reprobaci_n_secundaria,reprobaci_n_media,repitencia,repitencia_transici_n,repitencia_primaria,repitencia_secundaria,repitencia_media,tama_o_promedio_de_grupo,sedes_conectadas_a_internet
1139,2022,94886,Cacahual,94,Guainía,3829,Guainía (ETC),383,79.63,79.63,43.48,78.26,11.38,0.0,86.68,104.35,141.85,38.21,0.0,8.73,12.5,7.66,12.77,0.0,75.3,0.0,72.03,87.23,0.0,15.96,0.0,20.31,0.0,0.0,14.76,16.67,16.48,4.26,0.0,,
12869,2012,27361,Istmina,27,Chocó,3789,Chocó (ETC),6857,108.91,108.9,79.1,103.8,74.2,39.5,140.9,126.1,151.6,137.2,129.0,3.22,3.6,3.4,2.93,2.87,90.46,0.0,89.77,88.65,93.52,6.33,0.0,6.83,8.42,3.61,0.53,0.0,0.78,0.48,0.0,21.05,33.33
11443,2013,68406,Lebríja,68,Santander,3808,Santander (ETC),8424,91.35,91.3,66.8,97.5,76.9,37.2,102.8,102.5,119.1,102.7,64.6,3.7,5.36,2.51,4.66,4.74,95.88,0.0,97.49,95.01,92.2,0.42,0.0,0.0,0.33,3.06,0.6,0.0,0.15,1.57,0.0,51.97,0.0
12625,2012,66001,Pereira,66,Risaralda,3806,Pereira,87647,102.03,101.8,69.9,96.9,84.7,51.0,123.2,108.9,121.9,135.2,110.0,8.78,7.83,7.53,10.97,7.53,82.79,1.77,86.43,75.8,85.08,8.43,1.77,6.04,13.23,7.39,1.77,0.19,1.39,2.74,1.32,23.52,93.62
9516,2015,25873,Villapinzón,25,Cundinamarca,3785,Cundinamarca (ETC),4966,85.7,85.7,41.61,74.33,89.75,54.63,96.46,65.48,86.98,116.89,95.31,4.26,2.9,2.31,6.83,3.54,95.74,0.0,97.69,93.17,96.46,0.0,0.0,0.0,0.0,0.0,4.87,0.0,3.05,8.16,3.54,14.5,52.17


In [4]:
## LIMPIEZA DE DATOS 

In [5]:
# Normalizar nombres de las columnas
df_raw.columns = (
    df_raw.columns.str.lower()
    .str.replace('á', 'a')
    .str.replace('é', 'e')
    .str.replace('í', 'i')
    .str.replace('ó', 'o')
    .str.replace('ú', 'u')
    .str.replace('ñ', 'n')
    .str.replace(' ', '_')
)

In [6]:
# Convertir métricas a numéro si se puede  
for col in df_raw.columns:
    try:
        df_raw[col] = pd.to_numeric(df_raw[col])
    except (ValueError, TypeError):
        pass  # Deja la columna como está si no se puede convertir

# Elimina filas sin matrícula 
df_raw = df_raw.dropna(subset=['tasa_matriculaci_n_5_16'])

# Reemplaza otros NaN por 0 
df_raw = df_raw.fillna(0)



In [7]:
df_raw['poblaci_n_5_16'] = pd.to_numeric(df_raw['poblaci_n_5_16'].astype(str).str.replace(',', ''), errors='coerce')
df_raw['poblaci_n_5_16'].dtypes



dtype('float64')

In [8]:
df_raw.dtypes


a_o                              int64
c_digo_municipio                 int64
municipio                       object
c_digo_departamento              int64
departamento                    object
c_digo_etc                     float64
etc                             object
poblaci_n_5_16                 float64
tasa_matriculaci_n_5_16        float64
cobertura_neta                 float64
cobertura_neta_transici_n      float64
cobertura_neta_primaria        float64
cobertura_neta_secundaria      float64
cobertura_neta_media           float64
cobertura_bruta                float64
cobertura_bruta_transici_n     float64
cobertura_bruta_primaria       float64
cobertura_bruta_secundaria     float64
cobertura_bruta_media          float64
deserci_n                      float64
deserci_n_transici_n           float64
deserci_n_primaria             float64
deserci_n_secundaria           float64
deserci_n_media                float64
aprobaci_n                     float64
aprobaci_n_transici_n    

In [9]:
# Creación de Dimensiones

In [10]:
dim_tiempo = df_raw[['a_o']].drop_duplicates().reset_index(drop=True)
dim_tiempo['id_tiempo'] = dim_tiempo.index + 1

In [12]:
dim_ubicacion = df_raw[['c_digo_municipio', 'municipio', 'c_digo_departamento', 'departamento']].drop_duplicates().reset_index(drop=True)
dim_ubicacion['id_ubicacion'] = dim_ubicacion.index + 1

In [13]:
dim_etc = df_raw[['c_digo_etc', 'etc']].drop_duplicates().reset_index(drop=True)
dim_etc['id_etc'] = dim_etc.index + 1

In [14]:
## Tabla Principal 
# Merge con dimensiones
df_fact = df_raw.merge(dim_tiempo, on='a_o', how='left') \
                .merge(dim_ubicacion, on=['c_digo_municipio', 'municipio', 'c_digo_departamento', 'departamento'], how='left') \
                .merge(dim_etc, on=['c_digo_etc', 'etc'], how='left')

In [None]:
import sqlite3

# Crear o conectar a una base de datos SQLite local
conn = sqlite3.connect('mi_base_datos.db')  # Esto crea el archivo en el mismo directorio

# Escribir tablas al archivo SQLite
dim_tiempo.to_sql('dim_tiempo', conn, index=False, if_exists='replace')
dim_ubicacion.to_sql('dim_ubicacion', conn, index=False, if_exists='replace')
dim_etc.to_sql('dim_etc', conn, index=False, if_exists='replace')
tabla_hechos.to_sql('tabla_hechos', conn, index=False, if_exists='replace')

14470

In [18]:
# Columnas métricas
metricas = df_raw.columns.difference([
    'a_o', 'c_digo_municipio', 'municipio', 'c_digo_departamento', 'departamento', 'c_digo_etc', 'etc'
])

# Tabla de hechos
tabla_hechos = df_fact[['id_tiempo', 'id_ubicacion', 'id_etc'] + list(metricas)].copy()
tabla_hechos.to_sql('tabla_hechos', conn, index=False, if_exists='replace')

14470

In [None]:
## Preguntas
## Respecto a la población del municipio ¿Que porcentaje de escolaridad hay?

In [19]:
consulta = """
SELECT 
    u.municipio,
    u.departamento,
    AVG(f.tasa_matriculaci_n_5_16) AS porcentaje_escolaridad
FROM 
    tabla_hechos f
JOIN 
    dim_ubicacion u ON f.id_ubicacion = u.id_ubicacion
GROUP BY 
    u.municipio, u.departamento
ORDER BY 
    porcentaje_escolaridad DESC
"""

resultado = pd.read_sql_query(consulta, conn)
print(resultado.head())



         municipio  departamento  porcentaje_escolaridad
0             Cota  Cundinamarca              209.951250
1  Puerto Colombia     Atlántico              195.596250
2            Tenjo  Cundinamarca              149.599000
3        La Calera  Cundinamarca              144.078462
4          Salento       Quindio              139.272308


In [None]:
##¿Cómo compararía el rendimiento educativo por municipios?

In [26]:
consulta = """
SELECT 
    u.municipio,
    u.departamento,
    ROUND(AVG(f.aprobaci_n), 2) AS promedio_aprobacion,
    ROUND(AVG(f.reprobaci_n), 2) AS promedio_reprobacion,
    ROUND(AVG(f.repitencia), 2) AS promedio_repitencia
FROM 
    tabla_hechos f
JOIN 
    dim_ubicacion u ON f.id_ubicacion = u.id_ubicacion
GROUP BY 
    u.municipio, u.departamento
ORDER BY 
    promedio_aprobacion DESC
"""
resultado = pd.read_sql_query(consulta, conn)
print(resultado.head())


         municipio  departamento  promedio_aprobacion  promedio_reprobacion  \
0     Puerto Arica      Amazonas                98.97                  0.03   
1         Tibirita  Cundinamarca                98.42                  0.43   
2         La Palma  Cundinamarca                98.28                  0.20   
3        Guatavita  Cundinamarca                98.27                  0.27   
4  Miriti - Paraná      Amazonas                98.21                  0.35   

   promedio_repitencia  
0                 5.72  
1                 0.83  
2                 1.58  
3                 2.62  
4                 5.52  


In [None]:
##¿Que departamentos son los que mejor cobertura tienen? ¿Pueden hacer cálculo con SQL?

In [28]:
consulta = """
SELECT 
    u.departamento,
    ROUND(AVG(f.cobertura_neta), 2) AS promedio_cobertura_neta
FROM 
    tabla_hechos f
JOIN 
    dim_ubicacion u ON f.id_ubicacion = u.id_ubicacion
GROUP BY 
    u.departamento
ORDER BY 
    promedio_cobertura_neta DESC
"""
resultado = pd.read_sql_query(consulta, conn)
print(resultado.head())



  departamento  promedio_cobertura_neta
0  Bogotá D.C.                    95.89
1      Quindio                    94.58
2        Sucre                    93.85
3        Cesar                    93.81
4    Magdalena                    93.04
