In [5]:
import pandas as pd
import requests
import os
pd.set_option('display.max_columns', None)
api_url = "https://www.datos.gov.co/resource/nudc-7mev.json?$limit=50000"
print(f"📥 Extrayendo datos desde: {api_url}")

try:
    response = requests.get(api_url)
    response.raise_for_status()  # Lanza un error si la petición falla (ej: 404)
    data = response.json()
    df_raw = pd.DataFrame(data)
    print(f"✅ ¡Extracción exitosa! Se cargaron {len(df_raw)} filas.")
    display(df_raw.head())

except requests.exceptions.RequestException as e:
    print(f"❌ Error al extraer los datos: {e}")
    df_raw = pd.DataFrame() # Creamos un dataframe vacío para evitar errores posteriores

except Exception as e:
    print(f"❌ Ocurrió un error inesperado: {e}")
    df_raw = pd.DataFrame()

📥 Extrayendo datos desde: https://www.datos.gov.co/resource/nudc-7mev.json?$limit=50000
✅ ¡Extracción exitosa! Se cargaron 14585 filas.


Unnamed: 0,a_o,c_digo_municipio,municipio,c_digo_departamento,departamento,c_digo_etc,etc,poblaci_n_5_16,tasa_matriculaci_n_5_16,cobertura_neta,cobertura_neta_transici_n,cobertura_neta_primaria,cobertura_neta_secundaria,cobertura_neta_media,cobertura_bruta,cobertura_bruta_transici_n,cobertura_bruta_primaria,cobertura_bruta_secundaria,cobertura_bruta_media,deserci_n,deserci_n_transici_n,deserci_n_primaria,deserci_n_secundaria,deserci_n_media,aprobaci_n,aprobaci_n_transici_n,aprobaci_n_primaria,aprobaci_n_secundaria,aprobaci_n_media,reprobaci_n,reprobaci_n_transici_n,reprobaci_n_primaria,reprobaci_n_secundaria,reprobaci_n_media,repitencia,repitencia_transici_n,repitencia_primaria,repitencia_secundaria,repitencia_media,tama_o_promedio_de_grupo,sedes_conectadas_a_internet
0,2023,5004,Abriaquí,5,Antioquia,3758,Antioquia (ETC),503,62.62,62.62,44.19,63.33,51.53,40.23,66.8,58.14,72.86,66.87,56.32,1.19,0.0,1.31,0.0,4.08,92.26,0.0,96.73,83.49,93.88,6.55,0.0,1.96,16.51,2.04,9.52,0.0,10.46,13.76,2.04,,
1,2023,95025,El Retorno,95,Guaviare,3830,Guaviare (ETC),4438,53.27,53.27,33.91,48.89,44.9,21.3,62.98,54.2,65.19,69.6,48.54,5.56,6.95,4.99,6.11,5.26,87.67,0.0,87.9,84.5,92.98,6.78,0.0,7.11,9.39,1.75,9.34,6.95,11.84,8.48,3.16,,
2,2023,95200,Miraflores,95,Guaviare,3830,Guaviare (ETC),2014,32.52,32.52,17.58,25.33,26.43,10.75,38.58,36.36,37.28,46.1,26.16,7.85,15.0,8.43,6.36,4.69,82.68,3.33,84.64,79.51,87.5,9.47,3.33,6.93,14.13,7.81,8.65,6.67,9.04,10.25,1.54,,
3,2023,97001,Mitú,97,Vaupés,3831,Vaupés (ETC),10986,59.57,59.57,42.76,55.95,43.51,17.06,70.65,64.9,76.96,72.92,53.12,3.95,2.27,1.84,6.77,5.47,90.71,0.57,94.12,84.91,89.93,5.34,0.57,4.04,8.33,4.6,16.18,7.75,21.04,13.84,7.18,,
4,2023,97161,Caruru,97,Vaupés,3831,Vaupés (ETC),1228,51.3,51.3,76.32,52.29,33.71,11.94,55.54,92.11,65.21,51.12,27.36,8.36,4.29,3.05,15.72,14.55,82.4,0.0,89.63,69.0,78.18,9.24,0.0,7.32,15.28,7.27,9.24,2.86,7.62,14.85,3.64,,


In [6]:
print(df_raw.shape)  # Dimensiones

(14585, 41)


In [7]:
print(df_raw.columns)  # Nombres de columnas

Index(['a_o', 'c_digo_municipio', 'municipio', 'c_digo_departamento',
       'departamento', 'c_digo_etc', 'etc', 'poblaci_n_5_16',
       'tasa_matriculaci_n_5_16', 'cobertura_neta',
       'cobertura_neta_transici_n', 'cobertura_neta_primaria',
       'cobertura_neta_secundaria', 'cobertura_neta_media', 'cobertura_bruta',
       'cobertura_bruta_transici_n', 'cobertura_bruta_primaria',
       'cobertura_bruta_secundaria', 'cobertura_bruta_media', 'deserci_n',
       'deserci_n_transici_n', 'deserci_n_primaria', 'deserci_n_secundaria',
       'deserci_n_media', 'aprobaci_n', 'aprobaci_n_transici_n',
       'aprobaci_n_primaria', 'aprobaci_n_secundaria', 'aprobaci_n_media',
       'reprobaci_n', 'reprobaci_n_transici_n', 'reprobaci_n_primaria',
       'reprobaci_n_secundaria', 'reprobaci_n_media', 'repitencia',
       'repitencia_transici_n', 'repitencia_primaria', 'repitencia_secundaria',
       'repitencia_media', 'tama_o_promedio_de_grupo',
       'sedes_conectadas_a_internet'],
   

In [8]:
df_raw.info()  # Información general

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14585 entries, 0 to 14584
Data columns (total 41 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   a_o                          14585 non-null  object
 1   c_digo_municipio             14585 non-null  object
 2   municipio                    14585 non-null  object
 3   c_digo_departamento          14585 non-null  object
 4   departamento                 14585 non-null  object
 5   c_digo_etc                   14585 non-null  object
 6   etc                          14585 non-null  object
 7   poblaci_n_5_16               14579 non-null  object
 8   tasa_matriculaci_n_5_16      14470 non-null  object
 9   cobertura_neta               14474 non-null  object
 10  cobertura_neta_transici_n    14533 non-null  object
 11  cobertura_neta_primaria      14494 non-null  object
 12  cobertura_neta_secundaria    14491 non-null  object
 13  cobertura_neta_media         14

In [9]:
# Renombrar columnas: minúsculas, sin tildes ni caracteres especiales
df_raw.columns = (
    df_raw.columns
    .str.lower()
    .str.strip()
    .str.replace("á", "a", regex=False)
    .str.replace("é", "e", regex=False)
    .str.replace("í", "i", regex=False)
    .str.replace("ó", "o", regex=False)
    .str.replace("ú", "u", regex=False)
    .str.replace("ñ", "n", regex=False)
    .str.replace("ü", "u", regex=False)
    .str.replace(" ", "_")
)

df_raw.columns


Index(['a_o', 'c_digo_municipio', 'municipio', 'c_digo_departamento',
       'departamento', 'c_digo_etc', 'etc', 'poblaci_n_5_16',
       'tasa_matriculaci_n_5_16', 'cobertura_neta',
       'cobertura_neta_transici_n', 'cobertura_neta_primaria',
       'cobertura_neta_secundaria', 'cobertura_neta_media', 'cobertura_bruta',
       'cobertura_bruta_transici_n', 'cobertura_bruta_primaria',
       'cobertura_bruta_secundaria', 'cobertura_bruta_media', 'deserci_n',
       'deserci_n_transici_n', 'deserci_n_primaria', 'deserci_n_secundaria',
       'deserci_n_media', 'aprobaci_n', 'aprobaci_n_transici_n',
       'aprobaci_n_primaria', 'aprobaci_n_secundaria', 'aprobaci_n_media',
       'reprobaci_n', 'reprobaci_n_transici_n', 'reprobaci_n_primaria',
       'reprobaci_n_secundaria', 'reprobaci_n_media', 'repitencia',
       'repitencia_transici_n', 'repitencia_primaria', 'repitencia_secundaria',
       'repitencia_media', 'tama_o_promedio_de_grupo',
       'sedes_conectadas_a_internet'],
   

In [10]:
# Identificamos columnas que no son texto (excluyendo las claves y nombres)
columnas_excluir = [
    'a_o', 'codigo_municipio', 'municipio',
    'codigo_departamento', 'departamento',
    'codigo_etc', 'etc'
]

# Seleccionamos las columnas candidatas a conversión numérica
columnas_numericas = [col for col in df_raw.columns if col not in columnas_excluir]

# Convertimos a tipo numérico (forzando errores a NaN si hay datos sucios)
df_raw[columnas_numericas] = df_raw[columnas_numericas].apply(pd.to_numeric, errors='coerce')

In [11]:
# Función para limpiar strings tipo '85,6%' a float 0.856
def limpiar_porcentaje(valor):
    if isinstance(valor, str):
        valor = valor.replace('%', '').replace(',', '.')
    try:
        return float(valor) / 100
    except:
        return None

# Aplicamos la limpieza a las columnas que son tasas o porcentajes
columnas_porcentajes = [col for col in df_raw.columns if any(palabra in col for palabra in ['tasa', 'cobertura', 'deserci', 'aprobaci', 'reprobaci', 'repitencia'])]

for col in columnas_porcentajes:
    df_raw[col] = df_raw[col].apply(limpiar_porcentaje)

In [12]:
# Contar valores nulos por columna, ordenados de mayor a menor
df_raw.isnull().sum().sort_values(ascending=False)

tama_o_promedio_de_grupo       7013
sedes_conectadas_a_internet    6817
deserci_n_transici_n            903
deserci_n_media                 734
deserci_n_secundaria            270
deserci_n_primaria              242
repitencia_transici_n           159
repitencia_secundaria           152
repitencia_primaria             148
reprobaci_n_media               145
repitencia                      143
deserci_n                       142
repitencia_media                139
cobertura_bruta_media           127
tasa_matriculaci_n_5_16         115
cobertura_neta                  111
reprobaci_n_secundaria          106
aprobaci_n_media                101
cobertura_bruta_transici_n       97
reprobaci_n_primaria             97
cobertura_neta_secundaria        94
reprobaci_n_transici_n           93
aprobaci_n_transici_n            93
cobertura_neta_media             93
cobertura_neta_primaria          91
cobertura_bruta_secundaria       88
reprobaci_n                      86
cobertura_bruta_primaria    

In [17]:
# 1. Eliminar columnas con muchos nulos 
df_raw.drop(columns=['tama_o_promedio_de_grupo', 'sedes_conectadas_a_internet'], inplace=True, errors='ignore')

# 2. Imputar valores faltantes con la media de cada columna 
for col in df_raw.select_dtypes(include=['float64', 'int64']).columns:
    media = df_raw[col].mean()
    df_raw[col] = df_raw[col].fillna(media)

In [18]:
df_raw.isnull().sum().sum()  # Debería dar 0

np.int64(0)