 Dataset: MEN Estadísticas Educación Preescolar, Básica y Media por Municipio

# WIDA -DATATHON ACADEMICO

## 1. CARGA Y EXPLORACIÓN INICIAL DE DATOS

In [8]:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Cargamos el dataset
url = "https://raw.githubusercontent.com/Yelettni/Final_WIDA/main/data/ESTADISTICAS_EN_EDUCACION_POR_MUNICIPIO.csv"
df_original = pd.read_csv(url,encoding='utf-8')


In [9]:
# Exploración inicial
print("\n📋 INFORMACIÓN GENERAL:")
df_original.info()
print("\n🔍 PRIMERAS 5 FILAS:")
df_original.head()


📋 INFORMACIÓN GENERAL:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14585 entries, 0 to 14584
Data columns (total 41 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   AÑO                          14585 non-null  int64  
 1   CÓDIGO_MUNICIPIO             14585 non-null  int64  
 2   MUNICIPIO                    14585 non-null  object 
 3   CÓDIGO_DEPARTAMENTO          14585 non-null  int64  
 4   DEPARTAMENTO                 14585 non-null  object 
 5   CÓDIGO_ETC                   14585 non-null  float64
 6   ETC                          14585 non-null  object 
 7   POBLACIÓN_5_16               14579 non-null  object 
 8   TASA_MATRICULACIÓN_5_16      14470 non-null  float64
 9   COBERTURA_NETA               14474 non-null  float64
 10  COBERTURA_NETA_TRANSICIÓN    14533 non-null  float64
 11  COBERTURA_NETA_PRIMARIA      14494 non-null  float64
 12  COBERTURA_NETA_SECUNDARIA    14491 non-null  float

Unnamed: 0,AÑO,CÓDIGO_MUNICIPIO,MUNICIPIO,CÓDIGO_DEPARTAMENTO,DEPARTAMENTO,CÓDIGO_ETC,ETC,POBLACIÓN_5_16,TASA_MATRICULACIÓN_5_16,COBERTURA_NETA,...,REPROBACIÓN,REPROBACIÓN_TRANSICIÓN,REPROBACIÓN_PRIMARIA,REPROBACIÓN_SECUNDARIA,REPROBACIÓN_MEDIA,REPITENCIA,REPITENCIA_TRANSICIÓN,REPITENCIA_PRIMARIA,REPITENCIA_SECUNDARIA,REPITENCIA_MEDIA
0,2023,5001,Medellín,5,Antioquia,3759.0,Medellín,377562,96.15,95.94,...,9.23,0.15,6.21,15.4,7.27,9.25,1.82,8.34,13.69,4.48
1,2023,5002,Abejorral,5,Antioquia,3758.0,Antioquia (ETC),3634,74.38,74.38,...,7.77,0.56,7.26,10.93,4.41,9.07,1.67,10.28,11.32,2.2
2,2023,5004,Abriaquí,5,Antioquia,3758.0,Antioquia (ETC),503,62.62,62.62,...,6.55,0.0,1.96,16.51,2.04,9.52,0.0,10.46,13.76,2.04
3,2023,5021,Alejandría,5,Antioquia,3758.0,Antioquia (ETC),864,81.37,81.37,...,7.88,0.0,7.02,13.65,2.4,7.2,1.59,7.69,11.65,0.0
4,2023,5030,Amagá,5,Antioquia,3758.0,Antioquia (ETC),5060,78.3,78.3,...,10.71,0.0,9.63,16.48,5.5,12.08,0.29,11.54,18.48,3.98


## 2. LIMPIEZA Y PREPARACIÓN DE DATOS

Columnas renombradas (estandarizadas en formato snake_case).
No elimina/imputa valores faltantes, solo los reporta.Iniciamos exploracion y visualizamos las 5 primeras filas

In [10]:
def limpiar_datos(df):
    """
    Función renombrar columnas y preparar los datos
    """
    if df is None:
        return None
    
    print("\n🧹 INICIANDO LIMPIEZA DE DATOS...")
    
    # Crear copia para trabajar
    df_clean = df.copy()
    
    # Análisis de valores faltantes
    print("\n📊 VALORES FALTANTES POR COLUMNA:")
    missing_data = df_clean.isnull().sum()
    missing_percent = (missing_data / len(df_clean)) * 100
    missing_df = pd.DataFrame({
        'Faltantes': missing_data,
        'Porcentaje': missing_percent
    }).sort_values('Porcentaje', ascending=False)
    print(missing_df[missing_df['Faltantes'] > 0])
    
    # Estandarizar nombres de columnas (común en datasets del MEN)
   
    column_mapping = {}
    for col in df_clean.columns:
        new_col = col.lower().replace(' ', '_')
        if col != new_col:
            column_mapping[col] = new_col
    
    if column_mapping:
        df_clean = df_clean.rename(columns=column_mapping)
        print(f"\n✅ Columnas renombradas: {len(column_mapping)}")

        # Listar columnas, luego de renombrar
        print("\n📋 NUEVAS COLUMNAS:")
    for i, col in enumerate(df_clean.columns, 1):
        print(f"{i:2d}. {col}")
    
    return df_clean

# Limpiar datos
df_clean = limpiar_datos(df_original)


🧹 INICIANDO LIMPIEZA DE DATOS...

📊 VALORES FALTANTES POR COLUMNA:
                             Faltantes  Porcentaje
TAMAÑO_PROMEDIO_DE_GRUPO          7013   48.083648
SEDES_CONECTADAS_A_INTERNET       6817   46.739801
DESERCIÓN_TRANSICIÓN               903    6.191292
DESERCIÓN_MEDIA                    734    5.032568
DESERCIÓN_SECUNDARIA               270    1.851217
DESERCIÓN_PRIMARIA                 242    1.659239
REPITENCIA_TRANSICIÓN              159    1.090161
REPITENCIA_SECUNDARIA              152    1.042167
REPITENCIA_PRIMARIA                148    1.014741
REPROBACIÓN_MEDIA                  145    0.994172
REPITENCIA                         143    0.980459
DESERCIÓN                          142    0.973603
REPITENCIA_MEDIA                   139    0.953034
COBERTURA_BRUTA_MEDIA              127    0.870758
TASA_MATRICULACIÓN_5_16            115    0.788481
COBERTURA_NETA                     111    0.761056
REPROBACIÓN_SECUNDARIA             106    0.726774
APROBACIÓN_MED

In [11]:
# Identificación de duplicados

duplicados = df_clean[df_clean.duplicated(keep=False)]  # Todas las apariciones
print(f"📊 Filas duplicadas totales: {len(duplicados)}")

📊 Filas duplicadas totales: 0
