# 📚 Demo Clase 2: Análisis de Estadísticas Educativas en Colombia

## 🎯 Objetivo
Aplicar los conceptos de Python intermedio para análisis de datos usando un dataset real del Ministerio de Educación Nacional de Colombia.

### 📋 Temas a cubrir:
1. **Numpy**: Arrays y operaciones vectorizadas
2. **Pandas**: DataFrames, Series e índices
3. **Análisis Exploratorio de Datos (EDA)**: Los "Big 3" - head(), info(), describe()
4. **Filtrado y agregaciones**: loc, iloc, groupby
5. **Visualizaciones básicas**: Para entender los datos

## 1️⃣ Importación de librerías

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

# Configuración visual
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
warnings.filterwarnings('ignore')

# Configuración de pandas para mejor visualización
pd.set_option('display.max_columns', 20)
pd.set_option('display.max_rows', 100)
pd.set_option('display.float_format', '{:.2f}'.format)

print("✅ Librerías importadas correctamente")
print(f"Pandas version: {pd.__version__}")
print(f"Numpy version: {np.__version__}")

## 2️⃣ Carga de Datos

### 📂 Dataset: Estadísticas de Educación Preescolar, Básica y Media por Municipio

In [None]:
# Cargar el dataset
file_path = 'MEN_ESTADISTICAS_EN_EDUCACION_EN_PREESCOLAR__B_SICA_Y_MEDIA_POR_MUNICIPIO_20250815.csv'

# Usando pandas para leer el CSV
df = pd.read_csv(file_path)

print("✅ Dataset cargado exitosamente")
print(f"Dimensiones del dataset: {df.shape[0]} filas x {df.shape[1]} columnas")

# Limpieza y conversión de tipos de datos
print("\n🔧 LIMPIEZA DE DATOS:")
print("="*50)

# Función para convertir a numérico, manejando errores
def convertir_numerico(serie):
    return pd.to_numeric(serie, errors='coerce')

# Columnas que deberían ser numéricas
columnas_numericas = [
    'POBLACIÓN_5_16', 'TASA_MATRICULACIÓN_5_16', 'COBERTURA_NETA', 
    'COBERTURA_NETA_TRANSICIÓN', 'COBERTURA_NETA_PRIMARIA', 
    'COBERTURA_NETA_SECUNDARIA', 'COBERTURA_NETA_MEDIA',
    'DESERCIÓN', 'DESERCIÓN_TRANSICIÓN', 'DESERCIÓN_PRIMARIA', 
    'DESERCIÓN_SECUNDARIA', 'DESERCIÓN_MEDIA',
    'APROBACIÓN', 'APROBACIÓN_TRANSICIÓN', 'APROBACIÓN_PRIMARIA', 
    'APROBACIÓN_SECUNDARIA', 'APROBACIÓN_MEDIA',
    'REPROBACIÓN', 'REPROBACIÓN_TRANSICIÓN', 'REPROBACIÓN_PRIMARIA', 
    'REPROBACIÓN_SECUNDARIA', 'REPROBACIÓN_MEDIA'
]

# Convertir columnas a numéricas
for col in columnas_numericas:
    if col in df.columns:
        valores_originales = df[col].dtype
        df[col] = convertir_numerico(df[col])
        print(f"✅ {col}: {valores_originales} -> {df[col].dtype}")

print(f"\n📊 Tipos de datos actualizados correctamente")

## 3️⃣ Los "Big 3" del Análisis Exploratorio

### 📊 Estos son los tres métodos más importantes para entender tus datos

In [None]:
# 1. HEAD() - Ver las primeras filas
print("📋 PRIMERAS 5 FILAS DEL DATASET:")
print("="*80)
df.head()

In [None]:
# 2. INFO() - Información general del dataset
print("📊 INFORMACIÓN GENERAL DEL DATASET:")
print("="*80)
df.info()

In [None]:
# 3. DESCRIBE() - Estadísticas descriptivas
print("📈 ESTADÍSTICAS DESCRIPTIVAS:")
print("="*80)
df.describe()

## 4️⃣ Análisis de Estructura de Datos

### 🔍 Entendiendo nuestro dataset

In [None]:
# Explorar las columnas disponibles
print("📋 COLUMNAS DISPONIBLES:")
print("="*80)
for i, col in enumerate(df.columns, 1):
    print(f"{i:2d}. {col}")

print(f"\n📊 Total de columnas: {len(df.columns)}")

In [None]:
# Verificar valores únicos en columnas categóricas clave
print("🏫 ANÁLISIS DE DATOS CATEGÓRICOS:")
print("="*80)

columnas_categoricas = ['DEPARTAMENTO', 'ETC']

for col in columnas_categoricas:
    print(f"\n📍 {col}:")
    print(f"   - Valores únicos: {df[col].nunique()}")
    print(f"   - Top 5 más frecuentes:")
    print(df[col].value_counts().head())

In [None]:
# Verificar valores nulos
print("🔍 ANÁLISIS DE VALORES NULOS:")
print("="*80)

nulos = df.isnull().sum()
nulos_pct = (nulos / len(df)) * 100

# Crear DataFrame con información de nulos
nulos_df = pd.DataFrame({
    'Columna': nulos.index,
    'Valores_Nulos': nulos.values,
    'Porcentaje': nulos_pct.values
})

# Filtrar solo columnas con valores nulos
nulos_df = nulos_df[nulos_df['Valores_Nulos'] > 0].sort_values('Porcentaje', ascending=False)

if len(nulos_df) > 0:
    print(nulos_df)
else:
    print("✅ No hay valores nulos en el dataset!")

## 5️⃣ Trabajando con NumPy

### ⚡ Operaciones vectorizadas para mayor eficiencia

In [None]:
# Convertir columnas numéricas a arrays de NumPy
print("🔢 TRABAJANDO CON NUMPY ARRAYS:")
print("="*80)

# Seleccionar columnas de cobertura
coberturas = ['COBERTURA_NETA', 'COBERTURA_NETA_PRIMARIA', 
              'COBERTURA_NETA_SECUNDARIA', 'COBERTURA_NETA_MEDIA']

# Crear arrays NumPy
cobertura_arrays = {}
for col in coberturas:
    if col in df.columns:
        # Convertir a array numpy, manejando valores nulos
        array = df[col].fillna(0).values
        cobertura_arrays[col] = array
        print(f"\n📊 {col}:")
        print(f"   - Tipo: {type(array)}")
        print(f"   - Shape: {array.shape}")
        print(f"   - Media: {np.mean(array):.2f}")
        print(f"   - Desv. Estándar: {np.std(array):.2f}")
        print(f"   - Min: {np.min(array):.2f}, Max: {np.max(array):.2f}")

In [None]:
# Comparación de velocidad: Python vs NumPy
import time

print("⚡ COMPARACIÓN DE RENDIMIENTO: PYTHON vs NUMPY")
print("="*80)

# Usar la columna de población
poblacion = df['POBLACIÓN_5_16'].fillna(0).values

# Método Python tradicional
start = time.time()
resultado_python = [x * 2 for x in poblacion]
tiempo_python = time.time() - start

# Método NumPy (vectorizado)
start = time.time()
resultado_numpy = poblacion * 2
tiempo_numpy = time.time() - start

print(f"\n🐍 Python (list comprehension): {tiempo_python:.6f} segundos")
print(f"⚡ NumPy (vectorizado): {tiempo_numpy:.6f} segundos")
print(f"\n🚀 NumPy es {tiempo_python/tiempo_numpy:.1f}x más rápido!")

## 6️⃣ Pandas: Series vs DataFrame

### 📊 Entendiendo las estructuras de datos fundamentales

In [None]:
# Crear una Serie desde una columna
print("📈 PANDAS SERIES:")
print("="*80)

# Serie de tasas de deserción
desercion_serie = df['DESERCIÓN']

print(f"Tipo: {type(desercion_serie)}")
print(f"\nPrimeros 5 valores:")
print(desercion_serie.head())
print(f"\nEstadísticas de la Serie:")
print(desercion_serie.describe())

In [None]:
# Crear un DataFrame subset
print("📊 PANDAS DATAFRAME:")
print("="*80)

# Seleccionar columnas específicas para crear un nuevo DataFrame
columnas_subset = ['MUNICIPIO', 'DEPARTAMENTO', 'POBLACIÓN_5_16', 
                   'COBERTURA_NETA', 'DESERCIÓN', 'APROBACIÓN']

df_subset = df[columnas_subset].copy()

print(f"Tipo: {type(df_subset)}")
print(f"Shape: {df_subset.shape}")
print(f"\nPrimeras 3 filas del subset:")
df_subset.head(3)

## 7️⃣ Indexación y Filtrado

### 🔍 loc vs iloc - Las herramientas fundamentales para acceder a datos

In [None]:
# iloc - Indexación por posición (números)
print("🔢 ILOC - Indexación por POSICIÓN:")
print("="*80)

# Primera fila
print("Primera fila (iloc[0]):")
print(df.iloc[0][['MUNICIPIO', 'DEPARTAMENTO', 'COBERTURA_NETA']])

print("\nPrimeras 3 filas, columnas 2-5 (iloc[0:3, 2:5]):")
print(df.iloc[0:3, 2:5])

In [None]:
# loc - Indexación por etiqueta
print("🏷️ LOC - Indexación por ETIQUETA:")
print("="*80)

# Filas 0-2, columnas específicas
print("Filas 0-2, columnas específicas:")
print(df.loc[0:2, ['MUNICIPIO', 'DEPARTAMENTO', 'COBERTURA_NETA']])

# Filtrado con condiciones
print("\n🎯 Municipios de Antioquia con cobertura neta > 90:")
filtro_antioquia = df.loc[
    (df['DEPARTAMENTO'] == 'Antioquia') & 
    (df['COBERTURA_NETA'] > 90),
    ['MUNICIPIO', 'COBERTURA_NETA', 'POBLACIÓN_5_16']
].head(5)

print(filtro_antioquia)

## 8️⃣ Filtrado Avanzado

### 🎯 Aplicando múltiples condiciones

In [None]:
# Filtrado con múltiples condiciones
print("🔍 FILTRADO CON MÚLTIPLES CONDICIONES:")
print("="*80)

# Municipios con alta cobertura y baja deserción
# Primero filtrar valores válidos
df_validos = df.dropna(subset=['COBERTURA_NETA', 'DESERCIÓN', 'POBLACIÓN_5_16'])

municipios_destacados = df_validos[
    (df_validos['COBERTURA_NETA'] > 85) & 
    (df_validos['DESERCIÓN'] < 3) &
    (df_validos['POBLACIÓN_5_16'] > 1000)
].copy()

print(f"\n✅ Encontrados {len(municipios_destacados)} municipios destacados")
print("   (Cobertura > 85%, Deserción < 3%, Población > 1000)\n")

# Mostrar los top 10
if len(municipios_destacados) > 0:
    municipios_destacados_top = municipios_destacados.nlargest(10, 'COBERTURA_NETA')[[
        'MUNICIPIO', 'DEPARTAMENTO', 'COBERTURA_NETA', 'DESERCIÓN', 'POBLACIÓN_5_16'
    ]]
    
    print("Top 10 municipios por cobertura neta:")
    municipios_destacados_top
else:
    print("No se encontraron municipios que cumplan todos los criterios.")
    # Mostrar criterios menos estrictos
    municipios_alternativos = df_validos[
        (df_validos['COBERTURA_NETA'] > 80) & 
        (df_validos['DESERCIÓN'] < 5)
    ].nlargest(10, 'COBERTURA_NETA')[[
        'MUNICIPIO', 'DEPARTAMENTO', 'COBERTURA_NETA', 'DESERCIÓN', 'POBLACIÓN_5_16'
    ]]
    print("\nMunicipios con criterios menos estrictos (Cobertura > 80%, Deserción < 5%):")
    municipios_alternativos

In [None]:
# Uso de isin() para filtrar múltiples valores
print("🎯 FILTRADO CON ISIN():")
print("="*80)

# Filtrar por departamentos específicos
departamentos_interes = ['Antioquia', 'Valle del Cauca', 'Cundinamarca', 'Atlántico']

df_departamentos = df[df['DEPARTAMENTO'].isin(departamentos_interes)].copy()

print(f"\n📊 Datos de {len(df_departamentos)} municipios en los departamentos seleccionados")
print("\nDistribución por departamento:")
print(df_departamentos['DEPARTAMENTO'].value_counts())

## 9️⃣ GroupBy - Agregaciones Poderosas

### 📊 La herramienta más importante para análisis agregado

In [1]:
# GroupBy básico - Por departamento
print("📈 GROUPBY - ANÁLISIS POR DEPARTAMENTO:")
print("="*80)

# Agrupar por departamento y calcular estadísticas
# Asegurar que las columnas sean numéricas antes de agrupar
stats_por_depto = df.groupby('DEPARTAMENTO').agg({
    'POBLACIÓN_5_16': 'sum',
    'COBERTURA_NETA': 'mean',
    'DESERCIÓN': 'mean',
    'APROBACIÓN': 'mean',
    'MUNICIPIO': 'count'  # Contar municipios
}).round(2)

# Renombrar columnas
stats_por_depto.columns = ['Población_Total', 'Cobertura_Promedio', 
                           'Deserción_Promedio', 'Aprobación_Promedio', 
                           'Número_Municipios']

# Filtrar departamentos con datos válidos y ordenar por población total
stats_por_depto = stats_por_depto.dropna(subset=['Población_Total'])
stats_por_depto = stats_por_depto.sort_values('Población_Total', ascending=False)

print("\nTop 10 departamentos por población estudiantil:")
stats_por_depto.head(10)

📈 GROUPBY - ANÁLISIS POR DEPARTAMENTO:


NameError: name 'df' is not defined

In [None]:
# GroupBy con múltiples funciones
print("📊 GROUPBY - ESTADÍSTICAS MÚLTIPLES:")
print("="*80)

# Estadísticas detalladas de cobertura por departamento
cobertura_stats = df.groupby('DEPARTAMENTO')['COBERTURA_NETA'].agg([
    'count',
    'mean',
    'median',
    'std',
    'min',
    'max'
]).round(2)

# Renombrar columnas
cobertura_stats.columns = ['Municipios', 'Media', 'Mediana', 
                           'Desv_Std', 'Mínimo', 'Máximo']

# Top 5 departamentos con mejor cobertura promedio
print("\n🏆 Top 5 departamentos con mejor cobertura neta promedio:")
cobertura_stats.nlargest(5, 'Media')

## 🔟 Visualizaciones Básicas

### 📊 Visualizando nuestros hallazgos

In [None]:
# Configurar el tamaño de las figuras
plt.figure(figsize=(15, 10))

# 1. Distribución de Cobertura Neta
plt.subplot(2, 3, 1)
df['COBERTURA_NETA'].dropna().hist(bins=30, edgecolor='black', alpha=0.7)
plt.title('Distribución de Cobertura Neta', fontsize=12, fontweight='bold')
plt.xlabel('Cobertura Neta (%)')
plt.ylabel('Frecuencia')
media_cobertura = df['COBERTURA_NETA'].mean()
plt.axvline(media_cobertura, color='red', linestyle='--', label=f'Media: {media_cobertura:.1f}%')
plt.legend()

# 2. Relación Cobertura vs Deserción
plt.subplot(2, 3, 2)
# Filtrar valores válidos para ambas variables
datos_validos = df[['COBERTURA_NETA', 'DESERCIÓN']].dropna()
plt.scatter(datos_validos['COBERTURA_NETA'], datos_validos['DESERCIÓN'], alpha=0.5)
plt.title('Cobertura Neta vs Deserción', fontsize=12, fontweight='bold')
plt.xlabel('Cobertura Neta (%)')
plt.ylabel('Deserción (%)')

# 3. Top 10 Departamentos por Población
plt.subplot(2, 3, 3)
# Agrupar y convertir a numérico antes de sumar
poblacion_por_depto = df.groupby('DEPARTAMENTO')['POBLACIÓN_5_16'].sum()
# Filtrar valores válidos y obtener top 10
top_deptos = poblacion_por_depto.dropna().nlargest(10)
top_deptos.plot(kind='barh')
plt.title('Top 10 Departamentos por Población Estudiantil', fontsize=12, fontweight='bold')
plt.xlabel('Población (5-16 años)')

# 4. Boxplot de Cobertura por Nivel
plt.subplot(2, 3, 4)
coberturas_niveles = df[['COBERTURA_NETA_TRANSICIÓN', 'COBERTURA_NETA_PRIMARIA', 
                         'COBERTURA_NETA_SECUNDARIA', 'COBERTURA_NETA_MEDIA']].dropna()
if not coberturas_niveles.empty:
    coberturas_niveles.boxplot()
    plt.title('Cobertura por Nivel Educativo', fontsize=12, fontweight='bold')
    plt.xticks(rotation=45, ha='right')
    plt.ylabel('Cobertura (%)')
else:
    plt.text(0.5, 0.5, 'Datos no disponibles', ha='center', va='center', transform=plt.gca().transAxes)
    plt.title('Cobertura por Nivel Educativo', fontsize=12, fontweight='bold')

# 5. Distribución de Deserción
plt.subplot(2, 3, 5)
df['DESERCIÓN'].dropna().hist(bins=30, edgecolor='black', alpha=0.7, color='orange')
plt.title('Distribución de Tasas de Deserción', fontsize=12, fontweight='bold')
plt.xlabel('Deserción (%)')
plt.ylabel('Frecuencia')
media_desercion = df['DESERCIÓN'].mean()
plt.axvline(media_desercion, color='red', linestyle='--', label=f'Media: {media_desercion:.1f}%')
plt.legend()

# 6. Correlación Aprobación vs Reprobación
plt.subplot(2, 3, 6)
# Filtrar valores válidos para ambas variables
datos_aprobacion = df[['APROBACIÓN', 'REPROBACIÓN']].dropna()
if not datos_aprobacion.empty:
    plt.scatter(datos_aprobacion['APROBACIÓN'], datos_aprobacion['REPROBACIÓN'], alpha=0.5, color='green')
    plt.title('Aprobación vs Reprobación', fontsize=12, fontweight='bold')
    plt.xlabel('Aprobación (%)')
    plt.ylabel('Reprobación (%)')
else:
    plt.text(0.5, 0.5, 'Datos no disponibles', ha='center', va='center', transform=plt.gca().transAxes)
    plt.title('Aprobación vs Reprobación', fontsize=12, fontweight='bold')

plt.tight_layout()
plt.show()

## 1️⃣1️⃣ Análisis Avanzado

### 🎯 Aplicando todo lo aprendido

In [None]:
# Crear categorías de cobertura
print("🏷️ CATEGORIZACIÓN DE MUNICIPIOS POR COBERTURA:")
print("="*80)

# Definir categorías
def categorizar_cobertura(cobertura):
    if cobertura >= 95:
        return 'Excelente'
    elif cobertura >= 85:
        return 'Buena'
    elif cobertura >= 75:
        return 'Regular'
    else:
        return 'Baja'

# Aplicar categorización
df['CATEGORIA_COBERTURA'] = df['COBERTURA_NETA'].apply(categorizar_cobertura)

# Análisis por categoría
print("\n📊 Distribución de municipios por categoría de cobertura:")
print(df['CATEGORIA_COBERTURA'].value_counts())
print(f"\n📈 Porcentaje por categoría:")
print(df['CATEGORIA_COBERTURA'].value_counts(normalize=True).mul(100).round(1))

In [None]:
# Análisis de correlaciones
print("📊 MATRIZ DE CORRELACIÓN:")
print("="*80)

# Seleccionar columnas numéricas relevantes
columnas_correlacion = [
    'COBERTURA_NETA', 'DESERCIÓN', 'APROBACIÓN', 'REPROBACIÓN', 
    'REPITENCIA', 'POBLACIÓN_5_16'
]

# Calcular matriz de correlación
correlacion = df[columnas_correlacion].corr()

# Visualizar con heatmap
plt.figure(figsize=(10, 8))
sns.heatmap(correlacion, annot=True, cmap='coolwarm', center=0, 
            fmt='.2f', square=True, linewidths=1)
plt.title('Matriz de Correlación - Indicadores Educativos', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

# Correlaciones más fuertes
print("\n🔍 Correlaciones más significativas:")
print("   • Aprobación vs Reprobación:", f"{correlacion.loc['APROBACIÓN', 'REPROBACIÓN']:.3f}")
print("   • Deserción vs Aprobación:", f"{correlacion.loc['DESERCIÓN', 'APROBACIÓN']:.3f}")
print("   • Cobertura vs Deserción:", f"{correlacion.loc['COBERTURA_NETA', 'DESERCIÓN']:.3f}")

## 1️⃣2️⃣ Insights y Conclusiones

### 💡 Principales hallazgos del análisis

In [None]:
print("📊 RESUMEN EJECUTIVO DEL ANÁLISIS")
print("="*80)

# Calcular estadísticas clave
total_municipios = len(df)
# Usar solo datos válidos para los cálculos
df_calculo = df.dropna(subset=['POBLACIÓN_5_16', 'COBERTURA_NETA', 'DESERCIÓN'])

total_estudiantes = df_calculo['POBLACIÓN_5_16'].sum()
cobertura_promedio = df_calculo['COBERTURA_NETA'].mean()
desercion_promedio = df_calculo['DESERCIÓN'].mean()

# Mejores y peores municipios
if not df_calculo.empty:
    mejor_cobertura = df_calculo.nlargest(1, 'COBERTURA_NETA')[['MUNICIPIO', 'DEPARTAMENTO', 'COBERTURA_NETA']].iloc[0]
    peor_cobertura = df_calculo.nsmallest(1, 'COBERTURA_NETA')[['MUNICIPIO', 'DEPARTAMENTO', 'COBERTURA_NETA']].iloc[0]
else:
    mejor_cobertura = {'MUNICIPIO': 'N/A', 'DEPARTAMENTO': 'N/A', 'COBERTURA_NETA': 0}
    peor_cobertura = {'MUNICIPIO': 'N/A', 'DEPARTAMENTO': 'N/A', 'COBERTURA_NETA': 0}

print(f"\n📈 ESTADÍSTICAS GENERALES:")
print(f"   • Total de municipios analizados: {total_municipios:,}")
print(f"   • Población estudiantil total (5-16 años): {total_estudiantes:,.0f}")
print(f"   • Cobertura neta promedio nacional: {cobertura_promedio:.1f}%")
print(f"   • Tasa de deserción promedio: {desercion_promedio:.1f}%")

print(f"\n🏆 MEJORES INDICADORES:")
print(f"   • Mejor cobertura: {mejor_cobertura['MUNICIPIO']} ({mejor_cobertura['DEPARTAMENTO']}) - {mejor_cobertura['COBERTURA_NETA']:.1f}%")

print(f"\n⚠️ ÁREAS DE MEJORA:")
print(f"   • Menor cobertura: {peor_cobertura['MUNICIPIO']} ({peor_cobertura['DEPARTAMENTO']}) - {peor_cobertura['COBERTURA_NETA']:.1f}%")

# Departamentos con mejores indicadores
print(f"\n🌟 TOP 3 DEPARTAMENTOS POR COBERTURA PROMEDIO:")
cobertura_por_depto = df_calculo.groupby('DEPARTAMENTO')['COBERTURA_NETA'].mean()
top_3_deptos = cobertura_por_depto.nlargest(3)
for i, (depto, cobertura) in enumerate(top_3_deptos.items(), 1):
    print(f"   {i}. {depto}: {cobertura:.1f}%")

In [None]:
# Guardar resultados clave
print("\n💾 EXPORTANDO RESULTADOS:")
print("="*80)

# Crear DataFrame con municipios destacados
municipios_destacados_export = df[
    (df['COBERTURA_NETA'] > 90) & 
    (df['DESERCIÓN'] < 3)
][['MUNICIPIO', 'DEPARTAMENTO', 'COBERTURA_NETA', 'DESERCIÓN', 'APROBACIÓN']]

# Guardar a CSV
municipios_destacados_export.to_csv('municipios_destacados_educacion.csv', index=False)
print(f"✅ Exportados {len(municipios_destacados_export)} municipios destacados a 'municipios_destacados_educacion.csv'")

# Guardar estadísticas por departamento
stats_por_depto.to_csv('estadisticas_por_departamento.csv')
print("✅ Estadísticas por departamento exportadas a 'estadisticas_por_departamento.csv'")

## 🎯 Ejercicios para la Clase

### 📝 Preguntas para explorar con los estudiantes:

1. **¿Cuál es el departamento con mayor desigualdad en cobertura entre sus municipios?**
2. **¿Existe correlación entre el tamaño de la población y los indicadores educativos?**
3. **¿Qué municipios tienen alta cobertura pero alta deserción? (casos atípicos)**
4. **¿Cómo varía la cobertura entre los diferentes niveles educativos?**
5. **¿Qué patrones podemos identificar en los municipios rurales vs urbanos?**

## 📚 Recursos y Referencias

### 🔗 Enlaces útiles:
- [Documentación Pandas](https://pandas.pydata.org/docs/)
- [Documentación NumPy](https://numpy.org/doc/)
- [Datos Abiertos Colombia](https://www.datos.gov.co/)
- [Ministerio de Educación Nacional](https://www.mineducacion.gov.co/)

### 💡 Conceptos clave aprendidos:
- ✅ Carga y exploración de datos reales
- ✅ Los "Big 3" del EDA: head(), info(), describe()
- ✅ NumPy arrays y operaciones vectorizadas
- ✅ Pandas Series vs DataFrame
- ✅ Indexación con loc e iloc
- ✅ Filtrado y agrupaciones con groupby
- ✅ Visualizaciones básicas para entender los datos