# Carga de Datos


## .xls / HTML a .csv
Los datos del Mineduc se exportan como archivos .xls, realmente teniendo contenido de HTML. Debido a eso, debemos de parsear el archivo HTML e identificar la tabla correcta que contiene los datos. Luego, podemos exportar los datos a su archivo .csv correspondiente, utilizando el valor de la columna 'Departamento' para nombrarlo. Adicionalmente, los archivos utilizan un encoding diferente al estándar utf-8, por lo cual vamos a especificarlo al momento de leer los archivos HTML.

In [149]:
import pandas as pd
from pathlib import Path
from collections import defaultdict
import re


def parse_html_excel_file(file_path):
    file_path = Path(file_path)

    try:
        tables = pd.read_html(str(file_path), encoding="iso-8859-1")

        if not tables:
            return {"success": False, "error": "No tables found in HTML"}

        required_headers = ["CODIGO", "DISTRITO", "DEPARTAMENTO", "MUNICIPIO"]
        target_table = None
        target_index = None

        for i, df in enumerate(tables):
            df_columns_upper = [str(col).upper().strip() for col in df.columns]
            if all(header in df_columns_upper for header in required_headers):
                target_table = df
                target_index = i
                break
            else:
                if len(df) > 0:
                    first_row_upper = [
                        str(cell).upper().strip() for cell in df.iloc[0]
                    ]
                    if all(header in first_row_upper for header in required_headers):
                        df.columns = df.iloc[0]
                        df = df.drop(df.index[0]).reset_index(drop=True)
                        target_table = df
                        target_index = i
                        break

        if target_table is None:
            return {
                "success": False,
                "error": "No table found with required headers.",
            }

        target_table = target_table.dropna(how="all")

        return {
            "success": True,
            "data": target_table,
            "table_index": target_index,
            "total_tables": len(tables),
        }

    except Exception as e:
        return {"success": False, "error": str(e)}


def sanitize_filename(text):
    filename = text.lower().replace(" ", "_")
    return re.sub(r"[^\w_.]", "", filename)


def process_html_files_directory(input_dir, output_dir):
    input_path = Path(input_dir)
    output_path = Path(output_dir)
    output_path.mkdir(parents=True, exist_ok=True)

    files = list(input_path.glob("*.xls"))

    print(f"Found {len(files)} .xls files to process")

    successful_files = []
    failed_files = []
    all_departamentos = defaultdict(list)

    for file_path in files:
        result = parse_html_excel_file(file_path)

        if result["success"]:
            df = result["data"]

            departamentos = []
            for departamento, group in df.groupby("DEPARTAMENTO"):
                filename = f"datos_{sanitize_filename(departamento)}.csv"

                output_file = output_path / filename
                group.to_csv(output_file, index=False)

                departamentos.append(
                    {"name": departamento, "filename": filename, "rows": len(group)}
                )

                all_departamentos[departamento].append(
                    {
                        "source_file": file_path.name,
                        "csv_file": filename,
                        "rows": len(group),
                    }
                )

            successful_files.append(
                {
                    "file": file_path.name,
                    "departamentos": departamentos,
                    "total_rows": len(df),
                }
            )

            print(f"  ✅ Processed {file_path.name}: Created {len(departamentos)} CSVs.")

        else:
            failed_files.append({"file": file_path.name, "error": result["error"]})
            print(f"  ❌ Failed {file_path.name}: {result['error']}")

    print("\n" + "=" * 60)
    print("PROCESSING SUMMARY")
    print("=" * 60)

    print(f"\nTotal files: {len(files)}")
    print(f"✅ Successful: {len(successful_files)}")
    print(f"❌ Failed: {len(failed_files)}")

    # The detailed successful/failed files lists will only be printed if there are successful/failed files.
    # The summary already gives a count, so the repetition for successful files is removed here.
    # The detailed list for failed files remains as it provides useful error messages.
    if failed_files:
        print(f"\n❌ FAILED FILES:")
        for item in failed_files:
            print(f"  - {item['file']}: {item['error']}")

    duplicates = {
        name: sources
        for name, sources in all_departamentos.items()
        if len(sources) > 1
    }
    if duplicates:
        print(f"\n⚠️ DUPLICATE DEPARTAMENTOS:")
        for dept_name, sources in duplicates.items():
            print(f"  {dept_name}: appears in {len(sources)} files")
    else:
        print("\n✅ No duplicate departamentos found")


test_result = parse_html_excel_file("data/raw/establecimiento.xls")
if test_result["success"]:
    print("\nSingle file test successful!")

    print("\n" + "=" * 60)
    print("PROCESSING ALL FILES")
    print("=" * 60)
    process_html_files_directory("data/raw", "data/csv")
else:
    print(f"❌ Single file test failed: {test_result['error']}")


Single file test successful!

PROCESSING ALL FILES
Found 23 .xls files to process
  ✅ Processed establecimiento (10).xls: Created 1 CSVs.
  ✅ Processed establecimiento (11).xls: Created 1 CSVs.
  ✅ Processed establecimiento (12).xls: Created 1 CSVs.
  ✅ Processed establecimiento (13).xls: Created 1 CSVs.
  ✅ Processed establecimiento (14).xls: Created 1 CSVs.
  ✅ Processed establecimiento (15).xls: Created 1 CSVs.
  ✅ Processed establecimiento (16).xls: Created 1 CSVs.
  ✅ Processed establecimiento (17).xls: Created 1 CSVs.
  ✅ Processed establecimiento (18).xls: Created 1 CSVs.
  ✅ Processed establecimiento (19).xls: Created 1 CSVs.
  ✅ Processed establecimiento (1).xls: Created 1 CSVs.
  ✅ Processed establecimiento (20).xls: Created 1 CSVs.
  ✅ Processed establecimiento (21).xls: Created 1 CSVs.
  ✅ Processed establecimiento (22).xls: Created 1 CSVs.
  ✅ Processed establecimiento (2).xls: Created 1 CSVs.
  ✅ Processed establecimiento (3).xls: Created 1 CSVs.
  ✅ Processed establecim

## .csv a DataFrames
Luego de haber creado los archivos, podemos cargarlos a DataFrames para realizar el análisis necesario.

In [150]:
import pandas as pd
import numpy as np
from pathlib import Path
import re
from collections import Counter, defaultdict
import matplotlib.pyplot as plt

# Load all CSV files
csv_dir = Path("data/csv")
csv_files = list(csv_dir.glob("*.csv"))

print(f"Found {len(csv_files)} CSV files")

# Load all datasets
datasets = {}
for csv_file in csv_files:
    dataset_name = csv_file.stem
    datasets[dataset_name] = pd.read_csv(csv_file)

print(f"Loaded {len(datasets)} datasets")

Found 23 CSV files
Loaded 23 datasets


# Descripción

## Filas y Columnas

In [151]:
shape_info = []
for name, df in datasets.items():
    shape_info.append({
        'dataset': name,
        'rows': df.shape[0],
        'columns': df.shape[1]
    })

shape_df = pd.DataFrame(shape_info)
print("📊 Dataset Shapes:")
print(shape_df.sort_values('rows', ascending=False))

print(f"\n📈 Summary:")
print(f"Total rows across all datasets: {shape_df['rows'].sum():,}")
print(f"Average rows per dataset: {shape_df['rows'].mean():.0f}")
print(f"Min/Max rows: {shape_df['rows'].min()} / {shape_df['rows'].max()}")

📊 Dataset Shapes:
                 dataset  rows  columns
19       datos_guatemala  1036       17
16  datos_ciudad_capital   864       17
7       datos_san_marcos   431       17
18       datos_escuintla   393       17
3   datos_quetzaltenango   365       17
14   datos_chimaltenango   300       17
1          datos_jutiapa   296       17
11   datos_suchitepequez   296       17
20   datos_huehuetenango   295       17
22    datos_alta_verapaz   294       17
21          datos_izabal   273       17
5       datos_retalhuleu   272       17
2            datos_peten   270       17
6     datos_sacatepequez   208       17
4           datos_quiche   184       17
15      datos_chiquimula   136       17
8       datos_santa_rosa   133       17
0           datos_jalapa   121       17
9           datos_solola   111       17
17     datos_el_progreso    97       17
10    datos_baja_verapaz    94       17
13          datos_zacapa    70       17
12     datos_totonicapan    51       17

📈 Summary:
Total rows

Dentro del dataset "completo" encontramos 6,590 datos, con un promedio de 287 datos por cada dataset individual / departamental. Cada uno cuenta con 17 columnas, las cuales a continuación vamos a explorar para identificar si son idénticas.

## Integridad de los Datos

### Consistencia en Nombres de Columnas

In [152]:
all_columns = []
column_consistency = {}

for name, df in datasets.items():
    columns = list(df.columns)
    all_columns.append(columns)
    column_consistency[name] = columns

first_columns = all_columns[0]
all_same = all(columns == first_columns for columns in all_columns)

if all_same:
    print(f"\n✅ Standard columns ({len(first_columns)}):")
    for i, col in enumerate(first_columns, 1):
        print(f"  {i:2d}. {col}")
else:
    print("\n❌ Column differences found:")
    for name, columns in column_consistency.items():
        if columns != first_columns:
            print(f"  {name}: {columns}")


✅ Standard columns (17):
   1. CODIGO
   2. DISTRITO
   3. DEPARTAMENTO
   4. MUNICIPIO
   5. ESTABLECIMIENTO
   6. DIRECCION
   7. TELEFONO
   8. SUPERVISOR
   9. DIRECTOR
  10. NIVEL
  11. SECTOR
  12. AREA
  13. STATUS
  14. MODALIDAD
  15. JORNADA
  16. PLAN
  17. DEPARTAMENTAL


Confirmamos que todas las columnas dentro de los datasets son idénticas, entonces podemos proceder con el análisis y limpieza

### Encoding Problemático
Como mencionamos anteriormente, el encoding de los archivos originales era distinto de "utf-8". Nos dimos cuenta al realizar el análisis sobre el encoding problemático, sin embargo al cambiarlo dentro de la función anterior logramos correr con éxito este análisis.

In [153]:
import pandas as pd
from collections import defaultdict
import re

problematic_char = "�"
all_problematic_samples = defaultdict(list)
issue_found = False

for dataset_name, df in datasets.items():
    for col in df.columns:
        if df[col].dtype == "object":
            str_series = df[col].astype(str)

            contains_char_mask = str_series.str.contains(problematic_char, na=False)

            if contains_char_mask.any():
                issue_found = True
                current_samples = str_series[contains_char_mask].unique().tolist()
                for sample_val in current_samples:
                    if len(all_problematic_samples[col]) < 5:
                        all_problematic_samples[col].append(sample_val)


if issue_found:
    print(f"❌ Encoding issues found (char: '{problematic_char}'):")
    sorted_cols_with_issues = sorted(all_problematic_samples.keys())

    for col in sorted_cols_with_issues:
        samples = all_problematic_samples[col]
        print(f"  Column '{col}':")
        for val in samples:
            print(f"    • {val}")
else:
    print(f"✅ No encoding issues found (char: '{problematic_char}')")

✅ No encoding issues found (char: '�')


Luego de verificar problemas con el encoding, podemos proceder al siguiente paso.

# Análisis de Variables
Las variables que más operaciones de limpieza necesitan son:

In [154]:
import pandas as pd
import numpy as np

def is_empty_value(val):
    """Check if value represents missing/empty data"""
    if pd.isna(val):
        return True
    
    str_val = str(val).strip().lower()
    empty_indicators = {'', 'nan', 'none', 'null', 'na', 'n/a', '-', '#n/a'}
    return str_val in empty_indicators

summary_stats = []

for col in first_columns:
    col_data = []
    for name, df in datasets.items():
        if col in df.columns:
            series = df[col]
            col_data.extend(series)

    series_all = pd.Series(col_data)
    n_total = len(series_all)
    n_missing = sum(is_empty_value(val) for val in series_all)
    
    valid_values = [val for val in series_all if not is_empty_value(val)]
    n_unique = pd.Series(valid_values).nunique() if valid_values else 0

    summary_stats.append({
        "column": col,
        "missing (%)": round((n_missing / n_total) * 100, 2),
        "unique_values": n_unique,
        "sample_values": pd.Series(valid_values).unique()[:5].tolist()
    })

df_summary = pd.DataFrame(summary_stats)
df_summary.sort_values("missing (%)", ascending=False, inplace=True)
display(df_summary)

Unnamed: 0,column,missing (%),unique_values,sample_values
6,TELEFONO,0.68,4211,"[79224268, 40645842, 79220013, 79224958-792230..."
8,DIRECTOR,0.38,3859,"[IRIS JANNETTE AGUIRRE CONTRERAS, LISI KARINA ..."
5,DIRECCION,0.03,4427,"[AVENIDA CHIPILAPA 1-65, ZONA 2, CALLE TRANSIT..."
0,CODIGO,0.0,6590,"[21-01-0101-46, 21-01-0104-46, 21-01-0106-46, ..."
1,DISTRITO,0.0,620,"[21-002, 21-004, 21-005, 21-025, 21-024]"
4,ESTABLECIMIENTO,0.0,3779,[INSTITUTO NORMAL CENTROAMERICANO PARA SEÑORIT...
3,MUNICIPIO,0.0,343,"[JALAPA, SAN PEDRO PINULA, SAN LUIS JILOTEPEQU..."
2,DEPARTAMENTO,0.0,23,"[JALAPA, JUTIAPA, PETEN, QUETZALTENANGO, QUICHE]"
7,SUPERVISOR,0.0,598,"[JORGE ADELINO PEREZ UCELO, VICTOR MANUEL PORT..."
9,NIVEL,0.0,1,[DIVERSIFICADO]


Al revisar los datos faltantes, nos podemos dar cuenta que contamos con valores faltantes para Teléfono, Director y Dirección. Los valores faltantes son bastante escasos, por lo que durante la limpieza podemos intentar ver como podemos rellenarlos con información verídica.

## Código
Este valor parece ser un identificador único, queremos explorar las siguientes propiedades:
- Unicidad: Este código es único dentro de su respectivo dataset o todos?
- Formato: Es consistente el formato en todos los datasets? Existen errores de digitación?
- Nos ayuda a identificar únicamente a los demás valores?

Debido a esto, queremos realizar los siguientes pasos de limpieza:

- Revisar errores de digitación, cómo lo pueden ser whitespaces o formato incongruente
- Identificar unicidad del código
- Identificar si cada código corresponde a un set de valores único de las demás columnas

## Distrito
Este valor parece ser un identificador geográfico, siguiendo un formato XX-YYY. Queremos explorar las siguientes propiedades
- Formato: Es consistente el formato?
- Nos ayuda a identificar únicamente algún otro valor?

Debido a esto, queremos realizar los siguientes pasos de limpieza:

- Revisar errores de digitación
- Enforzar un formato consistente

## Departamento

Ya que los DataFrames se encuentran divididos por departamento, esta entrada debería ser completamente consistente. Además, podemos proponer los siguientes pasos para una mayor consistencia:

- Eliminar trailing / leading whitespaces para verificar errores de digitación
- Convertir a letras mayúsculas
- Comparar los valores dentro de un mismo dataset para verificar consistencia
- En caso de tener valores inconsistentes, identificar el valor correcto y enforzarlo para todas las columnas

## Municipio

Este valor representa la división política a nivel municipal. Dado que se usa como categoría geográfica clave, es esencial asegurar consistencia.

Pasos de limpieza propuestos:

- Conversión a mayúsculas
- Eliminación trailing / leading whitespaces
- Normalizar tildes y caracteres especiales
- Comparar nombres de municipios similares (pero no matching) dentro de cada municipio para verificar errores de digitación

## Establecimiento

Nombre propio de la institución educativa. Puede contener muchas variantes tipográficas y estilísticas que dificultan análisis posteriores.

Pasos de limpieza propuestos:

- Remover tildes y caracteres especiales
- Remover comillas y demás puntuación
- Conversión a mayúsculas
- Identificar valores similares entre municipios para intentar identificar posibles mejoras

## Dirección

Campo libre con alta variabilidad. Las direcciones pueden contener múltiples abreviaturas, puntuación, y errores de digitación.

- Remover tildes
- Estandarizar marcadores de KM
- Remover todas las comas
- Reemplazar abreviaturas comunes (AV / AVE -> AVENIDA)
- Identificar valores similares (pero no idénticos) entre municipios para identificar posibles mejoras

## Teléfono

Campo numérico con alta variabilidad en formato. Puede contener números concatenados, separadores o caracteres no numéricos.

Pasos de limpieza propuestos:

- Estandarizar formato, eliminando whitespaces
- Validar que los teléfonos tengan 8 dígitos
- Explorar la estructura de los teléfonos faltantes
- Utilizar nombre de establecimiento para intentar llenar los teléfonos faltantes

## Supervisor

Nombre del supervisor responsable. Puede presentar variaciones por uso de tildes, mayúsculas, y errores ortográficos menores.

Pasos de limpieza propuestos:

- Convertir a letras mayúsculas
- Remover caracteres especiales

## Director

Similar al campo de supervisor, representa nombres propios con riesgos similares de inconsistencia.

Pasos de limpieza propuestos:

- Convertir a letras mayúsculas
- Remover caracteres especiales

## Nivel
Este campo tiene un único valor: "DIVERSIFICADO".

Exploración a realizar:

- Verificar que efectivamente todos los valores son iguales.
- Confirmar si es útil conservar esta columna.

Pasos de limpieza propuestos:

- Si es redundante, considerar eliminarla para evitar ruido en análisis futuros.

## Sector

Categoría con pocos valores únicos. Se espera valores como "OFICIAL", "PRIVADO", etc.

Pasos de limpieza propuestos:

- Convertir todo a mayúsculas y eliminar espacios (.str.upper().str.strip()).
- Validar los valores contra un conjunto permitido: {OFICIAL, PRIVADO, MUNICIPAL, COOPERATIVA}.

## Área
Identifica si la institución está en zona rural o urbana.

Exploración a realizar:

- Confirmar que los valores son: URBANA, RURAL, SIN ESPECIFICAR.
- Verificar errores de digitación o combinaciones no válidas.

Pasos de limpieza propuestos:

- Uniformar mayúsculas (.str.upper()).
- Reemplazar variantes de “sin especificar” por un valor estándar (ej. "DESCONOCIDO").
- Convertir a Categorical.

## Status
Campo con un único valor: "ABIERTA".

Exploración a realizar:

Verificar si realmente todos los valores son iguales.

Evaluar su utilidad en análisis futuros.

Pasos de limpieza propuestos:

Eliminar si es redundante (sin variabilidad).

## Modalidad
Pocos valores únicos: "MONOLINGUE", "BILINGUE".

Pasos de limpieza propuestos:

- Uniformar mayúsculas y acentos (.str.upper()).

- Reemplazar variantes con un mapeo fijo.

## JORNADA
Categoría horaria. Existen valores como “MATUTINA”, “VESPERTINA”, “DOBLE”, “NOCHE”, etc.

Pasos de limpieza propuestos:

- Normalizar formato (.str.upper().str.strip()).

- Mapear variantes a un conjunto estándar.

- Eliminar signos extra o abreviaciones inconsistentes.

## PLAN
Puede incluir valores con paréntesis, como “DIARIO(REGULAR)”, que dificultan análisis.

Exploración a realizar:

- ¿Hay signos innecesarios como paréntesis o guiones?

- ¿Hay términos redundantes?

Pasos de limpieza propuestos:

- Eliminar paréntesis y su contenido con str.replace(r'\(.*?\)', '').

- Eliminar espacios extra y convertir a mayúsculas.

- Validar valores contra una lista limpia predefinida.

## Departamental
Representa una división regional administrativa.

Pasos de limpieza propuestos:

- Uniformar texto (.str.upper().str.strip()).

- Validar contra un listado oficial del MINEDUC.

# Operaciones de Limpieza

## Código

Como primer paso, buscamos identificar errores de digitación. Para esto, vamos a hacer lo siguiente:

- Eliminar los whitespaces dentro de todas las columnas
- Definir un regex que matchee el formato 16-02-0020-46 WW-XX-YYYY-ZZ, para asegurarnos que los datos hayan sido ingresados correctamente.

In [155]:
import re

pattern = r'^\d{2}-\d{2}-\d{4}-\d{2}$'

total_rows = 0
total_valid = 0
total_invalid = 0

for name, df in datasets.items():
    if 'CODIGO' not in df.columns:
        print(f"[{name}] No 'CODIGO' column found.")
        continue

    df['CODIGO_clean'] = df['CODIGO'].astype(str).str.replace(r'\s+', '', regex=True)
    df['CODIGO'] = df['CODIGO_clean']

    df['is_valid_format'] = df['CODIGO'].apply(lambda x: bool(re.match(pattern, x)))

    total = len(df)
    valid = df['is_valid_format'].sum()
    invalid = total - valid

    total_rows += total
    total_valid += valid
    total_invalid += invalid

    df.drop(columns=['CODIGO_clean', 'is_valid_format'], inplace=True)

print(f"\n=== TOTAL across all datasets ===")
print(f"Total rows: {total_rows} | Valid CODIGO: {total_valid} | Invalid CODIGO: {total_invalid}")



=== TOTAL across all datasets ===
Total rows: 6590 | Valid CODIGO: 6590 | Invalid CODIGO: 0


Luego de haber verificado que cada código sigue el formato correcto, podemos verificar la unicidad del código a lo largo de los diferentes datasets.

In [156]:
import pandas as pd

all_codigos = []

duplicates_within = {}
missing_codigo = {}

for name, df in datasets.items():
    if 'CODIGO' not in df.columns:
        print(f"[WARNING] Dataset {name} is missing 'CODIGO' column.")
        continue

    df['CODIGO'] = df['CODIGO'].astype(str).str.strip()

    all_codigos.extend(df['CODIGO'].tolist())

    duplicated = df['CODIGO'][df['CODIGO'].duplicated()]
    if not duplicated.empty:
        duplicates_within[name] = duplicated.value_counts()

    missing = df['CODIGO'].isna().sum() + (df['CODIGO'] == '').sum()
    if missing > 0:
        missing_codigo[name] = missing

codigo_series = pd.Series(all_codigos)

global_dupes = codigo_series[codigo_series.duplicated(keep=False)]

non_unique_codigos_across = (
    pd.Series(global_dupes.value_counts()) if not global_dupes.empty
    else pd.Series([], dtype=int)
)

print("\n=== Summary ===")
print(f"Total codes across all datasets: {len(codigo_series)}")
print(f"Unique codes: {codigo_series.nunique()}")
print(f"Duplicated across datasets: {len(non_unique_codigos_across)}")

if duplicates_within:
    print("\n❗ Duplicates *within* datasets:")
    for name, series in duplicates_within.items():
        print(f"  - {name}: {series.sum()} duplicates")

if missing_codigo:
    print("\n❗ Missing CODIGO values:")
    for name, count in missing_codigo.items():
        print(f"  - {name}: {count} missing")

if not non_unique_codigos_across.empty:
    print("\n❗ Duplicated CODIGO *across* datasets (top 10):")
    print(non_unique_codigos_across.head(10))



=== Summary ===
Total codes across all datasets: 6590
Unique codes: 6590
Duplicated across datasets: 0


Por último, podemos verificar que cada código corresponda a una y solo una combinación de todas las demás variables.

In [157]:
from collections import defaultdict
import pandas as pd

all_data = []
for name, df in datasets.items():
    df = df.copy()
    df["source"] = name
    all_data.append(df)
all_df = pd.concat(all_data, ignore_index=True)

grouped = all_df.groupby(all_df.columns.difference(["CODIGO", "source"]).tolist())

duplicates_except_codigo = defaultdict(list)
for _, group in grouped:
    if group["CODIGO"].nunique() > 1:
        duplicates_except_codigo[len(duplicates_except_codigo)] = group

print(f"Found {len(duplicates_except_codigo)} groups with duplicated rows apart from CODIGO.\n")

for i, df in list(duplicates_except_codigo.items())[:5]:
    print(f"Group {i+1}:")
    print(df[["CODIGO"] + [col for col in df.columns if col != "CODIGO"]].to_string(index=False))
    print("-" * 60)


Found 134 groups with duplicated rows apart from CODIGO.

Group 1:
       CODIGO DISTRITO DEPARTAMENTO MUNICIPIO                       ESTABLECIMIENTO                         DIRECCION TELEFONO                           SUPERVISOR                           DIRECTOR         NIVEL  SECTOR  AREA  STATUS  MODALIDAD    JORNADA            PLAN DEPARTAMENTAL          source
05-07-0063-46   05-012    ESCUINTLA LA GOMERA COLEGIO MIXTO "LUIS CARDOZA Y ARAGÓN" 4A AVENIDA 5-112 BARRIO CHIPILAPA 78423518 BRENDA YOHANNA GUDIEL LOPEZ DE MUÑOZ KIMBERLY YAMILETH ESPINOZA ESCOBAR DIVERSIFICADO PRIVADO RURAL ABIERTA MONOLINGUE VESPERTINA DIARIO(REGULAR)     ESCUINTLA datos_escuintla
05-07-0066-46   05-012    ESCUINTLA LA GOMERA COLEGIO MIXTO "LUIS CARDOZA Y ARAGÓN" 4A AVENIDA 5-112 BARRIO CHIPILAPA 78423518 BRENDA YOHANNA GUDIEL LOPEZ DE MUÑOZ KIMBERLY YAMILETH ESPINOZA ESCOBAR DIVERSIFICADO PRIVADO RURAL ABIERTA MONOLINGUE VESPERTINA DIARIO(REGULAR)     ESCUINTLA datos_escuintla
------------------------

Esto nos indica que existen entradas duplicadas con códigos diferentes. De momento, este output no nos es realmente útil. Al no tener estandarizadas las demás columnas, puede que todavía haya establecimientos escritos de manera diferente. Sin embargo, esto nos ayuda a determinar que la variable "código" no nos es realmente útil para identificar errores de digitación en otros campos.

## Distrito

## Departamento

El tener datasets separados por departamento nos ayuda un poco con la limpieza, podemos simplemente eliminar trailing / leading whitespaces, convertir a letras mayúsculas e identificar que los valores sean únicos dentro de cada dataset. Esto nos ayuda a mantener consistencia con los nombres de las variables y resulta útil al momento de utilizar OHE.

In [158]:
departamentos = set()

for name, df in datasets.items():
    if 'DEPARTAMENTO' not in df.columns:
        print(f"[{name}] No 'DEPARTAMENTO' column found.")
        continue

    df['DEPARTAMENTO'] = df['DEPARTAMENTO'].astype(str).str.strip().str.upper()

    unique_depts = df['DEPARTAMENTO'].unique()
    departamentos.update(unique_depts)

print("Unique DEPARTAMENTO values across all datasets:")
for dept in sorted(departamentos):
    print(f"- {dept}")

Unique DEPARTAMENTO values across all datasets:
- ALTA VERAPAZ
- BAJA VERAPAZ
- CHIMALTENANGO
- CHIQUIMULA
- CIUDAD CAPITAL
- EL PROGRESO
- ESCUINTLA
- GUATEMALA
- HUEHUETENANGO
- IZABAL
- JALAPA
- JUTIAPA
- PETEN
- QUETZALTENANGO
- QUICHE
- RETALHULEU
- SACATEPEQUEZ
- SAN MARCOS
- SANTA ROSA
- SOLOLA
- SUCHITEPEQUEZ
- TOTONICAPAN
- ZACAPA


Verificando los resultados, la limpieza fue exitosa y se comparte un formato consistente e único dentro de cada dataset.

## Municipio

In [159]:
import unicodedata
from difflib import get_close_matches

def normalize_string(s):
    s = str(s).strip().upper()
    s = unicodedata.normalize('NFD', s)
    s = ''.join(c for c in s if unicodedata.category(c) != 'Mn')
    return s

for name, df in datasets.items():
    if 'MUNICIPIO' not in df.columns or 'DEPARTAMENTO' not in df.columns:
        print(f"[{name}] Missing 'MUNICIPIO' or 'DEPARTAMENTO' column.")
        continue

    df['MUNICIPIO'] = df['MUNICIPIO'].apply(normalize_string)

    print(f"\n[{name}] Similar MUNICIPIO names within each DEPARTAMENTO:")

    for dept in df['DEPARTAMENTO'].dropna().unique():
        df_dept = df[df['DEPARTAMENTO'] == dept]
        municipios = df_dept['MUNICIPIO'].dropna().unique()

        checked = set()
        for mun in municipios:
            if mun in checked:
                continue
            matches = get_close_matches(mun, municipios, n=5, cutoff=0.85)
            matches = [m for m in matches if m != mun and m not in checked]
            if matches:
                print(f"- {dept}: {mun} ~ {', '.join(matches)}")
                checked.update(matches)
            checked.add(mun)



[datos_jalapa] Similar MUNICIPIO names within each DEPARTAMENTO:

[datos_jutiapa] Similar MUNICIPIO names within each DEPARTAMENTO:

[datos_peten] Similar MUNICIPIO names within each DEPARTAMENTO:

[datos_quetzaltenango] Similar MUNICIPIO names within each DEPARTAMENTO:

[datos_quiche] Similar MUNICIPIO names within each DEPARTAMENTO:

[datos_retalhuleu] Similar MUNICIPIO names within each DEPARTAMENTO:

[datos_sacatepequez] Similar MUNICIPIO names within each DEPARTAMENTO:

[datos_san_marcos] Similar MUNICIPIO names within each DEPARTAMENTO:

[datos_santa_rosa] Similar MUNICIPIO names within each DEPARTAMENTO:

[datos_solola] Similar MUNICIPIO names within each DEPARTAMENTO:

[datos_baja_verapaz] Similar MUNICIPIO names within each DEPARTAMENTO:

[datos_suchitepequez] Similar MUNICIPIO names within each DEPARTAMENTO:

[datos_totonicapan] Similar MUNICIPIO names within each DEPARTAMENTO:

[datos_zacapa] Similar MUNICIPIO names within each DEPARTAMENTO:

[datos_chimaltenango] Similar M

Al ver los resultados, podemos ver que los únicos posibles errores de digitación son las similitudes entre "Zona 1" y "Zona 19" por ejemplo. Esto nos indica que los nombres de los municipiois fueron estandarizados de manera exitosa.

## Establecimiento

Primero, podemos empezar "limpiando" el texto al remover caracteres especiales que puede no se hayan incluido en todas las entradas para un mismo establecimiento. Además, vamos a eliminar espacios adicionales por medio trim y trabajar únicamente con mayúsculas.

In [160]:
import unicodedata
import string
from difflib import get_close_matches
import pandas as pd

def clean_text(text):
    if pd.isna(text):
        return text
    text = unicodedata.normalize('NFKD', str(text)).encode('ASCII', 'ignore').decode()
    text = text.translate(str.maketrans('', '', string.punctuation + '"“”‘’'))
    text = ' '.join(text.split())
    return text.upper()

for name, df in datasets.items():
    if 'MUNICIPIO' not in df.columns or 'ESTABLECIMIENTO' not in df.columns:
        print(f"[{name}] Missing required columns.")
        continue

    df['MUNICIPIO'] = df['MUNICIPIO'].apply(clean_text)
    df['ESTABLECIMIENTO'] = df['ESTABLECIMIENTO'].apply(clean_text)

    print(f"\n[{name}] Similar ESTABLECIMIENTO names within each MUNICIPIO:")

    municipios = df['MUNICIPIO'].dropna().unique()
    for mun in municipios:
        df_mun = df[df['MUNICIPIO'] == mun]
        establecimientos = df_mun['ESTABLECIMIENTO'].dropna().unique()

        checked = set()
        matches_found = []

        for est in establecimientos:
            if est in checked:
                continue
            matches = get_close_matches(est, establecimientos, n=5, cutoff=0.95)
            matches = [m for m in matches if m != est and m not in checked]
            if matches:
                matches_found.append((est, matches))
                checked.update(matches)
            checked.add(est)

        if matches_found:
            print(f"\nMunicipio: {mun}")
            for est, matched in matches_found:
                print(f"  Base: {est}")
                print(f"  Similar: {', '.join(matched)}")


[datos_jalapa] Similar ESTABLECIMIENTO names within each MUNICIPIO:

Municipio: MATAQUESCUINTLA
  Base: INSTITUTO TECNICO INDUSTRIAL ALBERT EINSTEIN
  Similar: INSTITUTO TECNICO INSDUSTRIAL ALBERT EINSTEIN

[datos_jutiapa] Similar ESTABLECIMIENTO names within each MUNICIPIO:

Municipio: JUTIAPA
  Base: ESCUELA EN CIENCIAS DE LA COMUNICACION ECCO II
  Similar: ESCUELA EN CIENCIAS DE LA COMUNICACION ECCO

Municipio: COMAPA
  Base: INSTITUTO PARTICULAR MIXTO DE FORMACION Y DESARROLLO PROFESIONAL INDEFORP
  Similar: INSTITUTO PARTICULAR DE FORMACION Y DESARROLLO PROFESIONAL INDEFORP

Municipio: JALPATAGUA
  Base: COLEGIO PARTICULAR MIXTO SAN JOSE OBRERO II
  Similar: COLEGIO PARTICULAR MIXTO SAN JOSE OBRERO I

Municipio: MOYUTA
  Base: INSTITUTO TECNOLOGICO DE SURORIENTE
  Similar: INTITUTO TECNOLOGICO DE SUR ORIENTE

Municipio: PASACO
  Base: COLEGIO PARTICULAR MIXTO LA BENDICION
  Similar: COLEGIO PARTICULAR MIXTO BENDICION

[datos_peten] Similar ESTABLECIMIENTO names within each MUNICI

Podemos ver que todavía tenemos múltiples establecimientos con nombres similares, esto lo vamos a dejar así de momento y buscamos utilizar otras variables para identificar un mismo establecimiento escrito de múltiples maneras. En algunos casos, logramos identificar errores pequeños como "NO 3" y "NO3" que indica nombres diferentes. En estos casos, buscamos utilizar otras variables identificadores cómo teléfono y dirección para matchear nombres iguales.

## Dirección

Este campo es bastante complicado, por lo que vamos a tomar un approach iterativo. Es decir, primero vamos a empezar con estandarización básica y luego vamos a revisar direcciones similares dentro de un mismo municipio. Esto nos permitirá ver errores que no habíamos visto anteriormente. Primero, vamos a reemplazar abreviaciones comunes como

- AV - Avenida
- COL - Colonia
- DIAG - DIAGNOAL

In [161]:
import pandas as pd
import re

def clean_address(address):
    if pd.isna(address): return ""
    addr = str(address).upper().strip()

    km_markers = re.findall(r'KM\s*\d+\.?\d*', addr)
    for km in km_markers:
        addr = addr.replace(km, km.replace(' ', '_'))

    replacements = [
        (r',', ''),
        (r'\bAV\.?\b', 'AVENIDA'),
        (r'\bC\.?\b', 'CALLE'),
        (r'\bCL\.?\b', 'CALLE'),
        (r'\bDIAG\.?\b', 'DIAGONAL'),
        (r'\bCOL\.?\b', 'COLONIA'),
        (r'(\d+)[A-Za-z]*\.?', r'\1'),
        (r'\.(?!\d)', ''),
        (r'\s+', ' ')
    ]

    for pat, repl in replacements:
        addr = re.sub(pat, repl, addr)

    for km in km_markers:
        clean_km = km.replace('_', ' ').replace('. ', '.').replace(' ', '')
        addr = addr.replace(km.replace(' ', '_'), clean_km)

    addr = re.sub(r'Z\.?\b', 'ZONA', addr)
    addr = re.sub(r'(\d+)\s*-\s*(\d+)', r'\1-\2', addr)

    return addr

for name, df in datasets.items():
    if 'DIRECCION' in df.columns:
        df['DIRECCION'] = df['DIRECCION'].apply(clean_address)

print("=== ADDRESS CLEANING VERIFICATION ===")
for name, df in list(datasets.items())[:3]:
    if 'DIRECCION' in df.columns:
        samples = df[['DIRECCION']].dropna().head(2)
        print(f"\nDataset: {name}")
        for addr in samples['DIRECCION']:
            print(f"  {addr}")

=== ADDRESS CLEANING VERIFICATION ===

Dataset: datos_jalapa
  AVENIDA CHIPILAPA 1-65 ZONA 2
  CALLE TRANSITO ROJAS 4-82 ZONA 2 BARRIO SAN FRANCISCO

Dataset: datos_jutiapa
  COMPLEJO EDUCATIVO BARRIO EL CONDOR
  7 CALLE 5-30 ZONA 1

Dataset: datos_peten
  ALDEA IXLU
  ALDEA IXLU FLORES


Luego de limpiar las direcciones, podemos utilizar una función para intentar identificar direcciones similares

In [162]:
def find_similar_addresses(datasets, cutoff=0.9):
    repeated = 0
    for name, df in datasets.items():
        if 'MUNICIPIO' not in df.columns or 'DIRECCION' not in df.columns:
            continue

        print(f"\n[{name}] Potential address typos:")

        municipios = df['MUNICIPIO'].dropna().unique()
        for mun in municipios:
            df_mun = df[df['MUNICIPIO'] == mun]
            addresses = df_mun['DIRECCION'].dropna().unique()

            checked = set()
            matches_found = []

            for addr in addresses:
                if addr in checked:
                    continue

                standardized = re.sub(r'\b(Y|CON)\b', '', addr)

                street_type = re.search(r'(AVENIDA|CALLE|DIAGONAL|COLONIA|KM)', addr)
                zone = re.search(r'ZONA \d+', addr)

                if not street_type or not zone:
                    continue

                candidates = [
                    a for a in addresses
                    if street_type.group() in a
                    and zone.group() in a
                    and a != addr
                ]

                matches = [
                    m for m in candidates
                    if get_close_matches(standardized, [re.sub(r'\b(Y|CON)\b', '', m)], n=1, cutoff=cutoff)
                ]

                if matches:
                    matches_found.append((addr, matches))
                    checked.update(matches)
                    repeated += 1

                checked.add(addr)

            if matches_found:
                print(f"\nMunicipio: {mun}")
                for addr, matched in matches_found:
                    print(f"  {addr}")
                    print(f"  → Possible variants: {', '.join(matched)}\n")
    print(repeated)

# Usage:
find_similar_addresses(datasets)


[datos_jalapa] Potential address typos:

Municipio: JALAPA
  4 AVENIDA 2-66 ZONA 2 BARRIO SAN FRANCISCO
  → Possible variants: 5 AVENIDA 1-39 ZONA 2 BARRIO SAN FRANCISCO

  1 CALLE A ZONA 3 RESIDENCIALES NUEVA JERUSALEN
  → Possible variants: 1 CALLE "A" ZONA 3 RESIDENCIALES NUEVA JERUSALEN

  CALLE TRÁNSITO ROJAS 7-79 ZONA 1 BARRIO LA DEMOCRACIA
  → Possible variants: CALLE TRÁNSITO ROJAS 7-60 ZONA 1 BARRIO LA DEMOCRACIA, CALLE TRANSITO ROJAS 7-60 ZONA 1 BARRIO LA DEMOCRACIA

  7 AVENIDA 2-46 ZONA 1 BARRIO LA DEMOCRACIA
  → Possible variants: 3 AVENIDA 0-51 ZONA 1 BARRIO LA DEMOCRACIA

  CALLE TRÁNSITO ROJAS 0-73 ZONA 5
  → Possible variants: CALLE TRANSITO ROJAS 8-87 ZONA 5

  1 CALLE 6-61 ZONA 1 BARRIO LA DEMOCRACIA
  → Possible variants: 1 CALLE 6-61 ZONA 1 BARRIO DEMOCRACIA


Municipio: MATAQUESCUINTLA
  4 AVENIDA 1-61 ZONA 3 CANTON CALVARIO
  → Possible variants: 4 AVENIDA 1-61 ZONA 3 CANTÓN CALVARIO

  3 CALLE 6-04 ZONA 2 CANTÓN CALVARIO
  → Possible variants: 3 CALLE 6-04 ZONA

Basado en el output, nos podemos dar cuenta que hay algunas modificaciones que podemos realizar todavía:

- Palabras / letras conectivas, por ejemplo "1 AVENIDA Y 6 CALLE 1-80 ZONA 1" y "1 AVENIDA 6 CALLE 1-80 ZONA 1"
- Caracteres especiales para los ordinales, cómo "8ª CALLE ZONA 1 BARRIO LATINO"

Las demás modificaciones presentan bastantes complicaciones al intentar generalizarlas, por lo que terminaremos de limpiar las demás columnas e intentaremos identificar establecimientos con la misma dirección para intervenir "manualmente" y establecer una única dirección.


In [163]:
import re
import unicodedata
import pandas as pd

def refine_address(address):
    if not address or pd.isna(address):
        return address

    addr = str(address)

    addr = unicodedata.normalize('NFKD', addr).encode('ASCII', 'ignore').decode()

    addr = re.sub(r'(\d+)(ª|º)\b', r'\1', addr)

    addr = re.sub(r'\b(Y|CON)\b', ' ', addr)


    protected = re.findall(r'\d+-\d+', addr)
    for i, ph in enumerate(protected):
        addr = addr.replace(ph, f'__PROTECTED_{i}__')

    addr = re.sub(r'[^\w\s-]', ' ', addr)

    for i, ph in enumerate(protected):
        addr = addr.replace(f'__PROTECTED_{i}__', ph)

    addr = re.sub(r'\s+', ' ', addr).strip().upper()

    return addr

for name, df in datasets.items():
    if 'DIRECCION' in df.columns:
        df['DIRECCION'] = df['DIRECCION'].apply(refine_address)

print("\n=== REFINED ADDRESS CLEANING VERIFICATION ===")
for name, df in list(datasets.items())[:3]:
    if 'DIRECCION' in df.columns:
        samples = df[['DIRECCION']].dropna().head(3)
        print(f"\nDataset: {name}")
        for addr in samples['DIRECCION']:
            print(f"  {addr}")


=== REFINED ADDRESS CLEANING VERIFICATION ===

Dataset: datos_jalapa
  AVENIDA CHIPILAPA 1-65 ZONA 2
  CALLE TRANSITO ROJAS 4-82 ZONA 2 BARRIO SAN FRANCISCO
  CALLE TRANSITO ROJAS 7-60 ZONA 1

Dataset: datos_jutiapa
  COMPLEJO EDUCATIVO BARRIO EL CONDOR
  7 CALLE 5-30 ZONA 1
  5 CALLE 5-43 ZONA 1

Dataset: datos_peten
  ALDEA IXLU
  ALDEA IXLU FLORES
  7 AVENIDA 1-65 ZONA 2 SANTA ELENA DE LA CRUZONA SANTA ELENA DE LA CRUZONA FLORES


Ahora tenemos las direcciones un poco mejor estandarizadas, sin embargo seguimos con algunos problemas ya que no pudimos abarcar absolutamente todos los errores de digitación. Más adelante, vamos a intentar utilizar otras variables dentro del dataset para mantener el conjunto de datos lo más consistente posible

## Telefono

In [164]:
import pandas as pd
import re

def validate_phones(df):
    if 'TELEFONO' not in df.columns:
        return "No phone column"

    valid_count = 0
    invalid_count = 0
    problem_samples = []

    for phone in df['TELEFONO']:
        if pd.isna(phone):
            invalid_count += 1
            continue

        phone_str = str(phone).strip()

        if phone_str.endswith('.0'):
            phone_str = phone_str[:-2]

        digits_only = re.sub(r'[^\d]', '', phone_str)

        if len(digits_only) == 8:
            valid_count += 1
        else:
            invalid_count += 1
            if len(problem_samples) < 3:
                problem_samples.append(phone_str)

    result = f"✅ {valid_count} valid | ❌ {invalid_count} invalid"
    if problem_samples:
        result += f"\n   Sample problems: {problem_samples}"
    return result

print("=== PHONE VALIDATION ===")
for name, df in datasets.items():
    if 'TELEFONO' in df.columns:
        print(f"{name.ljust(25)} {validate_phones(df)}")


=== PHONE VALIDATION ===
datos_jalapa              ✅ 120 valid | ❌ 1 invalid
   Sample problems: ['79224958-79223033']
datos_jutiapa             ✅ 287 valid | ❌ 9 invalid
   Sample problems: ['7844007', '7844007']
datos_peten               ✅ 264 valid | ❌ 6 invalid
   Sample problems: ['533290', '4167076', '3127247']
datos_quetzaltenango      ✅ 365 valid | ❌ 0 invalid
datos_quiche              ✅ 183 valid | ❌ 1 invalid
   Sample problems: ['0']
datos_retalhuleu          ✅ 264 valid | ❌ 8 invalid
datos_sacatepequez        ✅ 207 valid | ❌ 1 invalid
   Sample problems: ['52660000-78323083']
datos_san_marcos          ✅ 427 valid | ❌ 4 invalid
   Sample problems: ['574479']
datos_santa_rosa          ✅ 132 valid | ❌ 1 invalid
datos_solola              ✅ 111 valid | ❌ 0 invalid
datos_baja_verapaz        ✅ 92 valid | ❌ 2 invalid
   Sample problems: ['79540830-79540909', '79540830-79540909']
datos_suchitepequez       ✅ 288 valid | ❌ 8 invalid
   Sample problems: ['4140069', '4210394058993785', 

Nos podemos dar cuenta de 2 cosas, el principal "error" son los establecimientos con dos números telefónicos. Lo que podemos hacer, es tomar 2 números telefónicos como válidos y si un establecimiento cuenta con 2 números telefónicos mal ingresados (ej. 4210394058993785) separarlos utilizando un -.

In [165]:
import re
import pandas as pd

import re
import pandas as pd

def fix_phones(df):
    if 'TELEFONO' not in df.columns:
        return df

    for i, phone in df['TELEFONO'].items():
        if pd.isna(phone):
            continue

        phone_str = str(phone).strip()

        if phone_str.endswith('.0'):
            phone_str = phone_str[:-2]

        digit_chunks = re.findall(r'\d{5,}', phone_str)

        final_numbers = []

        if len(digit_chunks) == 1 and len(digit_chunks[0]) >= 14:
            candidates = re.findall(r'\d{8}', digit_chunks[0])
            if len(candidates) >= 2:
                final_numbers = candidates[:2]

        else:
            final_numbers = [n for n in digit_chunks if len(n) == 8][:2]

        if final_numbers:
            df.at[i, 'TELEFONO'] = '-'.join(final_numbers)
        else:
            df.at[i, 'TELEFONO'] = phone_str

    return df


for name, df in datasets.items():
    if 'TELEFONO' in df.columns:
        fix_phones(df)

  df.at[i, 'TELEFONO'] = '-'.join(final_numbers)
  df.at[i, 'TELEFONO'] = '-'.join(final_numbers)
  df.at[i, 'TELEFONO'] = '-'.join(final_numbers)
  df.at[i, 'TELEFONO'] = '-'.join(final_numbers)
  df.at[i, 'TELEFONO'] = '-'.join(final_numbers)
  df.at[i, 'TELEFONO'] = '-'.join(final_numbers)
  df.at[i, 'TELEFONO'] = '-'.join(final_numbers)
  df.at[i, 'TELEFONO'] = '-'.join(final_numbers)
  df.at[i, 'TELEFONO'] = '-'.join(final_numbers)
  df.at[i, 'TELEFONO'] = '-'.join(final_numbers)
  df.at[i, 'TELEFONO'] = '-'.join(final_numbers)
  df.at[i, 'TELEFONO'] = '-'.join(final_numbers)
  df.at[i, 'TELEFONO'] = '-'.join(final_numbers)


Ahora podemos utilizar una función de validación actualizada, dónde se toman como válidos varios números telefónicos y podemos asegurar que los pendientes son teléfonos faltantes o mal

In [166]:
import pandas as pd
import re

def validate_phones(df):
    if 'TELEFONO' not in df.columns:
        return "No phone column"

    valid_count = 0
    invalid_count = 0
    problem_samples = []

    for phone in df['TELEFONO']:
        if pd.isna(phone) or not str(phone).strip():
            invalid_count += 1
            continue

        phone_str = str(phone).strip()

        if phone_str.endswith('.0'):
            phone_str = phone_str[:-2]

        parts = re.split(r'[-/\s]', phone_str)

        part_has_valid = False
        for part in parts:
            digits_only = re.sub(r'\D', '', part)
            if len(digits_only) == 8:
                valid_count += 1
                part_has_valid = True
            elif digits_only:
                invalid_count += 1
                if len(problem_samples) < 3 and phone_str not in problem_samples:
                    problem_samples.append(phone_str)

        if not parts and not part_has_valid:
            invalid_count += 1

    result = f"✅ {valid_count} valid | ❌ {invalid_count} invalid"
    if problem_samples:
        result += f"\n   Sample problems: {problem_samples}"
    return result

print("=== PHONE VALIDATION ===")
for name, df in datasets.items():
    if 'TELEFONO' in df.columns:
        print(f"{name.ljust(25)} {validate_phones(df)}")


=== PHONE VALIDATION ===
datos_jalapa              ✅ 122 valid | ❌ 0 invalid
datos_jutiapa             ✅ 287 valid | ❌ 9 invalid
   Sample problems: ['7844007']
datos_peten               ✅ 266 valid | ❌ 5 invalid
   Sample problems: ['533290', '4167076', '3127247']
datos_quetzaltenango      ✅ 365 valid | ❌ 0 invalid
datos_quiche              ✅ 183 valid | ❌ 1 invalid
   Sample problems: ['0']
datos_retalhuleu          ✅ 264 valid | ❌ 8 invalid
datos_sacatepequez        ✅ 209 valid | ❌ 0 invalid
datos_san_marcos          ✅ 427 valid | ❌ 4 invalid
   Sample problems: ['574479']
datos_santa_rosa          ✅ 132 valid | ❌ 1 invalid
datos_solola              ✅ 111 valid | ❌ 0 invalid
datos_baja_verapaz        ✅ 96 valid | ❌ 0 invalid
datos_suchitepequez       ✅ 294 valid | ❌ 5 invalid
   Sample problems: ['4140069', '5899378']
datos_totonicapan         ✅ 55 valid | ❌ 0 invalid
datos_zacapa              ✅ 70 valid | ❌ 0 invalid
datos_chimaltenango       ✅ 303 valid | ❌ 2 invalid
   Sample pro

Luego, podemos extraer los números de teléfono válidos correspondientes a cada establecimiento e intentar matchearlos a establecimientos con el mismo nombre exactamente pero que tengan un número de teléfono inválido.

In [167]:
import pandas as pd
import re

def extract_valid_phones(phone_str):
    if not phone_str or pd.isna(phone_str):
        return []
    phone_str = str(phone_str).strip()
    if phone_str.endswith('.0'):
        phone_str = phone_str[:-2]
    parts = re.split(r'[-/\s]', phone_str)
    valid_phones = []
    for part in parts:
        digits_only = re.sub(r'\D', '', part)
        if len(digits_only) == 8:
            valid_phones.append(digits_only)
    return valid_phones

def build_valid_phone_reference(datasets):
    phone_ref = {}
    for df in datasets.values():
        if all(col in df.columns for col in ['ESTABLECIMIENTO', 'TELEFONO']):
            for _, row in df.iterrows():
                name = row['ESTABLECIMIENTO']
                if pd.isna(name):
                    continue
                phones = extract_valid_phones(row['TELEFONO'])
                if not phones:
                    continue
                if name not in phone_ref:
                    phone_ref[name] = set()
                phone_ref[name].update(phones)
    for k in phone_ref:
        phone_ref[k] = list(phone_ref[k])
    return phone_ref

def fix_invalid_phones_by_reference(datasets):
    print("=== FIXING INVALID PHONES BY ESTABLECIMIENTO REFERENCE ===")
    phone_ref = build_valid_phone_reference(datasets)
    fixed_count = 0

    for name, df in datasets.items():
        if all(col in df.columns for col in ['ESTABLECIMIENTO', 'TELEFONO']):
            for i, row in df.iterrows():
                phone_val = row['TELEFONO']
                est_name = row['ESTABLECIMIENTO']
                if pd.isna(phone_val) or not str(phone_val).strip():
                    if est_name in phone_ref:
                        new_phone = '-'.join(phone_ref[est_name])
                        df.at[i, 'TELEFONO'] = new_phone
                        fixed_count += 1
                else:
                    valid_phones = extract_valid_phones(phone_val)
                    if len(valid_phones) == 0 and est_name in phone_ref:
                        new_phone = '-'.join(phone_ref[est_name])
                        df.at[i, 'TELEFONO'] = new_phone
                        fixed_count += 1

    print(f"Total teléfonos corregidos: {fixed_count}")
    return datasets

datasets = fix_invalid_phones_by_reference(datasets)

print("=== PHONE VALIDATION ===")
for name, df in datasets.items():
    if 'TELEFONO' in df.columns:
        print(f"{name.ljust(25)} {validate_phones(df)}")

=== FIXING INVALID PHONES BY ESTABLECIMIENTO REFERENCE ===
Total teléfonos corregidos: 47
=== PHONE VALIDATION ===
datos_jalapa              ✅ 122 valid | ❌ 0 invalid
datos_jutiapa             ✅ 652 valid | ❌ 5 invalid
datos_peten               ✅ 629 valid | ❌ 3 invalid
   Sample problems: ['533290', '3127247']
datos_quetzaltenango      ✅ 365 valid | ❌ 0 invalid
datos_quiche              ✅ 544 valid | ❌ 0 invalid
datos_retalhuleu          ✅ 270 valid | ❌ 2 invalid
datos_sacatepequez        ✅ 209 valid | ❌ 0 invalid
datos_san_marcos          ✅ 1149 valid | ❌ 2 invalid
   Sample problems: ['574479']
datos_santa_rosa          ✅ 133 valid | ❌ 0 invalid
datos_solola              ✅ 111 valid | ❌ 0 invalid
datos_baja_verapaz        ✅ 96 valid | ❌ 0 invalid
datos_suchitepequez       ✅ 300 valid | ❌ 1 invalid
datos_totonicapan         ✅ 55 valid | ❌ 0 invalid
datos_zacapa              ✅ 70 valid | ❌ 0 invalid
datos_chimaltenango       ✅ 308 valid | ❌ 0 invalid
datos_chiquimula          ✅ 1213 v

## Supervisor

Para esta variable, realmente lo único que podemos hacer es limpiarla utilizando estandarización como letras mayúsculas. Si intentamos utilizar algunas de las estrategias anteriores, como fuzzy matching al nombre, realmente no tenemos manera de identificar que "Juan Prez" es un error de digitación para "Juan Perez".

In [168]:
import unicodedata
import string

def clean_supervisor_name(name):
    if pd.isna(name):
        return None

    name = str(name).upper().strip()

    name = unicodedata.normalize('NFKD', name)\
           .encode('ASCII', 'ignore')\
           .decode('ASCII')

    name = name.translate(str.maketrans('', '', string.punctuation))

    name = ' '.join(name.split())

    return name

for df in datasets.values():
    if 'SUPERVISOR' in df.columns:
        df['SUPERVISOR'] = df['SUPERVISOR'].apply(clean_supervisor_name)

print("SUPERVISOR cleaning completed for all datasets.")
print("Sample cleaned names:")
for name, df in list(datasets.items())[:2]:
    if 'SUPERVISOR' in df.columns:
        print(f"\n{name}:")
        print(df['SUPERVISOR'].dropna().unique()[:5])

SUPERVISOR cleaning completed for all datasets.
Sample cleaned names:

datos_jalapa:
['JORGE ADELINO PEREZ UCELO' 'VICTOR MANUEL PORTILLO RECINOS'
 'THELMA YANETH POLANCO PEREZ DE CAMEY'
 'ZOILA LIGIA ELIZABETH MARTINEZ GUZMAN DE CARIAS'
 'ERIKA PATRICIA CUELLAR ESCOBAR']

datos_jutiapa:
['RONY ESMELTZER RAMOS QUINONEZ' 'REMBERTO RECINOS SARCENO'
 'CECILIA ISABEL ALDECOA CASASOLA DE CASTRO'
 'SANDRA NINNETH BONILLA ARCHILA' 'EDGAR ARNULFO GONZALEZ GUDIEL']


Podemos ver que ahora, los nombres de los supervisores siguen un formato consistente y nos podemos evitar los errores de digitación que pudieron haber sucedido al ingresar una tilde o un caracter especial incorrectamente.

## Director

De manera similar a la anterior,  realmente lo único que podemos hacer es limpiarla utilizando estandarización como letras mayúsculas. Si intentamos utilizar algunas de las estrategias anteriores, como fuzzy matching al nombre, realmente no tenemos manera de identificar que "Juan Prez" es un error de digitación para "Juan Perez".

In [169]:
import unicodedata
import string

def clean_director_name(name):
    """Cleans a director name by:
    1. Converting to uppercase
    2. Removing accents/diacritics
    3. Stripping whitespace
    4. Removing punctuation"""
    if pd.isna(name):
        return None

    name = str(name).upper().strip()

    name = unicodedata.normalize('NFKD', name)\
           .encode('ASCII', 'ignore')\
           .decode('ASCII')

    name = name.translate(str.maketrans('', '', string.punctuation))

    name = ' '.join(name.split())

    return name

for df in datasets.values():
    if 'DIRECTOR' in df.columns:
        df['DIRECTOR'] = df['DIRECTOR'].apply(clean_director_name)

print("DIRECTOR cleaning completed for all datasets.")
print("Sample cleaned names:")
for name, df in list(datasets.items())[:2]:
    if 'DIRECTOR' in df.columns:
        print(f"\n{name}:")
        print(df['DIRECTOR'].dropna().unique()[:5])


DIRECTOR cleaning completed for all datasets.
Sample cleaned names:

datos_jalapa:
['IRIS JANNETTE AGUIRRE CONTRERAS' 'LISI KARINA ESCOBAR ESPINOZA'
 'EFRAIN DE JESUS SALAZAR PERALTA' 'ROSA CORALIA PINEDA GALLARDO'
 'NILSA MAGALY CORDERO GUDIEL']

datos_jutiapa:
['MIRZA ELIZABETH ARAGON POLANCO' 'DELMY ASTRID MENDEZ POLANCO'
 'RONI ERNESTO RECINOS ESTRADA' 'ISRAEL JOSUE VASQUEZ'
 'JORGE MARIO AGUILAR RETANA']


Podemos ver que ahora los nombres de los directores siguen un formato consistente, y nos ahorramos los posibles errores de digitación al ingresar mal alguna tilde o alguna letra mayúscula / minúscula.

## Consistencia Establecimiento, Dirección y Teléfono
Hasta este punto, hemos estado utilizando diferentes estrategias para limpiar cada variable por separado. Sin embargo, todavía debemos intentar identificar posibles errores de digitación utilizando diferentes variables en conjunto.

Primero, vamos a identificar pequeños errores de digitación para los nombres de establecimiento. Estaremos utilizando fuzzy matching con un treshold de 0.95. Este fue decidido luego de algunas pruebas y errores en un inciso anterior, dónde algunos institutos diferentes aparecían dentro de la lista al tener una similitud en ej. "Primaria" vs "Preprimaria". Vamos a utilizar matching del 0.95, luego para terminar de identificar el establecimiento estaremos utilizando número telefónico y director. D

In [170]:
from difflib import get_close_matches
from collections import defaultdict
import pandas as pd

def corregir_nombres_similares(datasets, threshold=0.95):

    grupos = defaultdict(list)
    for nombre_df, df in datasets.items():
        if all(col in df.columns for col in ['ESTABLECIMIENTO', 'TELEFONO', 'DIRECTOR']):
            for idx, row in df.iterrows():
                if pd.notna(row['TELEFONO']) and pd.notna(row['DIRECTOR']):
                    clave = (str(row['TELEFONO']), str(row['DIRECTOR']).upper())
                    nombre = str(row['ESTABLECIMIENTO']).upper().strip()
                    grupos[clave].append((nombre_df, idx, nombre))

    reemplazos = {}

    for clave, lista in grupos.items():
        nombres_unicos = list(set([nombre for _, _, nombre in lista]))
        clusters = []

        for nombre in nombres_unicos:
            found_cluster = False
            for cluster in clusters:
                if get_close_matches(nombre, cluster, n=1, cutoff=threshold):
                    cluster.append(nombre)
                    found_cluster = True
                    break
            if not found_cluster:
                clusters.append([nombre])

        for cluster in clusters:
            if len(cluster) < 2:
                continue
            nombre_referencia = max(cluster, key=len)
            for variante in cluster:
                if variante != nombre_referencia:
                    reemplazos[variante] = nombre_referencia

    for df in datasets.values():
        if 'ESTABLECIMIENTO' in df.columns:
            df['ESTABLECIMIENTO'] = df['ESTABLECIMIENTO'].apply(
                lambda x: reemplazos.get(str(x).upper().strip(), x)
            )

    cambios = [{'VARIANTE': k, 'CORREGIDO A': v} for k, v in reemplazos.items()]
    return pd.DataFrame(cambios).drop_duplicates()

correcciones = corregir_nombres_similares(datasets, threshold=0.95)

if not correcciones.empty:
    print("✅ Correcciones aplicadas:")
    display(correcciones)
else:
    print("✅ No se encontraron nombres similares para corregir.")


✅ Correcciones aplicadas:


Unnamed: 0,VARIANTE,CORREGIDO A
0,INSTITUTO TECNICO INDUSTRIAL ALBERT EINSTEIN,INSTITUTO TECNICO INSDUSTRIAL ALBERT EINSTEIN
1,ESCUELA EN CIENCIAS DE LA COMUNICACION ECCO,ESCUELA EN CIENCIAS DE LA COMUNICACION ECCO II
2,INSTITUTO PARTICULAR DE FORMACION Y DESARROLLO...,INSTITUTO PARTICULAR MIXTO DE FORMACION Y DESA...
3,INSTITUTO TECNOLOGICO DE SURORIENTE,INTITUTO TECNOLOGICO DE SUR ORIENTE
4,COLEGIO CRISTIANO ELHASHAMAYIM,COLEGIO CRISTIANO EL HASHAMAYIM
5,CENTRO EDUCATIVO POR MADUREZ PROFA MILDRED GUA...,CENTRO EDUCATIVO POR MADUREZ PROFA MILDRED GUA...
6,ESCUELA NORMAL CON ORIENTACION AMBIENTAL,ESCUELA NORMAL CON ORIENTACION AMBIENTALENCA
7,COLEGIO MIXTO PRIVADO EL HORIZONTECOMPEH,COLEGIO MIXTO PRIVADO EL HORIZONTE COMPEH
8,CENTRO EDUCATIVO CIENCIA Y TECNOLOGIACECT,CENTRO EDUCATIVO CIENCIA Y TECNOLOGIA CECT
9,LICEO CIENCIA Y DESARROLLOCON ORIENTACION TECN...,LICEO CIENCIA Y DESARROLLO CON ORIENTACION TEC...


Luego de un review manual, llegamos a la conclusión que todos los cambios realizados son verídicos y fueron realizados correctamente. Adicionalmente, no utilizamos un treshold más pequeño ya que hay establecimientos similares que operan bajo nombres diferentes. Por ejemplo, encontramos una fila dónde la única diferencia era "PREPRIMARIA" y "PRIMARIA". En este tipo de casos, el threshold más pequeño hubiera asumido que eran un mismo establecimiento y se requeriría revisión manual. Consideramos esta cantidad de correcciones apta, ya que es un balance entre revisión manual extremadamente tardada y automatización justificada. Ahora, podemos revisar que las direcciones sean las mismas para establecimientos que tengan nombres idénticos.

In [171]:
from difflib import get_close_matches
from collections import defaultdict
import pandas as pd

def corregir_direcciones_similares(datasets, threshold=0.95):
    grupos = defaultdict(list)
    for nombre_df, df in datasets.items():
        if all(col in df.columns for col in ['ESTABLECIMIENTO', 'DIRECCION']):
            for idx, row in df.iterrows():
                if pd.notna(row['ESTABLECIMIENTO']) and pd.notna(row['DIRECCION']):
                    clave = str(row['ESTABLECIMIENTO']).upper().strip()
                    direccion = str(row['DIRECCION']).upper().strip()
                    grupos[clave].append((nombre_df, idx, direccion))

    reemplazos = {}

    for establecimiento, lista in grupos.items():
        direcciones_unicas = list(set([direccion for _, _, direccion in lista]))
        if len(direcciones_unicas) <= 1:
            continue

        clusters = []

        for direccion in direcciones_unicas:
            found_cluster = False
            for cluster in clusters:
                for existente in cluster:
                    if direccion != existente and get_close_matches(direccion, [existente], n=1, cutoff=threshold):
                        cluster.append(direccion)
                        found_cluster = True
                        break
                if found_cluster:
                    break
            if not found_cluster:
                clusters.append([direccion])

        for cluster in clusters:
            if len(cluster) < 2:
                continue
            ref = max(cluster, key=len)
            for variante in cluster:
                if variante != ref:
                    reemplazos[variante] = ref

    for df in datasets.values():
        if 'DIRECCION' in df.columns:
            df['DIRECCION'] = df['DIRECCION'].apply(
                lambda x: reemplazos.get(str(x).upper().strip(), x)
            )

    cambios = [{'VARIANTE': k, 'CORREGIDO A': v} for k, v in reemplazos.items()]
    return pd.DataFrame(cambios).drop_duplicates()

correcciones_direcciones = corregir_direcciones_similares(datasets, threshold=0.95)

if not correcciones_direcciones.empty:
    print("✅ Direcciones corregidas por similitud (excluyendo las ya idénticas):")
    display(correcciones_direcciones)
else:
    print("✅ No se encontraron direcciones similares no idénticas para corregir.")

✅ Direcciones corregidas por similitud (excluyendo las ya idénticas):


Unnamed: 0,VARIANTE,CORREGIDO A
0,CALLE TRANSITO ROJAS 7-79 ZONA 1 BARRIO LA DEM...,CALLE TRANSITO ROJAS 7-60 ZONA 1 BARRIO LA DEM...
1,9 CALLEJON B 12-94 ZONA 4 SECTOR LOS OLIVOS EL...,9O CALLEJON B 12-94 ZONA 4 SECTOR LOS OLIVOS E...
2,3 CALLE 2-47 ZONA 3 BARRIO SAN FRANCISCO,3 CALLE 2-47 ZONA 2 BARRIO SAN FRANCISCO
3,6 CALLE E 0-49 COLONIA BONILLA ZON 1 BARRIO LA...,6 CALLE E 0-49 COLONIA BONILLA ZONA 1 BARRIO L...
4,LOTES 6 7 159 160 LOTIFICACIONLOS EUCALIPTOS,LOTES 6 7 159 160 LOTIFICACION LOS EUCALIPTOS
...,...,...
115,4 AVENIDA ENTRE 0 1 CALLE ZONA 4 BARRIO SAN FE...,4A AVENIDA ENTRE O 1 CALLE ZONA 4 BARRIO SAN F...
116,0 CALLE B OC-150 ZONA 4,O CALLE B OC-150 ZONA 4
117,12 AVENIDA 4-30 ZONA 3,12 AVENIDA A 4-30 ZONA 3
118,12 AVENIDA A 4-30 ZONA 2 BARRIO ASUNCION,12 AVENIDA A 4-30 ZONA 3 BARRIO ASUNCION


Luego de una revisión manual, las direcciones actualizadas contenían errores de digitación y representan una misma dirección. Gracias a estos pasos adicionales, evitamos establecimientos y direcciones con errores de digitación y tenemos una mejor consistencia en nuestros datos.

## Merging de Establecimientos y "Checkpoint"
Los establecimientos tendrán múltiples entradas en el dataset final, esto ya que cada combinación de "Status" "Modalidad" "Jornada" y "Plan" se refiere a su propio y único plan de estudios. Si fuéramos a utilizar un Merge, luego quedaría un dataset donde se asume que el establecimiento ofrece planes de cualquier combinación presente. Por ejemplo, tendríamos un establecimiento con un plan Diario Matutino, y Fin De Semana Vespertino. Luego de encodear las variables, tendríamos datos que nos indican la existencia de un plan Fin de Semana Matutino.

Recapitulando hasta el momento, hemos limpiado las variables hasta Director enfocados en la consistencia de los datos. El dataset actualmente se ve de esta manera:

In [172]:
first_key = next(iter(datasets))
first_df = datasets[first_key]
print(f"📄 First dataset: {first_key}")
display(first_df.head(10))


📄 First dataset: datos_jalapa


Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,DIRECCION,TELEFONO,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL
0,21-01-0101-46,21-002,JALAPA,JALAPA,INSTITUTO NORMAL CENTROAMERICANO PARA SENORITA...,AVENIDA CHIPILAPA 1-65 ZONA 2,79224268,JORGE ADELINO PEREZ UCELO,IRIS JANNETTE AGUIRRE CONTRERAS,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,VESPERTINA,DIARIO(REGULAR),JALAPA
1,21-01-0104-46,21-002,JALAPA,JALAPA,INSTITUTO NORMAL CENTROAMERICANO PARA VARONES,CALLE TRANSITO ROJAS 4-82 ZONA 2 BARRIO SAN FR...,40645842,JORGE ADELINO PEREZ UCELO,LISI KARINA ESCOBAR ESPINOZA,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),JALAPA
2,21-01-0106-46,21-004,JALAPA,JALAPA,COLEGIO PARTICULAR MIXTO LICEO JALAPA,CALLE TRANSITO ROJAS 7-60 ZONA 1,79220013,VICTOR MANUEL PORTILLO RECINOS,EFRAIN DE JESUS SALAZAR PERALTA,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,NOCTURNA,DIARIO(REGULAR),JALAPA
3,21-01-0108-46,21-004,JALAPA,JALAPA,INSTITUTO PRIVADO DE EDUCACION DIVERSIFICADA E...,4 AVENIDA 2-66 ZONA 2 BARRIO SAN FRANCISCO,79224958-79223033,VICTOR MANUEL PORTILLO RECINOS,ROSA CORALIA PINEDA GALLARDO,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,VESPERTINA,DIARIO(REGULAR),JALAPA
4,21-01-0111-46,21-004,JALAPA,JALAPA,COLEGIO PARTICULAR MIXTO LICEO NUEVO MILENIO,1 CALLE A ZONA 3 RESIDENCIALES NUEVA JERUSALEN,79222186,VICTOR MANUEL PORTILLO RECINOS,NILSA MAGALY CORDERO GUDIEL,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,VESPERTINA,DIARIO(REGULAR),JALAPA
5,21-01-0206-46,21-005,JALAPA,JALAPA,INSTITUTO NACIONAL DE EDUCACION DIVERSIFICADA,CASERIO LA LAGUNETA ALDEA EL DURAZNO,31233496,THELMA YANETH POLANCO PEREZ DE CAMEY,MIGDALIA IRENE SANTILLANA FUENTES,DIVERSIFICADO,OFICIAL,RURAL,ABIERTA,MONOLINGUE,VESPERTINA,DIARIO(REGULAR),JALAPA
6,21-01-0233-46,21-004,JALAPA,JALAPA,COLEGIO PARTICULAR MIXTO POR MADUREZ OSCAR DE ...,CALLE TRANSITO ROJAS 8-54 ZONA 2,56963730,VICTOR MANUEL PORTILLO RECINOS,CLAUDIA MARINELLI MARTINEZ HERNANDEZ,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,DOBLE,FIN DE SEMANA,JALAPA
7,21-01-0256-46,21-004,JALAPA,JALAPA,COLEGIO SAGRADO CORAZON,3 CALLE 2-47 ZONA 2 BARRIO SAN FRANCISCO,79227638,VICTOR MANUEL PORTILLO RECINOS,FRANCISCO AUGUSTO CARRILLO HERNANDEZ,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,DOBLE,FIN DE SEMANA,JALAPA
8,21-01-0269-46,21-004,JALAPA,JALAPA,COLEGIO PRIVADO MIXTO DE EDUCACION BASICA EDUCARE,6 AVENIDA 0-67 ZONA 5 BARRIO SAN FRANCISCO,51948259,VICTOR MANUEL PORTILLO RECINOS,DORA ISABEL ELIAS,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,VESPERTINA,DIARIO(REGULAR),JALAPA
9,21-01-0274-46,21-004,JALAPA,JALAPA,COLEGIO PARTICULAR MIXTO LICEO JALAPA,CALLE TRANSITO ROJAS 7-60 ZONA 1 BARRIO LA DEM...,79220013,VICTOR MANUEL PORTILLO RECINOS,LESLY PRISCILA CARRERA RUIZ,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,VESPERTINA,DIARIO(REGULAR),JALAPA


De momento, queda pendiente la limpieza de las variables categóricas restantes y eliminación de duplicados. La eliminación de duplicados la estamos manteniendo hasta el final, ya que primero debemos asegurarnos que un caso como "Doble" y "Dóble" no genere datos duplicados debido a errores de ingreso.

## Nivel

## Sector

## Variables categóricas
Ya que la limpieza de las variables categóricas es bastante similar para este dataset, vamos a definir algunas funciones de utilidad

In [173]:
def clean_and_show_categorical(datasets, column_name):
    """Clean categorical column and show unique values across all datasets"""
    print(f"\n=== Cleaning and showing unique values for '{column_name}' ===")
    
    all_unique_values = set()
    
    for name, df in datasets.items():
        if column_name in df.columns:
            # Clean: uppercase + strip whitespace
            df[column_name] = df[column_name].astype(str).str.upper().str.strip()
            
            # Collect unique values
            unique_vals = df[column_name].unique()
            all_unique_values.update(unique_vals)
            
            print(f"Dataset '{name}': {len(unique_vals)} unique values")
    
    print(f"\nAll unique values across datasets:")
    for val in sorted(all_unique_values):
        print(f"  '{val}'")
    
    return sorted(all_unique_values)

def replace_values(datasets, column_name, old_value, new_value):
    """Replace all instances of old_value with new_value in specified column"""
    replaced_count = 0
    
    for name, df in datasets.items():
        if column_name in df.columns:
            mask = df[column_name] == old_value
            count = mask.sum()
            df.loc[mask, column_name] = new_value
            replaced_count += count
            
            if count > 0:
                print(f"Dataset '{name}': Replaced {count} instances")
    
    print(f"Total replaced: {replaced_count} instances of '{old_value}' → '{new_value}'")

### Nivel
Para esta variable esperamos que sea diversificado para todos, utilizando la función de utilidad

In [174]:
unique_nivel = clean_and_show_categorical(datasets, 'NIVEL')


=== Cleaning and showing unique values for 'NIVEL' ===
Dataset 'datos_jalapa': 1 unique values
Dataset 'datos_jutiapa': 1 unique values
Dataset 'datos_peten': 1 unique values
Dataset 'datos_quetzaltenango': 1 unique values
Dataset 'datos_quiche': 1 unique values
Dataset 'datos_retalhuleu': 1 unique values
Dataset 'datos_sacatepequez': 1 unique values
Dataset 'datos_san_marcos': 1 unique values
Dataset 'datos_santa_rosa': 1 unique values
Dataset 'datos_solola': 1 unique values
Dataset 'datos_baja_verapaz': 1 unique values
Dataset 'datos_suchitepequez': 1 unique values
Dataset 'datos_totonicapan': 1 unique values
Dataset 'datos_zacapa': 1 unique values
Dataset 'datos_chimaltenango': 1 unique values
Dataset 'datos_chiquimula': 1 unique values
Dataset 'datos_ciudad_capital': 1 unique values
Dataset 'datos_el_progreso': 1 unique values
Dataset 'datos_escuintla': 1 unique values
Dataset 'datos_guatemala': 1 unique values
Dataset 'datos_huehuetenango': 1 unique values
Dataset 'datos_izabal':

Todos los datos tienen como valor DIVERSIFICADO, por lo cual no necesitamos realizar más operaciones de limpieza.

### Area
Para identificar los valores únicos de Área, podemos utilizar nuevamente la función de utilidad

In [175]:
unique_nivel = clean_and_show_categorical(datasets, 'AREA')


=== Cleaning and showing unique values for 'AREA' ===
Dataset 'datos_jalapa': 2 unique values
Dataset 'datos_jutiapa': 2 unique values
Dataset 'datos_peten': 2 unique values
Dataset 'datos_quetzaltenango': 2 unique values
Dataset 'datos_quiche': 2 unique values
Dataset 'datos_retalhuleu': 2 unique values
Dataset 'datos_sacatepequez': 2 unique values
Dataset 'datos_san_marcos': 2 unique values
Dataset 'datos_santa_rosa': 2 unique values
Dataset 'datos_solola': 2 unique values
Dataset 'datos_baja_verapaz': 2 unique values
Dataset 'datos_suchitepequez': 2 unique values
Dataset 'datos_totonicapan': 2 unique values
Dataset 'datos_zacapa': 2 unique values
Dataset 'datos_chimaltenango': 2 unique values
Dataset 'datos_chiquimula': 2 unique values
Dataset 'datos_ciudad_capital': 3 unique values
Dataset 'datos_el_progreso': 2 unique values
Dataset 'datos_escuintla': 2 unique values
Dataset 'datos_guatemala': 2 unique values
Dataset 'datos_huehuetenango': 2 unique values
Dataset 'datos_izabal': 

### Status
Para identificar los valores únicos de Status, podemos utilizar nuevamente la función de utilidad

In [182]:
unique_nivel = clean_and_show_categorical(datasets, 'STATUS')


=== Cleaning and showing unique values for 'STATUS' ===
Dataset 'datos_jalapa': 1 unique values
Dataset 'datos_jutiapa': 1 unique values
Dataset 'datos_peten': 1 unique values
Dataset 'datos_quetzaltenango': 1 unique values
Dataset 'datos_quiche': 1 unique values
Dataset 'datos_retalhuleu': 1 unique values
Dataset 'datos_sacatepequez': 1 unique values
Dataset 'datos_san_marcos': 1 unique values
Dataset 'datos_santa_rosa': 1 unique values
Dataset 'datos_solola': 1 unique values
Dataset 'datos_baja_verapaz': 1 unique values
Dataset 'datos_suchitepequez': 1 unique values
Dataset 'datos_totonicapan': 1 unique values
Dataset 'datos_zacapa': 1 unique values
Dataset 'datos_chimaltenango': 1 unique values
Dataset 'datos_chiquimula': 1 unique values
Dataset 'datos_ciudad_capital': 1 unique values
Dataset 'datos_el_progreso': 1 unique values
Dataset 'datos_escuintla': 1 unique values
Dataset 'datos_guatemala': 1 unique values
Dataset 'datos_huehuetenango': 1 unique values
Dataset 'datos_izabal'

### Modalidad
Para identificar los valores únicos de Modalidad, podemos utilizar nuevamente la función de utilidad

In [183]:
unique_nivel = clean_and_show_categorical(datasets, 'MODALIDAD')


=== Cleaning and showing unique values for 'MODALIDAD' ===
Dataset 'datos_jalapa': 1 unique values
Dataset 'datos_jutiapa': 1 unique values
Dataset 'datos_peten': 2 unique values
Dataset 'datos_quetzaltenango': 2 unique values
Dataset 'datos_quiche': 2 unique values
Dataset 'datos_retalhuleu': 2 unique values
Dataset 'datos_sacatepequez': 2 unique values
Dataset 'datos_san_marcos': 2 unique values
Dataset 'datos_santa_rosa': 1 unique values
Dataset 'datos_solola': 2 unique values
Dataset 'datos_baja_verapaz': 2 unique values
Dataset 'datos_suchitepequez': 1 unique values
Dataset 'datos_totonicapan': 2 unique values
Dataset 'datos_zacapa': 1 unique values
Dataset 'datos_chimaltenango': 2 unique values
Dataset 'datos_chiquimula': 2 unique values
Dataset 'datos_ciudad_capital': 2 unique values
Dataset 'datos_el_progreso': 1 unique values
Dataset 'datos_escuintla': 2 unique values
Dataset 'datos_guatemala': 2 unique values
Dataset 'datos_huehuetenango': 2 unique values
Dataset 'datos_izab

## Jornada
Para identificar los valores únicos de Jornada, podemos utilizar nuevamente la función de utilidad

In [184]:
unique_nivel = clean_and_show_categorical(datasets, 'JORNADA')


=== Cleaning and showing unique values for 'JORNADA' ===
Dataset 'datos_jalapa': 5 unique values
Dataset 'datos_jutiapa': 5 unique values
Dataset 'datos_peten': 6 unique values
Dataset 'datos_quetzaltenango': 5 unique values
Dataset 'datos_quiche': 6 unique values
Dataset 'datos_retalhuleu': 5 unique values
Dataset 'datos_sacatepequez': 5 unique values
Dataset 'datos_san_marcos': 6 unique values
Dataset 'datos_santa_rosa': 6 unique values
Dataset 'datos_solola': 5 unique values
Dataset 'datos_baja_verapaz': 5 unique values
Dataset 'datos_suchitepequez': 5 unique values
Dataset 'datos_totonicapan': 4 unique values
Dataset 'datos_zacapa': 5 unique values
Dataset 'datos_chimaltenango': 6 unique values
Dataset 'datos_chiquimula': 6 unique values
Dataset 'datos_ciudad_capital': 6 unique values
Dataset 'datos_el_progreso': 4 unique values
Dataset 'datos_escuintla': 6 unique values
Dataset 'datos_guatemala': 5 unique values
Dataset 'datos_huehuetenango': 4 unique values
Dataset 'datos_izabal

### Plan
Para identificar los valores únicos de Plan, podemos utilizar nuevamente la función de utilidad

In [185]:
unique_nivel = clean_and_show_categorical(datasets, 'PLAN')


=== Cleaning and showing unique values for 'PLAN' ===
Dataset 'datos_jalapa': 7 unique values
Dataset 'datos_jutiapa': 6 unique values
Dataset 'datos_peten': 6 unique values
Dataset 'datos_quetzaltenango': 7 unique values
Dataset 'datos_quiche': 7 unique values
Dataset 'datos_retalhuleu': 7 unique values
Dataset 'datos_sacatepequez': 7 unique values
Dataset 'datos_san_marcos': 7 unique values
Dataset 'datos_santa_rosa': 7 unique values
Dataset 'datos_solola': 7 unique values
Dataset 'datos_baja_verapaz': 7 unique values
Dataset 'datos_suchitepequez': 6 unique values
Dataset 'datos_totonicapan': 6 unique values
Dataset 'datos_zacapa': 5 unique values
Dataset 'datos_chimaltenango': 8 unique values
Dataset 'datos_chiquimula': 5 unique values
Dataset 'datos_ciudad_capital': 9 unique values
Dataset 'datos_el_progreso': 4 unique values
Dataset 'datos_escuintla': 8 unique values
Dataset 'datos_guatemala': 8 unique values
Dataset 'datos_huehuetenango': 8 unique values
Dataset 'datos_izabal': 

### Limpieza y estandarización de categóricas
Forzamos mayúsculas, desacentuamos, quitamos basura (paréntesis, dobles espacios).

Mapeamos sinónimos/typos a los únicos valores válidos.

Todo lo que no calce → NaN (excepto AREA, donde “sin especificar” se mapea explícitamente).

In [176]:
import pandas as pd, re, unicodedata
from pathlib import Path

# --- utilidades de texto ---
def _deaccent(s: str) -> str:
    return unicodedata.normalize("NFKD", s).encode("ascii", "ignore").decode("ascii")

def norm_cat(x):
    if pd.isna(x): return None
    s = str(x).strip().upper()
    s = _deaccent(s)
    s = re.sub(r'\s*\([^)]*\)', '', s)     
    s = re.sub(r'\s+', ' ', s)             # colapsa espacios
    s = s.replace('”', '"').replace('“', '"')
    return s

# --- valores válidos que pediste ---
VALID_SECTOR   = {"OFICIAL", "MUNICIPAL", "PRIVADO", "COOPERATIVA"}
VALID_AREA     = {"URBANA", "RURAL", "SIN ESPECIFICAR"}
VALID_MODAL    = {"MONOLINGUE", "BILINGUE"}
VALID_JORNADA  = {"MATUTINA", "VESPERTINA", "NOCTURNA", "DOBLE", "SIN JORNADA", "INTERMEDIA"}
VALID_PLAN     = {"DIARIO", "A DISTANCIA", "SEMIPRESENCIAL", "FIN DE SEMANA"}

# --- diccionarios de normalización (sinónimos/typos comunes) ---
MAP_SECTOR = {
    "OFICIA": "OFICIAL", "OFIC": "OFICIAL",
    "MUNI": "MUNICIPAL",
    "PRIV": "PRIVADO", "PARTICULAR": "PRIVADO",
    "COOP": "COOPERATIVA"
}

MAP_AREA = {
    "URBAN": "URBANA", "URB": "URBANA",
    "RURAL": "RURAL",
    "SIN ESPECIF": "SIN ESPECIFICAR", "NO ESPECIFICADO": "SIN ESPECIFICAR",
    "S/E": "SIN ESPECIFICAR", "SIN": "SIN ESPECIFICAR"
}

MAP_MODAL = {
    "BILINGUEE": "BILINGUE", "BIL": "BILINGUE",
    "MONO": "MONOLINGUE", "MONOLINGUEE": "MONOLINGUE"
}

MAP_JORNADA = {
    "DOBLE JORNADA": "DOBLE",
    "MAT": "MATUTINA",
    "VESP": "VESPERTINA", "VESPERTINO": "VESPERTINA",
    "NOCT": "NOCTURNA",
    "INTERMEDIO": "INTERMEDIA",
    "SIN": "SIN JORNADA", "NINGUNA": "SIN JORNADA"
}

MAP_PLAN = {
    "DIARIO REGULAR": "DIARIO", "REGULAR": "DIARIO", "DIARIO( REGULAR )": "DIARIO",
    "DISTANCIA": "A DISTANCIA", "A-DISTANCIA": "A DISTANCIA",
    "SEMI PRESENCIAL": "SEMIPRESENCIAL", "SEMI-PRESENCIAL": "SEMIPRESENCIAL", "SEMIPRES": "SEMIPRESENCIAL",
    "FINDESEMANA": "FIN DE SEMANA", "FDS": "FIN DE SEMANA"
}

def _map_value(x, valid_set, mapping_extra):
    if x is None: return None
    # mapeos puntuales
    if x in mapping_extra: 
        x = mapping_extra[x]
    # si coincide exacto con válidos → ok
    if x in valid_set:
        return x
    # intentos suaves: recortar/normalizar espacios
    y = re.sub(r'\s+', ' ', x).strip()
    if y in mapping_extra: y = mapping_extra[y]
    if y in valid_set: return y
    return None  # fuera de catálogo

def clean_categoricals(df):
    if df is None or not isinstance(df, pd.DataFrame):
        # defensa: nunca retornes None
        return pd.DataFrame()

    df = df.copy()
    for col in ["SECTOR", "AREA", "MODALIDAD", "JORNADA", "PLAN"]:
        if col in df.columns:
            df[col] = df[col].map(norm_cat)  # deja en mayúsculas sin tildes

    # mapeos exactos
    if "SECTOR" in df:
        df["SECTOR"] = df["SECTOR"].map(lambda x: _map_value(x, VALID_SECTOR, MAP_SECTOR))
    if "AREA" in df:
        df["AREA"] = df["AREA"].map(lambda x: _map_value(x, VALID_AREA, MAP_AREA))
    if "MODALIDAD" in df:
        df["MODALIDAD"] = df["MODALIDAD"].map(lambda x: _map_value(x, VALID_MODAL, MAP_MODAL))
    if "JORNADA" in df:
        df["JORNADA"] = df["JORNADA"].map(lambda x: _map_value(x, VALID_JORNADA, MAP_JORNADA))

    # --- PLAN: primero intentamos exacto, luego reglas “contains” ---
    if "PLAN" in df:
        df["PLAN"] = df["PLAN"].map(lambda x: _map_value(x, VALID_PLAN, MAP_PLAN))

        def plan_contains_fix(x):
            if x in VALID_PLAN or x is None:
                return x
            s = str(x)
            if "DISTANCIA" in s:
                return "A DISTANCIA"
            if "SEMANA" in s:          # FIN DE SEMANA
                return "FIN DE SEMANA"
            if "SEMI" in s:            # SEMIPRESENCIAL / SEMI PRESENCIAL
                return "SEMIPRESENCIAL"
            if "DIARIO" in s or "REGULAR" in s:
                return "DIARIO"
            return None

        df["PLAN"] = df["PLAN"].map(plan_contains_fix)

    # reporte
    def _report(col, valid):
        if col in df:
            bad = df[col].isna().sum()
            print(f"{col}: {bad} fuera de catálogo" + (f" (válidos: {sorted(list(valid))})" if bad else ""))
    _report("SECTOR", VALID_SECTOR)
    _report("AREA", VALID_AREA)
    _report("MODALIDAD", VALID_MODAL)
    _report("JORNADA", VALID_JORNADA)
    _report("PLAN", VALID_PLAN)

    return df


### Derivadas + dummies (con tipos específicos)
sector_* → 0/1 (int).

area_*, modalidad_*, jornada_*, plan_* → boolean (True/False).

es_publico, es_rural, es_urbano, tiene_telefono → 0/1 (int).

tipo_establecimiento (heurística) y longitud_nombre (entero).

In [177]:
# --- teléfono válido: 8 dígitos ---
def is_valid_phone(x):
    if pd.isna(x): return False
    s = re.sub(r'\D', '', str(x))
    return len(s) == 8

def categorize_establishment(name):
    u = str(name).upper()
    if any(w in u for w in ["INSTITUTO", "COLEGIO"]):
        return "INSTITUTO_COLEGIO"
    elif any(w in u for w in ["ESCUELA", "LICEO"]):
        return "ESCUELA_LICEO"
    elif any(w in u for w in ["CENTRO", "NUCLEO", "C.E.B.", "CEB "]):
        return "CENTRO"
    else:
        return "OTRO"

def add_features_and_dummies(df):
    df = df.copy()

    # --- derivadas numéricas/binarias ---
    df["es_publico"]   = df["SECTOR"].isin(["OFICIAL", "MUNICIPAL"]).astype(int)
    df["es_rural"]     = (df["AREA"] == "RURAL").astype(int)
    df["es_urbano"]    = (df["AREA"] == "URBANA").astype(int)
    df["tiene_telefono"]= df["TELEFONO"].map(is_valid_phone).astype(int)

    df["tipo_establecimiento"] = df["ESTABLECIMIENTO"].map(categorize_establishment)
    df["longitud_nombre"]      = df["ESTABLECIMIENTO"].astype(str).str.len().astype("Int64")

    # --- dummies con tipos solicitados ---
    # sector_* -> 0/1
    sector_dum = pd.get_dummies(df["SECTOR"], prefix="sector", dtype="uint8")
    for col in ["sector_COOPERATIVA","sector_MUNICIPAL","sector_OFICIAL","sector_PRIVADO"]:
        if col not in sector_dum.columns:
            sector_dum[col] = 0  # garantizar columnas aunque no existan en el df
    sector_dum = sector_dum[["sector_COOPERATIVA","sector_MUNICIPAL","sector_OFICIAL","sector_PRIVADO"]]

    # area_* (boolean)
    area_dum = pd.get_dummies(df["AREA"], prefix="area").astype("boolean")
    for col in ["area_RURAL","area_URBANA"]:
        if col not in area_dum.columns:
            area_dum[col] = False
    area_dum = area_dum[["area_RURAL","area_URBANA"]]

    # modalidad_* (boolean)
    mod_dum = pd.get_dummies(df["MODALIDAD"], prefix="modalidad").astype("boolean")
    for col in ["modalidad_BILINGUE","modalidad_MONOLINGUE"]:
        if col not in mod_dum.columns:
            colname = col
            mod_dum[colname] = False
    mod_dum = mod_dum[["modalidad_BILINGUE","modalidad_MONOLINGUE"]]

    # jornada_* (boolean)
    jornadas = ["DOBLE","INTERMEDIA","MATUTINA","NOCTURNA","SIN JORNADA","VESPERTINA"]
    jor_dum = pd.get_dummies(df["JORNADA"], prefix="jornada").astype("boolean")
    # garantiza todas las columnas en orden
    cols_j = [f"jornada_{j}" for j in jornadas]
    for c in cols_j:
        if c not in jor_dum.columns:
            jor_dum[c] = False
    jor_dum = jor_dum[cols_j]

    # plan_* (boolean)
    planes = ["A DISTANCIA", "DIARIO", "FIN DE SEMANA", "SEMIPRESENCIAL"]
    plan_dum = pd.get_dummies(df["PLAN"], prefix="plan").astype("boolean")
    cols_p = [f"plan_{p}" for p in planes]
    # mapea espacios del sufijo como están en los valores
    cols_p = [c.replace(" ", " ") for c in cols_p]
    for c in cols_p:
        if c not in plan_dum.columns:
            plan_dum[c] = False
    plan_dum = plan_dum[cols_p]

    # --- concatenar al df limpio ---
    df_out = pd.concat([df, sector_dum, area_dum, mod_dum, jor_dum, plan_dum], axis=1)

    return df_out, sector_dum, area_dum, mod_dum, jor_dum, plan_dum


### Pipeline sobre todos los CSV y dataset aparte de dummies

mineduc_combined_clean.csv (categóricas estandarizadas + derivadas).

mineduc_dummies.csv (solo dummies + identificador CODIGO para merge fácil).

In [178]:
def process_all_and_save(
    input_dir="data/csv",
    out_dir="data/cleaned",
    make_dummies_dataset=True
):
    in_path = Path(input_dir)
    out_path = Path(out_dir)
    out_path.mkdir(parents=True, exist_ok=True)

    csvs = list(in_path.glob("*.csv"))
    print(f"Procesando {len(csvs)} archivos...")

    cleaned_list = []
    dummies_list = []

    for f in csvs:
        df = pd.read_csv(f, dtype=str)  # leer como texto para no romper códigos/teléfono
        obj_cols = df.select_dtypes(include="object").columns
        df[obj_cols] = df[obj_cols].apply(lambda s: s.str.strip())

        # limpia categóricas exactamente a catálogo
        df_clean = clean_categoricals(df)

        if df_clean is None or df_clean.empty:
            print(f"⚠️ {f.name}: dataset vacío tras limpieza; se omite.")
            continue

        # agrega derivadas y dummies
        df_full, sector_dum, area_dum, mod_dum, jor_dum, plan_dum = add_features_and_dummies(df_clean)

        # guarda versión limpia individual si quieres
        (out_path / f"{f.stem}_clean.csv").write_text(
            df_full.to_csv(index=False, encoding="utf-8"), encoding="utf-8"
        )

        cleaned_list.append(df_full)

        if make_dummies_dataset:
            # dataset de dummies con clave para merge: CODIGO (si existe) o índice
            key = "CODIGO" if "CODIGO" in df_full.columns else None
            dummies = pd.concat([sector_dum, area_dum, mod_dum, jor_dum, plan_dum], axis=1)
            if key:
                dummies.insert(0, "CODIGO", df_full[key].astype(str))
            else:
                dummies.insert(0, "row_id", range(len(dummies)))
            dummies_list.append(dummies)

    # combinados
    combined = pd.concat(cleaned_list, ignore_index=True)
    combined_path = out_path / "mineduc_combined_clean.csv"
    combined.to_csv(combined_path, index=False, encoding="utf-8")
    print(f"✅ Limpio combinado: {combined.shape} → {combined_path}")

    if make_dummies_dataset and dummies_list:
        dummies_combined = pd.concat(dummies_list, ignore_index=True)
        # tipa los booleanos correctamente
        bool_cols = [c for c in dummies_combined.columns if c.startswith(("area_", "modalidad_", "jornada_", "plan_"))]
        dummies_combined[bool_cols] = dummies_combined[bool_cols].astype("boolean")

        dum_path = out_path / "mineduc_dummies.csv"
        dummies_combined.to_csv(dum_path, index=False, encoding="utf-8")
        print(f"✅ Dummies combinado: {dummies_combined.shape} → {dum_path}")

    return combined


Se ejecuta:

In [179]:
combined_clean = process_all_and_save("data/csv", "data/cleaned", make_dummies_dataset=True)

Procesando 23 archivos...
SECTOR: 0 fuera de catálogo
AREA: 0 fuera de catálogo
MODALIDAD: 0 fuera de catálogo
JORNADA: 0 fuera de catálogo
PLAN: 0 fuera de catálogo
SECTOR: 0 fuera de catálogo
AREA: 0 fuera de catálogo
MODALIDAD: 0 fuera de catálogo
JORNADA: 0 fuera de catálogo
PLAN: 5 fuera de catálogo (válidos: ['A DISTANCIA', 'DIARIO', 'FIN DE SEMANA', 'SEMIPRESENCIAL'])
SECTOR: 0 fuera de catálogo
AREA: 0 fuera de catálogo
MODALIDAD: 0 fuera de catálogo
JORNADA: 0 fuera de catálogo
PLAN: 0 fuera de catálogo
SECTOR: 0 fuera de catálogo
AREA: 0 fuera de catálogo
MODALIDAD: 0 fuera de catálogo
JORNADA: 0 fuera de catálogo
PLAN: 3 fuera de catálogo (válidos: ['A DISTANCIA', 'DIARIO', 'FIN DE SEMANA', 'SEMIPRESENCIAL'])
SECTOR: 0 fuera de catálogo
AREA: 0 fuera de catálogo
MODALIDAD: 0 fuera de catálogo
JORNADA: 0 fuera de catálogo
PLAN: 2 fuera de catálogo (válidos: ['A DISTANCIA', 'DIARIO', 'FIN DE SEMANA', 'SEMIPRESENCIAL'])
SECTOR: 0 fuera de catálogo
AREA: 0 fuera de catálogo
MODA

### Eliminar duplicados

In [180]:
duplicate_check_cols = [col for col in combined_clean.columns if col != 'CODIGO']

print("Análisis de duplicados:")
print(f"Filas iniciales: {len(combined_clean):,}")

duplicated_mask = combined_clean.duplicated(subset=duplicate_check_cols, keep=False)
duplicate_count = duplicated_mask.sum()

if duplicate_count > 0:
    print(f"Duplicados encontrados: {duplicate_count:,} filas")
    
    duplicate_rows = combined_clean[duplicated_mask]
    duplicate_groups = duplicate_rows.groupby(duplicate_check_cols)
    
    print(f"Grupos de duplicados: {len(duplicate_groups):,}")
    print("\nEjemplos de duplicados:")
    
    sample_count = 0
    for group_key, group_df in duplicate_groups:
        if sample_count >= 3:
            break
        print(f"\n   Grupo {sample_count + 1}: {len(group_df)} duplicados")
        print(f"   Establecimiento: {group_df['ESTABLECIMIENTO'].iloc[0]}")
        print(f"   Municipio: {group_df['MUNICIPIO'].iloc[0]}")
        print(f"   CODIGOs: {', '.join(group_df['CODIGO'].astype(str))}")
        sample_count += 1
    
    if len(duplicate_groups) > 3:
        print(f"   ... y {len(duplicate_groups) - 3} grupos más")
    
    combined_clean_no_dup = combined_clean.drop_duplicates(subset=duplicate_check_cols, keep='first')
    
    final_count = len(combined_clean_no_dup)
    removed_count = len(combined_clean) - final_count
    
    print(f"\nDuplicados eliminados:")
    print(f"Filas finales: {final_count:,}")
    print(f"Filas eliminadas: {removed_count:,}")
    print(f"Reducción: {(removed_count/len(combined_clean))*100:.2f}%")

    combined_clean = combined_clean_no_dup.copy()
    
else:
    print("No se encontraron duplicados")

output_path = Path("data/cleaned")
output_path.mkdir(parents=True, exist_ok=True)

final_file = output_path / "mineduc_final_clean.csv"
combined_clean.to_csv(final_file, index=False, encoding='utf-8')

print(f"\nDataset final guardado en: {final_file}")
print(f"Forma final del dataset: {combined_clean.shape}")

Análisis de duplicados:
Filas iniciales: 6,590
Duplicados encontrados: 272 filas
Grupos de duplicados: 134

Ejemplos de duplicados:

   Grupo 1: 2 duplicados
   Establecimiento: LICEO INTEGRAL PALENCIANO
   Municipio: PALENCIA
   CODIGOs: 01-05-8549-46, 01-05-8550-46

   Grupo 2: 2 duplicados
   Establecimiento: COLEGIO BELLO AMANECER 2
   Municipio: ZONA 18
   CODIGOs: 00-18-0211-46, 00-18-0257-46

   Grupo 3: 2 duplicados
   Establecimiento: LICEO CUMORAH PINOS
   Municipio: ZONA 18
   CODIGOs: 00-18-0154-46, 00-18-0156-46
   ... y 131 grupos más

Duplicados eliminados:
Filas finales: 6,452
Filas eliminadas: 138
Reducción: 2.09%

Dataset final guardado en: data/cleaned/mineduc_final_clean.csv
Forma final del dataset: (6452, 41)
