# Carga de Datos


## .xls / HTML a .csv
Los datos del Mineduc se exportan como archivos .xls, realmente teniendo contenido de HTML. Debido a eso, debemos de parsear el archivo HTML e identificar la tabla correcta que contiene los datos. Luego, podemos exportar los datos a su archivo .csv correspondiente, utilizando el valor de la columna 'Departamento' para nombrarlo. Adicionalmente, los archivos utilizan un encoding diferente al est√°ndar utf-8, por lo cual vamos a especificarlo al momento de leer los archivos HTML.

In [2]:
import pandas as pd
from pathlib import Path
from collections import defaultdict
import re


def parse_html_excel_file(file_path):
    file_path = Path(file_path)

    try:
        tables = pd.read_html(str(file_path), encoding="iso-8859-1")

        if not tables:
            return {"success": False, "error": "No tables found in HTML"}

        required_headers = ["CODIGO", "DISTRITO", "DEPARTAMENTO", "MUNICIPIO"]
        target_table = None
        target_index = None

        for i, df in enumerate(tables):
            df_columns_upper = [str(col).upper().strip() for col in df.columns]
            if all(header in df_columns_upper for header in required_headers):
                target_table = df
                target_index = i
                break
            else:
                if len(df) > 0:
                    first_row_upper = [
                        str(cell).upper().strip() for cell in df.iloc[0]
                    ]
                    if all(header in first_row_upper for header in required_headers):
                        df.columns = df.iloc[0]
                        df = df.drop(df.index[0]).reset_index(drop=True)
                        target_table = df
                        target_index = i
                        break

        if target_table is None:
            return {
                "success": False,
                "error": "No table found with required headers.",
            }

        target_table = target_table.dropna(how="all")

        return {
            "success": True,
            "data": target_table,
            "table_index": target_index,
            "total_tables": len(tables),
        }

    except Exception as e:
        return {"success": False, "error": str(e)}


def sanitize_filename(text):
    filename = text.lower().replace(" ", "_")
    return re.sub(r"[^\w_.]", "", filename)


def process_html_files_directory(input_dir, output_dir):
    input_path = Path(input_dir)
    output_path = Path(output_dir)
    output_path.mkdir(parents=True, exist_ok=True)

    files = list(input_path.glob("*.xls"))

    print(f"Found {len(files)} .xls files to process")

    successful_files = []
    failed_files = []
    all_departamentos = defaultdict(list)

    for file_path in files:
        result = parse_html_excel_file(file_path)

        if result["success"]:
            df = result["data"]

            departamentos = []
            for departamento, group in df.groupby("DEPARTAMENTO"):
                filename = f"datos_{sanitize_filename(departamento)}.csv"

                output_file = output_path / filename
                group.to_csv(output_file, index=False)

                departamentos.append(
                    {"name": departamento, "filename": filename, "rows": len(group)}
                )

                all_departamentos[departamento].append(
                    {
                        "source_file": file_path.name,
                        "csv_file": filename,
                        "rows": len(group),
                    }
                )

            successful_files.append(
                {
                    "file": file_path.name,
                    "departamentos": departamentos,
                    "total_rows": len(df),
                }
            )

            print(f"  ‚úÖ Processed {file_path.name}: Created {len(departamentos)} CSVs.")

        else:
            failed_files.append({"file": file_path.name, "error": result["error"]})
            print(f"  ‚ùå Failed {file_path.name}: {result['error']}")

    print("\n" + "=" * 60)
    print("PROCESSING SUMMARY")
    print("=" * 60)

    print(f"\nTotal files: {len(files)}")
    print(f"‚úÖ Successful: {len(successful_files)}")
    print(f"‚ùå Failed: {len(failed_files)}")

    # The detailed successful/failed files lists will only be printed if there are successful/failed files.
    # The summary already gives a count, so the repetition for successful files is removed here.
    # The detailed list for failed files remains as it provides useful error messages.
    if failed_files:
        print(f"\n‚ùå FAILED FILES:")
        for item in failed_files:
            print(f"  - {item['file']}: {item['error']}")

    duplicates = {
        name: sources
        for name, sources in all_departamentos.items()
        if len(sources) > 1
    }
    if duplicates:
        print(f"\n‚ö†Ô∏è DUPLICATE DEPARTAMENTOS:")
        for dept_name, sources in duplicates.items():
            print(f"  {dept_name}: appears in {len(sources)} files")
    else:
        print("\n‚úÖ No duplicate departamentos found")


test_result = parse_html_excel_file("data/raw/establecimiento.xls")
if test_result["success"]:
    print("\nSingle file test successful!")

    print("\n" + "=" * 60)
    print("PROCESSING ALL FILES")
    print("=" * 60)
    process_html_files_directory("data/raw", "data/csv")
else:
    print(f"‚ùå Single file test failed: {test_result['error']}")


Single file test successful!

PROCESSING ALL FILES
Found 23 .xls files to process
  ‚úÖ Processed establecimiento (12).xls: Created 1 CSVs.
  ‚úÖ Processed establecimiento (18).xls: Created 1 CSVs.
  ‚úÖ Processed establecimiento (14).xls: Created 1 CSVs.
  ‚úÖ Processed establecimiento (10).xls: Created 1 CSVs.
  ‚úÖ Processed establecimiento (5).xls: Created 1 CSVs.
  ‚úÖ Processed establecimiento.xls: Created 1 CSVs.
  ‚úÖ Processed establecimiento (11).xls: Created 1 CSVs.
  ‚úÖ Processed establecimiento (22).xls: Created 1 CSVs.
  ‚úÖ Processed establecimiento (9).xls: Created 1 CSVs.
  ‚úÖ Processed establecimiento (3).xls: Created 1 CSVs.
  ‚úÖ Processed establecimiento (13).xls: Created 1 CSVs.
  ‚úÖ Processed establecimiento (21).xls: Created 1 CSVs.
  ‚úÖ Processed establecimiento (17).xls: Created 1 CSVs.
  ‚úÖ Processed establecimiento (20).xls: Created 1 CSVs.
  ‚úÖ Processed establecimiento (19).xls: Created 1 CSVs.
  ‚úÖ Processed establecimiento (16).xls: Created 1 CSV

## .csv a DataFrames
Luego de haber creado los archivos, podemos cargarlos a DataFrames para realizar el an√°lisis necesario.

In [3]:
import pandas as pd
import numpy as np
from pathlib import Path
import re
from collections import Counter, defaultdict
import matplotlib.pyplot as plt

# Load all CSV files
csv_dir = Path("data/csv")
csv_files = list(csv_dir.glob("*.csv"))

print(f"Found {len(csv_files)} CSV files")

# Load all datasets
datasets = {}
for csv_file in csv_files:
    dataset_name = csv_file.stem
    datasets[dataset_name] = pd.read_csv(csv_file)
    
print(f"Loaded {len(datasets)} datasets")

Found 23 CSV files
Loaded 23 datasets


# Descripci√≥n

## Filas y Columnas

In [4]:
shape_info = []
for name, df in datasets.items():
    shape_info.append({
        'dataset': name,
        'rows': df.shape[0],
        'columns': df.shape[1]
    })

shape_df = pd.DataFrame(shape_info)
print("üìä Dataset Shapes:")
print(shape_df.sort_values('rows', ascending=False))

print(f"\nüìà Summary:")
print(f"Total rows across all datasets: {shape_df['rows'].sum():,}")
print(f"Average rows per dataset: {shape_df['rows'].mean():.0f}")
print(f"Min/Max rows: {shape_df['rows'].min()} / {shape_df['rows'].max()}")

üìä Dataset Shapes:
                 dataset  rows  columns
8        datos_guatemala  1036       17
11  datos_ciudad_capital   864       17
3       datos_san_marcos   431       17
7        datos_escuintla   393       17
5   datos_quetzaltenango   365       17
14   datos_chimaltenango   300       17
20   datos_suchitepequez   296       17
21         datos_jutiapa   296       17
15   datos_huehuetenango   295       17
2     datos_alta_verapaz   294       17
13          datos_izabal   273       17
17      datos_retalhuleu   272       17
18           datos_peten   270       17
1     datos_sacatepequez   208       17
16          datos_quiche   184       17
0       datos_chiquimula   136       17
6       datos_santa_rosa   133       17
12          datos_jalapa   121       17
22          datos_solola   111       17
9      datos_el_progreso    97       17
19    datos_baja_verapaz    94       17
4           datos_zacapa    70       17
10     datos_totonicapan    51       17

üìà Summary:
Tota

## Integridad de los Datos

### Consistencia en Nombres de Columnas

In [5]:
all_columns = []
column_consistency = {}

for name, df in datasets.items():
    columns = list(df.columns)
    all_columns.append(columns)
    column_consistency[name] = columns

first_columns = all_columns[0]
all_same = all(columns == first_columns for columns in all_columns)

if all_same:
    print(f"\n‚úÖ Standard columns ({len(first_columns)}):")
    for i, col in enumerate(first_columns, 1):
        print(f"  {i:2d}. {col}")
else:
    print("\n‚ùå Column differences found:")
    for name, columns in column_consistency.items():
        if columns != first_columns:
            print(f"  {name}: {columns}")


‚úÖ Standard columns (17):
   1. CODIGO
   2. DISTRITO
   3. DEPARTAMENTO
   4. MUNICIPIO
   5. ESTABLECIMIENTO
   6. DIRECCION
   7. TELEFONO
   8. SUPERVISOR
   9. DIRECTOR
  10. NIVEL
  11. SECTOR
  12. AREA
  13. STATUS
  14. MODALIDAD
  15. JORNADA
  16. PLAN
  17. DEPARTAMENTAL


### Encoding Problem√°tico
Como mencionamos anteriormente, el encoding de los archivos originales era distinto de "utf-8". Nos dimos cuenta al realizar el an√°lisis sobre el encoding problem√°tico, sin embargo al cambiarlo dentro de la funci√≥n anterior logramos correr con √©xito este an√°lisis.

In [6]:
import pandas as pd
from collections import defaultdict
import re

problematic_char = "ÔøΩ"
all_problematic_samples = defaultdict(list)
issue_found = False

for dataset_name, df in datasets.items():
    for col in df.columns:
        if df[col].dtype == "object":
            str_series = df[col].astype(str) 
            
            contains_char_mask = str_series.str.contains(problematic_char, na=False)
            
            if contains_char_mask.any():
                issue_found = True
                current_samples = str_series[contains_char_mask].unique().tolist()
                for sample_val in current_samples:
                    if len(all_problematic_samples[col]) < 5:
                        all_problematic_samples[col].append(sample_val)


if issue_found:
    print(f"‚ùå Encoding issues found (char: '{problematic_char}'):")
    sorted_cols_with_issues = sorted(all_problematic_samples.keys()) 

    for col in sorted_cols_with_issues:
        samples = all_problematic_samples[col]
        print(f"  Column '{col}':")
        for val in samples:
            print(f"    ‚Ä¢ {val}")
else:
    print(f"‚úÖ No encoding issues found (char: '{problematic_char}')")

‚úÖ No encoding issues found (char: 'ÔøΩ')


# An√°lisis de Variables
Las variables que m√°s operaciones de limpieza necesitan son:

In [16]:
summary_stats = []

for col in first_columns:
    col_data = []
    for name, df in datasets.items():
        if col in df.columns:
            series = df[col].astype(str).str.strip()
            col_data.extend(series)

    series_all = pd.Series(col_data)
    n_total = len(series_all)
    n_missing = (series_all == "").sum() + series_all.isna().sum()
    n_unique = series_all.nunique()
    
    summary_stats.append({
        "column": col,
        "missing (%)": round((n_missing / n_total) * 100, 2),
        "unique_values": n_unique,
        "sample_values": series_all.dropna().unique()[:5].tolist()
    })

df_summary = pd.DataFrame(summary_stats)
df_summary.sort_values("missing (%)", ascending=False, inplace=True)

display(df_summary)

Unnamed: 0,column,missing (%),unique_values,sample_values
0,CODIGO,0.0,6590,"[20-01-0024-46, 20-01-0029-46, 20-01-0030-46, ..."
1,DISTRITO,0.0,620,"[20-001, 20-024, 20-027, 99-001, 20-030]"
2,DEPARTAMENTO,0.0,23,"[CHIQUIMULA, SACATEPEQUEZ, ALTA VERAPAZ, SAN M..."
3,MUNICIPIO,0.0,343,"[CHIQUIMULA, SAN JOSE LA ARADA, SAN JUAN ERMIT..."
4,ESTABLECIMIENTO,0.0,3779,"[ESCUELA DE CIENCIAS COMERCIALES NOCTURNA, INS..."
5,DIRECCION,0.0,4428,"[10A. AVENIDA 3-71 ZONA 1, 2A CALLE ENTRE 11 Y..."
6,TELEFONO,0.0,4208,"[79422150.0, 79420395.0, 41942927.0, 79420290...."
7,SUPERVISOR,0.0,598,"[CESAR ADALBERTO NOGUERA JACOME, SILVIA MARILE..."
8,DIRECTOR,0.0,3860,"[H√âCTOR ALIDIO CERON BRENES, ROMEO RIVERA CHAC..."
9,NIVEL,0.0,1,[DIVERSIFICADO]


## C√≥digo
Este valor parece ser un identificador √∫nico, queremos explorar las siguientes propiedades:
- Unicidad: Este c√≥digo es √∫nico dentro de su respectivo dataset o todos?
- Formato: Es consistente el formato en todos los datasets? Existen errores de digitaci√≥n?
- Valores Faltantes: Existen valores faltantes?
- Nos ayuda a identificar √∫nicamente alg√∫n otro valor?

Debido a esto, queremos realizar los siguientes pasos de limpieza:

- Identificar unicidad del c√≥digo
- Identificar Valores Faltantes
- Revisar errores de digitaci√≥n, c√≥mo lo pueden ser whitespaces o formato incongruente
- Identificar si nos puede ayudar a identificar otras variables para verificar errores de digitaci√≥n

## Distrito
Este valor parece ser un identificador geogr√°fico, siguiendo un formato XX-YYY. Queremos explorar las siguientes propiedades
- Formato: Es consistente el formato?
- Valores Faltantes: Existen valores faltantes dentro de los datasets?
- Nos ayuda a identificar √∫nicamente alg√∫n otro valor?

Debido a esto, queremos realizar los siguientes pasos de limpieza:

- Identificar valores faltantes
- Revisar errores de digitaci√≥n
- Enforzar un formato consistente
- Identificar si nos puede ayuda a verificar la consistencia de Municipio o alg√∫n otro valor

## Departamento

Ya que los DataFrames se encuentran divididos por departamento, esta entrada deber√≠a ser completamente consistente. Adem√°s, podemos proponer los siguientes pasos para una mayor consistencia:

- Identificar el valor RAW m√°s com√∫n, ya que un error de digitaci√≥n ser√≠a menos frecuente
- Tomar ese valor y realizar las siguientes transformaciones
    - Conversi√≥n a min√∫sculas
    - Reemplazo de espacios por _
    - Aplicar a todas las columnas de cada DF individual
- Aplicar OHE luego de mergear los DFs

## Municipio

Este valor representa la divisi√≥n pol√≠tica a nivel municipal. Dado que se usa como categor√≠a geogr√°fica clave, es esencial asegurar consistencia.

Exploraci√≥n a realizar:

- Formato: ¬øSe encuentra todo en may√∫sculas? ¬øHay tildes inconsistentes?
- Valores Faltantes: Confirmar si hay celdas vac√≠as o marcadas incorrectamente.
- Relaci√≥n con otros campos: ¬øEl municipio concuerda con el departamento correspondiente?

Pasos de limpieza propuestos:

- Convertir todo el texto a may√∫sculas (.str.upper()).
- Eliminar espacios extra antes o despu√©s (.str.strip()).
- Normalizar tildes y caracteres especiales si necesario.
- Validar los municipios contra una lista oficial por departamento.


## Establecimiento

Nombre propio de la instituci√≥n educativa. Puede contener muchas variantes tipogr√°ficas y estil√≠sticas que dificultan an√°lisis posteriores.

Exploraci√≥n a realizar:

- Formato: ¬øSe mantiene una capitalizaci√≥n consistente?
- Valores Faltantes: ¬øHay registros sin nombre?
- Redundancia o duplicaci√≥n: ¬øExisten nombres duplicados con leves diferencias?

Pasos de limpieza propuestos:

- Capitalizar nombres con .str.title() para uniformidad visual.
- Eliminar espacios repetidos entre palabras.
- Remover puntuaci√≥n innecesaria.
- Establecer reglas para abreviaciones comunes si se encuentran (ej. "Inst." por "Instituto").

## DIRECCI√ìN

Campo libre con alta variabilidad. Las direcciones pueden contener m√∫ltiples abreviaturas, puntuaci√≥n, y errores de digitaci√≥n.

Exploraci√≥n a realizar:
- Formato: ¬øExisten patrones comunes? ¬øSe usan abreviaturas (CALLE, AV, etc.)?
- Valores inconsistentes: ¬øUso indistinto de may√∫sculas, puntuaci√≥n, acentos?

Pasos de limpieza propuestos:
- Normalizar a may√∫sculas (.str.upper()).
- Crear reglas de sustituci√≥n para abreviaturas frecuentes (ej. AVENIDA ‚Üí AV.).
- Quitar s√≠mbolos innecesarios y estandarizar signos de puntuaci√≥n.
- Opcional: usar expresiones regulares para separar partes de la direcci√≥n (calle, n√∫mero, zona, etc.).

## TEL√âFONO

Campo num√©rico con alta variabilidad en formato. Puede contener n√∫meros concatenados, separadores o caracteres no num√©ricos.

Exploraci√≥n a realizar:
- Formato: ¬øTodos los valores contienen exactamente 8 d√≠gitos? ¬øHay m√∫ltiples n√∫meros por celda?
- Errores: ¬øCaracteres no num√©ricos? ¬øEspacios o signos innecesarios?

Pasos de limpieza propuestos:

- Remover todos los caracteres no num√©ricos con re.sub(r"\D", "", telefono).
- Validar longitud est√°ndar (8 d√≠gitos en Guatemala).
- Si hay m√∫ltiples n√∫meros, dividir y elegir el primero o guardarlos como lista.

## SUPERVISOR

Nombre del supervisor responsable. Puede presentar variaciones por uso de tildes, may√∫sculas, y errores ortogr√°ficos menores.

Exploraci√≥n a realizar:

- Formato: ¬øMay√∫sculas/min√∫sculas inconsistentes?
- Duplicaci√≥n: ¬øUn mismo nombre aparece escrito de m√∫ltiples formas?

Pasos de limpieza propuestos:

- Capitalizar con .str.title() para uniformidad.
- Remover espacios dobles y caracteres extra√±os.
- Normalizar tildes si es necesario.

## DIRECTOR

Similar al campo de supervisor, representa nombres propios con riesgos similares de inconsistencia.

Exploraci√≥n a realizar:

- Aplicar los mismos criterios que SUPERVISOR.

Pasos de limpieza propuestos:

- Igual estrategia de capitalizaci√≥n, limpieza de espacios, y normalizaci√≥n de caracteres.

## NIVEL
Este campo tiene un √∫nico valor: "DIVERSIFICADO".

Exploraci√≥n a realizar:

- Verificar que efectivamente todos los valores son iguales.
- Confirmar si es √∫til conservar esta columna.

Pasos de limpieza propuestos:

- Si es redundante, considerar eliminarla para evitar ruido en an√°lisis futuros.

## SECTOR

Categor√≠a con pocos valores √∫nicos. Se espera valores como "OFICIAL", "PRIVADO", etc.

Exploraci√≥n a realizar:

- ¬øMay√∫sculas o min√∫sculas inconsistentes?
- ¬øErrores ortogr√°ficos?

Pasos de limpieza propuestos:

- Convertir todo a may√∫sculas y eliminar espacios (.str.upper().str.strip()).
- Validar los valores contra un conjunto permitido: {OFICIAL, PRIVADO, MUNICIPAL, COOPERATIVA}.
- Convertir a tipo Categorical.

## √ÅREA
Identifica si la instituci√≥n est√° en zona rural o urbana.

Exploraci√≥n a realizar:

- Confirmar que los valores son: URBANA, RURAL, SIN ESPECIFICAR.
- Verificar errores de digitaci√≥n o combinaciones no v√°lidas.

Pasos de limpieza propuestos:

- Uniformar may√∫sculas (.str.upper()).
- Reemplazar variantes de ‚Äúsin especificar‚Äù por un valor est√°ndar (ej. "DESCONOCIDO").
- Convertir a Categorical.

## STATUS
Campo con un √∫nico valor: "ABIERTA".

Exploraci√≥n a realizar:

Verificar si realmente todos los valores son iguales.

Evaluar su utilidad en an√°lisis futuros.

Pasos de limpieza propuestos:

Eliminar si es redundante (sin variabilidad).

## MODALIDAD
Pocos valores √∫nicos: "MONOLINGUE", "BILINGUE".

Exploraci√≥n a realizar:

Verificar may√∫sculas y tildes.

Validar que no existan variantes escritas incorrectamente.

Pasos de limpieza propuestos:

Uniformar may√∫sculas y acentos (.str.upper()).

Reemplazar variantes con un mapeo fijo.

Convertir a Categorical

## JORNADA
Categor√≠a horaria. Existen valores como ‚ÄúMATUTINA‚Äù, ‚ÄúVESPERTINA‚Äù, ‚ÄúDOBLE‚Äù, ‚ÄúNOCHE‚Äù, etc.

Exploraci√≥n a realizar:

Verificar consistencia de t√©rminos.

Identificar redundancias o t√©rminos similares con diferencias menores.

Pasos de limpieza propuestos:

Normalizar formato (.str.upper().str.strip()).

Mapear variantes a un conjunto est√°ndar.

Eliminar signos extra o abreviaciones inconsistentes.

## PLAN
Puede incluir valores con par√©ntesis, como ‚ÄúDIARIO(REGULAR)‚Äù, que dificultan an√°lisis.

Exploraci√≥n a realizar:

¬øHay signos innecesarios como par√©ntesis o guiones?

¬øHay t√©rminos redundantes?

Pasos de limpieza propuestos:

Eliminar par√©ntesis y su contenido con str.replace(r'\(.*?\)', '').

Eliminar espacios extra y convertir a may√∫sculas.

Validar valores contra una lista limpia predefinida.

Convertir a Categorical.

## DEPARTAMENTAL
Representa una divisi√≥n regional administrativa.

Exploraci√≥n a realizar:

Verificar may√∫sculas, errores tipogr√°ficos.

Confirmar que corresponde con el valor del campo DEPARTAMENTO.

Pasos de limpieza propuestos:

Uniformar texto (.str.upper().str.strip()).

Validar contra un listado oficial del MINEDUC.

Opcional: cruzar con DEPARTAMENTO para consistencia.

## Definici√≥n de funciones para limpieza de datos

In [8]:
def clean_establecimiento(df):

    df_clean = df.copy()
    
    df_clean['ESTABLECIMIENTO'] = (df_clean['ESTABLECIMIENTO']
                                  .str.replace('""', '"', regex=False)
                                  .str.replace('"', '', regex=False))
    
    print(f" ESTABLECIMIENTO limpiado: {(df['ESTABLECIMIENTO'] != df_clean['ESTABLECIMIENTO']).sum()} registros corregidos")
    
    return df_clean

def clean_plan(df):
    df_clean = df.copy()
    
    df_clean['PLAN'] = (df_clean['PLAN']
                       .str.replace(r'\s*\([^)]*\)', '', regex=True)
                       .str.strip())
    
    print(f" PLAN limpiado: {(df['PLAN'] != df_clean['PLAN']).sum()} registros corregidos")
    print(f"   Valores √∫nicos despu√©s de limpieza: {df_clean['PLAN'].unique()}")
    
    return df_clean

def clean_telefono(df):
    df_clean = df.copy()
    
    def process_phone(phone):
        if pd.isna(phone) or phone == '':
            return None
            
        phone_str = str(phone)
        
        if '-' in phone_str:
            phone_str = phone_str.split('-')[0]
        
        numbers_only = re.sub(r'[^0-9]', '', phone_str)
        
        if len(numbers_only) == 8:
            return numbers_only
        elif len(numbers_only) == 7:
            if numbers_only[0] in ['3', '4', '5']:
                return '0' + numbers_only
            else:
                return numbers_only
        else:
            return None
    
    df_clean['TELEFONO'] = df_clean['TELEFONO'].apply(process_phone)
    
    valid_phones = df_clean['TELEFONO'].notna().sum()
    total_phones = len(df_clean)
    corrected = (df['TELEFONO'].astype(str) != df_clean['TELEFONO'].astype(str)).sum()
    
    print(f"TELEFONO limpiado: {corrected} registros corregidos")
    print(f"   Tel√©fonos v√°lidos: {valid_phones}/{total_phones} ({valid_phones/total_phones*100:.1f}%)")
    
    return df_clean

def apply_basic_cleaning(df):

    print(f"üßπ Limpiando dataset con {len(df)} registros...")
    print("="*50)
    
    df_clean = df.copy()
    
    df_clean = clean_establecimiento(df_clean)
    df_clean = clean_plan(df_clean)
    df_clean = clean_telefono(df_clean)
    
    print("="*50)
    print(f"Limpieza completada")
    
    return df_clean



### Generaci√≥n de encoding categ√≥rico

In [None]:
def create_categorical_encoding(df):
    df_encoded = df.copy()
    
    categorical_fields = ['SECTOR', 'AREA', 'MODALIDAD', 'JORNADA', 'PLAN']
    
    print("Creando variables dummy...")
    
    for field in categorical_fields:
        if field in df_encoded.columns:
            dummies = pd.get_dummies(df_encoded[field], prefix=field.lower())
            df_encoded = pd.concat([df_encoded, dummies], axis=1)
            print(f"{field}: {len(dummies.columns)} categor√≠as")
    
    df_encoded['es_publico'] = df_encoded['SECTOR'].isin(['OFICIAL', 'MUNICIPAL']).astype(int)
    df_encoded['es_rural'] = (df_encoded['AREA'] == 'RURAL').astype(int)
    df_encoded['tiene_telefono'] = df_encoded['TELEFONO'].notna().astype(int)
    
    print(f"Variables adicionales: es_publico, es_rural, tiene_telefono")
    
    return df_encoded

def clean_and_prepare_dataset(file_path):
    print(f"Procesando: {Path(file_path).name}")
    
    df = pd.read_csv(file_path)
    print(f"Registros originales: {len(df)}")

    df_clean = apply_basic_cleaning(df)
    
    df_encoded = create_categorical_encoding(df_clean)
    
    print(f"Registros finales: {len(df_encoded)}")
    print(f"Columnas finales: {len(df_encoded.columns)}")
    
    return df_clean, df_encoded

In [10]:
def process_all_datasets(input_dir="data/csv", output_dir="data/cleaned"):
    input_path = Path(input_dir)
    output_path = Path(output_dir)
    output_path.mkdir(parents=True, exist_ok=True)
    
    csv_files = list(input_path.glob("*.csv"))
    print(f"üöÄ Procesando {len(csv_files)} archivos CSV...")
    print("="*70)
    
    all_clean_data = []
    all_encoded_data = []
    
    for csv_file in csv_files:
        try:
            df_clean, df_encoded = clean_and_prepare_dataset(csv_file)
            
            clean_output = output_path / f"{csv_file.stem}_clean.csv"
            df_clean.to_csv(clean_output, index=False)
            
            all_clean_data.append(df_clean)
            all_encoded_data.append(df_encoded)
            
            print(f"Guardado: {clean_output.name}")
            
        except Exception as e:
            print(f"Error procesando {csv_file.name}: {str(e)}")
    
    if all_clean_data:
        print("\n" + "="*70)
        print("üìä Creando datasets combinados...")
        
        combined_clean = pd.concat(all_clean_data, ignore_index=True)
        combined_clean_path = output_path / "mineduc_combined_clean.csv"
        combined_clean.to_csv(combined_clean_path, index=False)
        
        combined_encoded = pd.concat(all_encoded_data, ignore_index=True)
        combined_encoded_path = output_path / "mineduc_combined_encoded.csv"
        combined_encoded.to_csv(combined_encoded_path, index=False)
        
        print(f"‚úÖ Dataset limpio combinado: {len(combined_clean)} registros")
        print(f"   üìÅ {combined_clean_path}")
        print(f"‚úÖ Dataset codificado combinado: {len(combined_encoded)} registros, {len(combined_encoded.columns)} columnas")
        print(f"   üìÅ {combined_encoded_path}")
        
        return combined_clean, combined_encoded
    
    return None, None

def generate_summary_report(df):
    print("\n" + "="*60)
    print("REPORTE FINAL DE DATOS LIMPIOS")
    print("="*60)
    
    print(f"Registros totales: {len(df):,}")
    print(f"Establecimientos √∫nicos: {df['ESTABLECIMIENTO'].nunique():,}")
    print(f"Municipios √∫nicos: {df['MUNICIPIO'].nunique()}")
    print(f"Departamentos √∫nicos: {df['DEPARTAMENTO'].nunique()}")
    
    print(f"\nTel√©fonos v√°lidos: {df['TELEFONO'].notna().sum():,} ({df['TELEFONO'].notna().mean()*100:.1f}%)")
    
    print(f"\nDistribuci√≥n por SECTOR:")
    sector_dist = df['SECTOR'].value_counts()
    for sector, count in sector_dist.items():
        print(f"   {sector}: {count:,} ({count/len(df)*100:.1f}%)")
    
    print(f"\nDistribuci√≥n por √ÅREA:")
    area_dist = df['AREA'].value_counts()
    for area, count in area_dist.items():
        print(f"   {area}: {count:,} ({count/len(df)*100:.1f}%)")
    
    print(f"\nDistribuci√≥n por MODALIDAD:")
    modalidad_dist = df['MODALIDAD'].value_counts()
    for modalidad, count in modalidad_dist.items():
        print(f"   {modalidad}: {count:,} ({count/len(df)*100:.1f}%)")

In [None]:
df_clean, df_encoded = process_all_datasets()
    
if df_clean is not None:
    generate_summary_report(df_clean)
    
    print(f"\n¬°Proceso completado exitosamente!")
    print(f"Archivos disponibles en: data/cleaned/")
    print(f"- Archivos individuales limpios")
    print(f"- mineduc_combined_clean.csv (datos limpios)")
    print(f"- mineduc_combined_encoded.csv (con variables dummy)")
else:
    print("No se pudieron procesar los datasets")

üöÄ Procesando 23 archivos CSV...
üìÇ Procesando: datos_chiquimula.csv
   Registros originales: 136
üßπ Limpiando dataset con 136 registros...
 ESTABLECIMIENTO limpiado: 17 registros corregidos
 PLAN limpiado: 104 registros corregidos
   Valores √∫nicos despu√©s de limpieza: ['DIARIO' 'FIN DE SEMANA' 'A DISTANCIA' 'SEMIPRESENCIAL']
TELEFONO limpiado: 136 registros corregidos
   Tel√©fonos v√°lidos: 0/136 (0.0%)
Limpieza completada
Creando variables dummy...
SECTOR: 4 categor√≠as
AREA: 2 categor√≠as
MODALIDAD: 2 categor√≠as
JORNADA: 6 categor√≠as
PLAN: 4 categor√≠as
Variables adicionales: es_publico, es_rural, tiene_telefono
Registros finales: 136
Columnas finales: 38
Guardado: datos_chiquimula_clean.csv
üìÇ Procesando: datos_sacatepequez.csv
   Registros originales: 208
üßπ Limpiando dataset con 208 registros...
 ESTABLECIMIENTO limpiado: 7 registros corregidos
 PLAN limpiado: 170 registros corregidos
   Valores √∫nicos despu√©s de limpieza: ['DIARIO' 'FIN DE SEMANA' 'A DISTANCIA'

In [13]:
print(df_encoded)
            
            
            
            
            
            
            
            
            
            

             CODIGO DISTRITO DEPARTAMENTO         MUNICIPIO  \
0     20-01-0024-46   20-001   CHIQUIMULA        CHIQUIMULA   
1     20-01-0029-46   20-001   CHIQUIMULA        CHIQUIMULA   
2     20-01-0030-46   20-001   CHIQUIMULA        CHIQUIMULA   
3     20-01-0031-46   20-024   CHIQUIMULA        CHIQUIMULA   
4     20-01-0032-46   20-024   CHIQUIMULA        CHIQUIMULA   
...             ...      ...          ...               ...   
6585  07-19-0034-46   07-015       SOLOLA  SANTIAGO ATITLAN   
6586  07-19-0051-46   07-015       SOLOLA  SANTIAGO ATITLAN   
6587  07-19-0065-46   07-015       SOLOLA  SANTIAGO ATITLAN   
6588  07-19-0103-46   07-027       SOLOLA  SANTIAGO ATITLAN   
6589  07-19-2765-46   07-015       SOLOLA  SANTIAGO ATITLAN   

                                        ESTABLECIMIENTO  \
0              ESCUELA DE CIENCIAS COMERCIALES NOCTURNA   
1     INSTITUTO DIVERSIFICADO ADS. AL INEB 'DR. DAVI...   
2     ESCUELA NACIONAL DE MAESTROS DE EDUCACION MUSI...   
3     E

In [19]:


cleaned_datasets = {}
for name, df in datasets.items():
    df_clean = df.copy()
    
    df_clean['ESTABLECIMIENTO'] = df_clean['ESTABLECIMIENTO'].str.replace('"', '', regex=False)
    
    df_clean['PLAN'] = df_clean['PLAN'].str.replace(r'\s*\([^)]*\)', '', regex=True).str.strip()
    
    def clean_phone(phone):
        if pd.isna(phone):
            return None
        phone_str = str(phone)
        if '-' in phone_str:
            phone_str = phone_str.split('-')[0]
        numbers = re.sub(r'[^0-9]', '', phone_str)
        if len(numbers) == 8:
            return numbers
        elif len(numbers) == 7 and numbers[0] in ['3', '4', '5']:
            return '0' + numbers
        elif len(numbers) == 7:
            return numbers
        else:
            return None
    
    df_clean['TELEFONO'] = df_clean['TELEFONO'].apply(clean_phone)
    
    categorical_fields = ['SECTOR', 'AREA', 'MODALIDAD', 'JORNADA', 'PLAN']
    
    for field in categorical_fields:
        if field in df_clean.columns:
            dummies = pd.get_dummies(df_clean[field], prefix=field.lower())
            df_clean = pd.concat([df_clean, dummies], axis=1)
    
    df_clean['es_publico'] = df_clean['SECTOR'].isin(['OFICIAL', 'MUNICIPAL']).astype(int)
    df_clean['es_rural'] = (df_clean['AREA'] == 'RURAL').astype(int)
    df_clean['es_urbano'] = (df_clean['AREA'] == 'URBANA').astype(int)
    df_clean['tiene_telefono'] = df_clean['TELEFONO'].notna().astype(int)
    
    def categorize_establishment(name):
        name_upper = str(name).upper()
        if any(word in name_upper for word in ['INSTITUTO', 'COLEGIO']):
            return 'INSTITUTO_COLEGIO'
        elif any(word in name_upper for word in ['ESCUELA', 'LICEO']):
            return 'ESCUELA_LICEO'
        elif any(word in name_upper for word in ['CENTRO', 'NUCLEO']):
            return 'CENTRO'
        else:
            return 'OTRO'
    
    df_clean['tipo_establecimiento'] = df_clean['ESTABLECIMIENTO'].apply(categorize_establishment)
    df_clean['longitud_nombre'] = df_clean['ESTABLECIMIENTO'].str.len()
    
    cleaned_datasets[name] = df_clean

sample_df = list(cleaned_datasets.values())[0]
original_cols = 17  
new_cols = len(sample_df.columns)
print(f"{len(cleaned_datasets)} datasets procesados")
print(f"Columnas originales: {original_cols}")
print(f"Columnas finales: {new_cols}")
print(f"Nuevas columnas creadas: {new_cols - original_cols}")

all_columns = list(cleaned_datasets[list(cleaned_datasets.keys())[0]].columns)
summary_stats = []

for col in all_columns:
    col_data = []
    for name, df in cleaned_datasets.items():
        if col in df.columns:
            series = df[col].astype(str).str.strip()
            col_data.extend(series)

    series_all = pd.Series(col_data)
    n_total = len(series_all)
    n_missing = (series_all == "").sum() + series_all.isna().sum() + (series_all == "None").sum()
    n_unique = series_all.nunique()
    
    valid_values = series_all[(series_all != "") & (series_all.notna()) & (series_all != "None")]
    sample_values = valid_values.unique()[:5].tolist() if len(valid_values) > 0 else []
    
    summary_stats.append({
        "column": col,
        "missing (%)": round((n_missing / n_total) * 100, 2),
        "unique_values": n_unique,
        "sample_values": sample_values
    })

df_summary_clean = pd.DataFrame(summary_stats)
df_summary_clean.sort_values("missing (%)", ascending=False, inplace=True)

print("RESUMEN COMPLETO DEL DATASET LIMPIO (CON COLUMNAS EXTRAS):")
display(df_summary_clean)

print(f"\nIMPACTO DE LA LIMPIEZA:")
total_records = sum(len(df) for df in cleaned_datasets.values())
print(f"Total de registros: {total_records:,}")

combined_clean = pd.concat(cleaned_datasets.values(), ignore_index=True)
print(f"Tel√©fonos v√°lidos: {combined_clean['TELEFONO'].notna().sum():,} ({combined_clean['TELEFONO'].notna().mean()*100:.1f}%)")
print(f"Establecimientos sin comillas: {(~combined_clean['ESTABLECIMIENTO'].str.contains('"', na=False)).sum():,}")
print(f"Valores √∫nicos en PLAN: {combined_clean['PLAN'].nunique()}")

23 datasets procesados
Columnas originales: 17
Columnas finales: 41
Nuevas columnas creadas: 24
RESUMEN COMPLETO DEL DATASET LIMPIO (CON COLUMNAS EXTRAS):


Unnamed: 0,column,missing (%),unique_values,sample_values
6,TELEFONO,25.39,3186,"[78328708, 78320670, 78320556, 78323391, 58437..."
0,CODIGO,0.0,6590,"[20-01-0024-46, 20-01-0029-46, 20-01-0030-46, ..."
1,DISTRITO,0.0,620,"[20-001, 20-024, 20-027, 99-001, 20-030]"
3,MUNICIPIO,0.0,343,"[CHIQUIMULA, SAN JOSE LA ARADA, SAN JUAN ERMIT..."
2,DEPARTAMENTO,0.0,23,"[CHIQUIMULA, SACATEPEQUEZ, ALTA VERAPAZ, SAN M..."
4,ESTABLECIMIENTO,0.0,3569,"[ESCUELA DE CIENCIAS COMERCIALES NOCTURNA, INS..."
5,DIRECCION,0.0,4428,"[10A. AVENIDA 3-71 ZONA 1, 2A CALLE ENTRE 11 Y..."
7,SUPERVISOR,0.0,598,"[CESAR ADALBERTO NOGUERA JACOME, SILVIA MARILE..."
8,DIRECTOR,0.0,3860,"[H√âCTOR ALIDIO CERON BRENES, ROMEO RIVERA CHAC..."
9,NIVEL,0.0,1,[DIVERSIFICADO]



IMPACTO DE LA LIMPIEZA:
Total de registros: 6,590
Tel√©fonos v√°lidos: 4,917 (74.6%)
Establecimientos sin comillas: 6,590
Valores √∫nicos en PLAN: 9
