## Conectar al Drive para acceder a los datos

In [1]:

try:
    from google.colab import drive
    drive.mount('/content/drive')
    BASE = "/content/drive/MyDrive"
except Exception as e:
    print("No estás en Colab o ya está montado. Usa ruta local.")
    BASE = "."


Mounted at /content/drive


In [2]:
import os, glob
import pandas as pd
import unicodedata

# Carpeta donde están los Excel
CARPETA = os.path.join(BASE, "DATA_LIMPIEZA")

# Busca sólo .xlsx (si tuvieras .xls cambia el patrón o agrega otro glob)
rutas = sorted(glob.glob(os.path.join(CARPETA, "*.xlsx")))

print(f"Encontrados {len(rutas)} archivos en: {CARPETA}")
for r in rutas[:3]:
    print("•", os.path.basename(r))


Encontrados 23 archivos en: /content/drive/MyDrive/DATA_LIMPIEZA
• CuidadCapital.xlsx
• Elprogreso.xlsx
• Guatemala.xlsx


## Normalizar los nombre de archivos

In [3]:
def normaliza(texto: str) -> str:
    if texto is None:
        return ""
    # quita acentos
    texto = unicodedata.normalize("NFKD", texto)
    texto = "".join(ch for ch in texto if not unicodedata.combining(ch))
    # limpieza básica
    texto = texto.strip()
    texto = texto.replace("\n", " ").replace("\r", " ")
    # espacios -> guiones bajos, minúsculas
    texto = "_".join(texto.split())
    return texto.lower()


## Mapea cada uno de ellos y muestra sus encabezados, Si hay una columna vacia la elimina

In [6]:
encabezados_por_archivo = []  # lista de dicts para DataFrame resumen

for ruta in rutas:
    nombre = os.path.basename(ruta)
    try:
        # Lee solo encabezados (nrows=0) de la PRIMERA hoja
        df0 = pd.read_excel(ruta, sheet_name=0, nrows=0, engine="openpyxl")

        # Detectar columnas Unnamed
        cols_original = list(map(str, df0.columns.tolist()))
        cols_unnamed = [c for c in cols_original if c.startswith("Unnamed")]

        if cols_unnamed:
            print(f"\n⚠ {nombre} contiene columnas vacías: {cols_unnamed}")
            # Eliminar columnas Unnamed
            df0 = df0.loc[:, ~df0.columns.str.contains('^Unnamed')]
            # Actualizar lista de columnas originales sin las vacías
            cols_original = list(map(str, df0.columns.tolist()))

        # Normalizar nombres
        cols_normal = [normaliza(c) for c in cols_original]

        print(f"\n===== {nombre} =====")
        print("Encabezados (limpios):")
        print(cols_original)

        encabezados_por_archivo.append({
            "archivo": nombre,
            "num_columnas": len(cols_original),
            "encabezados_original": cols_original,
            "encabezados_normalizado": cols_normal,
            "set_normalizado": tuple(sorted(set(cols_normal))),
        })

    except Exception as e:
        print(f"\n===== {nombre} =====")
        print("ERROR al leer:", e)



⚠ CuidadCapital.xlsx contiene columnas vacías: ['Unnamed: 1']

===== CuidadCapital.xlsx =====
Encabezados (limpios):
['CODIGO', 'DISTRITO', 'DEPARTAMENTO', 'MUNICIPIO', 'ESTABLECIMIENTO', 'DIRECCION', 'TELEFONO', 'SUPERVISOR', 'DIRECTOR', 'NIVEL', 'SECTOR', 'AREA', 'STATUS', 'MODALIDAD', 'JORNADA', 'PLAN', 'DEPARTAMENTAL']

⚠ Elprogreso.xlsx contiene columnas vacías: ['Unnamed: 1']

===== Elprogreso.xlsx =====
Encabezados (limpios):
['CODIGO', 'DISTRITO', 'DEPARTAMENTO', 'MUNICIPIO', 'ESTABLECIMIENTO', 'DIRECCION', 'TELEFONO', 'SUPERVISOR', 'DIRECTOR', 'NIVEL', 'SECTOR', 'AREA', 'STATUS', 'MODALIDAD', 'JORNADA', 'PLAN', 'DEPARTAMENTAL']

⚠ Guatemala.xlsx contiene columnas vacías: ['Unnamed: 1']

===== Guatemala.xlsx =====
Encabezados (limpios):
['CODIGO', 'DISTRITO', 'DEPARTAMENTO', 'MUNICIPIO', 'ESTABLECIMIENTO', 'DIRECCION', 'TELEFONO', 'SUPERVISOR', 'DIRECTOR', 'NIVEL', 'SECTOR', 'AREA', 'STATUS', 'MODALIDAD', 'JORNADA', 'PLAN', 'DEPARTAMENTAL']

⚠ Izabal.xlsx contiene columnas vac

## Compara si cada archivo tiene las misma columnas

In [7]:
res = pd.DataFrame(encabezados_por_archivo)

# Encuentra el "esquema modal" (el conjunto de columnas normalizadas más frecuente)
conteo_sets = res["set_normalizado"].value_counts()
esquema_modal = conteo_sets.index[0] if not conteo_sets.empty else tuple()
print("\n\n=== Resumen de esquemas ===")
print(conteo_sets)

# Marca si cada archivo coincide con el esquema modal
res["coincide_modal"] = res["set_normalizado"].apply(lambda s: s == esquema_modal)

# Para ver rápidamente quiénes NO coinciden
no_match = res[~res["coincide_modal"]].copy()

print("\nArchivos que NO coinciden con el esquema modal:")
if no_match.empty:
    print("✅ Todos coinciden con el mismo conjunto de encabezados (normalizados).")
else:
    for _, row in no_match.iterrows():
        base = set(esquema_modal)
        actual = set(row["set_normalizado"])
        faltantes = sorted(list(base - actual))
        extras = sorted(list(actual - base))
        print(f"\n• {row['archivo']}")
        print("  - Faltan (vs modal):", faltantes if faltantes else "—")
        print("  - Extras (vs modal):", extras if extras else "—")




=== Resumen de esquemas ===
set_normalizado
(area, codigo, departamental, departamento, direccion, director, distrito, establecimiento, jornada, modalidad, municipio, nivel, plan, sector, status, supervisor, telefono)    23
Name: count, dtype: int64

Archivos que NO coinciden con el esquema modal:
✅ Todos coinciden con el mismo conjunto de encabezados (normalizados).


## Unir todo los archivos en un CSV

In [10]:
import os, glob, unicodedata
import pandas as pd
CARPETA = os.path.join(BASE, "DATA_LIMPIEZA")
PATRON = "*.xlsx"



rutas = []
for patron in ([PATRON] if isinstance(PATRON, str) else PATRON):
    rutas.extend(glob.glob(os.path.join(CARPETA, patron)))
rutas = sorted(rutas)

print(f"Archivos encontrados: {len(rutas)}")
for r in rutas[:5]: print("•", os.path.basename(r))


meta = []
for ruta in rutas:
    nombre = os.path.basename(ruta)
    try:
        df0 = pd.read_excel(ruta, sheet_name=0, nrows=0, engine="openpyxl")
        if df0.columns.str.contains('^Unnamed').any():
            print(f"⚠ {nombre}: eliminando columnas Unnamed en encabezados")
            df0 = df0.loc[:, ~df0.columns.str.contains('^Unnamed')]
        cols = list(map(str, df0.columns.tolist()))
        cols_norm = tuple(sorted(set(normaliza(c) for c in cols)))
        meta.append({"archivo": nombre, "ruta": ruta, "cols_original": cols, "cols_norm_set": cols_norm})
    except Exception as e:
        print(f"❌ {nombre}: error leyendo encabezados -> {e}")

meta_df = pd.DataFrame(meta)
if meta_df.empty:
    raise SystemExit("No se pudieron leer encabezados de ningún archivo.")


conteo = meta_df["cols_norm_set"].value_counts()
esquema_modal = conteo.index[0]
print("\n=== Esquema modal (set normalizado) ===")
print(esquema_modal)
print("\nFrecuencias de esquemas:")
print(conteo)

modal_ruta = meta_df[meta_df["cols_norm_set"] == esquema_modal]["ruta"].iloc[0]
df_modal = pd.read_excel(modal_ruta, engine="openpyxl")
df_modal = df_modal.loc[:, ~df_modal.columns.str.contains('^Unnamed')]
orden_canonico = [c for c in df_modal.columns]  # orden y nombres "bonitos" de referencia
canonico_norm = [normaliza(c) for c in orden_canonico]


acumulados = []
resumen = []
for _, row in meta_df.iterrows():
    ruta = row["ruta"]
    nombre = row["archivo"]
    try:
        df = pd.read_excel(ruta, engine="openpyxl")
        # quitar columnas Unnamed
        if df.columns.str.contains('^Unnamed').any():
            print(f"⚠ {nombre}: quitando columnas Unnamed")
            df = df.loc[:, ~df.columns.str.contains('^Unnamed')]

        # normalizar nombres para mapear al canónico
        col_norm_actual = [normaliza(c) for c in df.columns]

        # construir un mapping: columna_actual -> nombre_canonico (por el norm)
        mapping = {}
        for c_act, c_norm in zip(df.columns, col_norm_actual):
            if c_norm in canonico_norm:
                # usar el nombre canónico correspondiente
                idx = canonico_norm.index(c_norm)
                mapping[c_act] = orden_canonico[idx]
            else:
                # columna no está en el esquema modal; la omitimos (o podrías conservarla)
                mapping[c_act] = None

        # renombrar y filtrar solo columnas canónicas
        df = df.rename(columns={k:v for k,v in mapping.items() if v is not None})
        df = df.loc[:, [c for c in orden_canonico if c in df.columns]]



        acumulados.append(df)
        resumen.append({"archivo": nombre, "filas": len(df), "columnas": len(df.columns)})

    except Exception as e:
        print(f"❌ {nombre}: error al cargar/alinear -> {e}")

if not acumulados:
    raise SystemExit("No se logró acumular ningún DataFrame.")

full = pd.concat(acumulados, ignore_index=True)

print("\n=== Resumen de carga ===")
print(pd.DataFrame(resumen))

print("\nShape final concatenado:", full.shape)
print("Columnas finales:", list(full.columns))


csv_out = os.path.join(CARPETA, "DATA_COMPLETAcsv")
xlsx_out = os.path.join(CARPETA, "DATA_COMPLETAcsv.xlsx")

full.to_csv(csv_out, index=False, encoding="utf-8-sig")
print("✔ CSV guardado en:", csv_out)

# opcional XLSX
with pd.ExcelWriter(xlsx_out, engine="openpyxl") as w:
    full.to_excel(w, index=False, sheet_name="UNIDOS")
print("✔ XLSX guardado en:", xlsx_out)


Archivos encontrados: 23
• CuidadCapital.xlsx
• Elprogreso.xlsx
• Guatemala.xlsx
• Izabal.xlsx
• Quetzaltenango.xlsx
⚠ CuidadCapital.xlsx: eliminando columnas Unnamed en encabezados
⚠ Elprogreso.xlsx: eliminando columnas Unnamed en encabezados
⚠ Guatemala.xlsx: eliminando columnas Unnamed en encabezados
⚠ Izabal.xlsx: eliminando columnas Unnamed en encabezados
⚠ Quetzaltenango.xlsx: eliminando columnas Unnamed en encabezados
⚠ Quiche.xlsx: eliminando columnas Unnamed en encabezados
⚠ Sanmarcos.xlsx: eliminando columnas Unnamed en encabezados
⚠ Santarosa.xlsx: eliminando columnas Unnamed en encabezados
⚠ altaverapaz.xlsx: eliminando columnas Unnamed en encabezados
⚠ bajaverapaz.xlsx: eliminando columnas Unnamed en encabezados
⚠ chimaltenango.xlsx: eliminando columnas Unnamed en encabezados
⚠ chiquimula.xlsx: eliminando columnas Unnamed en encabezados
⚠ escuintla.xlsx: eliminando columnas Unnamed en encabezados
⚠ huehuetenango.xlsx: eliminando columnas Unnamed en encabezados
⚠ jalapa.xls