# Proyecto 1

## Integrantes:
- Andre Marroquin 22266
- Sergio orellana 221122
- Carlos Valladares 221164
- Rodrigo Mansilla 22611

#  Preparación del entorno y carga de datos

In [68]:
import pandas as pd
import numpy as np
import unicodedata

# Cargar el archivo Excel
df = pd.read_excel('Establecimientos.xlsx', engine='openpyxl')

# Vista rápida
print(f"Dimensiones: {df.shape[0]} filas, {df.shape[1]} columnas")
df.head(5)

Dimensiones: 6590 filas, 18 columnas


Unnamed: 0,CODIGO,Unnamed: 1,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,DIRECCION,TELEFONO,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL
0,16-01-0138-46,,16-031,ALTA VERAPAZ,COBAN,COLEGIO COBAN,KM.2 SALIDA A SAN JUAN CHAMELCO ZONA 8,77945104,PATRICIO NAJARRO ASENCIO,GUSTAVO ADOLFO SIERRA POP,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
1,16-01-0139-46,,16-031,ALTA VERAPAZ,COBAN,COLEGIO PARTICULAR MIXTO VERAPAZ,KM 209.5 ENTRADA A LA CIUDAD,77367402,PATRICIO NAJARRO ASENCIO,GILMA DOLORES GUAY PAZ DE LEAL,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
2,16-01-0140-46,,16-031,ALTA VERAPAZ,COBAN,"COLEGIO ""LA INMACULADA""",7A. AVENIDA 11-109 ZONA 6,78232301,PATRICIO NAJARRO ASENCIO,VIRGINIA SOLANO SERRANO,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
3,16-01-0141-46,,16-005,ALTA VERAPAZ,COBAN,ESCUELA NACIONAL DE CIENCIAS COMERCIALES,2A CALLE 11-10 ZONA 2,79514215,NORA LILIANA FIGUEROA HERNÁNDEZ,HÉCTOR ROLANDO CHUN POOU,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
4,16-01-0142-46,,16-005,ALTA VERAPAZ,COBAN,INSTITUTO NORMAL MIXTO DEL NORTE 'EMILIO ROSAL...,3A AVE 6-23 ZONA 11,79521468,NORA LILIANA FIGUEROA HERNÁNDEZ,VICTOR HUGO DOMÍNGUEZ REYES,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,BILINGUE,VESPERTINA,DIARIO(REGULAR),ALTA VERAPAZ


# Descripción inicial del conjunto de datos

Filas iniciales: 6 590

Variables (columnas): 18

Nombres de columnas: ['CODIGO', 'Unnamed: 1', 'DISTRITO', 'DEPARTAMENTO', 'MUNICIPIO',
 'ESTABLECIMIENTO', 'DIRECCION', 'TELEFONO', 'SUPERVISOR', 'DIRECTOR',
 'NIVEL', 'SECTOR', 'AREA', 'STATUS', 'MODALIDAD', 'JORNADA', 'PLAN',
 'DEPARTAMENTAL']


In [69]:
# Conteo de valores faltantes por columna
missing = df.isna().sum().sort_values(ascending=False)
print("Valores faltantes por columna:\n", missing, "\n")



Valores faltantes por columna:
 Unnamed: 1         6590
TELEFONO             45
DIRECTOR             25
DIRECCION             2
CODIGO                0
DISTRITO              0
ESTABLECIMIENTO       0
MUNICIPIO             0
DEPARTAMENTO          0
SUPERVISOR            0
NIVEL                 0
SECTOR                0
AREA                  0
STATUS                0
MODALIDAD             0
JORNADA               0
PLAN                  0
DEPARTAMENTAL         0
dtype: int64 



In [70]:
# Verificación puntual
print(f"Unnamed: 1 faltantes: {missing['Unnamed: 1']}")
print(f"DIRECCION   faltantes: {missing['DIRECCION']}")
print(f"TELEFONO    faltantes: {missing['TELEFONO']}")
print(f"DIRECTOR    faltantes: {missing['DIRECTOR']}\n")

Unnamed: 1 faltantes: 6590
DIRECCION   faltantes: 2
TELEFONO    faltantes: 45
DIRECTOR    faltantes: 25



In [71]:
# Columnas constantes 
# Vacías todas las filas NaN
# Con un único valor
n_uniques = df.nunique(dropna=False)
const_empty = n_uniques[n_uniques == 0].index.tolist()
const_one   = n_uniques[n_uniques == 1].index.tolist()

print("Columnas constantes:")
print("Columnas completamente vacías:", const_empty)
print("Columnas con un único valor:", const_one, "\n")

Columnas constantes:
Columnas completamente vacías: []
Columnas con un único valor: ['Unnamed: 1', 'NIVEL', 'STATUS'] 



In [72]:
# Variables con más necesidad de limpieza
top_missing = missing.head(5).index.tolist()
text_cols = df.select_dtypes(include=['object']).columns
cardinalities = df[text_cols].nunique().sort_values(ascending=False)
top_card = cardinalities.head(5).index.tolist()

print("Variables con más necesidad de limpieza:")
print("Top 5 columnas con más faltantes:", top_missing)
print("Top 5 columnas de texto con más categorías únicas:", top_card)


Variables con más necesidad de limpieza:
Top 5 columnas con más faltantes: ['Unnamed: 1', 'TELEFONO', 'DIRECTOR', 'DIRECCION', 'CODIGO']
Top 5 columnas de texto con más categorías únicas: ['CODIGO', 'DIRECCION', 'TELEFONO', 'DIRECTOR', 'ESTABLECIMIENTO']


- Unnamed: 1 Columna vacía: debe eliminarse.
- ESTABLECIMIENTO Texto libre con mayúsculas/minúsculas inconsistentes, duplicados, errores ortográficos.
- DIRECCION	Espacios en blanco, caracteres especiales, faltantes, inconsistencias en formato.
- TELEFONO	Formatos variados guiones, paréntesis, espacios, valores faltantes, caracteres no numéricos.
- SUPERVISOR Nombres con mayúsculas/minúsculas mixtas, posibles nulos ocultos.
- DIRECTOR	Mismos problemas que SUPERVISOR, además de 25 faltantes.
- DISTRITO/MUNICIPIO Nombres con variantes ortográficas, acentos, mayúsculas.

# Limpieza de datos
## Estrategia de limpieza 
### obtener un DataFrame consistente eliminando columnas inútiles, homogeneizar texto y tratar valores faltantes de forma sencilla


In [73]:
# Eliminar columnas inutiles
cols_drop = ['Unnamed: 1', 'NIVEL', 'STATUS']
df1 = df.drop(columns=cols_drop)



In [74]:
# Normalizar nombres de columnas elimina eapcios en blanco y convierte a minúsculas
df1.columns = df1.columns.str.lower().str.strip()

In [75]:
# Direcciones y teléfonos faltantes
df1['direccion'] = df1['direccion'].fillna('SIN_DIRECCION')
df1['telefono']  = df1['telefono'].fillna('SIN_TELEFONO')
df1['director']  = df1['director'].fillna('SIN_DIRECTOR')

In [76]:
# Eliminar duplicados
df1 = df1.drop_duplicates()

In [77]:
# Unificar mayúsculas minúsculas y espacios
text_cols = ['distrito','departamento','municipio','establecimiento',
             'direccion','supervisor','director','sector','area',
             'modalidad','jornada','plan','departamental']
for c in text_cols:
    df1[c] = (df1[c]
              .astype(str)
              .str.strip()
              .str.lower()
              .str.replace(r'\s+', ' ', regex=True))

### Limpieza Telefono variable

In [78]:
# Limpieza de teléfonos
import re

def clean_phone(x):
    x = str(x)  # Convertimos a string
    nums = re.sub(r'\D', '', x)
    return nums if len(nums) >= 8 else 'FORMATO_INV'

df1['telefono'] = df1['telefono'].apply(clean_phone)


En la variable telefono se realiza una limpieza que consiste en eliminar todos los caracteres no numéricos (como espacios, guiones, paréntesis o letras), dejando únicamente los dígitos. Si el resultado tiene menos de 8 dígitos, se considera un formato inválido y se reemplaza por 'FORMATO_INV'. Esto estandariza los números de teléfono y facilita su validación

In [79]:
# Conteo de formatos inválidos de teléfono
df1['telefono'].value_counts()['FORMATO_INV']



np.int64(68)

In [80]:
# ver lasfilas con formato inválido
df1[df1['telefono'] == 'FORMATO_INV'].head()

Unnamed: 0,codigo,distrito,departamento,municipio,establecimiento,direccion,telefono,supervisor,director,sector,area,modalidad,jornada,plan,departamental
83,16-03-0036-46,16-053,alta verapaz,san cristobal verapaz,instituto nacional de educacion diversificada,barrio chiyuc,FORMATO_INV,leonardo oxom chen,edy rolando jom coy,oficial,rural,monolingue,vespertina,diario(regular),alta verapaz
136,16-06-2398-46,16-011,alta verapaz,san miguel tucuru,instituto privado mixto de magisterio bilingue...,canton la playa,FORMATO_INV,ingrid amanda camó tobar de castro,miguel fernando tut lemus,privado,urbana,monolingue,vespertina,diario(regular),alta verapaz
151,16-07-0253-46,16-055,alta verapaz,panzos,colegio privado mixto juan amos comenio,colonia santa isabel,FORMATO_INV,maria elena palma molina,marcelino caz mucú,privado,rural,monolingue,doble,fin de semana,alta verapaz
170,16-09-0007-46,16-033,alta verapaz,san pedro carcha,centro educativo nueva vida,8a. calle 4-47 zona 4,FORMATO_INV,oscar rené ventura zac,juan rax,privado,rural,monolingue,vespertina,diario(regular),alta verapaz
207,16-09-9259-46,16-033,alta verapaz,san pedro carcha,"colegio ""sthella de hernandez""",diagonal 2 10-73 zona 2 barrio san pablo,FORMATO_INV,oscar rené ventura zac,orley edwin meléndez rosales,privado,urbana,monolingue,doble,fin de semana,alta verapaz


### Limpieza Establecimiento variable

In [81]:
# Eliminar tildes, comillas y caracteres especiales de establecimiento
df1['establecimiento'] = df1['establecimiento'].apply(lambda x: 
    re.sub(r'[^\w\s]', '',  
        unicodedata.normalize('NFD', x)  
        .encode('ascii', 'ignore')       
        .decode('utf-8')                 
    )
)

A la variable establecimiento se le aplicó una limpieza textual que incluyó: la conversión a minúsculas, eliminación de espacios duplicados y al inicio/final, eliminación de tildes y acentos mediante normalización Unicode, y la eliminación de signos de puntuación y caracteres especiales como comillas. Esto garantiza que los nombres de los establecimientos queden en un formato uniforme y comparable, reduciendo errores por variaciones tipográficas.

### Limpieza Direccion variable

In [82]:
df1.head(5)

Unnamed: 0,codigo,distrito,departamento,municipio,establecimiento,direccion,telefono,supervisor,director,sector,area,modalidad,jornada,plan,departamental
0,16-01-0138-46,16-031,alta verapaz,coban,colegio coban,km.2 salida a san juan chamelco zona 8,77945104,patricio najarro asencio,gustavo adolfo sierra pop,privado,urbana,monolingue,matutina,diario(regular),alta verapaz
1,16-01-0139-46,16-031,alta verapaz,coban,colegio particular mixto verapaz,km 209.5 entrada a la ciudad,77367402,patricio najarro asencio,gilma dolores guay paz de leal,privado,urbana,monolingue,matutina,diario(regular),alta verapaz
2,16-01-0140-46,16-031,alta verapaz,coban,colegio la inmaculada,7a. avenida 11-109 zona 6,78232301,patricio najarro asencio,virginia solano serrano,privado,urbana,monolingue,matutina,diario(regular),alta verapaz
3,16-01-0141-46,16-005,alta verapaz,coban,escuela nacional de ciencias comerciales,2a calle 11-10 zona 2,79514215,nora liliana figueroa hernández,héctor rolando chun poou,oficial,urbana,monolingue,matutina,diario(regular),alta verapaz
4,16-01-0142-46,16-005,alta verapaz,coban,instituto normal mixto del norte emilio rosale...,3a ave 6-23 zona 11,79521468,nora liliana figueroa hernández,victor hugo domínguez reyes,oficial,urbana,bilingue,vespertina,diario(regular),alta verapaz


In [83]:
# Quitar tildes acentos
df1['direccion'] = df1['direccion'].apply(
    lambda x: unicodedata.normalize('NFD', x).encode('ascii', 'ignore').decode('utf-8')
)

# Eliminar comillas y símbolos especiales innecesarios (se conserva punto y guion)
df1['direccion'] = df1['direccion'].str.replace(r'[\"\'“”]', '', regex=True)
df1['direccion'] = df1['direccion'].str.replace(r'[^\w\s\.\-]', '', regex=True)

# poner abreviaturas comunes
df1['direccion'] = df1['direccion'].str.replace(r'\bavenida\b', 'av', regex=True).str.replace(r'\bzona\b', 'z', regex=True)


En la variable direccion se aplicó una limpieza para mejorar la consistencia del texto sin perder su significado. Se eliminaron tildes y acentos mediante normalización Unicode, y se retiraron comillas y símbolos especiales innecesarios, conservando únicamente letras, números, puntos y guiones. Además, se estandarizaron términos comunes reemplazando la palabra completa "avenida" por "av" y "zona" por "z", lo cual facilita el análisis posterior.


In [84]:
# Verificar filas completamente duplicadas
duplicados_exactos = df1.duplicated()
print("Total de filas duplicadas exactas:", duplicados_exactos.sum())

# Ver detalles si hay duplicados
df1[duplicados_exactos].head()


Total de filas duplicadas exactas: 0


Unnamed: 0,codigo,distrito,departamento,municipio,establecimiento,direccion,telefono,supervisor,director,sector,area,modalidad,jornada,plan,departamental


In [85]:
# Duplicados exactos por establecimiento, dirección, municipio y departamento
duplicados_estab_dir_mun_dep = df1.duplicated(subset=['establecimiento', 'direccion', 'municipio', 'departamento'], keep=False)

# Mostrar las filas duplicadas ordenadas por esas columnas
df1[duplicados_estab_dir_mun_dep].sort_values(by=['establecimiento', 'direccion', 'municipio', 'departamento']).head(10)


Unnamed: 0,codigo,distrito,departamento,municipio,establecimiento,direccion,telefono,supervisor,director,sector,area,modalidad,jornada,plan,departamental
2374,01-08-0346-46,01-603,guatemala,mixco,academia comercial e instituto lourdes,5a. av 6-51 a z 1,55184534,rosa albelia ardon de motta,esteban tocon xicay,privado,urbana,monolingue,doble,fin de semana,guatemala occidente
2375,01-08-0348-46,01-603,guatemala,mixco,academia comercial e instituto lourdes,5a. av 6-51 a z 1,55184534,rosa albelia ardon de motta,esteban tocon xicay,privado,urbana,monolingue,doble,fin de semana,guatemala occidente
2496,01-08-0869-46,01-603,guatemala,mixco,academia comercial e instituto lourdes,5a. av 6-51 a z 1,55319926,rosa albelia ardon de motta,esteban tocon xicay,privado,urbana,monolingue,sin jornada,semipresencial (fin de semana),guatemala occidente
862,00-01-0281-46,01-316,ciudad capital,zona 1,centro cultural de las americas no 3,2a. av 12-23,22321894,carlos humberto gonzalez de leon,brenda paola gonzález recinos,privado,urbana,monolingue,vespertina,diario(regular),guatemala norte
867,00-01-0343-46,01-403,ciudad capital,zona 1,centro cultural de las americas no 3,2a. av 12-23,22325526,carlos humberto gonzález de león,hugo valdemar rivas morales,privado,urbana,monolingue,doble,fin de semana,guatemala norte
1679,00-21-0095-46,01-635,ciudad capital,zona 21,centro de aprendizaje a distancia educativo cade,8a. calle 10-30 colonia vasquez,57044487,nataly fabiola soto españa de turcios,marco tulio roblero osorio,privado,urbana,monolingue,matutina,a distancia,guatemala sur
1680,00-21-0096-46,01-641,ciudad capital,zona 21,centro de aprendizaje a distancia educativo cade,8a. calle 10-30 colonia vasquez,57044487,milton alonso alvarez fuentes,marco tulio roblero osorio,privado,urbana,monolingue,sin jornada,a distancia,guatemala sur
2540,01-08-0995-46,01-639,guatemala,mixco,centro de aprendizaje isos,14 av 0-81 urbanizacion gonzalez z 2 mixco,39914060,ludvin ricardo urrutia lorenti,dilia morales hernández,privado,urbana,monolingue,sin jornada,a distancia,guatemala occidente
2541,01-08-0996-46,01-639,guatemala,mixco,centro de aprendizaje isos,14 av 0-81 urbanizacion gonzalez z 2 mixco,39914060,ludvin ricardo urrutia lorenti,dilia morales hernández,privado,urbana,monolingue,doble,a distancia,guatemala occidente
2532,01-08-0964-46,01-639,guatemala,mixco,centro de aprendizajes isos,14 av 0-81 urbanizacion gonzalez z 2,39914060,ludvin ricardo urrutia lorenti,dilia morales hernández,privado,urbana,monolingue,sin jornada,semipresencial (fin de semana),guatemala occidente


In [86]:
# Definir las columnas clave
columnas_clave = ['establecimiento', 'direccion', 'municipio', 'departamento','departamental',]

# Separar duplicados de únicos
mask = df1.duplicated(subset=columnas_clave, keep=False)
dups  = df1[mask]
uniqs = df1[~mask]

# Agrupar duplicados y combinar el resto de columnas en listas
agg_dict = {col: list for col in df1.columns if col not in columnas_clave}
df_dups_agg = dups.groupby(columnas_clave, as_index=False).agg(agg_dict)

# Reconstruir el DataFrame final uniendo únicos y agrupados
df_pivot = pd.concat([uniqs, df_dups_agg], ignore_index=True)


En este fragmento de código se realiza un proceso para identificar registros duplicados en un DataFrame df1 basándose en un conjunto de columnas clave (establecimiento, direccion, municipio, departamento, departamental). Primero, se separan los registros duplicados de los únicos. Luego, los duplicados se agrupan por las columnas clave y el resto de las columnas se agregan como listas para conservar toda la información. Finalmente, se reconstruye un nuevo DataFrame (df_pivot) que contiene tanto los registros únicos como los duplicados agrupados, dejando el conjunto de datos más consolidado y sin repeticiones redundantes.

In [87]:
df_pivot[duplicados_estab_dir_mun_dep].sort_values(by=['establecimiento', 'direccion', 'municipio', 'departamento', 'departamental']).head(10)


  df_pivot[duplicados_estab_dir_mun_dep].sort_values(by=['establecimiento', 'direccion', 'municipio', 'departamento', 'departamental']).head(10)


Unnamed: 0,codigo,distrito,departamento,municipio,establecimiento,direccion,telefono,supervisor,director,sector,area,modalidad,jornada,plan,departamental
3793,"[01-08-0346-46, 01-08-0348-46, 01-08-0869-46]","[01-603, 01-603, 01-603]",guatemala,mixco,academia comercial e instituto lourdes,5a. av 6-51 a z 1,"[55184534, 55184534, 55319926]","[rosa albelia ardon de motta, rosa albelia ard...","[esteban tocon xicay, esteban tocon xicay, est...","[privado, privado, privado]","[urbana, urbana, urbana]","[monolingue, monolingue, monolingue]","[doble, doble, sin jornada]","[fin de semana, fin de semana, semipresencial ...",guatemala occidente
789,00-13-7170-46,01-501,ciudad capital,zona 13,academia de estudios avanzados f15,15 av a 24-08,23322290,julio jacobo gil urbina,alma ileana barrios barrios,privado,urbana,monolingue,matutina,diario(regular),guatemala oriente
2025,13-26-0236-46,13-043,huehuetenango,santa cruz barillas,asociacion de maestros de educacion rural de g...,2a. calle 6-35 z 6,30429444,aracely figueroa urbina,alberto efraín ramón diego,privado,urbana,monolingue,sin jornada,semipresencial (fin de semana),huehuetenango
3144,03-01-0194-46,03-016,sacatepequez,antigua guatemala,ceex escuela de caficultura antigua cofee,hacienda finca carmona aldea san juan del obispo,42176394,oscar oswaldo son camez,marvin eduardo gonzález carcuz,privado,rural,monolingue,doble,fin de semana,sacatepéquez
2787,09-20-0126-46,09-012,quetzaltenango,coatepeque,ceexcoatepeque,3ra av 5-00 barrio san francisco,34988123,juan jose colop colop,marta virginia barrios sánchez,privado,urbana,monolingue,doble,fin de semana,quetzaltenango
206,15-03-0778-46,15-031,baja verapaz,rabinal,centro cultural de america,3 calle 2-87 z 2,79388718,edgar ovidio sic xitumul,fabio raxcaco ismalej,privado,urbana,monolingue,vespertina,diario(regular),baja verapaz
207,15-03-1888-46,15-031,baja verapaz,rabinal,centro cultural de america,3era. calle 2-87 z 2,79388718,edgar ovidio sic xitumul,fabio raxcaco ismalej,privado,urbana,monolingue,vespertina,diario(regular),baja verapaz
1853,01-17-8771-46,01-204,guatemala,san miguel petapa,centro cultural sagrada familia no 1,lote 4 manzana a sector 2 villahermosa ii,24484100,alfredo noheli temaj morales,gloria estela guerra gutiérrez,privado,urbana,monolingue,matutina,diario(regular),guatemala sur
3795,"[00-21-0095-46, 00-21-0096-46]","[01-635, 01-641]",ciudad capital,zona 21,centro de aprendizaje a distancia educativo cade,8a. calle 10-30 colonia vasquez,"[57044487, 57044487]","[nataly fabiola soto españa de turcios, milton...","[marco tulio roblero osorio, marco tulio roble...","[privado, privado]","[urbana, urbana]","[monolingue, monolingue]","[matutina, sin jornada]","[a distancia, a distancia]",guatemala sur
1371,01-08-0548-46,01-609,guatemala,mixco,centro de aprendizaje bilingue no 1,7a. calle 3-96 z 8 balcones ii san cristobal,25048292,silvia hortensia gonzalez martinez,gryselda ramirez barrientos,privado,urbana,monolingue,doble,diario(regular),guatemala occidente


### Definir `df_expanded` y guardar CSV final

In [88]:
df_expanded = df_pivot.copy()

df_expanded.to_csv('datos_limpios.csv', index=False)
print("CSV de datos limpios guardado en 'datos_limpios.csv'")

CSV de datos limpios guardado en 'datos_limpios.csv'


### Explode de columnas multivaluadas en df_expanded

In [89]:
muestra = df_expanded.head(10000)
comma_cols = [
    col 
    for col in muestra.select_dtypes(include="object").columns
    if muestra[col].str.contains(",", na=False, regex=False).any()
]
print("Columnas a explotar con comas:", comma_cols)


if not comma_cols:
    print("\n No se detectaron comas. Inspeccionando otros delimitadores…")

    # Columnas donde sospechas valores multivaluados
    candidatas = ['jornada', 'modalidad', 'plan', 'sector', 'area']
    # Delimitadores a revisar
    delimiters = [',', ';', '/', '|', ' - ', ' y ']

    for col in candidatas:
        print(f"\nColumna '{col}':")
        # Muestra hasta 5 valores únicos
        valores = df_expanded[col].dropna().astype(str).unique()[:5]
        print("  Ejemplos:", valores)
        # Cuenta ocurrencias de cada delimitador
        for d in delimiters:
            cnt = df_expanded[col].astype(str).str.contains(d, regex=False).sum()
            if cnt:
                print(f"     {cnt:,} filas contienen '{d}'")


Columnas a explotar con comas: ['director']


## Conjunto de datos consistentes

In [90]:
import re, unicodedata, numpy as np, pandas as pd
from rapidfuzz import process, fuzz


In [None]:
def normalizar_texto(s):
    if pd.isna(s): 
        return np.nan
    s = unicodedata.normalize('NFD', str(s).lower())
    s = s.encode('ascii', 'ignore').decode('utf-8')
    s = re.sub(r'[^\w\s\.\-]', ' ', s)              # fuera símbolos raros
    s = re.sub(r'\s+', ' ', s).strip()              # espacios
    stopwords = r'\b(colegio|instituto|escuela|centro|liceo|basico|diversificado)\b' # Esto se hizo para eliminar palabras genéricas para que el matching fuzzy junte variantes como "Colegio Particular Mixto Verapaz" y "Colegio Mixto Verapaz"
    s = re.sub(stopwords, '', s).strip()
    return s


In [92]:
def normalizar_telefono(t):
    """Mantiene solo números de 8 dígitos; el resto -> NaN"""
    nums = re.sub(r'\D', '', str(t))
    return nums if len(nums) == 8 else np.nan


In [None]:
df2 = df1.copy()  

df2['establecimiento_norm'] = df2['establecimiento'].apply(normalizar_texto)
df2['direccion_norm']       = df2['direccion'].apply(normalizar_texto)
df2['telefono_norm']        = df2['telefono'].apply(normalizar_telefono)


In [94]:
def agrupar_similares(sub_df, col, umbral=90):
    canon = {}
    valores = sub_df[col].dropna().unique()
    for base in valores:
        if base in canon:        # ya asignado
            continue
        # Buscar variantes con similitud >= umbral
        matches = process.extract(
            base, valores, scorer=fuzz.token_set_ratio, score_cutoff=umbral
        )
        variantes = {base} | {m[0] for m in matches}
        # Canon: la variante más corta (o la más frecuente, como prefieras)
        canonico = min(variantes, key=len)
        for v in variantes:
            canon[v] = canonico
    return canon


In [95]:
dicc_municipal = {}
for mun, sub in df2.groupby('municipio'):
    dicc_municipal[mun] = agrupar_similares(sub, 'establecimiento_norm', umbral=88)

# Reemplazar por el nombre canónico
def to_canon(row):
    mun = row['municipio']
    est = row['establecimiento_norm']
    return dicc_municipal.get(mun, {}).get(est, est)

df2['establecimiento_canon'] = df2.apply(to_canon, axis=1)

In [None]:
# 1. Claves únicas
claves = ['establecimiento_canon', 'direccion_norm',
          'municipio', 'departamento']

# 2. Agregaciones
def lista_unica(series):
    return sorted({x for x in series if pd.notna(x)})

agg = {
    'codigo'        : lista_unica,
    'distrito'      : 'first',
    'sector'        : 'first',
    'area'          : 'first',
    'supervisor'    : 'first',     # usa lista_unica si detectas variaciones reales
    'director'      : 'first',
    'telefono_norm' : lista_unica,
    'modalidad'     : lista_unica,
    'jornada'       : lista_unica,
    'plan'          : lista_unica,
    'departamental' : 'first'
}

df_final = (
    df2
    .groupby(claves, as_index=False)
    .agg(agg)
)


### Comparar nombre/dirección antes y después

In [98]:
cambios_nom = (
    df2
    .loc[df2['establecimiento'] != df2['establecimiento_canon'],
         ['establecimiento', 'establecimiento_canon',
          'direccion', 'direccion_norm']]
    .head(20)
)

display(cambios_nom)


Unnamed: 0,establecimiento,establecimiento_canon,direccion,direccion_norm
0,colegio coban,coban,km.2 salida a san juan chamelco z 8,km.2 salida a san juan chamelco z 8
1,colegio particular mixto verapaz,particular mixto verapaz,km 209.5 entrada a la ciudad,km 209.5 entrada a la ciudad
2,colegio la inmaculada,la inmaculada,7a. av 11-109 z 6,7a. av 11-109 z 6
3,escuela nacional de ciencias comerciales,nacional de ciencias comerciales,2a calle 11-10 z 2,2a calle 11-10 z 2
4,instituto normal mixto del norte emilio rosale...,normal mixto del norte emilio rosales ponce,3a ave 6-23 z 11,3a ave 6-23 z 11
5,colegio particular mixto imperial,particular mixto imperial,5a. calle 1-9 z 3,5a. calle 1-9 z 3
6,liceo moderno latino,moderno latino,11 av 5-17 z 4,11 av 5-17 z 4
7,instituto nacional de educacion diversificada,nacional de educacion diversificada,diagonal 08 8-05 z 8 barrio canton las casas,diagonal 08 8-05 z 8 barrio canton las casas
8,colegio de informatica ceninfav,de informatica ceninfav,12 av. 2-12 z 1,12 av. 2-12 z 1
9,liceo americano del norte,americano del norte,5ta. calle 2-23 z 4,5ta. calle 2-23 z 4


### Registros que se fusionarán por tener misma clave canónica


In [99]:
dup_check = (
    df2
    .groupby(claves)
    .size()
    .reset_index(name='n_variantes')
    .query('n_variantes > 1')
    .sort_values('n_variantes', ascending=False)
)

display(dup_check.head(15))

Unnamed: 0,establecimiento_canon,direccion_norm,municipio,departamento,n_variantes
1672,guillermo putzeys alvarez,11 calle 3-59,zona 1,ciudad capital,8
1245,educativo maya,barrio la casona,los amates,izabal,8
904,de estudios tecnicos y avanzados de chimaltena...,8a. av 3-59 z 2,chimaltenango,chimaltenango,7
3655,preuniversitario friedrich von hayek,21 av 3-61 z 3,quetzaltenango,quetzaltenango,7
1590,evangelico privado mixto bersheba bless god,cabecera municipal,san lorenzo,san marcos,7
191,canadiense sociedad anonima,diagonal 19 av petapa 40-54,zona 12,ciudad capital,7
4417,tecnico particular de intecpadi,5ta. calle 5-43 z 1,jutiapa,jutiapa,6
3095,nazareno,43a. calle 19-35 colonia la colina,zona 12,ciudad capital,6
4454,tecnico vocacional galilei,9a. av 4-31 z 19 colonia la florida,zona 19,ciudad capital,6
2274,mixto monte horeb,2a. av 9-75 z 1,fraijanes,guatemala,6


In [100]:
print(f"Filas originales : {len(df1):,}")
print(f"Filas tras limpieza: {len(df2):,}")
print(f"Grupos únicos previstos: {df_final.shape[0]:,}")


Filas originales : 6,590
Filas tras limpieza: 6,590
Grupos únicos previstos: 4,721
