# Limpieza de datos

In [21]:
import pandas as pd

df = pd.read_csv('../establecimientos.csv')

print("Primeros datos")
df.head()


Primeros datos


Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,DIRECCION,TELEFONO,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL
0,16-01-0137-46,16-006,ALTA VERAPAZ,COBAN,INSTITUTO MIXTO NOCTURNO FRANCISCO MARROQUIN,6A. AVENIDA 1-15 ZONA 4,,JORGE EDUARDO PAQUE LÁZARO,,DIVERSIFICADO,PRIVADO,URBANA,CERRADA DEFINITIVAMENTE,MONOLINGUE,NOCTURNA,DIARIO(REGULAR),ALTA VERAPAZ
1,16-01-0138-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO COBAN,KM.2 SALIDA A SAN JUAN CHAMELCO ZONA 8,77945104.0,PATRICIO NAJARRO ASENCIO,GUSTAVO ADOLFO SIERRA POP,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
2,16-01-0139-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO PARTICULAR MIXTO VERAPAZ,KM 209.5 ENTRADA A LA CIUDAD,77367402.0,PATRICIO NAJARRO ASENCIO,GILMA DOLORES GUAY PAZ DE LEAL,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
3,16-01-0140-46,16-031,ALTA VERAPAZ,COBAN,"COLEGIO ""LA INMACULADA""",7A. AVENIDA 11-109 ZONA 6,78232301.0,PATRICIO NAJARRO ASENCIO,VIRGINIA SOLANO SERRANO,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
4,16-01-0141-46,16-005,ALTA VERAPAZ,COBAN,ESCUELA NACIONAL DE CIENCIAS COMERCIALES,2A CALLE 11-10 ZONA 2,79514215.0,NORA LILIANA FIGUEROA HERNÁNDEZ,HÉCTOR ROLANDO CHUN POOU,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ


In [22]:
print("Informacion del data frame")
df.info()

Informacion del data frame
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11295 entries, 0 to 11294
Data columns (total 17 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   CODIGO           11272 non-null  object
 1   DISTRITO         10747 non-null  object
 2   DEPARTAMENTO     11272 non-null  object
 3   MUNICIPIO        11272 non-null  object
 4   ESTABLECIMIENTO  11268 non-null  object
 5   DIRECCION        11194 non-null  object
 6   TELEFONO         10337 non-null  object
 7   SUPERVISOR       10744 non-null  object
 8   DIRECTOR         9731 non-null   object
 9   NIVEL            11272 non-null  object
 10  SECTOR           11272 non-null  object
 11  AREA             11272 non-null  object
 12  STATUS           11272 non-null  object
 13  MODALIDAD        11272 non-null  object
 14  JORNADA          11272 non-null  object
 15  PLAN             11272 non-null  object
 16  DEPARTAMENTAL    11272 non-null  object
dtypes: o

# Elminando columnas innecesarias

Revisando el set de datos, notamos que hay algunos registros dentro del set de datos que tienen muchas columnas vacías. Para evitar que estos registros luego causen problemas dentro de posibles análisis de datos, se eliminaron aquellos registros que tengan demasiadas columnas vacías.

In [23]:
import pandas as pd

# Calcular el porcentaje de valores faltantes por fila
df['porcentaje_faltante'] = df.isnull().mean(axis=1) * 100

# Filtrar registros con más del 70% de columnas vacías
umbral = 70
registros_problematicos = df[df['porcentaje_faltante'] > umbral]

print(f"\n--- Registros con más del {umbral}% de columnas vacías ---")
print(f"Cantidad total: {len(registros_problematicos)}")
print(f"Porcentaje del total: {len(registros_problematicos)/len(df)*100:.2f}%")

# Mostrar algunos ejemplos si los hay
if not registros_problematicos.empty:
    print("\nEjemplos de registros problemáticos:")
    print(registros_problematicos.head())
else:
    print("\nNo hay registros con más del 70% de columnas vacías.")


--- Registros con más del 70% de columnas vacías ---
Cantidad total: 23
Porcentaje del total: 0.20%

Ejemplos de registros problemáticos:
     CODIGO DISTRITO DEPARTAMENTO MUNICIPIO ESTABLECIMIENTO DIRECCION  \
424     NaN      NaN          NaN       NaN             NaN       NaN   
578     NaN      NaN          NaN       NaN             NaN       NaN   
1002    NaN      NaN          NaN       NaN             NaN       NaN   
1225    NaN      NaN          NaN       NaN             NaN       NaN   
3348    NaN      NaN          NaN       NaN             NaN       NaN   

     TELEFONO SUPERVISOR DIRECTOR NIVEL SECTOR AREA STATUS MODALIDAD JORNADA  \
424       NaN        NaN      NaN   NaN    NaN  NaN    NaN       NaN     NaN   
578       NaN        NaN      NaN   NaN    NaN  NaN    NaN       NaN     NaN   
1002      NaN        NaN      NaN   NaN    NaN  NaN    NaN       NaN     NaN   
1225      NaN        NaN      NaN   NaN    NaN  NaN    NaN       NaN     NaN   
3348      NaN        N

Es claro que estos registros tienen demasiada data faltante. Estos registros tienen más del 70% vacío. Es por eso que decidimos eliminar estos registros, ya que no van a proveer información relevante.

In [24]:
df_limpio = df[df['porcentaje_faltante'] <= umbral].copy()

# Cantidad de valores vacíos

In [25]:
print("Valores faltantes por columna")

df_limpio.drop('porcentaje_faltante', axis=1, inplace=True)
df_limpio.isnull().sum()

Valores faltantes por columna


CODIGO                0
DISTRITO            525
DEPARTAMENTO          0
MUNICIPIO             0
ESTABLECIMIENTO       4
DIRECCION            78
TELEFONO            935
SUPERVISOR          528
DIRECTOR           1541
NIVEL                 0
SECTOR                0
AREA                  0
STATUS                0
MODALIDAD             0
JORNADA               0
PLAN                  0
DEPARTAMENTAL         0
dtype: int64

Como se puede ver, hay distintas columnas que tienen valores vacíos aun. En todos los casos son columnas categóricas, por lo que no se puede rellenar el valor vacío mediante la inserción de datos con la media o promedio. Entonces para los valores vacíos se proponen los siguientes valores para las columnas:


* **DISTRITO**: 'DISTRITO_NO_ESPECIFICADO',
* **ESTABLECIMIENTO**: 'NOMBRE_ESTABLECIMIENTO_DESCONOCIDO',
* **DIRECCION**: 'DIRECCION_NO_REGISTRADA',
* **TELEFONO**: 'SIN_TELEFONO',
* **SUPERVISOR**: 'SUPERVISOR_NO_ESPECIFICADO',
* **DIRECTOR**: 'DIRECTOR_NO_ESPECIFICADO'

In [26]:
# Diccionario de valores de reemplazo para cada columna
valores_relleno = {
    'DISTRITO': 'DISTRITO_NO_ESPECIFICADO',
    'ESTABLECIMIENTO': 'NOMBRE_ESTABLECIMIENTO_DESCONOCIDO',
    'DIRECCION': 'DIRECCION_NO_REGISTRADA',
    'TELEFONO': 'SIN_TELEFONO',
    'SUPERVISOR': 'SUPERVISOR_NO_ESPECIFICADO',
    'DIRECTOR': 'DIRECTOR_NO_ESPECIFICADO'
}

df_limpio = df_limpio.fillna(valores_relleno)

#confirmar que funciono
print("\n--- Conteo de valores faltante ---")
df_limpio.isnull().sum()





--- Conteo de valores faltante ---


CODIGO             0
DISTRITO           0
DEPARTAMENTO       0
MUNICIPIO          0
ESTABLECIMIENTO    0
DIRECCION          0
TELEFONO           0
SUPERVISOR         0
DIRECTOR           0
NIVEL              0
SECTOR             0
AREA               0
STATUS             0
MODALIDAD          0
JORNADA            0
PLAN               0
DEPARTAMENTAL      0
dtype: int64

In [27]:
print("\n--- Conteo de valores NA ---")
df_limpio.isna().sum()


--- Conteo de valores NA ---


CODIGO             0
DISTRITO           0
DEPARTAMENTO       0
MUNICIPIO          0
ESTABLECIMIENTO    0
DIRECCION          0
TELEFONO           0
SUPERVISOR         0
DIRECTOR           0
NIVEL              0
SECTOR             0
AREA               0
STATUS             0
MODALIDAD          0
JORNADA            0
PLAN               0
DEPARTAMENTAL      0
dtype: int64

Ahora que los datos ya se encuentran sin valores vacíos, es importante normalizar algunas de las columnas. Con normalizar nos referimos a volver los valores de las cadenas todos mayusculas, o bien todo minuscula en el caso de nombres de lugares y personas. 

In [28]:
# Volver departamento, municipio, establecimiento, direccion, supervisor, director a mayuscula
columnas = ["DEPARTAMENTO", "DEPARTAMENTAL", "MUNICIPIO", "ESTABLECIMIENTO", "DIRECCION", "SUPERVISOR", "DIRECTOR"]

for columna in columnas:
    df_limpio[columna] = df_limpio[columna].str.upper()



# Normalización de número de telefono

Este cambio es un poco más complejo, ya aquí pueden habre varios casos distintos para el número de telefono. Por ejemplo que el telefono tenga un guíon. De la forma xxxx-xxxx o bien, que este separado por espacio, xxxx xxxx. Para este esperamos tener al final solo 1 número de telefono conformado por 8 números. Para conseguir esto, es necesario evaluar cuales son las variaciones que hay dentro del set de datos.

In [29]:
# 1. Crear una columna temporal limpia
df_limpio['TELEFONO_LIMPIO_TEMP'] = (
    df_limpio['TELEFONO']
    .astype(str)
    .str.replace(r'[\s-]', '', regex=True)
)

# 2. Identificar registros problemáticos
mask_problematicos = ~df_limpio['TELEFONO_LIMPIO_TEMP'].str.fullmatch(r'(\d{8}|SIN_TELEFONO)')
problemas = df_limpio[mask_problematicos].copy()

# 3. Análisis detallado
print("\n=== REPORTE DE DIAGNÓSTICO ===")
print(f"Total registros: {len(df_limpio)}")
print(f"Registros con formato problemático: {len(problemas)}")
print(f"Porcentaje problemático: {len(problemas)/len(df_limpio)*100:.2f}%")

print("\n--- Tipos de problemas encontrados ---")
problemas['TIPO_PROBLEMA'] = problemas['TELEFONO_LIMPIO_TEMP'].apply(
    lambda x: 'MULTIPLES_TELEFONOS' if ',' in x or '-' in x 
             else ('LONGITUD_INCORRECTA' if len(x) != 8 
                  else 'CARACTERES_INVALIDOS')
)

print(problemas['TIPO_PROBLEMA'].value_counts())

print("\n--- Ejemplos de cada tipo ---")
for tipo in problemas['TIPO_PROBLEMA'].unique():
    print(f"\nTipo: {tipo}")
    print(problemas[problemas['TIPO_PROBLEMA'] == tipo]['TELEFONO'].head(3).to_string(index=False))


=== REPORTE DE DIAGNÓSTICO ===
Total registros: 11272
Registros con formato problemático: 253
Porcentaje problemático: 2.24%

--- Tipos de problemas encontrados ---
TIPO_PROBLEMA
LONGITUD_INCORRECTA    219
MULTIPLES_TELEFONOS     34
Name: count, dtype: int64

--- Ejemplos de cada tipo ---

Tipo: LONGITUD_INCORRECTA
79504027-79504028
          4085613
78208583-78209143

Tipo: MULTIPLES_TELEFONOS
      25763,26725 Y 21568
     25763, 26725 Y 21568
2325732, 2320075, 2307014


Como podemos ver hay varios numeros que no cumplen con el formato incluso después de haber removido guíones y espacios en blanco. Hay instituciones con números muy cortos o número múltiples. Para eso hay que procesar la columna para que los que no cumplan con el formato sean colocados como SIN_TELEFONO y además si hay más de un número, elegir el principal.

In [30]:
# tomamos el 
def procesar_telefono(tel):
    if pd.isna(tel) or str(tel).strip() == 'nan':
        return 'SIN_TELEFONO'
    
    tel = str(tel).strip()
    
    if tel == 'SIN_TELEFONO':
        return tel
    
    # Limpieza básica
    tel = tel.replace(' ', '').replace('-', '')
    
    # Caso múltiples teléfonos (separados por comas o guiones)
    if ',' in tel:
        return tel.split(',')[0][:8]  # Tomar el primer teléfono
    elif '-' in tel and len(tel) > 8:  # Para casos como "1234-5678"
        return tel.replace('-', '')[:8]
    
    # Verificar longitud correcta
    return tel if tel.isdigit() and len(tel) == 8 else 'SIN_TELEFONO'

# transformacion al telfono
df_limpio['TELEFONO'] = df_limpio['TELEFONO'].apply(procesar_telefono)

# 3. Verificación final
print("\n=== RESULTADO FINAL ===")
print("Distribución de valores:")
print(df_limpio['TELEFONO'].value_counts(dropna=False).head())

print("\nEstadísticas:")
pattern = r"\d{8}"
validos = df_limpio["TELEFONO"].astype(str).str.fullmatch(pattern, na=False).sum()
print(f"Teléfonos válidos (8 dígitos): {validos}")
print(f"'SIN_TELEFONO': {(df_limpio['TELEFONO'] == 'SIN_TELEFONO').sum()}")
print(f"Otros formatos: {len(df_limpio[~df_limpio['TELEFONO'].isin(['SIN_TELEFONO']) & ~df_limpio['TELEFONO'].str.fullmatch(pattern, na=True)])}")


=== RESULTADO FINAL ===
Distribución de valores:
TELEFONO
SIN_TELEFONO    1154
22067425          69
22093200          14
79480009          14
77602663          13
Name: count, dtype: int64

Estadísticas:
Teléfonos válidos (8 dígitos): 10095
'SIN_TELEFONO': 1154
Otros formatos: 23


In [31]:
df_limpio.drop('TELEFONO_LIMPIO_TEMP', axis=1, inplace=True)
df_limpio.isna().sum()

CODIGO             0
DISTRITO           0
DEPARTAMENTO       0
MUNICIPIO          0
ESTABLECIMIENTO    0
DIRECCION          0
TELEFONO           0
SUPERVISOR         0
DIRECTOR           0
NIVEL              0
SECTOR             0
AREA               0
STATUS             0
MODALIDAD          0
JORNADA            0
PLAN               0
DEPARTAMENTAL      0
dtype: int64

In [32]:
df_limpio

Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,DIRECCION,TELEFONO,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL
0,16-01-0137-46,16-006,ALTA VERAPAZ,COBAN,INSTITUTO MIXTO NOCTURNO FRANCISCO MARROQUIN,6A. AVENIDA 1-15 ZONA 4,SIN_TELEFONO,JORGE EDUARDO PAQUE LÁZARO,DIRECTOR_NO_ESPECIFICADO,DIVERSIFICADO,PRIVADO,URBANA,CERRADA DEFINITIVAMENTE,MONOLINGUE,NOCTURNA,DIARIO(REGULAR),ALTA VERAPAZ
1,16-01-0138-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO COBAN,KM.2 SALIDA A SAN JUAN CHAMELCO ZONA 8,77945104,PATRICIO NAJARRO ASENCIO,GUSTAVO ADOLFO SIERRA POP,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
2,16-01-0139-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO PARTICULAR MIXTO VERAPAZ,KM 209.5 ENTRADA A LA CIUDAD,77367402,PATRICIO NAJARRO ASENCIO,GILMA DOLORES GUAY PAZ DE LEAL,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
3,16-01-0140-46,16-031,ALTA VERAPAZ,COBAN,"COLEGIO ""LA INMACULADA""",7A. AVENIDA 11-109 ZONA 6,78232301,PATRICIO NAJARRO ASENCIO,VIRGINIA SOLANO SERRANO,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
4,16-01-0141-46,16-005,ALTA VERAPAZ,COBAN,ESCUELA NACIONAL DE CIENCIAS COMERCIALES,2A CALLE 11-10 ZONA 2,79514215,NORA LILIANA FIGUEROA HERNÁNDEZ,HÉCTOR ROLANDO CHUN POOU,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11289,19-09-0902-46,19-021,ZACAPA,LA UNION,LICEO PARTICULAR MIXTO JIREH (POR MADUREZ),BARRIO NUEVO,79418369,ASBEL IVÁN SÚCHITE ARROYO,ANA MARÍA CUELLAR GUERRA,DIVERSIFICADO,PRIVADO,URBANA,CERRADA DEFINITIVAMENTE,MONOLINGUE,DOBLE,FIN DE SEMANA,ZACAPA
11290,19-10-0008-46,19-015,ZACAPA,HUITE,INSTITUTO NACIONAL DE EDUCACION DIVERSIFICADA,DIRECCION_NO_REGISTRADA,SIN_TELEFONO,SILDY MARIELA PEREZ FRANCO,DIRECTOR_NO_ESPECIFICADO,DIVERSIFICADO,OFICIAL,RURAL,CERRADA DEFINITIVAMENTE,MONOLINGUE,VESPERTINA,DIARIO(REGULAR),ZACAPA
11291,19-10-0013-46,19-015,ZACAPA,HUITE,INSTITUTO DIVERSIFICADO,BARRIO BUENOS AIRES,48579171,SILDY MARIELA PEREZ FRANCO,WUENDY JHOJANA SIERRA PAZ,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,NOCTURNA,DIARIO(REGULAR),ZACAPA
11292,19-10-1009-46,19-015,ZACAPA,HUITE,INSTITUTO DIVERSIFICADO POR COOPERATIVA,BARRIO EL CAMPO,55958103,SILDY MARIELA PEREZ FRANCO,ROBIDIO PORTILLO SALGUERO,DIVERSIFICADO,COOPERATIVA,URBANA,ABIERTA,MONOLINGUE,VESPERTINA,DIARIO(REGULAR),ZACAPA


In [33]:
# Acelera la detección de duplicados (opcional)
try:
    import rapidfuzz  # noqa: F401
except Exception:
    %pip -q install rapidfuzz


Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 25.0.1 -> 25.2
[notice] To update, run: C:\Users\sebas\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.9_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


In [None]:
import pandas as pd

try:
    from p56_utils import limpiar_y_unir
except ModuleNotFoundError:
    raise ModuleNotFoundError("No se encuentra el archivo de ayuda.")

# Se busca el df que se guarda en memoria
DF_VAR_CANDIDATOS = ['df', 'df_raw', 'data', 'establecimientos', 'df_merged']
df_in = None
for name in DF_VAR_CANDIDATOS:
    if name in globals() and isinstance(globals()[name], pd.DataFrame):
        df_in = globals()[name]
        print(f"Usando DataFrame en memoria: {name} ({len(df_in)} filas)")
        break

# Si no se encuentra, pasamos a tratar con el csv
if df_in is None:
    PATH_RAW = '../establecimientos.csv'
    df_in = pd.read_csv(PATH_RAW)
    print(f"Leído {PATH_RAW}: {len(df_in)} filas")


Usando DataFrame en memoria: df (11295 filas)


In [None]:
# Usamos el archivos de utilidades que se creo para facilitar el proceso de revisión, separación y union de las variables duplicadas
df_limpio, posibles = limpiar_y_unir(
    df_ya_unido=df_in,
    similarity_threshold=0.90
)

print("=== RESUMEN ===")
print("Filas originales:", len(df_in))
print("Filas limpias   :", len(df_limpio))
print("Posibles duplicados para revisión:", len(posibles))

display(df_limpio.head(10))
display(posibles.head(20))


=== RESUMEN ===
Filas originales: 11295
Filas limpias   : 7419
Posibles duplicados para revisión: 63


Unnamed: 0,DEPARTAMENTO,MUNICIPIO,DISTRITO,ESTABLECIMIENTO,ESTABLECIMIENTO_NORM,DIRECCION,DIRECCION_NORM,TELEFONO,TELEFONO_ESTD,TELEFONOS_LIST,...,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL,PORCENTAJE_FALTANTE,CLAVE_BLOQUEO
0,CHIMALTENANGO,ACATENANGO,04-027,INSTITUTO CHIMALTECO DE EDUCACIÓN INTEGRAL,CHIMALTECO DE EDUCACION INTEGRAL,3A. AVENIDA 5-32 ZONA 3,3A AVENIDA 5 32 ZONA 3,78392713.0,78392713,78392713.0,...,DIVERSIFICADO,PRIVADO,URBANA,CERRADA DEFINITIVAMENTE,MONOLINGUE,VESPERTINA,DIARIO(REGULAR),CHIMALTENANGO,0.0,ACATENANGO|CHIMALTECO DE ED|3A AVENIDA 5
1,CHIMALTENANGO,ACATENANGO,04-016,"LICEO CRISTIANO ""VISION ETERNA""","CRISTIANO ""VISION ETERNA""",ALDEA SAN ANTONIO NEJAPA,ALDEA SAN ANTONIO NEJAPA,54640678.0,54640678,54640678.0,...,DIVERSIFICADO,PRIVADO,RURAL,ABIERTA,MONOLINGUE,DOBLE|SIN JORNADA,SEMIPRESENCIAL (DOS DÍAS A LA SEMANA),CHIMALTENANGO,0.0,"ACATENANGO|CRISTIANO ""VISIO|ALDEA SAN AN"
2,CHIMALTENANGO,ACATENANGO,04-016,INSTITUTO NACIONAL DE EDUCACIÓN DIVERSIFICADA,DE EDUCACION DIVERSIFICADA,COLONIA LA LADRILLERA,COLONIA LA LADRILLERA,42569556.0,42569556,42569556.0,...,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),CHIMALTENANGO,0.0,ACATENANGO|DE EDUCACION DIV|COLONIA LA L
3,CHIMALTENANGO,ACATENANGO,04-016,INSTITUTO NACIONAL DE EDUCACION DIVERSIFICADA ...,"DE EDUCACION DIVERSIFICADA ""ACATENANGO""",COLONIA POTRERITOS,COLONIA POTRERITOS,59464736.0,59464736,59464736.0,...,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),CHIMALTENANGO,0.0,ACATENANGO|DE EDUCACION DIV|COLONIA POTR
4,CHIMALTENANGO,ACATENANGO,04-016,INSTITUTO DIVERSIFICADO POR COOPERATIVA ACATEN...,DIVERSIFICADO ACATENANGO,COLONIA EL POTRERITO,COLONIA EL POTRERITO,78823560.0,78823560,78823560.0,...,DIVERSIFICADO,COOPERATIVA,URBANA,ABIERTA,MONOLINGUE,VESPERTINA,DIARIO(REGULAR),CHIMALTENANGO,0.0,ACATENANGO|DIVERSIFICADO AC|COLONIA EL P
5,CHIMALTENANGO,ACATENANGO,04-016,INSTITUTO DIVERSIFICADO POR COOPERATIVA ACATEN...,DIVERSIFICADO ACATENANGO,MUNICIPIO DE ACATENANGO,MUNICIPIO DE ACATENANGO,,SIN_TELEFONO,,...,DIVERSIFICADO,COOPERATIVA,URBANA,CERRADA DEFINITIVAMENTE,MONOLINGUE,INTERMEDIA,DIARIO(REGULAR),CHIMALTENANGO,5.882353,ACATENANGO|DIVERSIFICADO AC|MUNICIPIO DE
6,CHIMALTENANGO,ACATENANGO,,INSTITUTO PRACTICO DE EDUCACION MEDIA,PRACTICO DE EDUCACION MEDIA,CANTON TERCERO,CANTON TERCERO,,SIN_TELEFONO,,...,DIVERSIFICADO,COOPERATIVA,RURAL,CERRADA TEMPORALMENTE,MONOLINGUE,NOCTURNA,DIARIO(REGULAR),CHIMALTENANGO,23.529412,ACATENANGO|PRACTICO DE EDUC|CANTON TERCE
7,JUTIAPA,AGUA BLANCA,22-011,"LICEO ""SAN JUAN PABLO II""","""SAN JUAN PABLO II""",BARRIO EL CENTRO,BARRIO EL CENTRO,41024810.0,41024810,41024810.0,...,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,DOBLE|SIN JORNADA|VESPERTINA,DIARIO(REGULAR),JUTIAPA,0.0,"AGUA BLANCA|""SAN JUAN PABLO |BARRIO EL CE"
8,JUTIAPA,AGUA BLANCA,22-012,INSTITUTO PRIVADO MIXTO DE EDUCACION DIVERSIFI...,DE EDUCACION DIVERSIFICADA DE CIENCIAS COMERCI...,---,,,SIN_TELEFONO,,...,DIVERSIFICADO,PRIVADO,URBANA,CERRADA DEFINITIVAMENTE,MONOLINGUE,VESPERTINA,DIARIO(REGULAR),JUTIAPA,5.882353,AGUA BLANCA|DE EDUCACION DIV|
9,JUTIAPA,AGUA BLANCA,22-011,INSTITUTO NACIONAL DE EDUCACION DIVERSIFICADA,DE EDUCACION DIVERSIFICADA,BARRIO TECUAN,BARRIO TECUAN,53579413.0,53579413,53579413.0,...,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,VESPERTINA,DIARIO(REGULAR),JUTIAPA,0.0,AGUA BLANCA|DE EDUCACION DIV|BARRIO TECUA


Unnamed: 0,DEPARTAMENTO,MUNICIPIO,ESTAB_A,ESTAB_B,DIR_A,DIR_B,TEL_A,TEL_B,SIM_NOMBRE,SIM_DIRECCION
0,GUATEMALA,AMATITLAN,COLEGIO PEDAGOGICO INTEGRAL ALBORADA,COLEGIO PEDAGOGICO INTEGRAL ALBORADA,4 AVENIDA 10-57 02/01/2018,4 AVENIDA 10-57 AMATITLAN,SIN_TELEFONO,66336268,1.0,0.429
1,SACATEPEQUEZ,ANTIGUA GUATEMALA,CENTRO EDUCACIONAL VALLE COLONIAL,CENTRO EDUCACIONAL VALLE VERDE,CALLE ANCHA DE LOS HERREROS NO. 59 INTERIOR,CALLE ANCHA DE LOS HERREROS NO. 59 INTERIOR,78329444,78321483,0.5,1.0
2,SACATEPEQUEZ,ANTIGUA GUATEMALA,COLEGIO SISTEMA EDUCATIVO LATINOAMERICANO SEL,COLEGIO SISTEMA EDUCATIVO LATINOAMERICANO SEL,CALLE ANCHA DE LOS HERREROS CALLEJON EL COPANT...,CALLE ANCHA DE LOS HERREROS NO. 56 CASA VICTORIA,52660000,43148686,1.0,0.462
3,CHIMALTENANGO,CHIMALTENANGO,"ESCUELA NACIONAL DE CIENCIAS COMERCIALES ""LEON...",ESCUELA DE CIENCIAS COMERCIALES POR COOPERATIV...,1A. CALLE 9-30 ZONA 3,1A CALLE 9-30 ZONA 3,78396809,78396762,0.25,1.0
4,QUETZALTENANGO,COATEPEQUE,"COLEGIO CRISTIANO MIXTO ""SHALOM""","COLEGIO CRISTIANO MIXTO ""SHALOM""","KILOMETRO 1, CARRETERA A CHUATUJ,","KILÓMETRO 1 RUTA A NUEVO CHUATUJ,",59404336,33080475,1.0,0.4
5,QUETZALTENANGO,COATEPEQUE,"INSTITUTO PRIVADO MIXTO DE CIENCIAS, APRENDIZA...","INSTITUTO PRIVADO MIXTO DE CIENCIAS, APRENDIZA...",2A. AVENIDA 3-01 BARRIO LA BATALLA,2A. AVENIDA 3-01 ZONA 1,58349947,55954841,1.0,0.429
6,QUETZALTENANGO,COATEPEQUE,INSTITUTO PRIVADO MIXTO DE EDUCACION DIVERSIFI...,INSTITUTO PRIVADO MIXTO DE EDUCACION DIVERSIFI...,2A CALLE 6-33 ZONA 1,2A CALLE 6-33 ZONA 1,SIN_TELEFONO,77755312,0.6,1.0
7,SAN MARCOS,COMITANCILLO,INSTITUTO DE EDUCACION DIVERSIFICADA POR COOPE...,INSTITUTO DE EDUCACION DIVERSIFICADA MUNICIPAL,ALDEA SAN LUIS,ALDEA SAN LUIS,57456480,SIN_TELEFONO,0.6,1.0
8,PETEN,FLORES,INSTITUTO PRIVADO MIXTO DE EDUCACION DIVERSIFI...,INSTITUTO PRIVADO DE EDUCACION DIVERSIFICADA D...,BARRIO SANTA ELENA,BARRIO SANTA ELENA,SIN_TELEFONO,SIN_TELEFONO,0.273,1.0
9,JUTIAPA,JUTIAPA,INSTITUTO NACIONAL DE EDUCACIÓN DIVERSIFICADA ...,INSTITUTO PRIVADO MIXTO DE EDUCACION DIVERSIFI...,"COMPLEJO EDUCATIVO, BARRIO EL CONDOR","COMPLEJO EDUCATIVO, BARRIO EL CONDOR",30465171,78443474,0.375,1.0


Para la parte de la limpieza, se creyo necesario el usar un archivo separado de ultidades que maneje a profundidad la limpieza de los datos duplicados y así realizarlo con mucho cuidado. Gracias a esto podemos ver como ciertos datos se consideran duplicados y que fueron saltados en la revision anterior. Esta vez si se logro detectar hasta los cambios mas pequeños, como puntos o numeros faltantes.

In [36]:
OUT_CLEAN = '../establecimientos_limpios.csv'
OUT_REVIEW = '../posibles_duplicados_para_revision.csv'

df_limpio.to_csv(OUT_CLEAN, index=False, encoding='utf-8')
posibles.to_csv(OUT_REVIEW, index=False, encoding='utf-8')

print(f"Guardado dataset limpio en: {OUT_CLEAN}")
print(f"Guardado revisión de posibles duplicados en: {OUT_REVIEW}")


Guardado dataset limpio en: ../establecimientos_limpios.csv
Guardado revisión de posibles duplicados en: ../posibles_duplicados_para_revision.csv


Los datos que se marcan como duplicados se unen si es que tienen un porcentaje de acierto alto, pero se nos guardan en un archivo separado para poder hacer una revisión manual (si es que ocurrió un error) o para reportaje

In [None]:
# Duplicados residuales por clave
cols_clave = [c for c in ["DEPARTAMENTO","MUNICIPIO","ESTABLECIMIENTO_NORM","DIRECCION_NORM","TELEFONO_ESTD"] if c in df_limpio.columns]
dups_resid = int(df_limpio.duplicated(subset=cols_clave, keep=False).sum()) if cols_clave else 0
print("Duplicados residuales (clave exacta):", dups_resid)

# Nulos en columnas clave
print("\nNulls por columna clave:")
for c in cols_clave:
    print(f"  {c}: {int(df_limpio[c].isna().sum())}")

# Primeros 15 departamentos para tener una idea
if "DEPARTAMENTO" in df_limpio.columns:
    display(df_limpio["DEPARTAMENTO"].value_counts().head(15).to_frame("establecimientos"))

# Posibles casos de duplicados
if not posibles.empty:
    print("\nMuestra de posibles duplicados (para revisión manual/documentación):")
    display(posibles.sort_values(["SIM_NOMBRE","SIM_DIRECCION"], ascending=False).head(25))


Duplicados residuales (clave exacta): 0

Nulls por columna clave:
  DEPARTAMENTO: 1
  MUNICIPIO: 1
  ESTABLECIMIENTO_NORM: 0
  DIRECCION_NORM: 0
  TELEFONO_ESTD: 0


Unnamed: 0_level_0,establecimientos
DEPARTAMENTO,Unnamed: 1_level_1
CIUDAD CAPITAL,1378
GUATEMALA,1168
ESCUINTLA,428
HUEHUETENANGO,408
QUETZALTENANGO,399
SAN MARCOS,399
PETEN,358
ALTA VERAPAZ,283
IZABAL,265
SACATEPEQUEZ,263



Muestra de posibles duplicados (para revisión manual/documentación):


Unnamed: 0,DEPARTAMENTO,MUNICIPIO,ESTAB_A,ESTAB_B,DIR_A,DIR_B,TEL_A,TEL_B,SIM_NOMBRE,SIM_DIRECCION
22,RETALHULEU,RETALHULEU,COLEGIO MIXTO IDEAS,COLEGIO MIXTO IDEAS,"9A. AV. ""A"" 2-05 ZONA 4, RESIDENCIALES ANA LUCIA","9A. AVENIDA ""A"" ANA LUCIA ZONA 4, RETALHULEU",57721156,77713771,1.0,0.667
15,ESCUINTLA,MASAGUA,INSTITUTO MUNICIPAL DE EDUCACION BASICA Y DIVE...,INSTITUTO MUNICIPAL DE EDUCACIÓN BÁSICA Y DIVE...,5A CALLE 3-08 CALLE PRINCIPAL,5A. CALLE 3-08 ZONA 1,54563588,40390544,1.0,0.6
52,CIUDAD CAPITAL,ZONA 1,INSTITUTO AMERICANO EN CIENCIAS DE COMPUTACION,INSTITUTO AMERICANO EN CIENCIAS DE COMPUTACION,6A AVENIDA 18-23 01/1123,6A. AVENIDA 18-23 ZONA 1,22322912,SIN_TELEFONO,1.0,0.571
46,GUATEMALA,VILLA NUEVA,INSTITUTO NACIONAL DE EDUCACION DIVERSIFICADA,INSTITUTO NACIONAL DE EDUCACIÓN DIVERSIFICADA,"7A. CALLE A 3-73, ZONA 3, COLONIA SANTA ISABEL I","7A. CALLE A, 3-73, ZONA 5, COLONIA LOS PLANES",59340090,52428966,1.0,0.556
32,ESCUINTLA,SAN VICENTE PACAYA,COLEGIO INTEGRAL VICENTINO,COLEGIO INTEGRAL VICENTINO,4A. AVENIDA Y 6A. CALLE CANTÓN LAS FLORES.,4A. AVENIDA Y 6A. CALLE ESQUINA,56367952,56960902,1.0,0.5
2,SACATEPEQUEZ,ANTIGUA GUATEMALA,COLEGIO SISTEMA EDUCATIVO LATINOAMERICANO SEL,COLEGIO SISTEMA EDUCATIVO LATINOAMERICANO SEL,CALLE ANCHA DE LOS HERREROS CALLEJON EL COPANT...,CALLE ANCHA DE LOS HERREROS NO. 56 CASA VICTORIA,52660000,43148686,1.0,0.462
47,GUATEMALA,VILLA NUEVA,INSTITUTO NACIONAL DE EDUCACIÓN DIVERSIFICADA,INSTITUTO NACIONAL DE EDUCACIÓN DIVERSIFICADA,"7A. CALLE A 3-73 ZONA 3, SANTA ISABEL I","7A. CALLE A, 3-73, ZONA 5, COLONIA LOS PLANES",41501015,52428966,1.0,0.444
0,GUATEMALA,AMATITLAN,COLEGIO PEDAGOGICO INTEGRAL ALBORADA,COLEGIO PEDAGOGICO INTEGRAL ALBORADA,4 AVENIDA 10-57 02/01/2018,4 AVENIDA 10-57 AMATITLAN,SIN_TELEFONO,66336268,1.0,0.429
5,QUETZALTENANGO,COATEPEQUE,"INSTITUTO PRIVADO MIXTO DE CIENCIAS, APRENDIZA...","INSTITUTO PRIVADO MIXTO DE CIENCIAS, APRENDIZA...",2A. AVENIDA 3-01 BARRIO LA BATALLA,2A. AVENIDA 3-01 ZONA 1,58349947,55954841,1.0,0.429
31,HUEHUETENANGO,SAN SEBASTIAN COATAN,"COLEGIO PRIVADO MIXTO ""EL PARAISO""","COLEGIO PRIVADO MIXTO ""EL PARAÍSO""",CABECERA MUNICIPAL SAN PEDRO SOLOMA,CABECERA MUNICIPAL SAN SEBASTIÁN COATÁN,53444058,57072503,1.0,0.429


Podemos ver que de todos los departamentos e instituciones, hay algunas duplicadas que se saltaron la limpieza. Esto puede ser por que la forma en la que se escribieron ciertos datos fue diferente y eso confunde al sistema, o se cambiaron ciertos datos en las celdas claves que se usaron para filtrar. En cualquier caso, luego de la segunda revision solo se encontraron 63 celdas "duplicadas" para la revisión.