# Limpieza de datos

In [115]:
import pandas as pd

df = pd.read_csv('../establecimientos.csv')

print("Primeros datos")
df.head()


Primeros datos


Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,DIRECCION,TELEFONO,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL
0,16-01-0137-46,16-006,ALTA VERAPAZ,COBAN,INSTITUTO MIXTO NOCTURNO FRANCISCO MARROQUIN,6A. AVENIDA 1-15 ZONA 4,,JORGE EDUARDO PAQUE LÁZARO,,DIVERSIFICADO,PRIVADO,URBANA,CERRADA DEFINITIVAMENTE,MONOLINGUE,NOCTURNA,DIARIO(REGULAR),ALTA VERAPAZ
1,16-01-0138-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO COBAN,KM.2 SALIDA A SAN JUAN CHAMELCO ZONA 8,77945104.0,PATRICIO NAJARRO ASENCIO,GUSTAVO ADOLFO SIERRA POP,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
2,16-01-0139-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO PARTICULAR MIXTO VERAPAZ,KM 209.5 ENTRADA A LA CIUDAD,77367402.0,PATRICIO NAJARRO ASENCIO,GILMA DOLORES GUAY PAZ DE LEAL,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
3,16-01-0140-46,16-031,ALTA VERAPAZ,COBAN,"COLEGIO ""LA INMACULADA""",7A. AVENIDA 11-109 ZONA 6,78232301.0,PATRICIO NAJARRO ASENCIO,VIRGINIA SOLANO SERRANO,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
4,16-01-0141-46,16-005,ALTA VERAPAZ,COBAN,ESCUELA NACIONAL DE CIENCIAS COMERCIALES,2A CALLE 11-10 ZONA 2,79514215.0,NORA LILIANA FIGUEROA HERNÁNDEZ,HÉCTOR ROLANDO CHUN POOU,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ


In [116]:
print("Informacion del data frame")
df.info()

Informacion del data frame
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11295 entries, 0 to 11294
Data columns (total 17 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   CODIGO           11272 non-null  object
 1   DISTRITO         10747 non-null  object
 2   DEPARTAMENTO     11272 non-null  object
 3   MUNICIPIO        11272 non-null  object
 4   ESTABLECIMIENTO  11268 non-null  object
 5   DIRECCION        11194 non-null  object
 6   TELEFONO         10337 non-null  object
 7   SUPERVISOR       10744 non-null  object
 8   DIRECTOR         9731 non-null   object
 9   NIVEL            11272 non-null  object
 10  SECTOR           11272 non-null  object
 11  AREA             11272 non-null  object
 12  STATUS           11272 non-null  object
 13  MODALIDAD        11272 non-null  object
 14  JORNADA          11272 non-null  object
 15  PLAN             11272 non-null  object
 16  DEPARTAMENTAL    11272 non-null  object
dtypes: o

# Elminando columnas innecesarias

Revisando el set de datos, notamos que hay algunos registros dentro del set de datos que tienen muchas columnas vacías. Para evitar que estos registros luego causen problemas dentro de posibles análisis de datos, se eliminaron aquellos registros que tengan demasiadas columnas vacías.

In [117]:
import pandas as pd

# Calcular el porcentaje de valores faltantes por fila
df['porcentaje_faltante'] = df.isnull().mean(axis=1) * 100

# Filtrar registros con más del 70% de columnas vacías
umbral = 70
registros_problematicos = df[df['porcentaje_faltante'] > umbral]

print(f"\n--- Registros con más del {umbral}% de columnas vacías ---")
print(f"Cantidad total: {len(registros_problematicos)}")
print(f"Porcentaje del total: {len(registros_problematicos)/len(df)*100:.2f}%")

# Mostrar algunos ejemplos si los hay
if not registros_problematicos.empty:
    print("\nEjemplos de registros problemáticos:")
    print(registros_problematicos.head())
else:
    print("\nNo hay registros con más del 70% de columnas vacías.")


--- Registros con más del 70% de columnas vacías ---
Cantidad total: 23
Porcentaje del total: 0.20%

Ejemplos de registros problemáticos:
     CODIGO DISTRITO DEPARTAMENTO MUNICIPIO ESTABLECIMIENTO DIRECCION  \
424     NaN      NaN          NaN       NaN             NaN       NaN   
578     NaN      NaN          NaN       NaN             NaN       NaN   
1002    NaN      NaN          NaN       NaN             NaN       NaN   
1225    NaN      NaN          NaN       NaN             NaN       NaN   
3348    NaN      NaN          NaN       NaN             NaN       NaN   

     TELEFONO SUPERVISOR DIRECTOR NIVEL SECTOR AREA STATUS MODALIDAD JORNADA  \
424       NaN        NaN      NaN   NaN    NaN  NaN    NaN       NaN     NaN   
578       NaN        NaN      NaN   NaN    NaN  NaN    NaN       NaN     NaN   
1002      NaN        NaN      NaN   NaN    NaN  NaN    NaN       NaN     NaN   
1225      NaN        NaN      NaN   NaN    NaN  NaN    NaN       NaN     NaN   
3348      NaN        N

Es claro que estos registros tienen demasiada data faltante. Estos registros tienen más del 70% vacío. Es por eso que decidimos eliminar estos registros, ya que no van a proveer información relevante.

In [118]:
df_limpio = df[df['porcentaje_faltante'] <= umbral].copy()

# Cantidad de valores vacíos

In [119]:
print("Valores faltantes por columna")

df_limpio.drop('porcentaje_faltante', axis=1, inplace=True)
df_limpio.isnull().sum()

Valores faltantes por columna


CODIGO                0
DISTRITO            525
DEPARTAMENTO          0
MUNICIPIO             0
ESTABLECIMIENTO       4
DIRECCION            78
TELEFONO            935
SUPERVISOR          528
DIRECTOR           1541
NIVEL                 0
SECTOR                0
AREA                  0
STATUS                0
MODALIDAD             0
JORNADA               0
PLAN                  0
DEPARTAMENTAL         0
dtype: int64

Como se puede ver, hay distintas columnas que tienen valores vacíos aun. En todos los casos son columnas categóricas, por lo que no se puede rellenar el valor vacío mediante la inserción de datos con la media o promedio. Entonces para los valores vacíos se proponen los siguientes valores para las columnas:


* **DISTRITO**: 'DISTRITO_NO_ESPECIFICADO',
* **ESTABLECIMIENTO**: 'NOMBRE_ESTABLECIMIENTO_DESCONOCIDO',
* **DIRECCION**: 'DIRECCION_NO_REGISTRADA',
* **TELEFONO**: 'SIN_TELEFONO',
* **SUPERVISOR**: 'SUPERVISOR_NO_ESPECIFICADO',
* **DIRECTOR**: 'DIRECTOR_NO_ESPECIFICADO'

In [120]:
# Diccionario de valores de reemplazo para cada columna
valores_relleno = {
    'DISTRITO': 'DISTRITO_NO_ESPECIFICADO',
    'ESTABLECIMIENTO': 'NOMBRE_ESTABLECIMIENTO_DESCONOCIDO',
    'DIRECCION': 'DIRECCION_NO_REGISTRADA',
    'TELEFONO': 'SIN_TELEFONO',
    'SUPERVISOR': 'SUPERVISOR_NO_ESPECIFICADO',
    'DIRECTOR': 'DIRECTOR_NO_ESPECIFICADO'
}

df_limpio = df_limpio.fillna(valores_relleno)

#confirmar que funciono
print("\n--- Conteo de valores faltante ---")
df_limpio.isnull().sum()





--- Conteo de valores faltante ---


CODIGO             0
DISTRITO           0
DEPARTAMENTO       0
MUNICIPIO          0
ESTABLECIMIENTO    0
DIRECCION          0
TELEFONO           0
SUPERVISOR         0
DIRECTOR           0
NIVEL              0
SECTOR             0
AREA               0
STATUS             0
MODALIDAD          0
JORNADA            0
PLAN               0
DEPARTAMENTAL      0
dtype: int64

In [121]:
print("\n--- Conteo de valores NA ---")
df_limpio.isna().sum()


--- Conteo de valores NA ---


CODIGO             0
DISTRITO           0
DEPARTAMENTO       0
MUNICIPIO          0
ESTABLECIMIENTO    0
DIRECCION          0
TELEFONO           0
SUPERVISOR         0
DIRECTOR           0
NIVEL              0
SECTOR             0
AREA               0
STATUS             0
MODALIDAD          0
JORNADA            0
PLAN               0
DEPARTAMENTAL      0
dtype: int64

Ahora que los datos ya se encuentran sin valores vacíos, es importante normalizar algunas de las columnas. Con normalizar nos referimos a volver los valores de las cadenas todos mayusculas, o bien todo minuscula en el caso de nombres de lugares y personas. 

In [122]:
# Volver departamento, municipio, establecimiento, direccion, supervisor, director a mayuscula
columnas = ["DEPARTAMENTO", "DEPARTAMENTAL", "MUNICIPIO", "ESTABLECIMIENTO", "DIRECCION", "SUPERVISOR", "DIRECTOR"]

for columna in columnas:
    df_limpio[columna] = df_limpio[columna].str.upper()



# Normalización de número de telefono

Este cambio es un poco más complejo, ya aquí pueden habre varios casos distintos para el número de telefono. Por ejemplo que el telefono tenga un guíon. De la forma xxxx-xxxx o bien, que este separado por espacio, xxxx xxxx. Para este esperamos tener al final solo 1 número de telefono conformado por 8 números. Para conseguir esto, es necesario evaluar cuales son las variaciones que hay dentro del set de datos.

In [123]:
# 1. Crear una columna temporal limpia
df_limpio['TELEFONO_LIMPIO_TEMP'] = (
    df_limpio['TELEFONO']
    .astype(str)
    .str.replace(r'[\s-]', '', regex=True)
)

# 2. Identificar registros problemáticos
mask_problematicos = ~df_limpio['TELEFONO_LIMPIO_TEMP'].str.fullmatch(r'(\d{8}|SIN_TELEFONO)')
problemas = df_limpio[mask_problematicos].copy()

# 3. Análisis detallado
print("\n=== REPORTE DE DIAGNÓSTICO ===")
print(f"Total registros: {len(df_limpio)}")
print(f"Registros con formato problemático: {len(problemas)}")
print(f"Porcentaje problemático: {len(problemas)/len(df_limpio)*100:.2f}%")

print("\n--- Tipos de problemas encontrados ---")
problemas['TIPO_PROBLEMA'] = problemas['TELEFONO_LIMPIO_TEMP'].apply(
    lambda x: 'MULTIPLES_TELEFONOS' if ',' in x or '-' in x 
             else ('LONGITUD_INCORRECTA' if len(x) != 8 
                  else 'CARACTERES_INVALIDOS')
)

print(problemas['TIPO_PROBLEMA'].value_counts())

print("\n--- Ejemplos de cada tipo ---")
for tipo in problemas['TIPO_PROBLEMA'].unique():
    print(f"\nTipo: {tipo}")
    print(problemas[problemas['TIPO_PROBLEMA'] == tipo]['TELEFONO'].head(3).to_string(index=False))


=== REPORTE DE DIAGNÓSTICO ===
Total registros: 11272
Registros con formato problemático: 253
Porcentaje problemático: 2.24%

--- Tipos de problemas encontrados ---
TIPO_PROBLEMA
LONGITUD_INCORRECTA    219
MULTIPLES_TELEFONOS     34
Name: count, dtype: int64

--- Ejemplos de cada tipo ---

Tipo: LONGITUD_INCORRECTA
79504027-79504028
          4085613
78208583-78209143

Tipo: MULTIPLES_TELEFONOS
      25763,26725 Y 21568
     25763, 26725 Y 21568
2325732, 2320075, 2307014


Como podemos ver hay varios numeros que no cumplen con el formato incluso después de haber removido guíones y espacios en blanco. Hay instituciones con números muy cortos o número múltiples. Para eso hay que procesar la columna para que los que no cumplan con el formato sean colocados como SIN_TELEFONO y además si hay más de un número, elegir el principal.

In [124]:
# tomamos el 
def procesar_telefono(tel):
    if pd.isna(tel) or str(tel).strip() == 'nan':
        return 'SIN_TELEFONO'
    
    tel = str(tel).strip()
    
    if tel == 'SIN_TELEFONO':
        return tel
    
    # Limpieza básica
    tel = tel.replace(' ', '').replace('-', '')
    
    # Caso múltiples teléfonos (separados por comas o guiones)
    if ',' in tel:
        return tel.split(',')[0][:8]  # Tomar el primer teléfono
    elif '-' in tel and len(tel) > 8:  # Para casos como "1234-5678"
        return tel.replace('-', '')[:8]
    
    # Verificar longitud correcta
    return tel if tel.isdigit() and len(tel) == 8 else 'SIN_TELEFONO'

# transformacion al telfono
df_limpio['TELEFONO'] = df_limpio['TELEFONO'].apply(procesar_telefono)

# 3. Verificación final
print("\n=== RESULTADO FINAL ===")
print("Distribución de valores:")
print(df_limpio['TELEFONO'].value_counts(dropna=False).head())

print("\nEstadísticas:")
print(f"Teléfonos válidos (8 dígitos): {df_limpio['TELEFONO'].str.fullmatch(r'\d{8}').sum()}")
print(f"'SIN_TELEFONO': {(df_limpio['TELEFONO'] == 'SIN_TELEFONO').sum()}")
print(f"Otros formatos: {len(df_limpio[~df_limpio['TELEFONO'].isin(['SIN_TELEFONO']) & ~df_limpio['TELEFONO'].str.fullmatch(r'\d{8}', na=True)])}")


=== RESULTADO FINAL ===
Distribución de valores:
TELEFONO
SIN_TELEFONO    1154
22067425          69
22093200          14
79480009          14
77602663          13
Name: count, dtype: int64

Estadísticas:
Teléfonos válidos (8 dígitos): 10095
'SIN_TELEFONO': 1154
Otros formatos: 23


In [125]:
df_limpio.drop('TELEFONO_LIMPIO_TEMP', axis=1, inplace=True)
df_limpio.isna().sum()

CODIGO             0
DISTRITO           0
DEPARTAMENTO       0
MUNICIPIO          0
ESTABLECIMIENTO    0
DIRECCION          0
TELEFONO           0
SUPERVISOR         0
DIRECTOR           0
NIVEL              0
SECTOR             0
AREA               0
STATUS             0
MODALIDAD          0
JORNADA            0
PLAN               0
DEPARTAMENTAL      0
dtype: int64

In [126]:
df_limpio

Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,DIRECCION,TELEFONO,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL
0,16-01-0137-46,16-006,ALTA VERAPAZ,COBAN,INSTITUTO MIXTO NOCTURNO FRANCISCO MARROQUIN,6A. AVENIDA 1-15 ZONA 4,SIN_TELEFONO,JORGE EDUARDO PAQUE LÁZARO,DIRECTOR_NO_ESPECIFICADO,DIVERSIFICADO,PRIVADO,URBANA,CERRADA DEFINITIVAMENTE,MONOLINGUE,NOCTURNA,DIARIO(REGULAR),ALTA VERAPAZ
1,16-01-0138-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO COBAN,KM.2 SALIDA A SAN JUAN CHAMELCO ZONA 8,77945104,PATRICIO NAJARRO ASENCIO,GUSTAVO ADOLFO SIERRA POP,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
2,16-01-0139-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO PARTICULAR MIXTO VERAPAZ,KM 209.5 ENTRADA A LA CIUDAD,77367402,PATRICIO NAJARRO ASENCIO,GILMA DOLORES GUAY PAZ DE LEAL,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
3,16-01-0140-46,16-031,ALTA VERAPAZ,COBAN,"COLEGIO ""LA INMACULADA""",7A. AVENIDA 11-109 ZONA 6,78232301,PATRICIO NAJARRO ASENCIO,VIRGINIA SOLANO SERRANO,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
4,16-01-0141-46,16-005,ALTA VERAPAZ,COBAN,ESCUELA NACIONAL DE CIENCIAS COMERCIALES,2A CALLE 11-10 ZONA 2,79514215,NORA LILIANA FIGUEROA HERNÁNDEZ,HÉCTOR ROLANDO CHUN POOU,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11289,19-09-0902-46,19-021,ZACAPA,LA UNION,LICEO PARTICULAR MIXTO JIREH (POR MADUREZ),BARRIO NUEVO,79418369,ASBEL IVÁN SÚCHITE ARROYO,ANA MARÍA CUELLAR GUERRA,DIVERSIFICADO,PRIVADO,URBANA,CERRADA DEFINITIVAMENTE,MONOLINGUE,DOBLE,FIN DE SEMANA,ZACAPA
11290,19-10-0008-46,19-015,ZACAPA,HUITE,INSTITUTO NACIONAL DE EDUCACION DIVERSIFICADA,DIRECCION_NO_REGISTRADA,SIN_TELEFONO,SILDY MARIELA PEREZ FRANCO,DIRECTOR_NO_ESPECIFICADO,DIVERSIFICADO,OFICIAL,RURAL,CERRADA DEFINITIVAMENTE,MONOLINGUE,VESPERTINA,DIARIO(REGULAR),ZACAPA
11291,19-10-0013-46,19-015,ZACAPA,HUITE,INSTITUTO DIVERSIFICADO,BARRIO BUENOS AIRES,48579171,SILDY MARIELA PEREZ FRANCO,WUENDY JHOJANA SIERRA PAZ,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,NOCTURNA,DIARIO(REGULAR),ZACAPA
11292,19-10-1009-46,19-015,ZACAPA,HUITE,INSTITUTO DIVERSIFICADO POR COOPERATIVA,BARRIO EL CAMPO,55958103,SILDY MARIELA PEREZ FRANCO,ROBIDIO PORTILLO SALGUERO,DIVERSIFICADO,COOPERATIVA,URBANA,ABIERTA,MONOLINGUE,VESPERTINA,DIARIO(REGULAR),ZACAPA
