# Limpieza de datos

In [34]:
import pandas as pd

df = pd.read_csv('../establecimientos.csv')

print("Primeros datos")
df.head()


Primeros datos


Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,DIRECCION,TELEFONO,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL
0,16-01-0137-46,16-006,ALTA VERAPAZ,COBAN,INSTITUTO MIXTO NOCTURNO FRANCISCO MARROQUIN,6A. AVENIDA 1-15 ZONA 4,,JORGE EDUARDO PAQUE LÁZARO,,DIVERSIFICADO,PRIVADO,URBANA,CERRADA DEFINITIVAMENTE,MONOLINGUE,NOCTURNA,DIARIO(REGULAR),ALTA VERAPAZ
1,16-01-0138-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO COBAN,KM.2 SALIDA A SAN JUAN CHAMELCO ZONA 8,77945104.0,PATRICIO NAJARRO ASENCIO,GUSTAVO ADOLFO SIERRA POP,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
2,16-01-0139-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO PARTICULAR MIXTO VERAPAZ,KM 209.5 ENTRADA A LA CIUDAD,77367402.0,PATRICIO NAJARRO ASENCIO,GILMA DOLORES GUAY PAZ DE LEAL,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
3,16-01-0140-46,16-031,ALTA VERAPAZ,COBAN,"COLEGIO ""LA INMACULADA""",7A. AVENIDA 11-109 ZONA 6,78232301.0,PATRICIO NAJARRO ASENCIO,VIRGINIA SOLANO SERRANO,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
4,16-01-0141-46,16-005,ALTA VERAPAZ,COBAN,ESCUELA NACIONAL DE CIENCIAS COMERCIALES,2A CALLE 11-10 ZONA 2,79514215.0,NORA LILIANA FIGUEROA HERNÁNDEZ,HÉCTOR ROLANDO CHUN POOU,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ


In [35]:
print("Informacion del data frame")
df.info()

Informacion del data frame
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11295 entries, 0 to 11294
Data columns (total 17 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   CODIGO           11272 non-null  object
 1   DISTRITO         10747 non-null  object
 2   DEPARTAMENTO     11272 non-null  object
 3   MUNICIPIO        11272 non-null  object
 4   ESTABLECIMIENTO  11268 non-null  object
 5   DIRECCION        11194 non-null  object
 6   TELEFONO         10337 non-null  object
 7   SUPERVISOR       10744 non-null  object
 8   DIRECTOR         9731 non-null   object
 9   NIVEL            11272 non-null  object
 10  SECTOR           11272 non-null  object
 11  AREA             11272 non-null  object
 12  STATUS           11272 non-null  object
 13  MODALIDAD        11272 non-null  object
 14  JORNADA          11272 non-null  object
 15  PLAN             11272 non-null  object
 16  DEPARTAMENTAL    11272 non-null  object
dtypes: o

# Elminando columnas innecesarias

Revisando el set de datos, notamos que hay algunos registros dentro del set de datos que tienen muchas columnas vacías. Para evitar que estos registros luego causen problemas dentro de posibles análisis de datos, se eliminaron aquellos registros que tengan demasiadas columnas vacías.

In [36]:
import pandas as pd

# Calcular el porcentaje de valores faltantes por fila
df['porcentaje_faltante'] = df.isnull().mean(axis=1) * 100

# Filtrar registros con más del 70% de columnas vacías
umbral = 70
registros_problematicos = df[df['porcentaje_faltante'] > umbral]

print(f"\n--- Registros con más del {umbral}% de columnas vacías ---")
print(f"Cantidad total: {len(registros_problematicos)}")
print(f"Porcentaje del total: {len(registros_problematicos)/len(df)*100:.2f}%")

# Mostrar algunos ejemplos si los hay
if not registros_problematicos.empty:
    print("\nEjemplos de registros problemáticos:")
    print(registros_problematicos.head())
else:
    print("\nNo hay registros con más del 70% de columnas vacías.")


--- Registros con más del 70% de columnas vacías ---
Cantidad total: 23
Porcentaje del total: 0.20%

Ejemplos de registros problemáticos:
     CODIGO DISTRITO DEPARTAMENTO MUNICIPIO ESTABLECIMIENTO DIRECCION  \
424     NaN      NaN          NaN       NaN             NaN       NaN   
578     NaN      NaN          NaN       NaN             NaN       NaN   
1002    NaN      NaN          NaN       NaN             NaN       NaN   
1225    NaN      NaN          NaN       NaN             NaN       NaN   
3348    NaN      NaN          NaN       NaN             NaN       NaN   

     TELEFONO SUPERVISOR DIRECTOR NIVEL SECTOR AREA STATUS MODALIDAD JORNADA  \
424       NaN        NaN      NaN   NaN    NaN  NaN    NaN       NaN     NaN   
578       NaN        NaN      NaN   NaN    NaN  NaN    NaN       NaN     NaN   
1002      NaN        NaN      NaN   NaN    NaN  NaN    NaN       NaN     NaN   
1225      NaN        NaN      NaN   NaN    NaN  NaN    NaN       NaN     NaN   
3348      NaN        N

Es claro que estos registros tienen demasiada data faltante. Estos registros tienen más del 70% vacío. Es por eso que decidimos eliminar estos registros, ya que no van a proveer información relevante.

In [37]:
df_limpio = df[df['porcentaje_faltante'] <= umbral].copy()

# Cantidad de valores vacíos

In [38]:
print("Valores faltantes por columna")

df_limpio.drop('porcentaje_faltante', axis=1, inplace=True)
df_limpio.isnull().sum()

Valores faltantes por columna


CODIGO                0
DISTRITO            525
DEPARTAMENTO          0
MUNICIPIO             0
ESTABLECIMIENTO       4
DIRECCION            78
TELEFONO            935
SUPERVISOR          528
DIRECTOR           1541
NIVEL                 0
SECTOR                0
AREA                  0
STATUS                0
MODALIDAD             0
JORNADA               0
PLAN                  0
DEPARTAMENTAL         0
dtype: int64

Como se puede ver, hay distintas columnas que tienen valores vacíos aun. En todos los casos son columnas categóricas, por lo que no se puede rellenar el valor vacío mediante la inserción de datos con la media o promedio. Entonces para los valores vacíos se proponen los siguientes valores para las columnas:


* **DISTRITO**: 'DISTRITO_NO_ESPECIFICADO',
* **ESTABLECIMIENTO**: 'NOMBRE_ESTABLECIMIENTO_DESCONOCIDO',
* **DIRECCION**: 'DIRECCION_NO_REGISTRADA',
* **TELEFONO**: 'SIN_TELEFONO',
* **SUPERVISOR**: 'SUPERVISOR_NO_ESPECIFICADO',
* **DIRECTOR**: 'DIRECTOR_NO_ESPECIFICADO'

In [None]:
# Diccionario de valores de reemplazo para cada columna
valores_relleno = {
    'DISTRITO': 'DISTRITO_NO_ESPECIFICADO',
    'ESTABLECIMIENTO': 'NOMBRE_ESTABLECIMIENTO_DESCONOCIDO',
    'DIRECCION': 'DIRECCION_NO_REGISTRADA',
    'TELEFONO': 'SIN_TELEFONO',
    'SUPERVISOR': 'SUPERVISOR_NO_ESPECIFICADO',
    'DIRECTOR': 'DIRECTOR_NO_ESPECIFICADO'
}

df_limpio = df_limpio.fillna(valores_relleno)

#confirmar que funciono
print("\n--- Conteo de valores faltante ---")
df_limpio.isnull().sum()



--- Conteo de valores faltantes después del rellenado ---


CODIGO             0
DISTRITO           0
DEPARTAMENTO       0
MUNICIPIO          0
ESTABLECIMIENTO    0
DIRECCION          0
TELEFONO           0
SUPERVISOR         0
DIRECTOR           0
NIVEL              0
SECTOR             0
AREA               0
STATUS             0
MODALIDAD          0
JORNADA            0
PLAN               0
DEPARTAMENTAL      0
dtype: int64

Ahora que los datos ya se encuentran sin valores vacíos, es importante normalizar algunas de las columnas. Con normalizar nos referimos a volver los valores de las cadenas todos mayusculas, o bien todo minuscula en el caso de nombres de lugares y personas. 

In [None]:
# Volver departamento, municipio, establecimiento, direccion, supervisor, director a mayuscula

# normalizar el numero de telefono

# direccion 