In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import os

In [2]:
directorio = "./docs/"
dataframes = []

# Recorre todos los archivos en el directorio
for filename in os.listdir(directorio):
	if filename.endswith(".csv"):
		filepath = os.path.join(directorio, filename)
		# Lee cada archivo CSV omitiendo la primera fila
		df = pd.read_csv(filepath, skiprows=1, encoding="utf-8")
		# Elimina columnas "Unnamed"
		df = df.loc[:, ~df.columns.str.contains('^Unnamed')]
		# Agrega el dataframe a la lista
		dataframes.append(df)

# Concatena todos los dataframes en uno solo
combined_df = pd.concat(dataframes, ignore_index=True)

# Guarda el dataframe combinado en un nuevo archivo CSV
combined_df.to_csv('dataset.csv', index=False, encoding="utf-8")

print("¡Archivos CSV combinados y limpios exitosamente!")

¡Archivos CSV combinados y limpios exitosamente!


In [3]:
df = pd.read_csv("dataset.csv", encoding="utf-8")
df.head(3)

Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,DIRECCION,TELEFONO,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL
0,16-01-0138-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO COBAN,KM.2 SALIDA A SAN JUAN CHAMELCO ZONA 8,77945104,MERCEDES JOSEFINA TORRES GALVEZ,GUSTAVO ADOLFO SIERRA POP,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
1,16-01-0139-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO PARTICULAR MIXTO VERAPAZ,KM 209.5 ENTRADA A LA CIUDAD,77367402,MERCEDES JOSEFINA TORRES GALVEZ,GILMA DOLORES GUAY PAZ DE LEAL,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
2,16-01-0140-46,16-031,ALTA VERAPAZ,COBAN,"COLEGIO ""LA INMACULADA""",7A. AVENIDA 11-109 ZONA 6,78232301,MERCEDES JOSEFINA TORRES GALVEZ,VIRGINIA SOLANO SERRANO,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ


In [4]:
deptos = df['DEPARTAMENTO']
deptos = list(dict.fromkeys(deptos))
print(f"{len(deptos)} : {deptos}")

24 : ['ALTA VERAPAZ', nan, 'BAJA VERAPAZ', 'CHIMALTENANGO', 'CHIQUIMULA', 'CIUDAD CAPITAL', 'EL PROGRESO', 'ESCUINTLA', 'GUATEMALA', 'HUEHUETENANGO', 'IZABAL', 'JALAPA', 'JUTIAPA', 'PETEN', 'QUETZALTENANGO', 'QUICHE', 'RETALHULEU', 'SACATEPEQUEZ', 'SAN MARCOS', 'SANTA ROSA', 'SOLOLA', 'SUCHITEPEQUEZ', 'TOTONICAPAN', 'ZACAPA']


In [5]:
# Inicializa un diccionario para almacenar el conteo de filas de cada archivo
file_row_counts = {}

# Recorre todos los archivos en el directorio
for filename in os.listdir(directorio):
	if filename.endswith(".csv"):
		filepath = os.path.join(directorio, filename)
		# Lee cada archivo CSV omitiendo la primera fila
		df = pd.read_csv(filepath, skiprows=1, encoding="utf-8")
		# Elimina columnas "Unnamed"
		df = df.loc[:, ~df.columns.str.contains('^Unnamed')]
		# Cuenta el número de filas y almacena el resultado en el diccionario
		file_row_counts[filename] = df.shape[0]

# Imprime el conteo de filas de cada archivo
for filename, row_count in file_row_counts.items():
	print(f"El archivo '{filename}' tiene {row_count} filas (excluyendo encabezados).")

print("¡Conteo de filas completado exitosamente!")

El archivo 'AltaVerapaz.csv' tiene 377 filas (excluyendo encabezados).
El archivo 'BajaVerapaz.csv' tiene 117 filas (excluyendo encabezados).
El archivo 'Chimaltenango.csv' tiene 362 filas (excluyendo encabezados).
El archivo 'Chiquimula.csv' tiene 173 filas (excluyendo encabezados).
El archivo 'CiudadCapital.csv' tiene 1567 filas (excluyendo encabezados).
El archivo 'ElProgreso.csv' tiene 128 filas (excluyendo encabezados).
El archivo 'Escuintla.csv' tiene 631 filas (excluyendo encabezados).
El archivo 'Guatemala.csv' tiene 1480 filas (excluyendo encabezados).
El archivo 'Huehuetenango.csv' tiene 519 filas (excluyendo encabezados).
El archivo 'Izabal.csv' tiene 371 filas (excluyendo encabezados).
El archivo 'Jalapa.csv' tiene 154 filas (excluyendo encabezados).
El archivo 'Jutiapa.csv' tiene 313 filas (excluyendo encabezados).
El archivo 'Peten.csv' tiene 369 filas (excluyendo encabezados).
El archivo 'Quetzaltenango.csv' tiene 494 filas (excluyendo encabezados).
El archivo 'Quiche.cs

In [6]:
data = df

# Listar las variables (columnas)
print("\nVariables en el conjunto de datos:")
print(data.columns.tolist())


Variables en el conjunto de datos:
['CODIGO', 'DISTRITO', 'DEPARTAMENTO', 'MUNICIPIO', 'ESTABLECIMIENTO', 'DIRECCION', 'TELEFONO', 'SUPERVISOR', 'DIRECTOR', 'NIVEL', 'SECTOR', 'AREA', 'STATUS', 'MODALIDAD', 'JORNADA', 'PLAN', 'DEPARTAMENTAL']


In [7]:
file_path = './dataset.csv'
data = pd.read_csv(file_path, encoding="utf-8")

# Listar las variables (columnas)
variables = data.columns.tolist()

# Identificar las variables con mayor cantidad de valores nulos
null_counts = data.isnull().sum().sort_values(ascending=False)

# Seleccionar las variables con más de un cierto umbral de valores nulos (por ejemplo, más del 10% de valores nulos)
threshold = 0.1
variables_con_muchos_nulos = null_counts[null_counts > threshold * len(data)].index.tolist()
object_columns = data.select_dtypes(include=['object']).columns.tolist()

# Filtrar las variables de tipo object con muchos nulos
object_columns_con_muchos_nulos = [col for col in object_columns if col in variables_con_muchos_nulos]
variables_necesitan_limpieza = list(set(variables_con_muchos_nulos + object_columns))

print("\nVariables en el conjunto de datos:")
print(variables)

print("\nCantidad de valores nulos por columna:")
print(null_counts)

print("\nVariables con más del 10% de valores nulos:")
print(variables_con_muchos_nulos)
print("\nVariables de tipo object que podrían necesitar limpieza:")
print(object_columns)

print("\nVariables de tipo object con muchos nulos:")
print(object_columns_con_muchos_nulos)
print("\nVariables que más operaciones de limpieza necesitarán:")
print(variables_necesitan_limpieza)


Variables en el conjunto de datos:
['CODIGO', 'DISTRITO', 'DEPARTAMENTO', 'MUNICIPIO', 'ESTABLECIMIENTO', 'DIRECCION', 'TELEFONO', 'SUPERVISOR', 'DIRECTOR', 'NIVEL', 'SECTOR', 'AREA', 'STATUS', 'MODALIDAD', 'JORNADA', 'PLAN', 'DEPARTAMENTAL']

Cantidad de valores nulos por columna:
DIRECTOR           966
TELEFONO           608
SUPERVISOR         278
DISTRITO           277
DIRECCION          120
AREA                69
PLAN                69
JORNADA             69
MODALIDAD           69
STATUS              69
DEPARTAMENTAL       69
SECTOR              69
NIVEL               69
ESTABLECIMIENTO     69
MUNICIPIO           69
DEPARTAMENTO        69
CODIGO              23
dtype: int64

Variables con más del 10% de valores nulos:
['DIRECTOR']

Variables de tipo object que podrían necesitar limpieza:
['CODIGO', 'DISTRITO', 'DEPARTAMENTO', 'MUNICIPIO', 'ESTABLECIMIENTO', 'DIRECCION', 'TELEFONO', 'SUPERVISOR', 'DIRECTOR', 'NIVEL', 'SECTOR', 'AREA', 'STATUS', 'MODALIDAD', 'JORNADA', 'PLAN', 'DEPA

Limpiar variables determinadas


In [8]:
data = df

columns_to_upper = ['ESTABLECIMIENTO', 'DIRECCION', 'SUPERVISOR', 'DIRECTOR', 'DISTRITO', 'CODIGO', 'DEPARTAMENTO', 'MUNICIPIO']
for column in columns_to_upper:
	data[column] = data[column].str.upper()
data = data.drop_duplicates()

data['DIRECCION'] = data['DIRECCION'].str.replace('AV ', 'AVENIDA ')
columns_to_strip = ['DIRECCION', 'SUPERVISOR', 'DIRECTOR', 'ESTABLECIMIENTO', 'DISTRITO', 'CODIGO', 'DEPARTAMENTO', 'MUNICIPIO']
for column in columns_to_strip:
	data[column] = data[column].str.strip()

data['CODIGO']          = data['CODIGO']         .fillna('DESCONOCIDO')
data['DISTRITO']        = data['DISTRITO']       .fillna('DESCONOCIDO')
data['DEPARTAMENTO']    = data['DEPARTAMENTO']   .fillna('DESCONOCIDO')
data['MUNICIPIO']       = data['MUNICIPIO']      .fillna('DESCONOCIDO')
data['ESTABLECIMIENTO'] = data['ESTABLECIMIENTO'].fillna('DESCONOCIDO')
data['DIRECCION']       = data['DIRECCION']      .fillna('DESCONOCIDO')
data['TELEFONO']        = data['TELEFONO']       .fillna('00000000')
data['SUPERVISOR']      = data['SUPERVISOR']     .fillna('DESCONOCIDO')
data['DIRECTOR']        = data['DIRECTOR']       .fillna('DESCONOCIDO')
data['NIVEL']           = data['NIVEL']          .fillna('DESCONOCIDO')
data['SECTOR']          = data['SECTOR']         .fillna('DESCONOCIDO')
data['AREA']            = data['AREA']           .fillna('DESCONOCIDO')
data['STATUS']          = data['STATUS']         .fillna('DESCONOCIDO')
data['MODALIDAD']       = data['MODALIDAD']      .fillna('DESCONOCIDO')
data['JORNADA']         = data['JORNADA']        .fillna('DESCONOCIDO')
data['PLAN']            = data['PLAN']           .fillna('DESCONOCIDO')
data['DEPARTAMENTAL']   = data['DEPARTAMENTAL']  .fillna('DESCONOCIDO')

data['TELEFONO'] = data['TELEFONO'].astype(str)
data['TELEFONO'] = data['TELEFONO'].str.replace(r'\D', '', regex=True)
data['TELEFONO'] = data['TELEFONO'].apply(lambda x: x if len(x) == 8 else '00000000')
data['CODIGO'] = data['CODIGO'].apply(lambda x: x if len(x.split('-')) == 4 else 'DESCONOCIDO')

cleaned_file_path = 'dataset_limpio.csv'
data.to_csv(cleaned_file_path, index=False, encoding="utf-8")

print("Primeras filas del conjunto de datos limpio:")
print(data.head())
print("¡Conjunto de datos limpiado y guardado exitosamente!")

Primeras filas del conjunto de datos limpio:
          CODIGO     DISTRITO DEPARTAMENTO MUNICIPIO  \
0  19-01-0078-46       19-001       ZACAPA    ZACAPA   
1  19-01-0079-46       19-001       ZACAPA    ZACAPA   
2  19-01-0082-46       99-001       ZACAPA    ZACAPA   
3  19-01-0083-46  DESCONOCIDO       ZACAPA    ZACAPA   
4  19-01-0084-46       19-001       ZACAPA    ZACAPA   

                                     ESTABLECIMIENTO  \
0  INSTITUTO DIVERSIFICADO ADSCRITO AL INSTITUTO ...   
1  ESCUELA NACIONAL DE CIENCIAS COMERCIALES MIXTA...   
2  INSTITUTO PRIVADO MIXTO DE EDUCACION DIVERSIFI...   
3  INSTITUTO PRIVADO MIXTO DE EDUCACION DIVERSIFI...   
4                INSTITUTO ADOLFO V. HALL DE ORIENTE   

                                           DIRECCION  TELEFONO  \
0  7A. AVENIDA "A" FINAL Y 9A. CALLE ZONA 2 BARRI...  00000000   
1         4A. CALLE 16-10 ZONA 1. BARRIO EL CALVARIO  00000000   
2                                  BARRIO LAS FLORES  00000000   
3                

In [20]:
import pandas as pd

# Cargar el archivo original
data = pd.read_csv('dataset.csv', encoding='utf-8')

# Eliminar duplicados solo si las columnas clave son exactamente iguales
data = data.drop_duplicates(subset=['ESTABLECIMIENTO', 'DIRECCION', 'TELEFONO'])

# Normalizar texto en mayúsculas y eliminar espacios en blanco

for column in data.select_dtypes(include=['object']).columns:
    data[column] = data[column].str.upper().str.strip()

# Corregir y estandarizar las direcciones
data['DIRECCION'] = data['DIRECCION'].str.replace('AV ', 'AVENIDA ')

# Manejar valores faltantes de manera conservadora
data['CODIGO'].fillna('DESCONOCIDO', inplace=True)
data['DISTRITO'].fillna('DESCONOCIDO', inplace=True)
data['DEPARTAMENTO'].fillna('DESCONOCIDO', inplace=True)
data['MUNICIPIO'].fillna('DESCONOCIDO', inplace=True)
data['ESTABLECIMIENTO'].fillna('DESCONOCIDO', inplace=True)
data['DIRECCION'].fillna('DESCONOCIDO', inplace=True)
data['TELEFONO'].fillna('00000000', inplace=True)
data['SUPERVISOR'].fillna('DESCONOCIDO', inplace=True)
data['DIRECTOR'].fillna('DESCONOCIDO', inplace=True)
data['NIVEL'].fillna('DESCONOCIDO', inplace=True)
data['SECTOR'].fillna('DESCONOCIDO', inplace=True)
data['AREA'].fillna('DESCONOCIDO', inplace=True)
data['STATUS'].fillna('DESCONOCIDO', inplace=True)
data['MODALIDAD'].fillna('DESCONOCIDO', inplace=True)
data['JORNADA'].fillna('DESCONOCIDO', inplace=True)
data['PLAN'].fillna('DESCONOCIDO', inplace=True)
data['DEPARTAMENTAL'].fillna('DESCONOCIDO', inplace=True)

# Validar el formato del teléfono y corregir si es necesario
data['TELEFONO'] = data['TELEFONO'].astype(str).str.replace(r'\D', '', regex=True)
data['TELEFONO'] = data['TELEFONO'].apply(lambda x: x if len(x) == 8 else '00000000')

# Validar el formato de los códigos y corregir si es necesario
data['CODIGO'] = data['CODIGO'].apply(lambda x: x if len(x.split('-')) == 4 else 'DESCONOCIDO')

# Guardar el conjunto de datos limpio
data.to_csv('dataset_limpio_corregido.csv', index=False, encoding="utf-8")

# Mostrar el tamaño final del dataset
print(f"Tamaño final del dataset limpio: {data.shape[0]}")

Tamaño final del dataset limpio: 7902


In [17]:
# Mostrar los nombres de las columnas
print(data.columns)


Index(['CODIGO', 'DISTRITO', 'DEPARTAMENTO', 'MUNICIPIO', 'ESTABLECIMIENTO',
       'DIRECCION', 'TELEFONO', 'SUPERVISOR', 'DIRECTOR', 'NIVEL', 'SECTOR',
       'AREA', 'STATUS', 'MODALIDAD', 'JORNADA', 'PLAN', 'DEPARTAMENTAL'],
      dtype='object')
