In [4]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import os

In [5]:
directorio = "./docs/"

In [6]:
# Initialize an empty list to hold dataframes
dataframes = []

# Recorre todos los archivos en el directorio
for filename in os.listdir(directorio):
    if filename.endswith(".csv"):
        filepath = os.path.join(directorio, filename)
        # Lee cada archivo CSV omitiendo la primera fila
        df = pd.read_csv(filepath, skiprows=1)
        # Elimina columnas "Unnamed"
        df = df.loc[:, ~df.columns.str.contains('^Unnamed')]
        # Agrega el dataframe a la lista
        dataframes.append(df)

# Concatena todos los dataframes en uno solo
combined_df = pd.concat(dataframes, ignore_index=True)

# Guarda el dataframe combinado en un nuevo archivo CSV
combined_df.to_csv('dataset.csv', index=False)

print("¡Archivos CSV combinados y limpios exitosamente!")

¡Archivos CSV combinados y limpios exitosamente!


In [7]:
df = pd.read_csv("dataset.csv")

In [8]:
df

Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,DIRECCION,TELEFONO,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL
0,16-01-0138-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO COBAN,KM.2 SALIDA A SAN JUAN CHAMELCO ZONA 8,77945104,MERCEDES JOSEFINA TORRES GALVEZ,GUSTAVO ADOLFO SIERRA POP,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
1,16-01-0139-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO PARTICULAR MIXTO VERAPAZ,KM 209.5 ENTRADA A LA CIUDAD,77367402,MERCEDES JOSEFINA TORRES GALVEZ,GILMA DOLORES GUAY PAZ DE LEAL,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
2,16-01-0140-46,16-031,ALTA VERAPAZ,COBAN,"COLEGIO ""LA INMACULADA""",7A. AVENIDA 11-109 ZONA 6,78232301,MERCEDES JOSEFINA TORRES GALVEZ,VIRGINIA SOLANO SERRANO,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
3,16-01-0141-46,16-005,ALTA VERAPAZ,COBAN,ESCUELA NACIONAL DE CIENCIAS COMERCIALES,2A CALLE 11-10 ZONA 2,79514215,RUDY ADOLFO TOT OCH,HɃTOR ROLANDO CHUN POOU,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
4,16-01-0142-46,16-005,ALTA VERAPAZ,COBAN,INSTITUTO NORMAL MIXTO DEL NORTE 'EMILIO ROSAL...,3A AVE 6-23 ZONA 11,79521468,RUDY ADOLFO TOT OCH,VICTOR HUGO DOM͎GUEZ REYES,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,BILINGUE,VESPERTINA,DIARIO(REGULAR),ALTA VERAPAZ
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9395,19-10-1009-46,19-015,ZACAPA,HUITE,INSTITUTO MIXTO DE EDUCACION DIVERSIFICADA POR...,BARRIO EL CAMPO,55958103.0,SILDY MARIELA PEREZ FRANCO,ROBIDIO PORTILLO SALGUERO,DIVERSIFICADO,COOPERATIVA,URBANA,ABIERTA,MONOLINGUE,VESPERTINA,DIARIO(REGULAR),ZACAPA
9396,19-11-0018-46,19-020,ZACAPA,SAN JORGE,INSTITUTO MIXTO DE EDUCACIӎ DIVERSIFICADA POR ...,BARRIO EL CENTRO,41447589.0,ALBA LUZ MENDEZ,VICTOR HUGO GUERRA MONROY,DIVERSIFICADO,COOPERATIVA,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ZACAPA
9397,,,,,,,,,,,,,,,,,
9398,94 Establecimientos encontrados,,,,,,,,,,,,,,,,


In [9]:
deptos = df['DEPARTAMENTO']

In [10]:
deptos = list(dict.fromkeys(deptos))
print(f"{len(deptos)} : {deptos}")

24 : ['ALTA VERAPAZ', nan, 'BAJA VERAPAZ', 'CHIMALTENANGO', 'CHIQUIMULA', 'CIUDAD CAPITAL', 'EL PROGRESO', 'ESCUINTLA', 'GUATEMALA', 'HUEHUETENANGO', 'IZABAL', 'JALAPA', 'JUTIAPA', 'PETEN', 'QUETZALTENANGO', 'QUICHE', 'RETALHULEU', 'SACATEPEQUEZ', 'SAN MARCOS', 'SANTA ROSA', 'SOLOLA', 'SUCHITEPEQUEZ', 'TOTONICAPAN', 'ZACAPA']


In [11]:
# Inicializa un diccionario para almacenar el conteo de filas de cada archivo
file_row_counts = {}

# Recorre todos los archivos en el directorio
for filename in os.listdir(directorio):
    if filename.endswith(".csv"):
        filepath = os.path.join(directorio, filename)
        # Lee cada archivo CSV omitiendo la primera fila
        df = pd.read_csv(filepath, skiprows=1)
        # Elimina columnas "Unnamed"
        df = df.loc[:, ~df.columns.str.contains('^Unnamed')]
        # Cuenta el número de filas y almacena el resultado en el diccionario
        file_row_counts[filename] = df.shape[0]

# Imprime el conteo de filas de cada archivo
for filename, row_count in file_row_counts.items():
    print(f"El archivo '{filename}' tiene {row_count} filas (excluyendo encabezados).")

print("¡Conteo de filas completado exitosamente!")

El archivo 'AltaVerapaz.csv' tiene 377 filas (excluyendo encabezados).
El archivo 'BajaVerapaz.csv' tiene 117 filas (excluyendo encabezados).
El archivo 'Chimaltenango.csv' tiene 362 filas (excluyendo encabezados).
El archivo 'Chiquimula.csv' tiene 173 filas (excluyendo encabezados).
El archivo 'CiudadCapital.csv' tiene 1567 filas (excluyendo encabezados).
El archivo 'ElProgreso.csv' tiene 128 filas (excluyendo encabezados).
El archivo 'Escuintla.csv' tiene 631 filas (excluyendo encabezados).
El archivo 'Guatemala.csv' tiene 1480 filas (excluyendo encabezados).
El archivo 'Huehuetenango.csv' tiene 519 filas (excluyendo encabezados).
El archivo 'Izabal.csv' tiene 371 filas (excluyendo encabezados).
El archivo 'Jalapa.csv' tiene 154 filas (excluyendo encabezados).
El archivo 'Jutiapa.csv' tiene 313 filas (excluyendo encabezados).
El archivo 'Peten.csv' tiene 369 filas (excluyendo encabezados).
El archivo 'Quetzaltenango.csv' tiene 494 filas (excluyendo encabezados).
El archivo 'Quiche.cs

In [14]:
import pandas as pd

data = df

# Listar las variables (columnas)
print("\nVariables en el conjunto de datos:")
print(data.columns.tolist())



Variables en el conjunto de datos:
['CODIGO', 'DISTRITO', 'DEPARTAMENTO', 'MUNICIPIO', 'ESTABLECIMIENTO', 'DIRECCION', 'TELEFONO', 'SUPERVISOR', 'DIRECTOR', 'NIVEL', 'SECTOR', 'AREA', 'STATUS', 'MODALIDAD', 'JORNADA', 'PLAN', 'DEPARTAMENTAL']
