In [21]:
import pandas as pd
import unicodedata

In [37]:
# Lista de archivos CSV
files = [
    'altaverapaz.csv', 'guatemala.csv', 'quetzaltenango.csv', 'solola.csv',
    'baja_verapaz.csv', 'huehuetenango.csv', 'quiche.csv', 'suchitepequez.csv',
    'capital.csv', 'izabal.csv', 'retalhuleu.csv', 'totonicapan.csv',
    'chimaltenango.csv', 'jalapa.csv', 'sacatepequez.csv', 'zacapa.csv',
    'chiquimula.csv', 'jutiapa.csv', 'san_marcos.csv',
    'escuintla.csv', 'peten.csv', 'santa_rosa.csv'
]

# Leer y concatenar todos los archivos, omitiendo la primera fila y las dos últimas filas
dataframes = []
for file in files:
    combined_df = pd.read_csv(f'./data_csv/{file}', sep=';', skiprows=1, encoding='utf-8')
    # Calcular el número de filas a leer
    nrows = len(combined_df) - 2
    combined_df = combined_df.head(nrows)
    dataframes.append(combined_df)

combined_df = pd.concat(dataframes, ignore_index=True)


In [48]:
combined_df.head()

Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,DIRECCION,TELEFONO,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL
0,16-01-0138-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO COBAN,KM 2 SALIDA A SAN JUAN CHAMELCO ZONA 8,77945104,MERCEDES JOSEFINA TORRES GALVEZ,GUSTAVO ADOLFO SIERRA POP,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
1,16-01-0139-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO PARTICULAR MIXTO VERAPAZ,KM 209.5 ENTRADA A LA CIUDAD,77367402,MERCEDES JOSEFINA TORRES GALVEZ,GILMA DOLORES GUAY PAZ DE LEAL,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
2,16-01-0140-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO LA INMACULADA,SEPTIMA. AVENIDA 11-109 ZONA 6,78232301,MERCEDES JOSEFINA TORRES GALVEZ,VIRGINIA SOLANO SERRANO,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
3,16-01-0141-46,16-005,ALTA VERAPAZ,COBAN,ESCUELA NACIONAL DE CIENCIAS COMERCIALES,SEGUNDA CALLE 11-10 ZONA 2,79514215,RUDY ADOLFO TOT OCH,HɃTOR ROLANDO CHUN POOU,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
4,16-01-0142-46,16-005,ALTA VERAPAZ,COBAN,INSTITUTO NORMAL MIXTO DEL NORTE EMILIO ROSALE...,TERCERA AVENIDA 6-23 ZONA 11,79521468,RUDY ADOLFO TOT OCH,VICTOR HUGO DOM͎GUEZ REYES,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,BILINGUE,VESPERTINA,DIARIO(REGULAR),ALTA VERAPAZ


## Limpieza de datos

Convertir todos los datos a mayúsculas

In [24]:
# Convertir todos los valores a mayus

combined_df.columns = combined_df.columns.str.upper()

Eliminar tildes y caracteres especiales

In [25]:
# Función para eliminar tildes
def quitar_tildes(s):
    if isinstance(s, str):
        return ''.join(
            c for c in unicodedata.normalize('NFD', s)
            if unicodedata.category(c) != 'Mn'
        )
    return s

# Aplicar la función a todo el DataFrame
combined_df = combined_df.applymap(quitar_tildes)

  combined_df = combined_df.applymap(quitar_tildes)


Reemplazar abreviaciones de avenida, calle o números ordinales

In [38]:
ordinal_replacements = {
    r'\b[Aa][Vv][Ee]?\.?\b': 'AVENIDA',
    r'\b[Cc][Aa]\b': 'CALLE',
    r'\bKM.\b': 'KM ',
    r'\b1ERO\.?\b': 'PRIMERO',
    r'\b1ER\.?\b': 'PRIMER',
    r'\b1[aA]\.?\b|\b1ERA\.?\b': 'PRIMERA',
    r'\b2[dD]?A\.?\b': 'SEGUNDA',
    r'\b3[rR]?[aA]\.?\b': 'TERCERA',
    r'\b4[tT]?[aA]\.?\b': 'CUARTA',
    r'\b5[tT]?[aA]\.?\b': 'QUINTA',
    r'\b6[tT]?[aA]\.?\b': 'SEXTA',
    r'\b7[mM]?[aA]\.?\b': 'SEPTIMA',
    r'\b8[vV]?[aA]\.?\b': 'OCTAVA',
    r'\b9[nN]?[aA]\.?\b': 'NOVENA',
    r'\b10[mM]?[aA]\.?\b': 'DÉCIMA',
}

# Reemplazar patrones con las palabras correspondientes
for pattern, replacement in ordinal_replacements.items():
    combined_df['DIRECCION'] = combined_df['DIRECCION'].replace(
        to_replace=pattern,
        value=replacement,
        regex=True
    )



Eliminar comillas y separadores de datos

In [44]:
combined_df = combined_df.replace({"'": "", '"': "", ";":""}, regex=True)

In [45]:
combined_df.head(10)

Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,DIRECCION,TELEFONO,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL
0,16-01-0138-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO COBAN,KM 2 SALIDA A SAN JUAN CHAMELCO ZONA 8,77945104.0,MERCEDES JOSEFINA TORRES GALVEZ,GUSTAVO ADOLFO SIERRA POP,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
1,16-01-0139-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO PARTICULAR MIXTO VERAPAZ,KM 209.5 ENTRADA A LA CIUDAD,77367402.0,MERCEDES JOSEFINA TORRES GALVEZ,GILMA DOLORES GUAY PAZ DE LEAL,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
2,16-01-0140-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO LA INMACULADA,SEPTIMA. AVENIDA 11-109 ZONA 6,78232301.0,MERCEDES JOSEFINA TORRES GALVEZ,VIRGINIA SOLANO SERRANO,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
3,16-01-0141-46,16-005,ALTA VERAPAZ,COBAN,ESCUELA NACIONAL DE CIENCIAS COMERCIALES,SEGUNDA CALLE 11-10 ZONA 2,79514215.0,RUDY ADOLFO TOT OCH,HɃTOR ROLANDO CHUN POOU,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
4,16-01-0142-46,16-005,ALTA VERAPAZ,COBAN,INSTITUTO NORMAL MIXTO DEL NORTE EMILIO ROSALE...,TERCERA AVENIDA 6-23 ZONA 11,79521468.0,RUDY ADOLFO TOT OCH,VICTOR HUGO DOM͎GUEZ REYES,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,BILINGUE,VESPERTINA,DIARIO(REGULAR),ALTA VERAPAZ
5,16-01-0143-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO PARTICULAR MIXTO IMPERIAL,QUINTA. CALLE 1-9 ZONA 3,57101061.0,MERCEDES JOSEFINA TORRES GALVEZ,HɃTOR WALDEMAR TOT COY,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,DOBLE,FIN DE SEMANA,ALTA VERAPAZ
6,16-01-0145-46,16-006,ALTA VERAPAZ,COBAN,INSTITUTO DE TURSMO Y AVIACON DEL NORTE I.T.A.N,3 AVENIDA. 5-28 ZONA 4,54641454.0,EFRAIN CAAL CUC,LUIS FERNANDO SOTO,DIVERSIFICADO,PRIVADO,URBANA,CERRADA TEMPORALMENTE,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
7,16-01-0147-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO LA INMACULADA,SEPTIMA. CALLE 11-09 ZONA 6 COBAN,49532425.0,MERCEDES JOSEFINA TORRES GALVEZ,ROSA MAŔ ZAMORA GONZLEZ,DIVERSIFICADO,PRIVADO,RURAL,CERRADA TEMPORALMENTE,MONOLINGUE,DOBLE,DIARIO(REGULAR),ALTA VERAPAZ
8,16-01-0150-46,16-006,ALTA VERAPAZ,COBAN,INSTITUTO INTERCULTRUAL ALTAVERAPACENCESE -IIAV-,TERCERA. AVAENIDA 1-23 ZONA 4,,EFRAIN CAAL CUC,GUILLERMO ESTUARDO VASQUEZ MORALES,DIVERSIFICADO,PRIVADO,URBANA,CERRADA TEMPORALMENTE,BILINGUE,DOBLE,FIN DE SEMANA,ALTA VERAPAZ
9,16-01-0155-46,16-031,ALTA VERAPAZ,COBAN,LICEO MODERNO LATINO,11 AVENIDA 5-17 ZONA 4,79522555.0,MERCEDES JOSEFINA TORRES GALVEZ,HɃTOR ARMANDO TEYUL CHEN,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,DOBLE,FIN DE SEMANA,ALTA VERAPAZ


## Exportar a csv

In [47]:
combined_df.to_csv('education_data_output.csv', sep=";", encoding="utf-8", index=False)