In [1]:
import pandas as pd
import os

departamentos = ['ALTA VERAPAZ','BAJA VERAPAZ','CHIMALTENANGO','CHIQUIMULA','CIUDAD CAPITAL','EL PROGRESO','ESCUINTLA', 'HUEHUETENANGO', 'IZABAL','JALAPA','JUTIAPA','PETEN','QUETZALTENANGO','QUICHE','RETALHULEU','SACATEPEQUEZ','SAN MARCOS','SANTA ROSA','SOLOLA','SUCHITEPEQUEZ','TOTONICAPAN','ZACAPA']
# Define the function to clean the data
def clean_data(df):
    # Drop NA column
    df = df.drop(columns=['NA'])
    # Filter rows where NIVEL == 'DIVERSIFICADO'
    df = df[df['NIVEL'] == 'DIVERSIFICADO']
    # Ifnormacion de datatypes y Missing Values
    print(df.info())

    # Numero de rows, columns
    num_rows,num_cols = df.shape
    print(f'Numero de filas: {num_rows}')
    print(f'Numero de columnas: {num_cols}')
    


    missing_values = df.isnull().sum()
    print(f'VALORES NULOS:\n {missing_values}')

    
    return df


In [2]:
# Initialize an empty dataframe to store the cleaned data
df_cleaned = pd.DataFrame()

# Path to the directory containing the data
data_dir = './data'

# Iterate over the departments
for department in departamentos:
    # Define the path to the csv file
    csv_path = os.path.join(data_dir, f'{department}.csv')
    
    # Load the data
    df = pd.read_csv(csv_path)
    
    # Clean the data
    print(f'--------------Cleaning data from {department}---------------')
    df = clean_data(df)
    
    # Append the cleaned data to df_cleaned
    df_cleaned = pd.concat([df_cleaned, df])

# Save the cleaned data to a csv file
df_cleaned.to_csv('./data/DIVERSIFICADOS.csv', index=False)

'/mnt/data/DIVERSIFICADOS.csv'

--------------Cleaning data from ALTA VERAPAZ---------------
<class 'pandas.core.frame.DataFrame'>
Index: 348 entries, 125 to 6486
Data columns (total 17 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   CODIGO           348 non-null    object
 1   DISTRITO         346 non-null    object
 2   DEPARTAMENTO     348 non-null    object
 3   MUNICIPIO        348 non-null    object
 4   ESTABLECIMIENTO  348 non-null    object
 5   DIRECCION        346 non-null    object
 6   TELEFONO         328 non-null    object
 7   SUPERVISOR       346 non-null    object
 8   DIRECTOR         300 non-null    object
 9   NIVEL            348 non-null    object
 10  SECTOR           348 non-null    object
 11  AREA             348 non-null    object
 12  STATUS           348 non-null    object
 13  MODALIDAD        348 non-null    object
 14  JORNADA          348 non-null    object
 15  PLAN             348 non-null    object
 16  DEPARTAMENTAL    348 

'/mnt/data/DIVERSIFICADOS.csv'

In [3]:
df_cleaned.head()

Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,DIRECCION,TELEFONO,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL
125,16-01-0138-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO COBAN,KM.2 SALIDA A SAN JUAN CHAMELCO ZONA 8,77945104,MERCEDES JOSEFINA TORRES GALVEZ,JULIO CESAR VILLELA AMADO,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
127,16-01-0139-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO PARTICULAR MIXTO VERAPAZ,KM 209.5 ENTRADA A LA CIUDAD,77367402,MERCEDES JOSEFINA TORRES GALVEZ,---,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
129,16-01-0140-46,16-031,ALTA VERAPAZ,COBAN,"COLEGIO ""LA INMACULADA""",7A. AVENIDA 11-109 ZONA 6,78232301,MERCEDES JOSEFINA TORRES GALVEZ,VIRGINA SOLANO SERRANO,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
130,16-01-0141-46,16-005,ALTA VERAPAZ,COBAN,ESCUELA NACIONAL DE CIENCIAS COMERCIALES,2A CALLE 11-10 ZONA 2,79514215,RUDY ADOLFO TOT OCH,,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
131,16-01-0142-46,16-005,ALTA VERAPAZ,COBAN,INSTITUTO NORMAL MIXTO DEL NORTE 'EMILIO ROSAL...,3A AVE 6-23 ZONA 11,79521468,RUDY ADOLFO TOT OCH,,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,BILINGUE,VESPERTINA,DIARIO(REGULAR),ALTA VERAPAZ


In [4]:
## Limpiar NAs porque existen datos con guines en evz de NAs
# Load the 'DIVERSIFICADOS' data
df_diversificados = pd.read_csv('./data/DIVERSIFICADOS.csv')

# Replace the specified patterns and empty strings with NaN
df_diversificados.replace(['---------------------------- ----------------------------------','----------------------------', '----------------------------------',
                           ',--------,', ',-------,', ',------,', ',----,', ',---,', ',--,',
                           '', ' ', '---', 'NaN', 'nan', 'None', 'none', 'null', 'Null', 'NULL','<NA>'], 
                          pd.NA, inplace=True)

df_diversificados['DIRECTOR'] = df_diversificados['DIRECTOR'].astype('object')
# Convert 'NaN' in 'DIRECTOR' column to 'NA'
df_diversificados['DIRECTOR'] = df_diversificados['DIRECTOR'].replace(['NaN'], pd.NA)

# Display the first few rows of the dataframe after the replacement
df_diversificados.head()

Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,DIRECCION,TELEFONO,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL
0,16-01-0138-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO COBAN,KM.2 SALIDA A SAN JUAN CHAMELCO ZONA 8,77945104,MERCEDES JOSEFINA TORRES GALVEZ,JULIO CESAR VILLELA AMADO,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
1,16-01-0139-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO PARTICULAR MIXTO VERAPAZ,KM 209.5 ENTRADA A LA CIUDAD,77367402,MERCEDES JOSEFINA TORRES GALVEZ,,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
2,16-01-0140-46,16-031,ALTA VERAPAZ,COBAN,"COLEGIO ""LA INMACULADA""",7A. AVENIDA 11-109 ZONA 6,78232301,MERCEDES JOSEFINA TORRES GALVEZ,VIRGINA SOLANO SERRANO,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
3,16-01-0141-46,16-005,ALTA VERAPAZ,COBAN,ESCUELA NACIONAL DE CIENCIAS COMERCIALES,2A CALLE 11-10 ZONA 2,79514215,RUDY ADOLFO TOT OCH,,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
4,16-01-0142-46,16-005,ALTA VERAPAZ,COBAN,INSTITUTO NORMAL MIXTO DEL NORTE 'EMILIO ROSAL...,3A AVE 6-23 ZONA 11,79521468,RUDY ADOLFO TOT OCH,,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,BILINGUE,VESPERTINA,DIARIO(REGULAR),ALTA VERAPAZ


In [7]:
print(df_diversificados.info())

# Numero de rows, columns
num_rows,num_cols = df_diversificados.shape
print(f'Numero de filas: {num_rows}')
print(f'Numero de columnas: {num_cols}')



missing_values = df_diversificados.isnull().sum()
# print(f'VALORES NULOS:\n {missing_values}')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7704 entries, 0 to 7703
Data columns (total 17 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   CODIGO           7704 non-null   object
 1   DISTRITO         7549 non-null   object
 2   DEPARTAMENTO     7704 non-null   object
 3   MUNICIPIO        7704 non-null   object
 4   ESTABLECIMIENTO  7704 non-null   object
 5   DIRECCION        7655 non-null   object
 6   TELEFONO         7239 non-null   object
 7   SUPERVISOR       7546 non-null   object
 8   DIRECTOR         6413 non-null   object
 9   NIVEL            7704 non-null   object
 10  SECTOR           7704 non-null   object
 11  AREA             7704 non-null   object
 12  STATUS           7704 non-null   object
 13  MODALIDAD        7704 non-null   object
 14  JORNADA          7704 non-null   object
 15  PLAN             7704 non-null   object
 16  DEPARTAMENTAL    7704 non-null   object
dtypes: object(17)
memory usage: 1023.

In [6]:
 ## Guardar en CSV  
df_diversificados.to_csv("./data/DIVERSIFICADOS.csv", index=False)