# Primera entrega
Luis Montenegro - 21699<br>
Javier Prado - 21486<br>
Bryan España<br>
Ángel Herrarte<br>


## Limpieza de datos
En esta entrega se hará una recolección y limpieza de datos solamente. No habrá modelado ni análisis. 
<br>Solamente velar por la integridad, coherencia y cohesión del conjunto de datos.facilidad de manejo.

In [None]:
# !pip install -r requirements.txt

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.2 -> 25.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip
ERROR: Could not open requirements file: [Errno 2] No such file or directory: 'requirements.txt'


In [1]:
import numpy as np
import pandas as pd
import os
from tqdm import tqdm

### Conversión de .xls a .csv

Debido a que los archivos crudos descargados desde la página del Mineduc vienen en formato .xls formateado como .html tenemos que hacer cambio de eso.<br>
Esto por múltiples razones:
- Mejorar la estructura de los datos.
- Preservar solamente la información requerida (los .xls almaceban más páginas e información irrelevante)
- Mayor falicidad de usar y obtener los datos si están en formato delimitado por comas.
- Tener datos más ligeros ya que no acarreamos con mucha información innecesaria. 

In [2]:
def transform_html_to_csv(input_path: str, output_path: str=None, tables_to_convert: list[int] = [9]) -> None:
    '''
    Turns .html files into .csv files

    Params:
        input_path: where the .html files are stored
        output_path: where the .csv will be stored
    Returns:
        out: None
    '''
    if output_path is None:
        output_path = input_path 
    else:
        os.makedirs(output_path, exist_ok=True)

    for filename in tqdm(os.listdir(input_path), desc='Converting Files'):
        if filename.endswith('.xls'):
            html_path:str = os.path.join(input_path, filename)
            base_name:str = os.path.splitext(filename)[0]
            # try to read the excel and copy it into a .csv file
            try: 
                tables:list[pd.DataFrame] = pd.read_html(html_path)
                # if no tables, skip
                if not tables:
                    print(f"No tables found in '{filename}'")
                    continue

                # convert each of the tables selected to .csv
                for i, df in enumerate(tables):
                    if i in tables_to_convert:
                        csv_filename = f"{base_name}_table{i}.csv"
                        csv_path = os.path.join(output_path, csv_filename)
                        df.to_csv(csv_path, index=False)
                        print(f"Converted '{filename}' to '{csv_filename}'") # print all of the transformations of the .xls to its respective .csv files
                    
            except Exception as e:
                print(f"Error processing file '{filename}' : {e}")

def remove_files(path: str, extension: str) -> None:
    '''
    Removes all files that have a certain extension
    Input:
        path: folder path where .xls to be removed are stored
    '''
    file_list: list[str] = os.listdir(path)
    if not file_list:
        print(f"No files removed since there was none found: '{path}'")
        return

    for filename in file_list:
    
        if filename.endswith(extension):
            try:
                xls_path = os.path.join(path, filename)
                os.remove(xls_path)
            except Exception as e:
                print(f"Error removing file '{filename}' : {e}")


In [3]:
# start by turning .xls files to .csv files
transform_html_to_csv(input_path="../Dataset_raw", output_path="../Dataset_cleaned", tables_to_convert=[9])

Converting Files: 0it [00:00, ?it/s]


In [4]:
# remove .xls files if necessary
remove_files(path="../Dataset_raw", extension='.xls')

No files removed since there was none found: '../Dataset_raw'


### Plan para limpieza de datos
Posteriormente a la transformación de formato y filtración a solo datos crudos de nuestro interés, procederemos a limpiar los datos en sí. <br>
1. Verificaremos si existe datos NA o Null en los archivos. Llenaremos los datos faltantes con datos artificiales ya que no podemos eliminar ningún registro <br>
debido a que si eliminamos alguno, sería una sede faltante. Cosa que afectaría de gran manera el conjunto de datos.
2. Homogenizaremos la información. Es decir, que todos los archivos tengan el mismo formato i.e. todos los nombres estén escritos igual, los apellidos que tienen tildes se escriban igual en cada archivo,
que las palabras vengan o solo en mayúsculas, solo en minúsculas, etc.
3. Identificaremos las columnas que más trabajo de reajuste necesiten.
- Nombres (Supervisor, Director, Establecimiento, Sector): debido a que puede que exista apellidos iguales pero escritos distinto y eso genere problemas a la hora de verlos. Digamos, puede que Hernández aparezca con tilde en unos registros y en otros no. También es bueno verificar que estén escritos todos o en mayúsculas o en minúsculas (o todos iguales), ya que digamos, si tenemos Santa rosa en un registro y Santa Rosa en otro, a la hora de hacer un encoding estos resultarán con dos valores distintos. 
- Dirección: Asegurarnos que las direcciones lleven una estructura similar.
- Códigos: Verificar que los códigos de los registros sean únicos y evitar tener repetidos.



El conjunto de datos corresponde a los establecimientos educativos de Guatemala que llegan hasta el nivel diversificado. Está organizado en 85 archivos CSV, uno por cada departamento y municipio del país.

Cada archivo contiene información detallada de cada establecimiento, como el nombre del centro, su ubicación, datos de contacto, modalidad de enseñanza y otros datos administrativos.


Los archivos csv estan clasificados por departamentos de Guatemala. Las variables que contiene esta dataset son las siguientes sumando un total de 17 variables a analizar.

- CODIGO: código único del establecimiento

- DISTRITO: distrito educativo

- DEPARTAMENTO: nombre del departamento

- MUNICIPIO: municipio donde se ubica

- ESTABLECIMIENTO: nombre del centro educativo

- DIRECCION: dirección física

- TELEFONO: número de contacto

- SUPERVISOR: nombre del supervisor

- DIRECTOR: nombre del director

- NIVEL: nivel educativo (ej. Básico, Diversificado)

- SECTOR: sector oficial o privado

- AREA: área urbana o rural

- STATUS: estado del centro (ej. Abierta)

- MODALIDAD: modalidad lingüística (ej. Monolingüe, Bilingüe)

- JORNADA: jornada de estudio (ej. Matutina, Vespertina)

- PLAN: plan educativo (ej. Diario, Fin de semana)

- DEPARTAMENTAL: nombre del departamento de adscripción

### Encontrar Null o NA en cualesquiera archivos
Comenzaremos viendo si existe cualesquiera archivos con datos faltantes.

In [None]:
dataset_path: str = "../Dataset_cleaned" # define folder path as a variable for easier handling
report_path: str = "../Data_null_report"

def get_null_stats(path:str) -> None:
        '''
        Prints the columns with most null counts and the files with most nulls
        '''
        df: pd.DataFrame = pd.read_csv(path)
        print("\n Top columns with the most nulls:")
        top_columns = df.groupby('column')['nulls'].sum().sort_values(ascending=False).head(10)
        print(top_columns)

        print("\n Files with the most nulls:")
        top_files = df.groupby('file_name')['nulls'].sum().sort_values(ascending=False).head(10)
        print(top_files)

def count_null_instances(path:str, report_name:str = "null_report.csv") -> None:
    '''
    Counts how many missing instances are found per column per .csv and saves it into a .csv
    '''
    files: list[str] = os.listdir(path=path)
    report_file: str = os.path.join(report_path, report_name)
    os.makedirs(name=report_path, exist_ok=True) # make a new directory to save this information
    data:list[dict] = []
    for file in tqdm(files, desc="Counting nulls.."):
        file_path:str = os.path.join(path, file)
        try:
            df: pd.DataFrame = pd.read_csv(file_path, header=1) # read second line as header, first one are just integers
            null_counts = df.isnull().sum() # register nulls found in the df per column
            for col, count in null_counts.items():
                data.append({
                    "file_name": file,
                    "column": col,
                    "nulls": count
                })
        
        except Exception as e:
            print(f"Error processing {file} : {e}")
    
    report_df: pd.DataFrame = pd.DataFrame(data=data)
    report_df.to_csv(report_file, index=False) # not necessary to save it as a .csv



In [None]:
count_null_instances(path=dataset_path) # count nulls found per column in each .csv

Counting nulls..: 100%|██████████| 85/85 [00:00<00:00, 222.65it/s]


In [19]:
get_null_stats(path="../Data_null_report/null_report.csv")


 Top columns with the most nulls:
column
TELEFONO           4404
DIRECTOR            200
DIRECCION           107
PLAN                 84
CODIGO               84
AREA                 84
DEPARTAMENTO         84
ESTABLECIMIENTO      84
DISTRITO             84
JORNADA              84
Name: nulls, dtype: int64

 Files with the most nulls:
file_name
alta_verapaz_primaria_table9.csv        650
alta_verapaz_preprimaria_table9.csv     393
quiche_primaria_table9.csv              351
peten_primaria_table9.csv               328
jutiapa_primaria_table9.csv             294
huehuetenango_primaria_table9.csv       275
san_marcos_primaria_table9.csv          242
santa_rosa_primaria_table9.csv          242
baja_verapaz_primaria_table9.csv        183
huehuetenango_preprimaria_table9.csv    155
Name: nulls, dtype: int64


Como podemos observar, las columnas con mayor recuento de nulos son de TELEFONO, DIRECTOR y DIRECCION. Mientras que los archivos con más nulos son altaverapaz con primaria y preprimaria. 