# Corrección de Schemas

En el repositorio de datos existen conjuntos de archivos que contienen información acerca de un mismo grupo de variables, por ejemplo, un conjunto para la información de los estudiantes admitidos anualmente y otro para la información de las solicitudes de nuevo ingreso por cada año. Sin embargo, se han detectado inconsistencias entre las variables aún entre archivos de un mismo conjunto. Por ello, es importante estandarizar estos identificadores, asignarles un tipo de dato correcto a cada variable y, en caso de ser necesario, reemplazar estos identificadores con nombres más fáciles de interpretar o eliminar por completo algunas variables.

En esta libreta se expone el procedimiento automático para obtener y almacenar los Schemas originales de cada archivo de interés. Cabe destacar que el procedimiento para renombrar y eliminar variables se realizará manualmente basándose en el conocimiento experto transferido por los responsables de la generación de los archivos; además, este proceso se ejecuta una única vez.

## Descripción del proceso

El proceso de corrección de los Schemas se compone de los siguientes pasos:

1. Descargar el archivo desde el repositorio privado de datos de la Universidad
2. Obtener su Schema (identificadores originales de las columnas y sus tipos de dato)
3. Guardar el Schema original
4. Renombrar y eliminar columnas basándose en el conocimiento experto *
5. Guardar el Schema corregido *

\* Estos pasos se ejecutarán manualmente

# Dependencias

In [1]:
import os
import pandas as pd
import sys
import json
sys.path.append('../')
from modul
# Credenciales
creds = json.load(open('../secrets/credentials.json'))
USER = creds['username']
PASSWORD = creds['password']

# Archivos a descargar
files = json.load(open('../secrets/files.json'))

In [2]:
# Se itera cada conjunto de archivos
for conjunto in files.keys():
    # Se revisa si la carpeta de schemas originales para el conjunto actual 
    # existe, si no, se crea
    schemaOriginalFolder_path = f'../schemas/{conjunto}/original'
    if not os.path.exists(schemaOriginalFolder_path):
        os.makedirs(schemaOriginalFolder_path)
    # Se iteran todos los archivos de dicho conjunto
    for f in files[conjunto].keys():
        # Se revisa si el schema ya existe, si no, el archivo original se descarga, se lee
        # su schema original y se almacena en la carpeta correspondiente
        schemaFile_path = f'{schemaOriginalFolder_path}/{f}.xlsx'
        if not os.path.exists(schemaFile_path):
            df = xlsxUrlToDf(files[conjunto][f], USER, PASSWORD)
            dfSchema = pd.DataFrame(df.dtypes).reset_index().set_axis(['original','tipo'], axis=1)
            dfSchema.to_excel(schemaFile_path, index=False)