# Descarga de los datos

En esta libreta se exponen los pasos a seguir para descargar los datos desde el repositorio original.

Primero se obtienen las credenciales del repositorio de datos y las direcciones de los archivos a descargar. Por razones de seguridad, tanto las credenciales como las URLs de los archivos permanecerán ocultas.

Después, todos los archivos se descargan, se les corrige su schema y finalmente se almacenan en una carpeta local como archivos .pkl con el objetivo de no repetir el proceso de descarga más de una vez.

In [1]:
import json

# Credenciales
creds = json.load(open('../secrets/credentials.json'))
USER = creds['username']
PASSWORD = creds['password']

# Archivos a descargar
files = json.load(open('../secrets/files.json'))

## 1.1 Datos del Proceso de Admisión

In [2]:
# Dependencias
import pandas as pd
import sys
import os
sys.path.append('../')
from modules.loadAndClean import downloadAndCorrectSchema

# Path de los schemas
schemas_path = '../schemas'

# Límites de renglones y columnas a mostrar al imprimir DFs
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

In [3]:
# ---------- Periodo 2012-2018 ----------
# Admitidos
dfA_2012_2018 = downloadAndCorrectSchema(
    files['procesoAdmision']['admitidos_2012-2018'],
    USER,
    PASSWORD,
    'Descargando el archivo de admitidos 2012-2018...',
    f'{schemas_path}/procesoAdmision/corregido/admitidos_2012-2018.xlsx'
)
# Solicitudes Admisión
dfS_2012_2018 = downloadAndCorrectSchema(
    files['procesoAdmision']['solicitudesAdmision_2012-2018'],
    USER,
    PASSWORD,
    'Descargando el archivo de solicitudes de admisión 2012-2018...',
    f'{schemas_path}/procesoAdmision/corregido/solicitudesAdmision_2012-2018.xlsx'
)

# ---------- Periodo 2019 ----------
# Admitidos
dfA_2019 = downloadAndCorrectSchema(
    files['procesoAdmision']['admitidos_2019'],
    USER,
    PASSWORD,
    'Descargando el archivo de admitidos 2019...',
    f'{schemas_path}/procesoAdmision/corregido/admitidos_2019.xlsx'
)
# Solicitudes Admisión
dfS_2019 = downloadAndCorrectSchema(
    files['procesoAdmision']['solicitudesAdmision_2019'],
    USER,
    PASSWORD,
    'Descargando el archivo de solicitudes de admisión 2019...',
    f'{schemas_path}/procesoAdmision/corregido/solicitudesAdmision_2019.xlsx'
)

# ---------- Periodo 2020 ----------
# Admitidos
dfA_2020 = downloadAndCorrectSchema(
    files['procesoAdmision']['admitidos_2020'],
    USER,
    PASSWORD,
    'Descargando el archivo de admitidos 2020...',
    f'{schemas_path}/procesoAdmision/corregido/admitidos_2020.xlsx'
)
# Solicitudes Admisión
dfS_2020 = downloadAndCorrectSchema(
    files['procesoAdmision']['solicitudesAdmision_2020'],
    USER,
    PASSWORD,
    'Descargando el archivo de solicitudes de admisión 2020...',
    f'{schemas_path}/procesoAdmision/corregido/solicitudesAdmision_2020.xlsx'
)

# ---------- Periodo 2021 ----------
# Admitidos
dfA_2021 = downloadAndCorrectSchema(
    files['procesoAdmision']['admitidos_2021'],
    USER,
    PASSWORD,
    'Descargando el archivo de admitidos 2021...',
    f'{schemas_path}/procesoAdmision/corregido/admitidos_2021.xlsx'
)
# Solicitudes Admisión
dfS_2021 = downloadAndCorrectSchema(
    files['procesoAdmision']['solicitudesAdmision_2021'],
    USER,
    PASSWORD,
    'Descargando el archivo de solicitudes de admisión 2021...',
    f'{schemas_path}/procesoAdmision/corregido/solicitudesAdmision_2021.xlsx'
)

# ---------- Periodo 2022 ----------
# Admitidos
dfA_2022 = downloadAndCorrectSchema(
    files['procesoAdmision']['admitidos_2022'],
    USER,
    PASSWORD,
    'Descargando el archivo de admitidos 2022...',
    f'{schemas_path}/procesoAdmision/corregido/admitidos_2022.xlsx'
)

# Se almacenan los dataframes en una carpeta local
dfA_2012_2018.to_pickle('../dfsWithCorrectedSchema/procesoAdmision/dfA_2012_2018.pkl')
dfA_2019.to_pickle('../dfsWithCorrectedSchema/procesoAdmision/dfA_2019.pkl')
dfA_2020.to_pickle('../dfsWithCorrectedSchema/procesoAdmision/dfA_2020.pkl')
dfA_2021.to_pickle('../dfsWithCorrectedSchema/procesoAdmision/dfA_2021.pkl')
dfA_2022.to_pickle('../dfsWithCorrectedSchema/procesoAdmision/dfA_2022.pkl')

dfS_2012_2018.to_pickle('../dfsWithCorrectedSchema/dfS_2012_2018.pkl')
dfS_2019.to_pickle('../dfsWithCorrectedSchema/procesoAdmision/dfS_2019.pkl')
dfS_2020.to_pickle('../dfsWithCorrectedSchema/procesoAdmision/dfS_2020.pkl')
dfS_2021.to_pickle('../dfsWithCorrectedSchema/procesoAdmision/dfS_2021.pkl')


## 1.2. Datos del perfil de ingreso

In [5]:
anios = ['2014', '2015', '2016', '2017']
folderDfsCorrectedSchema = '../dfsWithCorrectedSchema/perfilIngreso/'
if not os.path.exists(folderDfsCorrectedSchema):
    os.makedirs(folderDfsCorrectedSchema)

for a in anios:
    # Se descarga el archivo y se corrige su schema on-the-fly
    df = downloadAndCorrectSchema(
        files['perfilIngreso'][a],
        USER,
        PASSWORD,
        f'Descargando los datos del proceso de admisión {a}...',
        f'{schemas_path}/perfilIngreso/corregido/{a}.xlsx'
    )

    # Se almacenan el dataframe en una carpeta local
    df.to_pickle(f'../dfsWithCorrectedSchema/perfilIngreso/{a}.pkl')

Descargando los datos del proceso de admisión 2017... OK


## 1.3. Datos de los reportes históricos

In [4]:
anios = ['2141', '2142', '2151', '2152', '2161', '2162', '2171', '2172', '2181', '2182','2191','2192','2201','2202','2211', '2212','2221','2222']
folderDfsCorrectedSchema = '../dfsWithCorrectedSchema/reportesHistoricos/'
if not os.path.exists(folderDfsCorrectedSchema):
    os.makedirs(folderDfsCorrectedSchema)

for a in anios:
    # Se descarga el archivo y se corrige su schema on-the-fly
    df = downloadAndCorrectSchema(
        files['reportesHistoricos'][a],
        USER,
        PASSWORD,
        f'Descargando los datos del reporte histórico {a}...',
        f'{schemas_path}/reportesHistoricos/corregido/{a}.xlsx'
    )

    # Se almacenan el dataframe en una carpeta local
    df.to_pickle(f'../dfsWithCorrectedSchema/reportesHistoricos/{a}.pkl')

Descargando los datos del reporte histórico 2141... 

  df = pd.read_csv(fh, encoding='latin-1')


OK
Descargando los datos del reporte histórico 2142... OK
Descargando los datos del reporte histórico 2151... OK
Descargando los datos del reporte histórico 2152... OK
Descargando los datos del reporte histórico 2161... OK
Descargando los datos del reporte histórico 2162... OK
Descargando los datos del reporte histórico 2171... OK
Descargando los datos del reporte histórico 2172... OK
Descargando los datos del reporte histórico 2181... OK
Descargando los datos del reporte histórico 2182... OK
Descargando los datos del reporte histórico 2191... OK
Descargando los datos del reporte histórico 2192... OK
Descargando los datos del reporte histórico 2201... OK
Descargando los datos del reporte histórico 2202... OK
Descargando los datos del reporte histórico 2211... OK
Descargando los datos del reporte histórico 2212... OK
Descargando los datos del reporte histórico 2221... OK
Descargando los datos del reporte histórico 2222... OK


## 1.4. Datos de las calificaciones históricas

In [None]:
anios = ['2182','2191','2192','2201','2202','2211', '2212','2221','2222']
folderDfsCorrectedSchema = '../dfsWithCorrectedSchema/calificacionesHistoricas/'
if not os.path.exists(folderDfsCorrectedSchema):
    os.makedirs(folderDfsCorrectedSchema)

for a in anios:
    # Se descarga el archivo y se corrige su schema on-the-fly
    df = downloadAndCorrectSchema(
        files['calificacionesHistoricas'][a],
        USER,
        PASSWORD,
        f'Descargando los datos de las calificaciones históricas {a}...',
        f'{schemas_path}/calificacionesHistoricas/corregido/{a}.xlsx'
    )

    # Se almacenan el dataframe en una carpeta local
    df.to_pickle(f'../dfsWithCorrectedSchema/calificacionesHistoricas/{a}.pkl')