# <b>(TFM) TRABAJO FINAL DE MASTER EN DATA SCIENCE</b>

## <b>A. PRESENTACIÓN.</b>

* Nombre del TFM: "Anticipando el Futuro Académico: Un Modelo de Machine Learning para Predecir la Retención de Estudiantes en la Educación Superior Técnico-Profesional en Chile"
* Nombre estudiante: Alex Rodrigo Catalán Carrasco.
* Nombre del Programa: Máster en Data Science.
* Nombre institución: CEUPE
* Nombre del tutor/a: Cristina Ruiz.

## <b>B. DESARROLLO DEL INFORME / PROYECTO.</b>

### <b>GLOSARIO.<b>

* **TFM**: Trabajo Fin de Master.
* **IES**: Las siglas corresponden a Instituciones de Educación Superior.
* **IP**: Las siglas corresponden a Instituto Profesional y son instituciones de educación superior técnico-profesional que ofrece títulos profesionales y técnicos de nivel superior, no otorga grados académicos, en donde las carreras profesionales duran en general 4 años y las técnicas entre 2 y 3 años. En Chile, los IP son entidades privadas.
* **CFT**: Las siglas corresponden a Centro de Formación Técnica, que son instituciones de educación superior que imparten carreras técnicas. En Chile, los CFT son entidades privadas y estatales. Deben estar inscritos en el Registro Nacional de Organismos Técnicos de Capacitación. Entregan títulos de técnico de nivel superior. No otorgan grados académicos. Sus carreras tienen una duración máxima de seis semestres y el único requisito académico para que las personas puedan ingresar a un CFT es tener la licencia de enseñanza media.  
* **Retención**: La retención de estudiantes de educación superior técnico profesional en Chile es un indicador que mide la tasa de estudiantes que continúan sus estudios en el año siguiente.
* **Tasa de Retención**: La tasa de retención es un indicador importante para evaluar la eficiencia de las instituciones de educación superior. La mayor deserción de estudiantes se produce en el primer año. Para calcular la tasa de retención se divide el número de estudiantes que se mantienen en la institución al año siguiente entre el número de estudiantes que ingresaron en primer año. Se calcula para cada cohorte de estudiantes.
* **Cohorte**: Una cohorte de estudiantes es un grupo de alumnos que comparten una característica en común, como el año de ingreso o egreso. Los estudiantes de una misma cohorte suelen tener experiencias académicas similares. Las cohortes pueden ser útiles para: matricular a los estudiantes en un curso de manera fácil, gestionar la matriculación de estudiantes, captar y retener estudiantes, seguir la graduación de los estudiantes, brindar asesoramiento académico, entre otros.
* **MINEDUC**: Ministerio de Educación de Chile.
* **SIES**: Servicio de Información de Educación Superior del MINEDUC.
* **CNA**: Comisión Nacional de Acreditación de Chile.
* **CNED**: Consejo Nacional de Educación de Chile.

### <b>1. INTRODUCCIÓN.</b>

La **retención estudiantil** en las Instituciones de Educación Superior Técnico Profesional en Chile (**IP** y **CFT**) es un desafío crítico que impacta la **calidad educativa**, la **eficiencia institucional** y la **equidad en el acceso a la educación**. La tasa de retención, que mide la continuidad de los estudiantes en su trayectoria académica, varía significativamente según factores individuales, académicos, económicos e institucionales. A pesar de los esfuerzos por mejorar la permanencia estudiantil, los niveles de deserción siguen siendo elevados, afectando tanto a las instituciones como a la empleabilidad futura de los estudiantes.

Según datos del Servicio de Información de Educación Superior (SIES) y la Comisión Nacional de Acreditación (CNA), las tasas de retención en los IP y CFT muestran desafíos persistentes, con niveles de abandono que superan el 30% en algunos programas durante el primer año. Entre las principales causas identificadas se encuentran:
*	**Factores individuales**: Falta de motivación, baja autoconfianza y dificultades en la adaptación al entorno educativo.
*	**Factores académicos**: Deficiencias en formación previa, métodos de enseñanza poco efectivos y cargas académicas excesivas.
*	**Factores económicos**: Falta de financiamiento, dificultades para compatibilizar estudios y trabajo.
*	**Factores institucionales**: Carencia de programas de apoyo, infraestructura deficiente y escasa personalización en el seguimiento del estudiante.
*	**Factores socioculturales**: Falta de redes de apoyo, diferencias en expectativas y nivel socioeconómico.

Dado este panorama, surge la necesidad de contar con herramientas avanzadas que permitan **anticipar el riesgo de abandono estudiantil** para que las instituciones puedan implementar **estrategias de retención efectivas**.

### <b>2. OBJETIVOS.</b>

#### <b>2.1 OBJETIVO GENERAL.</b>

Desarrollar un modelo de Machine Learning que prediga con alta precisión la retención de estudiantes en IP y CFT en Chile, utilizando técnicas de análisis predictivo para identificar patrones de deserción y proporcionar información clave para la toma de decisiones estratégicas.

#### <b>2.2 OBJETIVOS ESPECÍFICOS.</b>

* Implementar Jupyter Lab, en Ubuntu Linux, como un entorno de desarrollo integrado (IDE) del proyecto en un entorno virtual de Python.
* Crear una *pipeline* de datos para realizar procesos ETL provenientes de diversos orígenes de datos y genere un dataset normalizado.
* Realizar un análisis exploratorio de datos (EDA).
* Diseñar visualizaciones de datos con Seaborn y Power BI.
* Elaborar algoritmos de *Machine Learning* para definir el modelo predictivo.

#### <b>3.1 ORIGEN DE LOS DATOS.</b>

Los conjuntos de datos se han obtenido desde las bases de datos transaccionales de una institución de educación superior en Chile mediante consultas SQL. El resultado de estas *querys*  

#### <b>3.2 PROCESAMIENTO.</b>

##### <b>3.2.1 Tecnologías por utilizar.</b>

#### <b>3.3 PROCESO ANALÍTICO.</b>

##### <b>3.3.1 Entorno y Librerías.</b>

<b>a) Entorno.</b>

Creación de un entorno dedicado jupyter_env en un computador con Ubuntu. (indicar las versiones)

<b>b) Librerías.</b>

In [1]:
# Instalación de librerías/paquetes
%pip install openpyxl
%pip install pandas
%pip install numpy

Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.


In [2]:
# Librerías para importación de datos
import pandas as pd
import numpy as np

##### <b>3.3.2 Importación de los Datos.</b>

En esta etapa se elaboró un ___pipeline___ de datos __ETL__ con 2 alternativas de orígenes de datos:
* Alternativa 1: Desde un repositorio personal de dataset en la nube de Google Drive.
* Alternativa 2: Desde un repositorio local de dataset en un computador con el Sistema Operativo Linux con la distribución Ubuntu 24.04.2 LTS.
<br><br>

Estas alternativas de orígenes de datos permiten al Científico de Datos:
* Acceder a los __conjuntos de datos__ tanto ___off-line___ y ___on-line___, que luego se sincronizan al recuperar conexión a Internet.
* Utilizar diversos ___workspaces___ y entornos de desarrollo (IDE), como __JupyterLab__, __Visual Studio Code__, __Google Colab__, entre otros.
* Usar distintos __sistemas operativos__ para la ejecución de los ___script___ con los algoritmos escritos en __Python__, como __Linux Ubuntu__, __Microsoft Windows__, entre otros.
* Implementar diversos __entornos virtuales de Python__ con la instalación, importación y configuración de una serie de librerías y paquetes estándares necesarios para el desarrollo del proyecto.

<b>a) Procesos ETL: Extracción de datos.</b>

In [None]:
# Alternativa 1: Importación de dataset desde Google Drive. Sólo accesible con las credenciales autorizadas.
from google.colab import drive
drive.mount('/content/drive')

In [32]:
# Alternativa 1: Rutas de los orígenes de datos de Google Drive
# *.csv

# *.xlsx
path_xlsx_estadisticas_por_carrera_cftip_sies_2017_2025 = r'/content/drive/MyDrive/Colab Notebooks/DATASETS/MDS_2024_TFM/SIES/BASES_ESTADISTICAS_POR_CARRERA/Base_Estadisticas_por_carrera_2017_2025_SIES.xlsx'
path_xlsx_base_carreras_cftip_sies_2017_2025 = r'/content/drive/MyDrive/Colab Notebooks/DATASETS/MDS_2024_TFM/SIES/BASES_CARERRAS/Base_Carreras_IP_CFT_2017_2025_SIES.xlsx'

# xlsx -> Bases Instituciones (CFT e IP) SIES del 2017 al 2025
path_xlsx_base_instituciones_cftip_sies_2017_2018 = r'/content/drive/MyDrive/Colab Notebooks/DATASETS/MDS_2024_TFM/SIES/BASES_INSTITUCIONES/Buscador_Instituciones_2017_2018_SIES.xlsx'
path_xlsx_base_instituciones_cftip_sies_2018_2019 = r'/content/drive/MyDrive/Colab Notebooks/DATASETS/MDS_2024_TFM/SIES/BASES_INSTITUCIONES/Buscador_Instituciones_2018_2019_SIES.xlsx'
path_xlsx_base_instituciones_cftip_sies_2019_2020 = r'/content/drive/MyDrive/Colab Notebooks/DATASETS/MDS_2024_TFM/SIES/BASES_INSTITUCIONES/Buscador_Instituciones_2019_2020_SIES.xlsx'
path_xlsx_base_instituciones_cftip_sies_2020_2021 = r'/content/drive/MyDrive/Colab Notebooks/DATASETS/MDS_2024_TFM/SIES/BASES_INSTITUCIONES/Buscador_Instituciones_2020_2021_SIES.xlsx'
path_xlsx_base_instituciones_cftip_sies_2021_2022 = r'/content/drive/MyDrive/Colab Notebooks/DATASETS/MDS_2024_TFM/SIES/BASES_INSTITUCIONES/Buscador_Instituciones_2021_2022_SIES.xlsx'
path_xlsx_base_instituciones_cftip_sies_2022_2023 = r'/content/drive/MyDrive/Colab Notebooks/DATASETS/MDS_2024_TFM/SIES/BASES_INSTITUCIONES/Buscador_Instituciones_2022_2023_SIES.xlsx'
path_xlsx_base_instituciones_cftip_sies_2023_2024 = r'/content/drive/MyDrive/Colab Notebooks/DATASETS/MDS_2024_TFM/SIES/BASES_INSTITUCIONES/Buscador_Instituciones_2023_2024_SIES.xlsx'
path_xlsx_base_instituciones_cftip_sies_2024_2025 = r'/content/drive/MyDrive/Colab Notebooks/DATASETS/MDS_2024_TFM/SIES/BASES_INSTITUCIONES/Buscador_Instituciones_2024_2025_SIES.xlsx'

# xlsx -> Bases Instituciones (CFT e IP) SIES del 2017 al 2024
path_xlsx_base_pac_cftip_sies_2017_2024 = r'/content/drive/MyDrive/Colab Notebooks/DATASETS/MDS_2024_TFM/SIES/BASES_PERSONAL_ACADEMICO/PAC_web_2008_2024_SIES.xlsx'

In [3]:
# Alternativa 2: Rutas de los orígenes de datos desde clonación de Google Drive en Local Ubuntu

# xlsx -> Bases Instituciones (CFT e IP) SIES del 2017 al 2025
path_xlsx_base_instituciones_cftip_sies_2017_2018 = r'DATASETS/MDS_2024_TFM/SIES/BASES_INSTITUCIONES/Buscador_Instituciones_2017_2018_SIES.xlsx'
path_xlsx_base_instituciones_cftip_sies_2018_2019 = r'DATASETS/MDS_2024_TFM/SIES/BASES_INSTITUCIONES/Buscador_Instituciones_2018_2019_SIES.xlsx'
path_xlsx_base_instituciones_cftip_sies_2019_2020 = r'DATASETS/MDS_2024_TFM/SIES/BASES_INSTITUCIONES/Buscador_Instituciones_2019_2020_SIES.xlsx'
path_xlsx_base_instituciones_cftip_sies_2020_2021 = r'DATASETS/MDS_2024_TFM/SIES/BASES_INSTITUCIONES/Buscador_Instituciones_2020_2021_SIES.xlsx'
path_xlsx_base_instituciones_cftip_sies_2021_2022 = r'DATASETS/MDS_2024_TFM/SIES/BASES_INSTITUCIONES/Buscador_Instituciones_2021_2022_SIES.xlsx'
path_xlsx_base_instituciones_cftip_sies_2022_2023 = r'DATASETS/MDS_2024_TFM/SIES/BASES_INSTITUCIONES/Buscador_Instituciones_2022_2023_SIES.xlsx'
path_xlsx_base_instituciones_cftip_sies_2023_2024 = r'DATASETS/MDS_2024_TFM/SIES/BASES_INSTITUCIONES/Buscador_Instituciones_2023_2024_SIES.xlsx'
path_xlsx_base_instituciones_cftip_sies_2024_2025 = r'DATASETS/MDS_2024_TFM/SIES/BASES_INSTITUCIONES/Buscador_Instituciones_2024_2025_SIES.xlsx'

# xlsx -> Bases de Estadísticas por carrera (CFT e IP) SIES del 2017 al 2025
path_xlsx_estadisticas_por_carrera_cftip_sies_2017_2025 = r'DATASETS/MDS_2024_TFM/SIES/BASES_ESTADISTICAS_POR_CARRERA/Base_Estadisticas_por_carrera_2017_2025_SIES.xlsx'
path_xlsx_base_carreras_cftip_sies_2017_2025 = r'DATASETS/MDS_2024_TFM/SIES/BASES_CARERRAS/Base_Carreras_IP_CFT_2017_2025_SIES.xlsx'

# xlsx -> Bases del Personal Académico (CFT e IP) SIES del 2017 al 2024
path_xlsx_base_pac_cftip_sies_2017_2024 = r'DATASETS/MDS_2024_TFM/SIES/BASES_PERSONAL_ACADEMICO/PAC_web_2008_2024_SIES.xlsx'

In [4]:
########## ------- Creación de dataframes ------- ###########

# Dataframe con los registros de todas las carreras de los (CFT e IP)) del 2017 al 2025
df_base_carreras_ipcft_sies_2017_2025 = pd.read_excel(path_xlsx_base_carreras_cftip_sies_2017_2025, sheet_name='Carreras  2017-2025')

# INI Dataframes con los registros de las Estadísticas por carrera (CFT e IP) 2017 - 2025 (SIES)
# Tabla: Ingresos promedios brutos mensuales
df_t_ipbm = pd.read_excel(path_xlsx_estadisticas_por_carrera_cftip_sies_2017_2025, sheet_name='t_ipbm')
# FIN Dataframes con los registros de las Estadísticas por carrera (CFT e IP) 2017 - 2025 (SIES)

# Dataframes con los registros de las Instituciones (CFT e IP) 2017 - 2025 (SIES)
df_instituciones_sies_2017_2018 = pd.read_excel(path_xlsx_base_instituciones_cftip_sies_2017_2018, sheet_name='Base Buscador Instituciones')
df_instituciones_sies_2018_2019 = pd.read_excel(path_xlsx_base_instituciones_cftip_sies_2018_2019, sheet_name='Buscador Instituciones 2018-19')
df_instituciones_sies_2019_2020 = pd.read_excel(path_xlsx_base_instituciones_cftip_sies_2019_2020, sheet_name='Buscador Instituciones 2020')
df_instituciones_sies_2020_2021 = pd.read_excel(path_xlsx_base_instituciones_cftip_sies_2020_2021, sheet_name='Buscador de Instituciones 2021')
df_instituciones_sies_2021_2022 = pd.read_excel(path_xlsx_base_instituciones_cftip_sies_2021_2022, sheet_name='Buscador de Instituciones 2002 ')
df_instituciones_sies_2022_2023 = pd.read_excel(path_xlsx_base_instituciones_cftip_sies_2022_2023, sheet_name='Buscador Instituciones 2023')
df_instituciones_sies_2023_2024 = pd.read_excel(path_xlsx_base_instituciones_cftip_sies_2023_2024, sheet_name='Buscador Instituciones 23-24')
df_instituciones_sies_2024_2025 = pd.read_excel(path_xlsx_base_instituciones_cftip_sies_2024_2025, sheet_name='Buscador Instituciones')

# Dataframes con los registros del Personal Académico (CFT e IP) 2017 - 2024 (SIES)
df_pac_num_sies_2017_2024 = pd.read_excel(path_xlsx_base_pac_cftip_sies_2017_2024, sheet_name='BD_Acádemicos_Número')
df_pac_jce_sies_2017_2024 = pd.read_excel(path_xlsx_base_pac_cftip_sies_2017_2024, sheet_name='BD_Académicos_JCE')

In [5]:
# Dimesión de los dataframes.
print('A: Dataframes de Base de Carreras CFT e IP del 2017 al 2025.')
print(f'-> 1. [df_base_carreras_ipcft_sies_2017_2025]: {df_base_carreras_ipcft_sies_2017_2025.shape}\n\n')

print('B: Dataframes de Estadísticas por Carrera CFT e IP del 2017 al 2025.')
print(f'-> 1. Ingreso promedio bruto mensual [df_t_ipbm]: {df_t_ipbm.shape}\n\n')

print('C: Dataframes de Información de Instituciones CFT e IP del 2017 al 2025.')
print(f'-> 1. Periodo 2017-2018 [df_instituciones_sies_2017_2018]: {df_instituciones_sies_2017_2018.shape}')
print(f'-> 2. Periodo 2018-2019 [df_instituciones_sies_2018_2019]: {df_instituciones_sies_2018_2019.shape}')
print(f'-> 3. Periodo 2019-2020 [df_instituciones_sies_2019_2020]: {df_instituciones_sies_2019_2020.shape}')
print(f'-> 4. Periodo 2020-2021 [df_instituciones_sies_2020_2021]: {df_instituciones_sies_2020_2021.shape}')
print(f'-> 5. Periodo 2021-2022 [df_instituciones_sies_2021-2022]: {df_instituciones_sies_2021_2022.shape}')
print(f'-> 6. Periodo 2022-2023 [df_instituciones_sies_2022-2023]: {df_instituciones_sies_2022_2023.shape}')
print(f'-> 7. Periodo 2023-2024 [df_instituciones_sies_2023-2024]: {df_instituciones_sies_2023_2024.shape}')
print(f'-> 8. Periodo 2024-2025 [df_instituciones_sies_2024-2025]: {df_instituciones_sies_2024_2025.shape}\n\n')

print('D: Dataframes de Información del Personal Académico CFT e IP del 2017 al 2024.')
print(f'-> 1. Número del Personal Académico [df_pac_num_sies_2017_2024]: {df_pac_num_sies_2017_2024.shape}')
print(f'-> 2. JCE del Personal Académico [df_jce_num_sies_2017_2024]: {df_pac_jce_sies_2017_2024.shape}')

A: Dataframes de Base de Carreras CFT e IP del 2017 al 2025.
-> 1. [df_base_carreras_ipcft_sies_2017_2025]: (56037, 40)


B: Dataframes de Estadísticas por Carrera CFT e IP del 2017 al 2025.
-> 1. Ingreso promedio bruto mensual [df_t_ipbm]: (1078, 11)


C: Dataframes de Información de Instituciones CFT e IP del 2017 al 2025.
-> 1. Periodo 2017-2018 [df_instituciones_sies_2017_2018]: (158, 96)
-> 2. Periodo 2018-2019 [df_instituciones_sies_2018_2019]: (157, 96)
-> 3. Periodo 2019-2020 [df_instituciones_sies_2019_2020]: (147, 96)
-> 4. Periodo 2020-2021 [df_instituciones_sies_2020_2021]: (148, 96)
-> 5. Periodo 2021-2022 [df_instituciones_sies_2021-2022]: (138, 97)
-> 6. Periodo 2022-2023 [df_instituciones_sies_2022-2023]: (135, 97)
-> 7. Periodo 2023-2024 [df_instituciones_sies_2023-2024]: (131, 97)
-> 8. Periodo 2024-2025 [df_instituciones_sies_2024-2025]: (129, 97)


D: Dataframes de Información del Personal Académico CFT e IP del 2017 al 2024.
-> 1. Número del Personal Académico [df_

In [6]:
# Muestra de los datos de los dataframes.
# df_instituciones_sies_2017_2018.head(3)
# df_instituciones_sies_2018_2019
# df_instituciones_sies_2019_2020
# df_instituciones_sies_2020_2021
# df_instituciones_sies_2021_2022
# df_instituciones_sies_2022_2023
# df_instituciones_sies_2023_2024
# df_instituciones_sies_2024_2025
# df_pac_num_sies_2017_2024
df_pac_jce_sies_2017_2024

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,N° de JCE por Institución,Unnamed: 7,Unnamed: 8,Promedio de Edad ponderado por JCE,...,Unnamed: 50,Unnamed: 51,Unnamed: 52,Unnamed: 53,N° de JCE por nacionalidad,Unnamed: 55,N° de JCE por rango de horas contratadas,Unnamed: 57,Unnamed: 58,Unnamed: 59
0,,,,,,,,,,,...,,,,,,,,,,
1,Periodo,Código institución,Nombre institución,Tipo institución I,Tipo institución II,Tipo institución III,Total Mujeres,Total Hombres,Total General,Promedio de Edad Mujer,...,Región de los Lagos,Región de Aysén,Región de Magallanes y la Artártica,Sin información,Chileno,Extranjero,Menos de 11,Entre 11 y menos de 23,Entre 23 y menos de 39,Entre 39 y más
2,PAC_2024,1,UNIVERSIDAD GABRIELA MISTRAL,Universidades,Universidades Privadas,Universidades Privadas,74.899318,91.460227,166.359545,42.995734,...,,,,,153.000455,13.359091,39.183182,30.2925,17.065455,79.818409
3,PAC_2024,2,UNIVERSIDAD FINIS TERRAE,Universidades,Universidades Privadas,Universidades Privadas,254.047727,269.5875,523.635227,43.531262,...,,,,,486.0125,37.622727,79.518182,55.875,150.346591,237.895455
4,PAC_2024,3,UNIVERSIDAD DIEGO PORTALES,Universidades,Universidades CRUCH,Universidades Privadas CRUCH,450.615909,552.009091,1002.625,44.619269,...,,,,,897.793182,104.831818,106.606818,375.275,138.756818,381.986364
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2577,PAC_2008,679,CFT MAGNOS,Centros de Formación Técnica,Centros de Formación Técnica,Centros de Formación Técnica,4.295455,7.5,11.795455,39.846561,...,,,,,11.386364,0.409091,5.909091,4.363636,0.590909,0.931818
2578,PAC_2008,691,CFT PROFASOC,Centros de Formación Técnica,Centros de Formación Técnica,Centros de Formación Técnica,0.886364,0.227273,1.113636,41.25641,...,,,,,1.113636,,0.431818,,0.681818,
2579,PAC_2008,693,IP PROJAZZ,Institutos Profesionales,Institutos Profesionales,Institutos Profesionales,0.772727,4.659091,5.431818,42.411765,...,,,,,5.386364,0.045455,1.931818,2.840909,0.659091,
2580,PAC_2008,701,CFT MANPOWER,Centros de Formación Técnica,Centros de Formación Técnica,Centros de Formación Técnica,11.198864,11.778409,22.977273,48.604262,...,,,,,21.579545,1.397727,4.022727,5.8125,12.255682,0.886364


<b>b) Procesos ETL: Transformación de las estructuras de datos.</b>

<blockquote>Las transformaciones que se realizaron durante el <i>pipeline</i> de datos ETL consideró la creación de dataframes que incluyeron la información general y descriptiva de las instituciones de educación superior de tipo CFT e IP según la estructura de datos de SIES. Estos dataframes se presentarán como un homologable de tablas SQL.</blockquote>

<u>Primero</u>: Definición de <b>columnas de los dataframes</b>.
<ul>
    <li>Estas columnas han sido homologadas para los distintos <i>dataset</i> correspondientes a los periodos SIES.</li>
    <li>Por convención de buenas prácticas en Python, se definirán los nombres de columnas del dataframe de forma descriptiva y legible de acuerdo con:</li>
    <ul>
        <li>uso de minúsculas,</li>
        <li>Snake Case (separar las palabras con guiones bajos),</li>
        <li>sin espacios,</li>
        <li>sin tildes,</li>
        <li>ni caracteres especiales.</li>
    </ul>
</ul>

In [10]:
# Lista [cols_t_info_gral_cft_ip_sies] con los nombres de las columnas del dataframe [t_info_gral_cft_ip_sies].
cols_t_info_gral_cft_ip_sies = [
    "cod_ies",  # Código identificador SIES de la IES.
    "tipo_inst",  # Tipo de institución 1: Centros de Formación Técnica e Institutos Profesionales.
    "nombre_inst",  # Nombre de la institución.
    "dir_sede_central",  # Dirección de la sede central de la institución.
    "pag_web",  # Sito Web de la institución.
]

# Lista [cols_t_info_sii_cft_ip_sies] con los nombres de las columnas del dataframe [t_info_sii_cft_ip_sies].
cols_t_info_sii_cft_ip_sies = [
    "cod_ies",  # Código identificador SIES de la IES.
    "tipo_inst",  # Tipo de institución 1: Centros de Formación Técnica e Institutos Profesionales.
    "rut_ies",  # Rol Único Tributario de la IES.
    "tipo_soc",  # Tipo de sociedad de la IES.
]

# Lista [cols_t_info_acred_cft_ip_sies] con los nombres de las columnas del dataframe [t_info_acred_cft_ip_sies].
cols_t_info_acred_cft_ip_sies = [
    "per_sies",  # Perido SIES.
    "cod_ies",  # Código identificador SIES de la IES.
    "tipo_inst",  # Tipo de institución 1: Centros de Formación Técnica e Institutos Profesionales.
    "situa_auton",  # Situación de autonomía de la IES.
    "situa_acred",  # Situación de acreditación de la IES.
    "anios_acred",  # Años de acreditación de la IES.
    "perio_acred",  # Periodo de acreditación de la IES.
    "areas_oblig_acred",  # Áreas de acreditación obligatorias de las IES.
    "areas_elect_acred",  # Áreas electivas de acreditación de las IES.
]

# Lista [cols_t_pac_num_sies] con los nombres de las columnas del dataframe [t_pac_num_sies].
cols_t_pac_num_sies = [
    "per_sies",  # Periodo SIES
    "cod_ies",  # Código Institución SIES
    "tipo_inst",  # Tipo de institución SIES (Luego se elimina)
    "total_mujeres",  # Total de mujeres académicas
    "total_hombres",  # Total de hombres académicos
    "total_gral",  # Total de académicos
    "prom_edad_mujeres",  # Promedio de edad de mujeres
    "prom_edad_hombres",  # Promedio de edad de hombres
    "prom_edad_inst",  # Promedio de edad del total de académicos en la institución
    "num_acad_1_inst",  # Número de académicos que trabaja en 1 institución
    "num_acad_2_inst",  # Número de académicos que trabaja en 2 instituciones
    "num_acad_3_mas_inst",  # Número de académicos que trabaja en 3 o más instituciones.
    "num_acad_nform_doctor",  # Número de académicos con nivel de formación: Doctor
    "num_acad_nform_magister",  # Número de académicos con nivel de formación: Magister
    "num_acad_nform_esp_med_odo",  # Número de académicos con nivel de formación: Especialidad médido y dontológica
    "num_acad_nform_tit_prof",  # Número de académicos con nivel de formación: Título profesional
    "num_acad_nform_licencia",  # Número de académicos con nivel de formación: Licenciatura en Educación Superior
    "num_acad_nform_tns",  # Número de académicos con nivel de formación: Técnico en Nivel Superior
    "num_acad_nform_tnm",  # Número de académicos con nivel de formación: Técnico en Nivel Medio
    "num_acad_nform_ens_media",  # Número de académicos con nivel de formación: Licenciatura de Enseñanza Media
    "num_acad_nform_stit_sgra",  # Número de académicos con nivel de formación: Sin título, ni grado académico
    "num_acad_nform_sin_info",  # Número de académicos con nivel de formación: Sin información
    "num_acad_reg_ar_pa",  # Número de académicos con nivel de formación: Región de Arica y Parinacota
    "num_acad_reg_tarap",  # Número de académicos con nivel de formación: Región de Tarapacá
    "num_acad_reg_antof",  # Número de académicos con nivel de formación: Región de Antofagasta
    "num_acad_reg_ataca",  # Número de académicos con nivel de formación: Región de Atacáma
    "num_acad_reg_coqui",  # Número de académicos con nivel de formación: Región de Coquimbo
    "num_acad_reg_valpo",  # Número de académicos con nivel de formación: Región de Valparaíso
    "num_acad_reg_metro",  # Número de académicos con nivel de formación: Región Metropolitana
    "num_acad_reg_ohigg",  # Número de académicos con nivel de formación: Región de O'Higgins
    "num_acad_reg_maule",  # Número de académicos con nivel de formación: Región del Maule
    "num_acad_reg_nuble",  # Número de académicos con nivel de formación: Región del Ñuble
    "num_acad_reg_biobi",  # Número de académicos con nivel de formación: Región del Bíobío
    "num_acad_reg_arau",  # Número de académicos con nivel de formación: Región de la Araucanía
    "num_acad_reg_losri",  # Número de académicos con nivel de formación: Región de los Ríos
    "num_acad_reg_losla",  # Número de académicos con nivel de formación: Región de los Lagos
    "num_acad_reg_aysen",  # Número de académicos con nivel de formación: Región de Aysén
    "num_acad_reg_magal",  # Número de académicos con nivel de formación: Región de Magallanes y la Antártica
    "num_acad_reg_sin_inf",  # Número de académicos con nivel de formación: Sin información
    "num_acad_nac_chile",  # Número de académicos con nacionalidad: Chileno
    "num_acad_nac_extra",  # Número de académicos con nacionalidad: Extranjero
    "prom_gral_hrs_acad",  # Promedio general institucional de horas acádemicas contratadas a la semana por académico
    "prom_muj_hrs_acad",  # Promedio institucional de horas acádemicas de mujeres contratadas a la semana por académico
    "prom_hom_hrs_acad",  # Promedio institucional de horas acádemicas de hombres contratadas a la semana por académico
    "num_acad_hrs_menos_11",  # N° de académicos por rango de horas contratadas: Menos de 11
    "num_acad_hrs_ent_11_22",  # N° de académicos por rango de horas contratadas: Entre 11 y menos de 23
    "num_acad_hrs_ent_23_38",  # N° de académicos por rango de horas contratadas: Entre 23 y menos de 39
    "num_acad_hrs_mas_38",  # N° de académicos por rango de horas contratadas: Entre 39 y más
    "num_acad_hrs_sin_info",  # N° de académicos por rango de horas contratadas: Sin información
]

# Lista [cols_t_pac_jce_sies] con los nombres de las columnas del dataframe [t_pac_jce_sies].
cols_t_pac_jce_sies = [
    "per_sies",  # Periodo SIES
    "cod_ies",  # Código Institución SIES
    "tipo_inst",  # N/A para esta tabla
    "total_jce_mujeres",  # Total JCE de mujeres académicas
    "total_jce_hombres",  # Total JCE de hombres académicos
    "total_jce_gral",  # Total JCE de académicos
    "prom_edad_jce_mujeres",  # Promedio de edad ponderado de mujeres por JCE
    "prom_edad_jce_hombres",  # Promedio de edad ponderado de hombres por JCE
    "prom_edad_jce_inst",  # Promedio de edad ponderado por JCE por institución
    "num_jce_1_inst",  # Número de JCE de la institución que trabajan en 1 institución
    "num_jce_2_inst",  # Número de JCE de la institución que trabajan en 2 instituciones
    "num_jce_3_mas_inst",  # Número de JCE de la institución que trabajan en 3 o más instituciones
    "num_jce_nform_doctor",  # Número de JCE por nivel de formación: Doctor
    "num_jce_nform_magister",  # Número de JCE por nivel de formación: Magister
    "num_jce_nform_esp_med_odo",  # Número de JCE por nivel de formación: Especialidad médica y odontológica
    "num_jce_nform_tit_prof",  # Número de JCE por nivel de formación: Título Profesional
    "num_jce_nform_licen",  # Número de JCE por nivel de formación: Licenciatura de Educación Superior
    "num_jce_nform_tns",  # Número de JCE por nivel de formación: Técnico de Nivel Superior
    "num_jce_nform_tnm",  # Número de JCE por nivel de formación: Técnico de Nivel Medio
    "num_jce_nform_ens_media",  # Número de JCE por nivel de formación: Enseñanza Media
    "num_jce_nform_stit_sgra",  # Número de JCE por nivel de formación: Sin título, ni grado
    "num_jce_nform_sin_info",  # Número de JCE por nivel de formación: Sin información
    "num_jce_reg_ar_pa",  # Número de JCE por región en que se desempeña: Región de Arica y Parinacota
    "num_jce_reg_tarap",  # Número de JCE por región en que se desempeña: Región  de Tarapacá
    "num_jce_reg_antof",  # Número de JCE por región en que se desempeña: Región de Antofagasta
    "num_jce_reg_ataca",  # Número de JCE por región en que se desempeña: Región de Atacama
    "num_jce_reg_coqui",  # Número de JCE por región en que se desempeña: Región de Coquimbo
    "num_jce_reg_valpo",  # Número de JCE por región en que se desempeña: Región de Valparaíso
    "num_jce_reg_metro",  # Número de JCE por región en que se desempeña: Región Metropolitana
    "num_jce_reg_ohigg",  # Número de JCE por región en que se desempeña: Región de O'Higgins
    "num_jce_reg_maule",  # Número de JCE por región en que se desempeña: Región del Maule
    "num_jce_reg_nuble",  # Número de JCE por región en que se desempeña: Región del Ñuble
    "num_jce_reg_biobi",  # Número de JCE por región en que se desempeña: Región del Biobío
    "num_jce_reg_arau",  # Número de JCE por región en que se desempeña: Región de la Araucanía
    "num_jce_reg_losri",  # Número de JCE por región en que se desempeña: Región de los Ríos
    "num_jce_reg_losla",  # Número de JCE por región en que se desempeña: Región de los Lagos
    "num_jce_reg_aysen",  # Número de JCE por región en que se desempeña: Región de Aysén
    "num_jce_reg_magal",  # Número de JCE por región en que se desempeña: Región de Magallanes y la Artártica
    "num_jce_reg_sin_inf",  # Número de JCE por región en que se desempeña: Sin información
    "num_jce_nac_chile",  # Número de JCE por nacionalidad: Chilena
    "num_jce_nac_extra",  # Número de JCE por nacionalidad: Extranjera
    "num_jce_hrs_menos_11",  # Numero de JCE por rango de horas contratadas: Menos de 11
    "num_jce_hrs_ent_11_22",  # Numero de JCE por rango de horas contratadas: Entre 11 y menos de 23
    "num_jce_hrs_ent_23_38",  # Numero de JCE por rango de horas contratadas: Entre 23 y menos de 39
    "num_jce_hrs_mas_38",  # Numero de JCE por rango de horas contratadas: Entre 39 y más
]

<u>Segundo</u>: Creación de <b>dataframes</b> finales. 
Este proceso de transformación considera e implica que:
<ul>
    <li>Se desagrupen los <i>dataframes</i> que contienen la <i>data</i> cruda extraída sin procesar.</li>
    <li>Se creen <i>dataframes</i> descriptibles (estandarizables con tablas SQL) con columnas en específico que incluyan siempre un identificador de cada registro.</li>
    <li>Se eliminen o agreguen columnas y/o filas de los <i>dataframes</i> de acuerdo a las necesidades de las reglas de negocio y el modelo relacional de datos.</li>
    <li>Se deban verificar los registros de cada <i>dataframe</i> de acuerdo con los criterios de calidad de los datos.</li>
</ul>

In [11]:
"""
Función: procesar_df_instituciones_sies
Descripción: Función que permite modularizar las operaciones relacionadas con las transformaciones y creación de los dataframes con información general de las IES.
"""

def procesar_df_instituciones_sies(tabla, df_x_per, cols):
    match tabla:
        case 't_info_gral_cft_ip_sies':
            # Extracción de las columnas
            df_temp = df_x_per.iloc[:, :6]

            # Eliminación de la columna 'Unnamed: 3' asociada a la 'Autonomía' que se incluirá en el dataframe t_info_acred_cft_ip_sies.
            df_temp = df_temp.drop(df_temp.columns[3], axis=1, inplace=True)

            # Renombrar las columnas del nuevo dataframe
            df_temp.columns = cols

            # ELiminar la primera fila del nuevo dataframe que contiene los nombres de las columnas 
            # (esto ocurrió por defecto al importar los datos de la planilla excel al dataframe)
            df_temp = df_temp.iloc[1:]

            # Eliminar las filas de la columna 'cod_ies' que contienen NaN (son las últimas filas que se agregaron por defecto al importar los datos de la planilla excel)
            df_temp = df_temp.dropna(subset=['cod_ies'])

            # Eliminar las filas que no estén asociadas a CFT o IP; en otras palabras, eliminar las filas que contengan registros de Universidades.
            df_temp = df_temp[~df_temp['tipo_inst'].str.contains('Universidad', case=False, na=False)]

            # Verificar si hay duplicados en el índice
            duplicados = df_temp['cod_ies'].duplicated(keep=False)

            if duplicados.any():
                print("> ¡Hay duplicados en el índice!, se debe revisar el dataframe.")
                print(f'> Duplicados: {df_temp[duplicados]}')
            else:
                print("> ¡No hay duplicados en el índice!")
                print(f'> Dataframe: df_temp. Dimensión: {df_temp.shape}')
                df_temp.head(3)
        case 't_info_sii_cft_ip_sies':
            # Extracción de las columnas
            df_temp = df_x_per.iloc[:, [0, 1, 12, 11]]
            
            # Renombrar las columnas del nuevo dataframe
            df_temp.columns = cols
            
            # ELiminar la primera fila del nuevo dataframe que contiene los nombres de las columnas
            df_temp = df_temp.iloc[1:]

            # Eliminar las filas de la columna 'cod_ies' que contienen NaN (son las últimas filas que se agregaron por defecto al importar los datos de la planilla excel)
            df_temp = df_temp.dropna(subset=['cod_ies'])

            # Eliminar las filas que no estén asociadas a CFT o IP; en otras palabras, eliminar las filas que contengan registros de Universidades.
            df_temp = df_temp[~df_temp['tipo_inst'].str.contains('Universidad', case=False, na=False)]

            # Verificar si hay duplicados en el índice
            duplicados = df_temp['cod_ies'].duplicated(keep=False)

            if duplicados.any():
                print("> ¡Hay duplicados en el índice!, se debe revisar el dataframe.")
                print(f'> Duplicados: {df_temp[duplicados]}')
            else:
                print("> ¡No hay duplicados en el índice!")
                print(f'> Dataframe: df_temp. Dimensión: {df_temp.shape}')
                df_temp.head(3)
        case 't_info_acred_cft_ip_sies':
            # Extracción de las columnas
            df_temp = df_x_per.iloc[:, [0, 0, 1, 3, 6, 7, 8, 9, 10]]
            
            # Renombrar las columnas del nuevo dataframe
            df_temp.columns = cols
            
            # ELiminar la primera fila del nuevo dataframe que contiene los nombres de las columnas
            df_temp = df_temp.iloc[1:]

            # Eliminar las filas de la columna 'cod_ies' que contienen NaN (son las últimas filas que se agregaron por defecto al importar los datos de la planilla excel)
            df_temp = df_temp.dropna(subset=['cod_ies'])

            # Eliminar las filas que no estén asociadas a CFT o IP; en otras palabras, eliminar las filas que contengan registros de Universidades.
            df_temp = df_temp[~df_temp['tipo_inst'].str.contains('Universidad', case=False, na=False)]

            # Verificar si hay duplicados en el índice
            duplicados = df_temp['cod_ies'].duplicated(keep=False)

            if duplicados.any():
                print("> ¡Hay duplicados en el índice!, se debe revisar el dataframe.")
                print(f'> Duplicados: {df_temp[duplicados]}')
            else:
                print("> ¡No hay duplicados en el índice!")
                print(f'> Dataframe: df_temp. Dimensión: {df_temp.shape}')
                df_temp.head(3)
        case _:
            print('La tabla ingresada no está en la lista!')
    
    return df_temp

<blockquote>
    > Dataframe: <b>t_info_gral_cft_ip_sies</b>
    <ul>
        <li>Descripción: Dataframe que integrará los registros sin duplicados desde los dataframes [t_instituciones_sies_xxxx_xxxx] por periodos SIES.</li>
        <li>Columnas: cols_t_info_gral_cft_ip_sies</li>
    </ul>
</blockquote>

In [13]:
"""
Dataframe: t_info_gral_cft_ip_sies_2017_2018 
Descripción: Dataframe que incluye los registros de la información general de las IES en el periodo 2017-2018.
Columnas: cols_t_info_gral_cft_ip_sies
"""

"""
Perido 2017-2018
"""
# Extracción de las columnas
t_info_gral_cft_ip_sies_2017_2018 = df_instituciones_sies_2017_2018.iloc[:, :6]

# Eliminación de la columna 'Unnamed: 2' asociada al 'Tipo de institución 2' que no está presente en los otros periodos SIES.
# t_info_gral_cft_ip_sies_2017_2018.drop(columns=['Unnamed: 2'], inplace=True)
t_info_gral_cft_ip_sies_2017_2018 = t_info_gral_cft_ip_sies_2017_2018.drop(t_info_gral_cft_ip_sies_2017_2018.columns[2], axis=1, inplace=True)

# Renombrar las columnas del nuevo dataframe
t_info_gral_cft_ip_sies_2017_2018.columns = cols_t_info_gral_cft_ip_sies

# ELiminar la primera fila del nuevo dataframe que contiene los nombres de las columnas 
# (esto ocurrió por defecto al importar los datos de la planilla excel al dataframe)
t_info_gral_cft_ip_sies_2017_2018 = t_info_gral_cft_ip_sies_2017_2018.iloc[1:]

# Eliminar las filas de la columna 'cod_ies' que contienen NaN (son las últimas filas que se agregaron por defecto al importar los datos de la planilla excel)
t_info_gral_cft_ip_sies_2017_2018 = t_info_gral_cft_ip_sies_2017_2018.dropna(subset=['cod_ies'])

# Eliminar las filas que no estén asociadas a CFT o IP; en otras palabras, eliminar las filas que contengan registros de Universidades.
t_info_gral_cft_ip_sies_2017_2018 = t_info_gral_cft_ip_sies_2017_2018[~t_info_gral_cft_ip_sies_2017_2018['tipo_inst'].str.contains('Universidad', case=False, na=False)]

# Verificar si hay duplicados en el índice
duplicados = t_info_gral_cft_ip_sies_2017_2018['cod_ies'].duplicated(keep=False)

if duplicados.any():
    print("> ¡Hay duplicados en el identificador!, se debe revisar el dataframe.")
    print(f'> Duplicados: {t_info_gral_cft_ip_sies_2017_2018[duplicados]}')
else:
    print("> ¡No hay duplicados en el identificador!")
    print(f'> Dataframe: t_instituciones_sies_2017_2018. Dimensión: {t_info_gral_cft_ip_sies_2017_2018.shape}')
    t_info_gral_cft_ip_sies_2017_2018.head(3)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  t_info_gral_cft_ip_sies_2017_2018 = t_info_gral_cft_ip_sies_2017_2018.drop(t_info_gral_cft_ip_sies_2017_2018.columns[2], axis=1, inplace=True)


AttributeError: 'NoneType' object has no attribute 'columns'

In [14]:
"""
Dataframes: 
    - t_info_gral_cft_ip_sies_2018_2019, 
    - t_info_gral_cft_ip_sies_2019_2020, 
    - t_info_gral_cft_ip_sies_2020_2021,
    - t_info_gral_cft_ip_sies_2021_2022,
    - t_info_gral_cft_ip_sies_2023_2024,
    - t_info_gral_cft_ip_sies_2024_2025
Descripción: Dataframes que incluyen (a través de una función) los registros de la infromación general de las IES en los periodos desde 2018 a 2025.
Columnas: cols_t_info_gral_cft_ip_sies
"""

t_info_gral_cft_ip_sies_2018_2019 = procesar_df_instituciones_sies('t_info_gral_cft_ip_sies', df_instituciones_sies_2018_2019, cols_t_info_gral_cft_ip_sies) # ok
t_info_gral_cft_ip_sies_2019_2020 = procesar_df_instituciones_sies('t_info_gral_cft_ip_sies', df_instituciones_sies_2019_2020, cols_t_info_gral_cft_ip_sies) # ok
t_info_gral_cft_ip_sies_2020_2021 = procesar_df_instituciones_sies('t_info_gral_cft_ip_sies', df_instituciones_sies_2020_2021, cols_t_info_gral_cft_ip_sies) # ok
t_info_gral_cft_ip_sies_2021_2022 = procesar_df_instituciones_sies('t_info_gral_cft_ip_sies', df_instituciones_sies_2021_2022, cols_t_info_gral_cft_ip_sies) # ok
t_info_gral_cft_ip_sies_2022_2023 = procesar_df_instituciones_sies('t_info_gral_cft_ip_sies', df_instituciones_sies_2022_2023, cols_t_info_gral_cft_ip_sies) # ok
t_info_gral_cft_ip_sies_2023_2024 = procesar_df_instituciones_sies('t_info_gral_cft_ip_sies', df_instituciones_sies_2023_2024, cols_t_info_gral_cft_ip_sies) # ok
t_info_gral_cft_ip_sies_2024_2025 = procesar_df_instituciones_sies('t_info_gral_cft_ip_sies', df_instituciones_sies_2024_2025, cols_t_info_gral_cft_ip_sies) # ok

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_temp = df_temp.drop(df_temp.columns[3], axis=1, inplace=True)


AttributeError: 'NoneType' object has no attribute 'columns'

In [118]:
# Muestra de los datos de los dataframe
# t_info_gral_cft_ip_sies_2017_2018
# t_info_gral_cft_ip_sies_2018_2019
# t_info_gral_cft_ip_sies_2019_2020
# t_info_gral_cft_ip_sies_2020_2021
# t_info_gral_cft_ip_sies_2021_2022
# t_info_gral_cft_ip_sies_2022_2023
# t_info_gral_cft_ip_sies_2023_2024
# t_info_gral_cft_ip_sies_2024_2025

print(f'2017-2018: \n{t_info_gral_cft_ip_sies_2017_2018.loc[t_info_gral_cft_ip_sies_2017_2018['cod_ies']==143]}\n')
print(f'2018-2019: \n{t_info_gral_cft_ip_sies_2018_2019.loc[t_info_gral_cft_ip_sies_2018_2019['cod_ies']==143]}\n')
print(f'2019-2020: \n{t_info_gral_cft_ip_sies_2019_2020.loc[t_info_gral_cft_ip_sies_2019_2020['cod_ies']==143]}\n')
print(f'2020-2021: \n{t_info_gral_cft_ip_sies_2020_2021.loc[t_info_gral_cft_ip_sies_2020_2021['cod_ies']==143]}\n')
print(f'2021-2022: \n{t_info_gral_cft_ip_sies_2021_2022.loc[t_info_gral_cft_ip_sies_2021_2022['cod_ies']==143]}\n')
print(f'2022-2023: \n{t_info_gral_cft_ip_sies_2022_2023.loc[t_info_gral_cft_ip_sies_2022_2023['cod_ies']==143]}\n')
print(f'2023-2024: \n{t_info_gral_cft_ip_sies_2023_2024.loc[t_info_gral_cft_ip_sies_2023_2024['cod_ies']==143]}\n')
print(f'2024-2025: \n{t_info_gral_cft_ip_sies_2024_2025.loc[t_info_gral_cft_ip_sies_2024_2025['cod_ies']==143]}\n')

2017-2018: 
   cod_ies                 tipo_inst                 nombre_inst  \
51     143  Institutos Profesionales  Instituto Profesional AIEP   

                    dir_sede_central      pag_web  
51  Av. Providencia N° 729, Santiago  www.aiep.cl  

2018-2019: 
   cod_ies                 tipo_inst                 nombre_inst  \
50     143  Institutos Profesionales  Instituto Profesional AIEP   

                    dir_sede_central      pag_web  
50  Av. Providencia N° 729, Santiago  www.aiep.cl  

2019-2020: 
   cod_ies                 tipo_inst                 nombre_inst  \
77     143  Institutos Profesionales  Instituto Profesional AIEP   

                dir_sede_central      pag_web  
77  Bellavista 0121, Providencia  www.aiep.cl  

2020-2021: 
   cod_ies                 tipo_inst                 nombre_inst  \
73     143  Institutos Profesionales  Instituto Profesional AIEP   

                dir_sede_central      pag_web  
73  Bellavista 0121, Providencia  www.aiep.cl  



In [119]:
"""
Dataframe: t_info_gral_cft_ip_sies
Descripción: Dataframe que concatena los dataframe con la información general de las IES por periodo. Toma de base el dataframe del periodo más actual (2024-2025) e 
incorpora los registros que no estén presentes en este periodo con el fin de tener la información histórica de todas las IES (CFT e IP).
"""

# Creación de una lista que contiene todos los dataframes procesados por periodo.
dataframes = [
    t_info_gral_cft_ip_sies_2017_2018, t_info_gral_cft_ip_sies_2018_2019, t_info_gral_cft_ip_sies_2019_2020, t_info_gral_cft_ip_sies_2020_2021, 
    t_info_gral_cft_ip_sies_2021_2022, t_info_gral_cft_ip_sies_2022_2023, t_info_gral_cft_ip_sies_2023_2024, t_info_gral_cft_ip_sies_2024_2025
    ]

# Concatenación de todos los dataframes
df_concatenado = pd.concat(dataframes)

# Eliminación de duplicados basándose en la columna 'cod_ies'
df_concatenado = df_concatenado.drop_duplicates(subset='cod_ies', keep='first')

# Seleccionar solo las filas del dataframe 't_instituciones_sies_2024_2025'
df_2024_2025 = t_info_gral_cft_ip_sies_2024_2025[cols_t_info_gral_cft_ip_sies]

# Concatenación del dataframe 't_info_gral_cft_ip_sies_2024_2025' con el dataframe sin duplicados
t_info_gral_cft_ip_sies = pd.concat([df_2024_2025, df_concatenado]).drop_duplicates(subset='cod_ies', keep='first')

# Dimensión del dataframe resultante
t_info_gral_cft_ip_sies.shape

(108, 5)

In [120]:
# Muestra de los datos
t_info_gral_cft_ip_sies.loc[t_info_gral_cft_ip_sies['cod_ies']==143]

Unnamed: 0,cod_ies,tipo_inst,nombre_inst,dir_sede_central,pag_web
42,143,Institutos Profesionales,Instituto Profesional AIEP,"Bellavista 0121, Providencia",www.aiep.cl


<blockquote>
    > Dataframe: <b>t_info_sii_cft_ip_sies</b>
    <ul>
        <li>Descripción: Dataframe que integra los registros sin duplicados desde los dataframes [t_instituciones_sies_xxxx_xxxx] por periodos SIES.</li>
        <li>Columnas: cols_t_info_sii_cft_ip_sies</li>
    </ul>
</blockquote>

In [121]:
"""
Dataframes: 
    - t_info_sii_cft_ip_sies_2017_2018, 
    - t_info_sii_cft_ip_sies_2018_2019, 
    - t_info_sii_cft_ip_sies_2019_2020, 
    - t_info_sii_cft_ip_sies_2020_2021,
    - t_info_sii_cft_ip_sies_2021_2022,
    - t_info_sii_cft_ip_sies_2023_2024,
    - t_info_sii_cft_ip_sies_2024_2025
Descripción: Dataframes que incluyen (a través de una función) los registros de la infromación del SII de las IES en los periodos desde 2018 a 2025.
Columnas: cols_t_info_sii_cft_ip_sies
"""

t_info_sii_cft_ip_sies_2017_2018 = procesar_df_instituciones_sies('t_info_sii_cft_ip_sies', df_instituciones_sies_2017_2018, cols_t_info_sii_cft_ip_sies)
t_info_sii_cft_ip_sies_2018_2019 = procesar_df_instituciones_sies('t_info_sii_cft_ip_sies', df_instituciones_sies_2018_2019, cols_t_info_sii_cft_ip_sies)
t_info_sii_cft_ip_sies_2019_2020 = procesar_df_instituciones_sies('t_info_sii_cft_ip_sies', df_instituciones_sies_2019_2020, cols_t_info_sii_cft_ip_sies)
t_info_sii_cft_ip_sies_2020_2021 = procesar_df_instituciones_sies('t_info_sii_cft_ip_sies', df_instituciones_sies_2020_2021, cols_t_info_sii_cft_ip_sies)
t_info_sii_cft_ip_sies_2021_2022 = procesar_df_instituciones_sies('t_info_sii_cft_ip_sies', df_instituciones_sies_2021_2022, cols_t_info_sii_cft_ip_sies)
t_info_sii_cft_ip_sies_2022_2023 = procesar_df_instituciones_sies('t_info_sii_cft_ip_sies', df_instituciones_sies_2022_2023, cols_t_info_sii_cft_ip_sies)
t_info_sii_cft_ip_sies_2023_2024 = procesar_df_instituciones_sies('t_info_sii_cft_ip_sies', df_instituciones_sies_2023_2024, cols_t_info_sii_cft_ip_sies)
t_info_sii_cft_ip_sies_2024_2025 = procesar_df_instituciones_sies('t_info_sii_cft_ip_sies', df_instituciones_sies_2024_2025, cols_t_info_sii_cft_ip_sies)

> ¡No hay duplicados en el índice!
> Dataframe: df_temp. Dimensión: (91, 4)
> ¡No hay duplicados en el índice!
> Dataframe: df_temp. Dimensión: (90, 4)
> ¡No hay duplicados en el índice!
> Dataframe: df_temp. Dimensión: (86, 4)
> ¡No hay duplicados en el índice!
> Dataframe: df_temp. Dimensión: (85, 4)
> ¡No hay duplicados en el índice!
> Dataframe: df_temp. Dimensión: (79, 4)
> ¡No hay duplicados en el índice!
> Dataframe: df_temp. Dimensión: (76, 4)
> ¡No hay duplicados en el índice!
> Dataframe: df_temp. Dimensión: (73, 4)
> ¡No hay duplicados en el índice!
> Dataframe: df_temp. Dimensión: (71, 4)


In [122]:
# Muestra de los datos de los dataframe
# t_info_sii_cft_ip_sies_2017_2018
# t_info_sii_cft_ip_sies_2018_2019
# t_info_sii_cft_ip_sies_2019_2020
# t_info_sii_cft_ip_sies_2020_2021
# t_info_sii_cft_ip_sies_2021_2022
# t_info_sii_cft_ip_sies_2022_2023
# t_info_sii_cft_ip_sies_2023_2024
# t_info_sii_cft_ip_sies_2024_2025

print(f'2017-2018: \n{t_info_sii_cft_ip_sies_2017_2018.loc[t_info_sii_cft_ip_sies_2017_2018['cod_ies']==143]}\n')
print(f'2018-2019: \n{t_info_sii_cft_ip_sies_2018_2019.loc[t_info_sii_cft_ip_sies_2018_2019['cod_ies']==143]}\n')
print(f'2019-2020: \n{t_info_sii_cft_ip_sies_2019_2020.loc[t_info_sii_cft_ip_sies_2019_2020['cod_ies']==143]}\n')
print(f'2020-2021: \n{t_info_sii_cft_ip_sies_2020_2021.loc[t_info_sii_cft_ip_sies_2020_2021['cod_ies']==143]}\n')
print(f'2021-2022: \n{t_info_sii_cft_ip_sies_2021_2022.loc[t_info_sii_cft_ip_sies_2021_2022['cod_ies']==143]}\n')
print(f'2022-2023: \n{t_info_sii_cft_ip_sies_2022_2023.loc[t_info_sii_cft_ip_sies_2022_2023['cod_ies']==143]}\n')
print(f'2023-2024: \n{t_info_sii_cft_ip_sies_2023_2024.loc[t_info_sii_cft_ip_sies_2023_2024['cod_ies']==143]}\n')
print(f'2024-2025: \n{t_info_sii_cft_ip_sies_2024_2025.loc[t_info_sii_cft_ip_sies_2024_2025['cod_ies']==143]}\n')

2017-2018: 
   cod_ies                 tipo_inst       rut_ies          tipo_soc
51     143  Institutos Profesionales  96.621.640-9  Sociedad Anónima

2018-2019: 
   cod_ies                 tipo_inst       rut_ies               tipo_soc
50     143  Institutos Profesionales  96.621.640-9  Sociedad por Acciones

2019-2020: 
   cod_ies                 tipo_inst       rut_ies               tipo_soc
77     143  Institutos Profesionales  96.621.640-9  Sociedad por Acciones

2020-2021: 
   cod_ies                 tipo_inst       rut_ies               tipo_soc
73     143  Institutos Profesionales  96.621.640-9  Sociedad por Acciones

2021-2022: 
   cod_ies                 tipo_inst       rut_ies               tipo_soc
71     143  Institutos Profesionales  96.621.640-9  Sociedad por Acciones

2022-2023: 
   cod_ies                 tipo_inst       rut_ies               tipo_soc
47     143  Institutos Profesionales  96.621.640-9  Sociedad por Acciones

2023-2024: 
   cod_ies                 tipo_

In [None]:
"""
Dataframe: t_info_sii_cft_ip_sies
Descripción: Dataframe que concatena los dataframe con la información del SII de las IES por periodo. Toma de base el dataframe del periodo más actual (2024-2025) e 
incorpora los registros que no estén presentes en este periodo con el fin de tener la información histórica de todas las IES (CFT e IP).
"""

# Creación de una lista que contiene todos los dataframes procesados por periodo.
dataframes = [
    t_info_sii_cft_ip_sies_2017_2018, t_info_sii_cft_ip_sies_2018_2019, t_info_sii_cft_ip_sies_2019_2020, t_info_sii_cft_ip_sies_2020_2021, 
    t_info_sii_cft_ip_sies_2021_2022, t_info_sii_cft_ip_sies_2022_2023, t_info_sii_cft_ip_sies_2023_2024, t_info_sii_cft_ip_sies_2024_2025
    ]

# Concatenación de todos los dataframes
df_concatenado = pd.concat(dataframes)

# Eliminación de duplicados basándose en la columna 'cod_ies'
df_concatenado = df_concatenado.drop_duplicates(subset='cod_ies', keep='first')

# Seleccionar solo las filas del dataframe 't_info_sii_cft_ip_sies_2024_2025'
df_2024_2025 = t_info_sii_cft_ip_sies_2024_2025[cols_t_info_sii_cft_ip_sies]

# Concatenación del dataframe 't_info_sii_cft_ip_sies_2024_2025' con el dataframe sin duplicados
t_info_sii_cft_ip_sies = pd.concat([df_2024_2025, df_concatenado]).drop_duplicates(subset='cod_ies', keep='first')

# Eliminación de la columna 'tipo_inst' dado que ya está en el dataframe t_info_acred_cft_ip_sies
t_info_sii_cft_ip_sies = t_info_sii_cft_ip_sies.drop('tipo_inst', axis=1, inplace=True)

# Dimensión del dataframe resultante
t_info_sii_cft_ip_sies.shape

(108, 3)

In [124]:
# Muestra de los datos
t_info_sii_cft_ip_sies.loc[t_info_sii_cft_ip_sies['cod_ies']==143]

Unnamed: 0,cod_ies,rut_ies,tipo_soc
42,143,96.621.640-9,Sociedad por Acciones


<blockquote>
    > Dataframe: <b>t_info_acred_cft_ip_sies</b>
    <ul>
        <li>Descripción: Dataframe que integra los registros sin duplicados desde los dataframes [t_info_acred_cft_ip_sies_xxxx_xxxx] por periodos SIES.</li>
        <li>Columnas: cols_t_info_acred_cft_ip_sies</li>
    </ul>
</blockquote>

In [125]:
"""
Dataframe: t_info_acred_cft_ip_sies_2017_2018 
Descripción: Dataframe que incluye los registros de la información de acreditación de las IES en el periodo 2017-2018.
Columnas: cols_t_info_acred_cft_ip_sies
"""

"""
Perido 2017-2018
"""
# Extracción de las columnas
t_info_acred_cft_ip_sies_2017_2018 = df_instituciones_sies_2017_2018.iloc[:, [0, 0, 1, 3, 6, 7, 8, 9, 10]]

# Renombrar las columnas del nuevo dataframe
t_info_acred_cft_ip_sies_2017_2018.columns = cols_t_info_acred_cft_ip_sies

# Reasignar el valor del periodo SIES a la primera columna 'per_sies' que tenía los datos de cod_ies.
t_info_acred_cft_ip_sies_2017_2018.loc[:, 'per_sies'] = '2017-2018'

# Reasignar el valor de la situación de autonomía como en la columna 'situa_auton' que no presenta datos en este periodo..
t_info_acred_cft_ip_sies_2017_2018.loc[:, 'situa_auton'] = np.nan

# ELiminar la primera fila del nuevo dataframe que contiene los nombres de las columnas 
t_info_acred_cft_ip_sies_2017_2018 = t_info_acred_cft_ip_sies_2017_2018.iloc[1:]

# Eliminar las filas de la columna 'cod_ies' que contienen NaN (son las últimas filas que se agregaron por defecto al importar los datos de la planilla excel)
t_info_acred_cft_ip_sies_2017_2018 = t_info_acred_cft_ip_sies_2017_2018.dropna(subset=['cod_ies'])

# Eliminar las filas que no estén asociadas a CFT o IP; en otras palabras, eliminar las filas que contengan registros de Universidades.
t_info_acred_cft_ip_sies_2017_2018 = t_info_acred_cft_ip_sies_2017_2018[~t_info_acred_cft_ip_sies_2017_2018['tipo_inst'].str.contains('Universidad', case=False, na=False)]

# Verificar si hay duplicados en el índice
duplicados = t_info_acred_cft_ip_sies_2017_2018['cod_ies'].duplicated(keep=False)

if duplicados.any():
    print("> ¡Hay duplicados en el identificador!, se debe revisar el dataframe.")
    print(f'> Duplicados: {t_info_acred_cft_ip_sies_2017_2018[duplicados]}')
else:
    print("> ¡No hay duplicados en el identificador!")
    print(f'> Dataframe: t_instituciones_sies_2017_2018. Dimensión: {t_info_acred_cft_ip_sies_2017_2018.shape}')
    t_info_acred_cft_ip_sies_2017_2018.head(3)

> ¡No hay duplicados en el identificador!
> Dataframe: t_instituciones_sies_2017_2018. Dimensión: (91, 9)


In [131]:
"""
Dataframes: 
    - t_info_acred_cft_ip_sies_2018_2019, 
    - t_info_acred_cft_ip_sies_2019_2020, 
    - t_info_acred_cft_ip_sies_2020_2021,
    - t_info_acred_cft_ip_sies_2021_2022,
    - t_info_acred_cft_ip_sies_2023_2024,
    - t_info_acred_cft_ip_sies_2024_2025
Descripción: Dataframes que incluyen (a través de una función) los registros de la infromación de acreditación de las IES en los periodos desde 2018 a 2025.
Columnas: cols_t_info_acred_cft_ip_sies
"""

# LLamar a la función para realizar las transformaciones.
t_info_acred_cft_ip_sies_2018_2019 = procesar_df_instituciones_sies('t_info_acred_cft_ip_sies', df_instituciones_sies_2018_2019, cols_t_info_acred_cft_ip_sies)
t_info_acred_cft_ip_sies_2019_2020 = procesar_df_instituciones_sies('t_info_acred_cft_ip_sies', df_instituciones_sies_2019_2020, cols_t_info_acred_cft_ip_sies)
t_info_acred_cft_ip_sies_2020_2021 = procesar_df_instituciones_sies('t_info_acred_cft_ip_sies', df_instituciones_sies_2020_2021, cols_t_info_acred_cft_ip_sies)
t_info_acred_cft_ip_sies_2021_2022 = procesar_df_instituciones_sies('t_info_acred_cft_ip_sies', df_instituciones_sies_2021_2022, cols_t_info_acred_cft_ip_sies)
t_info_acred_cft_ip_sies_2022_2023 = procesar_df_instituciones_sies('t_info_acred_cft_ip_sies', df_instituciones_sies_2022_2023, cols_t_info_acred_cft_ip_sies)
t_info_acred_cft_ip_sies_2023_2024 = procesar_df_instituciones_sies('t_info_acred_cft_ip_sies', df_instituciones_sies_2023_2024, cols_t_info_acred_cft_ip_sies)
t_info_acred_cft_ip_sies_2024_2025 = procesar_df_instituciones_sies('t_info_acred_cft_ip_sies', df_instituciones_sies_2024_2025, cols_t_info_acred_cft_ip_sies)

> ¡No hay duplicados en el índice!
> Dataframe: df_temp. Dimensión: (90, 9)
> ¡No hay duplicados en el índice!
> Dataframe: df_temp. Dimensión: (86, 9)
> ¡No hay duplicados en el índice!
> Dataframe: df_temp. Dimensión: (85, 9)
> ¡No hay duplicados en el índice!
> Dataframe: df_temp. Dimensión: (79, 9)
> ¡No hay duplicados en el índice!
> Dataframe: df_temp. Dimensión: (76, 9)
> ¡No hay duplicados en el índice!
> Dataframe: df_temp. Dimensión: (73, 9)
> ¡No hay duplicados en el índice!
> Dataframe: df_temp. Dimensión: (71, 9)


In [132]:
# Reasignar el valor del periodo SIES a la primera columna 'per_sies' que tenía los datos de cod_ies.
t_info_acred_cft_ip_sies_2018_2019.loc[:, 'per_sies'] = '2018-2019'
t_info_acred_cft_ip_sies_2019_2020.loc[:, 'per_sies'] = '2019_2020'
t_info_acred_cft_ip_sies_2020_2021.loc[:, 'per_sies'] = '2020_2021'
t_info_acred_cft_ip_sies_2021_2022.loc[:, 'per_sies'] = '2021_2022'
t_info_acred_cft_ip_sies_2022_2023.loc[:, 'per_sies'] = '2022_2023'
t_info_acred_cft_ip_sies_2023_2024.loc[:, 'per_sies'] = '2023_2024'
t_info_acred_cft_ip_sies_2024_2025.loc[:, 'per_sies'] = '2024_2025'

In [134]:
# Muestra de los datos de los dataframe
# t_info_acred_cft_ip_sies_2017_2018
# t_info_acred_cft_ip_sies_2018_2019
# t_info_acred_cft_ip_sies_2019_2020
# t_info_acred_cft_ip_sies_2020_2021
# t_info_acred_cft_ip_sies_2021_2022
# t_info_acred_cft_ip_sies_2022_2023
# t_info_acred_cft_ip_sies_2023_2024
# t_info_acred_cft_ip_sies_2024_2025

print(f'2017-2018: \n{t_info_acred_cft_ip_sies_2017_2018.loc[t_info_acred_cft_ip_sies_2017_2018['cod_ies']==143]}\n')
print(f'2018-2019: \n{t_info_acred_cft_ip_sies_2018_2019.loc[t_info_acred_cft_ip_sies_2018_2019['cod_ies']==143]}\n')
print(f'2019-2020: \n{t_info_acred_cft_ip_sies_2019_2020.loc[t_info_acred_cft_ip_sies_2019_2020['cod_ies']==143]}\n')
print(f'2020-2021: \n{t_info_acred_cft_ip_sies_2020_2021.loc[t_info_acred_cft_ip_sies_2020_2021['cod_ies']==143]}\n')
print(f'2021-2022: \n{t_info_acred_cft_ip_sies_2021_2022.loc[t_info_acred_cft_ip_sies_2021_2022['cod_ies']==143]}\n')
print(f'2022-2023: \n{t_info_acred_cft_ip_sies_2022_2023.loc[t_info_acred_cft_ip_sies_2022_2023['cod_ies']==143]}\n')
print(f'2023-2024: \n{t_info_acred_cft_ip_sies_2023_2024.loc[t_info_acred_cft_ip_sies_2023_2024['cod_ies']==143]}\n')
print(f'2024-2025: \n{t_info_acred_cft_ip_sies_2024_2025.loc[t_info_acred_cft_ip_sies_2024_2025['cod_ies']==143]}\n')

2017-2018: 
     per_sies cod_ies                 tipo_inst situa_auton situa_acred  \
51  2017-2018     143  Institutos Profesionales         NaN  Acreditada   

   anios_acred                                        perio_acred  \
51           4  Desde 22 de octubre de 2017 hasta 22 de octubr...   

                               areas_oblig_acred areas_elect_acred  
51  Gestión Institucional y Docencia de Pregrado               NaN  

2018-2019: 
     per_sies cod_ies                 tipo_inst situa_auton situa_acred  \
50  2018-2019     143  Institutos Profesionales    Autónoma  Acreditada   

   anios_acred                                        perio_acred  \
50           5  Desde 22 de octubre de 2017 hasta 22 de octubr...   

                               areas_oblig_acred areas_elect_acred  
50  Gestión Institucional y Docencia de Pregrado               NaN  

2019-2020: 
     per_sies cod_ies                 tipo_inst situa_auton situa_acred  \
77  2019_2020     143  Institut

In [None]:
"""
Dataframe: t_info_acred_cft_ip_sies
Descripción: Dataframe que concatena los dataframe con la información de acreditación de las IES por periodo. Toma de base el dataframe del periodo más actual (2024-2025) e 
incorpora los registros que no estén presentes en este periodo con el fin de tener la información histórica de todas las IES (CFT e IP).
"""

# Creación de una lista que contiene todos los dataframes procesados por periodo.
dataframes = [
    t_info_acred_cft_ip_sies_2017_2018, t_info_acred_cft_ip_sies_2018_2019, t_info_acred_cft_ip_sies_2019_2020, t_info_acred_cft_ip_sies_2020_2021, 
    t_info_acred_cft_ip_sies_2021_2022, t_info_acred_cft_ip_sies_2022_2023, t_info_acred_cft_ip_sies_2023_2024, t_info_acred_cft_ip_sies_2024_2025
    ]

# Concatenación de todos los dataframes
df_concatenado = pd.concat(dataframes)

# Eliminación de duplicados basándose en la columna 'cod_ies'
df_concatenado = df_concatenado.drop_duplicates(subset='cod_ies', keep='first')

# Seleccionar solo las filas del dataframe 't_info_acred_cft_ip_sies_2024_2025'
df_2024_2025 = t_info_acred_cft_ip_sies_2024_2025[cols_t_info_acred_cft_ip_sies]

# Concatenación del dataframe 't_info_acred_cft_ip_sies_2024_2025' con el dataframe sin duplicados
t_info_acred_cft_ip_sies = pd.concat([df_2024_2025, df_concatenado]).drop_duplicates(subset='cod_ies', keep='first')

# Eliminación de la columna 'tipo_inst' dado que ya está en el dataframe t_info_acred_cft_ip_sies
t_info_acred_cft_ip_sies = t_info_acred_cft_ip_sies.drop('tipo_inst', axis=1, inplace=True)

# Dimensión del dataframe resultante
t_info_acred_cft_ip_sies.shape

(108, 8)

In [137]:
t_info_gral_cft_ip_sies.shape

(108, 5)

In [None]:
t_info_sii_cft_ip_sies.shape

In [136]:
# Muestra de los datos
t_info_acred_cft_ip_sies.loc[t_info_acred_cft_ip_sies['cod_ies']==143]

Unnamed: 0,per_sies,cod_ies,situa_auton,situa_acred,anios_acred,perio_acred,areas_oblig_acred,areas_elect_acred
42,2024_2025,143,Autónoma,Acreditada,5,Desde 23 de octubre de 2022 hasta 23 de octubr...,Gestión Institucional y Docencia,Vinculación con el Medio


---

In [15]:
"""
Función: procesar_df_pac_sies
Descripción: Función que permite modularizar las operaciones relacionadas con las transformaciones y creación de los dataframes con información del personal académico de las IES (CFT e IP).
"""

def procesar_df_pac_sies(tabla, df_x_per, cols):
    match tabla:
        case "t_pac_num_cft_ip_sies":
            # Extracción de las columnas
            df_temp = df_x_per.iloc[:, :64]

            # Eliminación de las columnas que no se utilizarán para el anáñisis.
            df_temp.drop(df_temp.columns[[2, 4, 5]], axis=1, inplace=True)
            df_temp.drop(df_temp.columns[12:24], axis=1, inplace=True)

            # Renombrar las columnas del nuevo dataframe
            df_temp.columns = cols

            # ELiminar lax 2 primeras filas del nuevo dataframe que contienen vacíos y los nombres de las columnas
            # (esto ocurrió por defecto al importar los datos de la planilla excel al dataframe)
            df_temp = df_temp.iloc[2:]

            # Eliminar las filas que no estén asociadas a CFT o IP; en otras palabras, eliminar las filas que contengan registros de Universidades.
            df_temp = df_temp[
                ~df_temp["tipo_inst"].str.contains("Universidad", case=False, na=False)
            ]

            print(f"> Dataframe: [t_pac_num_cft_ip_sies]. Dimensión: {df_temp.shape}\n")
            df_temp.head(3)
        case "t_pac_jce_cft_ip_sies":
            # Extracción de las columnas
            df_temp = df_x_per.iloc[:, :60]

            # Eliminación de las columnas que no se utilizarán para el análisis.
            df_temp.drop(df_temp.columns[[2, 4, 5]], axis=1, inplace=True)
            df_temp.drop(df_temp.columns[12:24], axis=1, inplace=True)

            # Renombrar las columnas del nuevo dataframe
            df_temp.columns = cols

            # ELiminar lax 2 primeras filas del nuevo dataframe que contienen vacíos y los nombres de las columnas
            # (esto ocurrió por defecto al importar los datos de la planilla excel al dataframe)
            df_temp = df_temp.iloc[2:]

            # Eliminar las filas que no estén asociadas a CFT o IP; en otras palabras, eliminar las filas que contengan registros de Universidades.
            df_temp = df_temp[
                ~df_temp["tipo_inst"].str.contains("Universidad", case=False, na=False)
            ]

            print(f"> Dataframe: [t_pac_num_cft_ip_sies]. Dimensión: {df_temp.shape}\n")
            df_temp.head(3)

    return df_temp

<blockquote>
    > Dataframe: <b>t_pac_num_cft_ip_sies</b>
    <ul>
        <li>Descripción: Dataframe que integra los registros sin duplicados desde el dataframe [df_pac_num_sies_2017_2024] por periodos SIES.</li>
        <li>Columnas: cols_t_pac_num_cft_ip_sies</li>
    </ul>
</blockquote>

In [16]:
"""
Dataframes: 
    - t_pac_num_cft_ip_sies, 
    - t_pac_jce_cft_ip_sies
Descripción: Dataframes que incluyen (a través de una función) los registros de la información del Personal Académico de las IES (CFT e IP) en los periodos desde 2017 a 2024.
Columnas: cols_t_pac_num_cft_ip_sies y cols_t_pac_jce_cft_ip_sies
"""

# LLamar a la función para realizar las transformaciones.
t_pac_num_cft_ip_sies = procesar_df_pac_sies('t_pac_num_cft_ip_sies', df_pac_num_sies_2017_2024, cols_t_pac_num_sies)
t_pac_jce_cft_ip_sies = procesar_df_pac_sies('t_pac_jce_cft_ip_sies', df_pac_jce_sies_2017_2024, cols_t_pac_jce_sies)

> Dataframe: [t_pac_num_cft_ip_sies]. Dimensión: (1598, 49)

> Dataframe: [t_pac_num_cft_ip_sies]. Dimensión: (1598, 45)



A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_temp.drop(df_temp.columns[[2, 4, 5]], axis=1, inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_temp.drop(df_temp.columns[12:24], axis=1, inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_temp.drop(df_temp.columns[[2, 4, 5]], axis=1, inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view

In [None]:
# Verificación
# t_pac_num_cft_ip_sies[t_pac_num_cft_ip_sies['cod_ies']==143]
t_pac_jce_cft_ip_sies[t_pac_jce_cft_ip_sies['cod_ies']==143]

Unnamed: 0,per_sies,cod_ies,tipo_inst,total_mujeres,total_hombres,total_gral,prom_edad_mujeres,prom_edad_hombres,prom_edad_inst,num_acad_1_inst,...,num_acad_nac_chile,num_acad_nac_extra,prom_gral_hrs_acad,prom_muj_hrs_acad,prom_hom_hrs_acad,num_acad_hrs_menos_11,num_acad_hrs_ent_11_22,num_acad_hrs_ent_23_38,num_acad_hrs_mas_38,num_acad_hrs_sin_info
72,PAC_2024,143,Institutos Profesionales,2437,2504,4941,40.125564,42.799521,41.480672,786,...,4790,151,24.678608,25.203119,24.168131,1124,1508,1049,1260,
198,PAC_2023,143,Institutos Profesionales,2405,2537,4942,39.82578,42.234923,41.062525,812,...,4796,146,23.735735,23.925156,23.556169,1250,1526,1016,1150,
325,PAC_2022,143,Institutos Profesionales,2202,2254,4456,39.523615,41.999556,40.776032,803,...,4332,124,24.009874,23.875568,24.141083,1130,1373,840,1113,
458,PAC_2021,143,Institutos Profesionales,1931,1982,3913,39.746763,42.243189,41.011245,681,...,3824,89,18.846154,19.008286,18.688194,1379,1301,697,536,
595,PAC_2020,143,Institutos Profesionales,2166,2265,4431,39.139428,41.49404,40.343038,806,...,4321,110,24.279395,24.79132,23.789845,998,1248,1172,1013,
738,PAC_2019,143,Institutos Profesionales,1941,2194,4135,39.355487,41.078396,40.269649,726,...,4059,76,22.529383,21.608449,23.34412,1222,1179,995,739,
884,PAC_2018,143,Institutos Profesionales,1846,2194,4040,38.702059,40.828624,39.856931,755,...,3987,53,20.968812,20.04117,21.749316,1294,1230,941,575,
1033,PAC_2017,143,Institutos Profesionales,1802,2201,4003,38.238624,40.487506,39.475144,748,...,3950,53,22.928581,21.800808,23.851911,1189,1163,873,778,
1181,PAC_2016,143,Institutos Profesionales,1926,2286,4212,37.37578,39.238512,38.387028,912,...,4157,55,20.146724,21.279855,19.192038,410,2891,241,670,
1332,PAC_2015,143,Institutos Profesionales,1767,2113,3880,37.348613,39.243256,38.380412,850,...,3826,54,19.209794,18.16412,20.08424,1485,1128,618,649,


X. Creación del dataframe __df_instituciones_sies_2017_2025__ que integra los registros correspondientes a la Información de Instituciones de Educación Superior (CFT e IP) que están separados por periodo SIES en dataframes.

##### 3.3.3 Análisis de Datos.

##### 3.3.4 Resultados.

### 4. Conclusiones.

### 5. Recomendaciones y Perspectiva.

### 6. Referencia Bibliográfica.

* Stryker, C (2024). ¿Qué es data pipeline?. IBM. Sitio Web: https://www.ibm.com/mx-es/topics/data-pipeline
* Servicio de Información de Educación Superior. Mineduc. Sitio Web: https://www.mifuturo.cl/sies/

### 7. Anexos.