In [184]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker
import matplotlib.style as style
import seaborn as sns
import re

# Opciones para evitar notación científica en NumPy y Pandas
np.set_printoptions(suppress=True)
pd.set_option('display.float_format', lambda x: f"{x:0.5f}")

# Opciones de gráficos
plt.style.use("ggplot")
%config InlineBackend.figure_format = "retina"

# Configura el estilo de gráfico
style.use('ggplot')
plt.rcParams['axes.facecolor'] = 'white'
plt.rcParams['axes.edgecolor'] = 'white'
plt.rcParams['axes.grid'] = True
plt.rcParams['grid.color'] = '#e6e6e6'
plt.rcParams['grid.linestyle'] = '-'
plt.rcParams['grid.linewidth'] = 0.5
plt.rcParams['axes.titlepad'] = 20
plt.rcParams['axes.labelpad'] = 12
plt.rcParams['figure.facecolor'] = 'white'
plt.rcParams['font.family'] = 'sans-serif'
plt.rcParams['font.sans-serif'] = ['Arial']
plt.rcParams['text.color'] = '#333333'
plt.rcParams['xtick.color'] = '#333333'
plt.rcParams['ytick.color'] = '#333333'
plt.rcParams['xtick.major.size'] = 0
plt.rcParams['ytick.major.size'] = 0
plt.rcParams['xtick.minor.size'] = 0
plt.rcParams['ytick.minor.size'] = 0

In [185]:
def clean_names(df):
    # Obtener los nombres de columna actuales
    columnas = df.columns.tolist()

    # Convertir los nombres de columna a minúsculas
    columnas = [col.lower() for col in columnas]

    # Reemplazar caracteres especiales y espacios en blanco con guiones bajos
    columnas = [re.sub(r'\W+|_', '_', col) for col in columnas]

    # Reemplazar espacios en blanco con guiones bajos
    columnas = [col.replace(' ', '_') for col in columnas]

    # Asignar los nuevos nombres de columna al DataFrame
    df.columns = columnas

    return df

In [186]:
def clean_column_names(df):
    # Obtener los nombres de columna actuales
    columnas = df.columns.tolist()

    # Patrón para encontrar años en el nombre de la variable
    patron = re.compile(r'_\d{4}')

    # Iterar sobre los nombres de columna y reemplazar los años encontrados
    columnas_limpias = []
    for col in columnas:
        col_limpias = re.sub(patron, '', col)
        columnas_limpias.append(col_limpias)

    # Asignar los nuevos nombres de columna al DataFrame
    df.columns = columnas_limpias

    return df

In [187]:
d2021 = pd.read_excel("data/Buscador_de_carreras_mifuturo_2021.xlsx")
d2020 = pd.read_excel("data/Buscador-de-carreras_mifuturo_2020.xlsx")
d2019 = pd.read_excel("data/Buscador-de-carreras_2019_web-2.xlsx")

In [188]:
d2021.columns = d2021.iloc[0]
d2020.columns = d2020.iloc[0]
d2019.columns = d2019.iloc[0]

In [189]:
d2021 = d2021[1:]
d2020 = d2020[1:]
d2019 = d2019[1:]

In [190]:
d2021 = clean_names(d2021)
d2020 = clean_names(d2020)
d2019 = clean_names(d2019)

In [191]:
print("Datos del 2021:")
display(d2021.head())
print("Datos del 2020: ")
display(d2020.head())
print("Datos del 2019:")
display(d2019.head())

Datos del 2021:


Unnamed: 0,código_único_de_carrera_,código_institución_,área_del_conocimiento,tipo_de_institución,nombre_institución,nombre_carrera,región,jornada,sede,arancel_anual_2021,...,promedio_nem_2020_de_matrícula_2020,vacantes_1er_semestre_,nem,ranking_,psu_lenguaje,psu_matemáticas_,psu_historia_,psu_ciencias_,otros_,área_carrera_genérica
1,I143S9C680J2V1,143,Tecnología,Institutos Profesionales,IP AIEP,TECNICO EN MANTENIMIENTO INDUSTRIAL,Región del Lib. B. O´Higgins,Vespertino,SEDE RANCAGUA,1850000,...,4.96923,21,0,0,0,0,0,0,0,Técnico en Mantenimiento Industrial
2,I4S9C30J2V1,4,Ciencias Sociales,Universidades,UNIVERSIDAD CENTRAL DE CHILE,TECNICO DE NIVEL SUPERIOR EN REHABILITACION DE...,Región Metropolitana,Vespertino,SUB-CAMPUS ALMAGRO NORTE,1000000,...,5.0,35,0,0,0,0,0,0,0,Otros Técnicos de Ciencias Sociales
3,I123S2C49J2V1,123,Administración y Comercio,Institutos Profesionales,IP DE CHILE,CONTABILIDAD GENERAL,Región Metropolitana,Vespertino,CASA CENTRAL (SANTIAGO),1334000,...,5.05,45,0,0,0,0,0,0,0,Técnico en Contabilidad General
4,I81S1C299J2V1,81,Tecnología,Universidades,UNIVERSIDAD ARTURO PRAT,TECNICO DE NIVEL SUPERIOR MECANICO MANTENEDOR ...,Región de Tarapacá,Vespertino,CASA CENTRAL (IQUIQUE),1544000,...,5.07308,30,0,0,0,0,0,0,0,Técnico en Mecánica Industrial
5,I113S7C455J2V1,113,Salud,Institutos Profesionales,IP IPG,TECNICO DE NIVEL SUPERIOR EN MASOTERAPIA,Región Metropolitana,Vespertino,SEDE PROVIDENCIA,1328250,...,5.08182,25,0,0,0,0,0,0,0,Técnico en Masoterapia


Datos del 2020: 


Unnamed: 0,código_único_de_carrera_,código_institución_,área_del_conocimiento,tipo_de_institución,nombre_institución,nombre_carrera,región,jornada,sede,arancel_anual_2020,...,promedio_nem_2019_de_matrícula_2019,vacantes_1er_semestre_,nem,ranking_,psu_lenguaje,psu_matemáticas_,psu_historia_,psu_ciencias_,otros_,área_carrera_genérica
1,I70S1C1J1V1,70,Ciencias Sociales,Universidades,UNIVERSIDAD DE CHILE,ADMINISTRACION PUBLICA,Región Metropolitana,Diurno,CASA CENTRAL (SANTIAGO),3607900,...,6.44184,157,0.1,0.3,0.2,0.2,0.2,0.0,0,Administración Pública
2,I70S1C2J1V1,70,Ciencias Sociales,Universidades,UNIVERSIDAD DE CHILE,ANTROPOLOGIA-ARQUEOLOGIA,Región Metropolitana,Diurno,CASA CENTRAL (SANTIAGO),3493700,...,6.503,111,0.2,0.2,0.2,0.15,0.25,0.0,0,Antropología
3,I70S1C3J1V1,70,Arte y Arquitectura,Universidades,UNIVERSIDAD DE CHILE,ARQUITECTURA,Región Metropolitana,Diurno,CASA CENTRAL (SANTIAGO),4321000,...,6.45,190,0.2,0.2,0.2,0.3,0.1,0.1,0,Arquitectura
4,I70S1C5J1V1,70,Ciencias Básicas,Universidades,UNIVERSIDAD DE CHILE,BIOLOGIA CON MENCION EN MEDIO AMBIENTE,Región Metropolitana,Diurno,CASA CENTRAL (SANTIAGO),3853000,...,6.51842,48,0.2,0.2,0.1,0.25,0.0,0.25,0,Biología
5,I70S1C6J1V1,70,Ciencias Básicas,Universidades,UNIVERSIDAD DE CHILE,BIOQUIMICA,Región Metropolitana,Diurno,CASA CENTRAL (SANTIAGO),4373100,...,6.58889,55,0.1,0.2,0.1,0.3,0.0,0.3,0,Bioquímica


Datos del 2019:


Unnamed: 0,código_único_de_carrera_,código_institución_,área_del_conocimiento,tipo_de_institución,nombre_institución,nombre_carrera,región,jornada,sede,arancel_anual_2019,...,promedio_nem_2018_de_matrícula_2018,vacantes_primer_semestre_,nem,ranking_,psu_lenguaje,psu_matemáticas_,psu_historia_,psu_ciencias_,otros_,área_carrera_genérica
1,I70S1C157J1V1,70,Agropecuaria,Universidades,UNIVERSIDAD DE CHILE,MEDICINA VETERINARIA,Región Metropolitana,Diurno,CASA CENTRAL (SANTIAGO),4455600,...,6.40582,209,0.1,0.2,0.2,0.35,0,0.15,0,Medicina Veterinaria
2,I70S1C158J1V1,70,Salud,Universidades,UNIVERSIDAD DE CHILE,MEDICINA,Región Metropolitana,Diurno,CASA CENTRAL (SANTIAGO),6094000,...,6.8297,224,0.1,0.2,0.1,0.3,0,0.3,0,Medicina
3,I70S1C159J1V1,70,Salud,Universidades,UNIVERSIDAD DE CHILE,NUTRICION Y DIETETICA,Región Metropolitana,Diurno,CASA CENTRAL (SANTIAGO),4111800,...,6.5431,72,0.1,0.2,0.1,0.3,0,0.3,0,Nutrición y Dietética
4,I70S1C160J1V1,70,Salud,Universidades,UNIVERSIDAD DE CHILE,OBSTETRICIA Y PUERICULTURA,Región Metropolitana,Diurno,CASA CENTRAL (SANTIAGO),4111800,...,6.657,111,0.1,0.2,0.1,0.3,0,0.3,0,Obstetricia y Puericultura
5,I70S1C161J1V1,70,Salud,Universidades,UNIVERSIDAD DE CHILE,ODONTOLOGIA,Región Metropolitana,Diurno,CASA CENTRAL (SANTIAGO),5990100,...,6.60696,121,0.1,0.2,0.15,0.2,0,0.35,0,Odontología


In [192]:
d2021 = clean_column_names(d2021)

In [193]:
d2020 = clean_column_names(d2020)

In [194]:
d2019 = clean_column_names(d2019)

In [195]:
d2021 = d2021.rename(columns={'administración_delegada':'c_administración_delegada'})

In [196]:
d2019 = d2019.rename(columns={'duración_formal_':'duración_formal_semestres_','municipal':'municipal_y_servicios_locales','titlación_masculna':'titlación_masculina','vacantes_primer_semestre_':'vacantes_1er_semestre_'})

In [197]:
d2021['año'] = '2021'
d2020['año'] = '2020'
d2019['año'] = '2019'

In [198]:
data = pd.concat([d2021,d2020,d2019])

In [199]:
data['código_único_de_carrera_'] = data['código_único_de_carrera_'].str.replace(r'\s+', '')

  data['código_único_de_carrera_'] = data['código_único_de_carrera_'].str.replace(r'\s+', '')


In [200]:
acreditacion = pd.read_excel("data/acreditacion2017-2022.xlsx")

In [201]:
acreditacion = clean_names(acreditacion)

In [202]:
acreditacion['código_de_institución'] = acreditacion['código_de_institución'].astype(str)
acreditacion['año'] = acreditacion['año'].astype(str)

In [203]:
acreditacion = acreditacion.rename(columns={'código_carrera':'código_único_de_carrera_','código_de_institución':'código_institución_'})

In [215]:
data_merge = data.merge(
    right=acreditacion,
    on = ['código_único_de_carrera_','año'],
    how = 'left'
)

In [224]:
data_merge.to_excel("Export/data.xlsx")