# Análisis de Capital Humano en áreas OECD
## Datos entregados por el Mineduc en Chile
* Ejecutado en mi entorno conda Stats
* Autor: Alexis Salas Burgos 
* Fecha: Septiembre 2020

In [None]:
# importando bibliotecas requerido en python
import pandas as pd
import altair as alt
import seaborn as sns

In [None]:
# Explorando los archivos csv
df = pd.read_csv("../data/Titulados_Educacion_Superior_2019.csv", sep=";")
df2 = pd.read_csv("../data/Titulados_Educacion_Superior_2018.csv", sep=";")
df3 = pd.read_csv("../data/Titulados_Educacion_Superior_2017.csv", sep=";")
df = df.append(df2)
df = df.append(df3)
df.shape

In [None]:
df['REGION_SEDE'].unique()

In [None]:
df["NIVEL_CARRERA_1"].unique()

In [None]:
df["TIPO_INST_1"].unique()

In [None]:
from collections import Counter
cv = df[['AREA_CARRERA_GENERICA_N','OECD_SUBAREA','OECD_AREA']]
carreras2areas = cv.value_counts()
d = carreras2areas.to_dict()
nd = {}
for area in df['OECD_AREA'].unique():
    nd[area]=[]
    for a,b,c in d.keys():
        if area == b:
            nd[area].append(a)
#nd['MEDICINA']

In [None]:
from collections import Counter
cv = df[['AREA_CARRERA_GENERICA_N','OECD_SUBAREA','OECD_AREA']]
carreras2areas = cv.value_counts()
d = carreras2areas.to_dict()
nd2 = {}
for a,b,c in d.keys():
    nd2[a]=c
nd2['TÉCNICO EN ENFERMERÍA']

In [None]:
df.columns

## 1. Pregrado por Regiones

In [None]:
#df_pregrado = df.query("PROVINCIA_SEDE in ['CACHAPOAL','TALCA','DIGUILLIN','CONCEPCION', 'BIOBIO']")
df_pregrado = df.query('REGION_SEDE in ["BIOBÍO","ÑUBLE","MAULE","LIB. GRAL B. O\'HIGGINS"]')
df_pregrado = df_pregrado.query("NIVEL_CARRERA_1 in ['PROFESIONAL CON LICENCIATURA','LICENCIATURA NO CONDUCENTE A TÍTULO']")

In [None]:
import altair as alt
alt.data_transformers.disable_max_rows()

alt.Chart(df_pregrado).mark_bar(
    cornerRadiusTopLeft=3,
    cornerRadiusTopRight=3
).encode(
    y=alt.Y('count(OECD_AREA):Q', stack=True),
    x='OECD_AREA:O',
    color='GEN_ALU:N',
    column='REGION_SEDE:O'
    
)

### Normalizado por habitantes de Región a Egresados cada 100,000 habitantes

In [None]:
## Para comparar normalizaremos por cada 100,000 habitantes y la población de cada región
# https://es.wikipedia.org/wiki/Anexo:Regiones_de_Chile_por_poblaci%C3%B3n
x_group = ['OECD_AREA','OECD_SUBAREA','AREA_CARRERA_GENERICA_N']
g_group = [['PROFESIONAL CON LICENCIATURA', 'LICENCIATURA NO CONDUCENTE A TÍTULO'],
           ['MAGISTER', 'DOCTORADO'],
           ['DIPLOMADO (SUPERIOR A UN SEMESTRE)', 'POSTÍTULO','MAGISTER', 'DOCTORADO','ESPECIALIDAD MÉDICA U ODONTOLÓGICA'],
           ['PROFESIONAL SIN LICENCIATURA', 'TÉCNICO DE NIVEL SUPERIOR']]

x_name  = x_group[0]
g_name = g_group[0]
years   = 3

df_pregrado = df.query('REGION_SEDE in ["BIOBÍO"] and GEN_ALU == 1')
df_pregrado = df_pregrado.query("NIVEL_CARRERA_1 in {0}".format(g_name))
ybbm = df_pregrado[x_name].value_counts()/1556805*100000/years

df_pregrado = df.query('REGION_SEDE in ["BIOBÍO"] and GEN_ALU == 2')
df_pregrado = df_pregrado.query("NIVEL_CARRERA_1 in {0}".format(g_name))
ybbf = df_pregrado[x_name].value_counts()/1556805*100000/years

df_pregrado = df.query('REGION_SEDE in ["ÑUBLE"] and GEN_ALU == 1')
df_pregrado = df_pregrado.query("NIVEL_CARRERA_1 in {0}".format(g_name))
ynum = df_pregrado[x_name].value_counts()/480609*100000/years

df_pregrado = df.query('REGION_SEDE in ["ÑUBLE"] and GEN_ALU == 2')
df_pregrado = df_pregrado.query("NIVEL_CARRERA_1 in {0}".format(g_name))
ynuf = df_pregrado[x_name].value_counts()/480609*100000/years

df_pregrado = df.query('REGION_SEDE in ["MAULE"] and GEN_ALU == 1')
df_pregrado = df_pregrado.query("NIVEL_CARRERA_1 in {0}".format(g_name))
ymam = df_pregrado[x_name].value_counts()/1044950*100000/years

df_pregrado = df.query('REGION_SEDE in ["MAULE"] and GEN_ALU == 2')
df_pregrado = df_pregrado.query("NIVEL_CARRERA_1 in {0}".format(g_name))
ymaf = df_pregrado[x_name].value_counts()/1044950*100000/years

df_pregrado = df.query('REGION_SEDE in ["LIB. GRAL B. O\'HIGGINS"] and GEN_ALU == 1')
df_pregrado = df_pregrado.query("NIVEL_CARRERA_1 in {0}".format(g_name))
yohm = df_pregrado[x_name].value_counts()/914555*100000/years

df_pregrado = df.query('REGION_SEDE in ["LIB. GRAL B. O\'HIGGINS"] and GEN_ALU == 2')
df_pregrado = df_pregrado.query("NIVEL_CARRERA_1 in {0}".format(g_name))
yohf = df_pregrado[x_name].value_counts()/914555*100000/years

df_100 = pd.DataFrame()
df_100['BioBío_fememino']  = ybbf
df_100['BioBío_masculino'] = ybbm
df_100['Ñuble_femenino']   = ynuf
df_100['Ñuble_masculino']  = ynum
df_100['Maule_femenino']   = ymaf
df_100['Maule_masculino']  = ymam
df_100['OHiggins_femenino']   = yohf
df_100['OHiggins_masculino']  = yohm

df_100

In [None]:
# Reordenamiento para graficar con Altair
df_101 = pd.DataFrame(); df_102 = pd.DataFrame();df_201 = pd.DataFrame(); df_202 = pd.DataFrame();df_301 = pd.DataFrame(); df_302 = pd.DataFrame();df_401 = pd.DataFrame(); df_402 = pd.DataFrame()
df_101['Egresados']  = ybbf
df_101['Categoría']  = ybbf.index
df_101['Género']  = 'Femenino'
df_101['Región']  = 'BioBío'

df_102['Egresados']  = ybbm
df_102['Categoría']  = ybbm.index
df_102['Género']  = 'Masculino'
df_102['Región']  = 'BioBío'

df_201['Egresados']  = ynuf
df_201['Categoría']  = ynuf.index
df_201['Género']  = 'Femenino'
df_201['Región']  = 'Ñuble'

df_202['Egresados']  = ynum
df_202['Categoría']  = ynum.index
df_202['Género']  = 'Masculino'
df_202['Región']  = 'Ñuble'

df_301['Egresados']  = ymaf
df_301['Categoría']  = ymaf.index
df_301['Género']  = 'Femenino'
df_301['Región']  = 'Maule'

df_302['Egresados']  = ymam
df_302['Categoría']  = ymam.index
df_302['Género']  = 'Masculino'
df_302['Región']  = 'Maule'

df_401['Egresados']  = yohf
df_401['Categoría']  = yohf.index
df_401['Género']  = 'Femenino'
df_401['Región']  = 'OHiggins'

df_402['Egresados']  = yohm
df_402['Categoría']  = yohm.index
df_402['Género']  = 'Masculino'
df_402['Región']  = 'OHiggins'

df_10 = pd.concat([df_101,df_102,df_201,df_202,df_301,df_302,df_401,df_402], ignore_index=True)
df_10.head()

In [None]:
import altair as alt
alt.data_transformers.disable_max_rows()

chart = alt.Chart(df_10).mark_bar(
    cornerRadiusTopLeft=3,
    cornerRadiusTopRight=3
).encode(
    y=alt.Y('Egresados:Q', stack=True),
    x=alt.X('Categoría:O'),#, sort=[]
    color=alt.Color('Género:N', scale=alt.Scale(scheme='set1') ),
    #column=alt.Column('Región:O', sort=['BioBío', 'Ñuble', 'Maule','OHiggins'])
).facet(
    facet=alt.Facet('Región:O', sort=['BioBío', 'Ñuble', 'Maule','OHiggins']),
    columns=1
).properties(
    title='Egresados por 100 mil habitantes en Categorías de la OECD'
)

chart.configure_title(
    fontSize=24,
    font='Courier',
    anchor='middle',
    color='black'
)

In [None]:
## Para comparar normalizaremos por cada 100,000 habitantes y la población de cada región
# https://es.wikipedia.org/wiki/Anexo:Regiones_de_Chile_por_poblaci%C3%B3n
x_group = ['OECD_AREA','OECD_SUBAREA','AREA_CARRERA_GENERICA_N']
g_group = [['PROFESIONAL CON LICENCIATURA', 'LICENCIATURA NO CONDUCENTE A TÍTULO'],
           ['MAGISTER', 'DOCTORADO'],
           ['DIPLOMADO (SUPERIOR A UN SEMESTRE)', 'POSTÍTULO','MAGISTER', 'DOCTORADO','ESPECIALIDAD MÉDICA U ODONTOLÓGICA'],
           ['PROFESIONAL SIN LICENCIATURA', 'TÉCNICO DE NIVEL SUPERIOR']]

# Por carrera
x_name  = x_group[2]
g_name  = g_group[0]
years   = 3

df_pregrado = df.query('REGION_SEDE in ["BIOBÍO"] and GEN_ALU == 1')
df_pregrado = df_pregrado.query("NIVEL_CARRERA_1 in {0}".format(g_name))
ybbm = df_pregrado[x_name].value_counts()/1556805*100000/years

df_pregrado = df.query('REGION_SEDE in ["BIOBÍO"] and GEN_ALU == 2')
df_pregrado = df_pregrado.query("NIVEL_CARRERA_1 in {0}".format(g_name))
ybbf = df_pregrado[x_name].value_counts()/1556805*100000/years

df_pregrado = df.query('REGION_SEDE in ["ÑUBLE"] and GEN_ALU == 1')
df_pregrado = df_pregrado.query("NIVEL_CARRERA_1 in {0}".format(g_name))
ynum = df_pregrado[x_name].value_counts()/480609*100000/years

df_pregrado = df.query('REGION_SEDE in ["ÑUBLE"] and GEN_ALU == 2')
df_pregrado = df_pregrado.query("NIVEL_CARRERA_1 in {0}".format(g_name))
ynuf = df_pregrado[x_name].value_counts()/480609*100000/years

df_pregrado = df.query('REGION_SEDE in ["MAULE"] and GEN_ALU == 1')
df_pregrado = df_pregrado.query("NIVEL_CARRERA_1 in {0}".format(g_name))
ymam = df_pregrado[x_name].value_counts()/1044950*100000/years

df_pregrado = df.query('REGION_SEDE in ["MAULE"] and GEN_ALU == 2')
df_pregrado = df_pregrado.query("NIVEL_CARRERA_1 in {0}".format(g_name))
ymaf = df_pregrado[x_name].value_counts()/1044950*100000/years

df_pregrado = df.query('REGION_SEDE in ["LIB. GRAL B. O\'HIGGINS"] and GEN_ALU == 1')
df_pregrado = df_pregrado.query("NIVEL_CARRERA_1 in {0}".format(g_name))

df_pregrado = df.query('REGION_SEDE in ["LIB. GRAL B. O\'HIGGINS"] and GEN_ALU == 2')
df_pregrado = df_pregrado.query("NIVEL_CARRERA_1 in {0}".format(g_name))
yohf = df_pregrado[x_name].value_counts()/914555*100000/years

df_100 = pd.DataFrame()
df_100['BioBío_fememino']  = ybbf
df_100['BioBío_masculino'] = ybbm
df_100['Ñuble_femenino']   = ynuf
df_100['Ñuble_masculino']  = ynum
df_100['Maule_femenino']   = ymaf
df_100['Maule_masculino']  = ymam
df_100['OHiggins_femenino']   = yohf
df_100['OHiggins_masculino']  = yohm

df_100

In [None]:
# Reordenamiento para graficar con Altair
df_101 = pd.DataFrame(); df_102 = pd.DataFrame();df_201 = pd.DataFrame(); df_202 = pd.DataFrame();df_301 = pd.DataFrame(); df_302 = pd.DataFrame();df_401 = pd.DataFrame(); df_402 = pd.DataFrame()
df_101['Egresados']  = ybbf
df_101['Categoría']  = ybbf.index
df_101['Género']  = 'Femenino'
df_101['Región']  = 'BioBío'

df_102['Egresados']  = ybbm
df_102['Categoría']  = ybbm.index
df_102['Género']  = 'Masculino'
df_102['Región']  = 'BioBío'

df_201['Egresados']  = ynuf
df_201['Categoría']  = ynuf.index
df_201['Género']  = 'Femenino'
df_201['Región']  = 'Ñuble'

df_202['Egresados']  = ynum
df_202['Categoría']  = ynum.index
df_202['Género']  = 'Masculino'
df_202['Región']  = 'Ñuble'

df_301['Egresados']  = ymaf
df_301['Categoría']  = ymaf.index
df_301['Género']  = 'Femenino'
df_301['Región']  = 'Maule'

df_302['Egresados']  = ymam
df_302['Categoría']  = ymam.index
df_302['Género']  = 'Masculino'
df_302['Región']  = 'Maule'

df_401['Egresados']  = yohf
df_401['Categoría']  = yohf.index
df_401['Género']  = 'Femenino'
df_401['Región']  = 'OHiggins'

df_402['Egresados']  = yohm
df_402['Categoría']  = yohm.index
df_402['Género']  = 'Masculino'
df_402['Región']  = 'OHiggins'

df_10 = pd.concat([df_101,df_102,df_201,df_202,df_301,df_302,df_401,df_402], ignore_index=True)

df_10['OECD_AREA']=df_10['Categoría']
df_10 = df_10.replace({"OECD_AREA": nd2})
df_10.sort_values(by="OECD_AREA", inplace=True)
df_10.head(20)

In [None]:
import altair as alt
alt.data_transformers.disable_max_rows()

#data = df_10.loc[df_10['Región']=='BioBío']
data = df_10
chart = alt.Chart(data).mark_bar(
    cornerRadiusTopLeft=3,
    cornerRadiusTopRight=3
).encode(
    y=alt.Y('Egresados:Q', stack=True),
    x=alt.X('Categoría:O', sort=None),
    color=alt.Color('Género:N', scale=alt.Scale(scheme='set1') ),
    #column=alt.Column('Región:O', sort=['BioBío', 'Ñuble', 'Maule','OHiggins'])
).facet(
    facet=alt.Facet('Región:O', sort=['BioBío', 'Ñuble', 'Maule','OHiggins']),
    columns=1
).properties(
    title='Egresados promedio anual por 100M habitantes en Carreras Universitarias (2017-2019)',
)

chart.configure_title(
    fontSize=24,
    font='Courier',
    anchor='middle',
    color='black'
)

## Postgrado por Regiones

In [None]:
## Para comparar normalizaremos por cada 100,000 habitantes y la población de cada región
# https://es.wikipedia.org/wiki/Anexo:Regiones_de_Chile_por_poblaci%C3%B3n
x_group = ['OECD_AREA','OECD_SUBAREA','AREA_CARRERA_GENERICA_N']
g_group = [['PROFESIONAL CON LICENCIATURA', 'LICENCIATURA NO CONDUCENTE A TÍTULO'],
           ['MAGISTER', 'DOCTORADO'],
           ['DIPLOMADO (SUPERIOR A UN SEMESTRE)', 'POSTÍTULO','MAGISTER', 'DOCTORADO','ESPECIALIDAD MÉDICA U ODONTOLÓGICA'],
           ['PROFESIONAL SIN LICENCIATURA', 'TÉCNICO DE NIVEL SUPERIOR']]

# Por carrera
x_name  = x_group[2]
g_name  = g_group[2]
years   = 3

df_pregrado = df.query('REGION_SEDE in ["BIOBÍO"] and GEN_ALU == 1')
df_pregrado = df_pregrado.query("NIVEL_CARRERA_1 in {0}".format(g_name))
ybbm = df_pregrado[x_name].value_counts()/1556805*100000/years

df_pregrado = df.query('REGION_SEDE in ["BIOBÍO"] and GEN_ALU == 2')
df_pregrado = df_pregrado.query("NIVEL_CARRERA_1 in {0}".format(g_name))
ybbf = df_pregrado[x_name].value_counts()/1556805*100000/years

df_pregrado = df.query('REGION_SEDE in ["ÑUBLE"] and GEN_ALU == 1')
df_pregrado = df_pregrado.query("NIVEL_CARRERA_1 in {0}".format(g_name))
ynum = df_pregrado[x_name].value_counts()/480609*100000/years

df_pregrado = df.query('REGION_SEDE in ["ÑUBLE"] and GEN_ALU == 2')
df_pregrado = df_pregrado.query("NIVEL_CARRERA_1 in {0}".format(g_name))
ynuf = df_pregrado[x_name].value_counts()/480609*100000/years

df_pregrado = df.query('REGION_SEDE in ["MAULE"] and GEN_ALU == 1')
df_pregrado = df_pregrado.query("NIVEL_CARRERA_1 in {0}".format(g_name))
ymam = df_pregrado[x_name].value_counts()/1044950*100000/years

df_pregrado = df.query('REGION_SEDE in ["MAULE"] and GEN_ALU == 2')
df_pregrado = df_pregrado.query("NIVEL_CARRERA_1 in {0}".format(g_name))
ymaf = df_pregrado[x_name].value_counts()/1044950*100000/years

df_pregrado = df.query('REGION_SEDE in ["LIB. GRAL B. O\'HIGGINS"] and GEN_ALU == 1')
df_pregrado = df_pregrado.query("NIVEL_CARRERA_1 in {0}".format(g_name))
yohm = df_pregrado[x_name].value_counts()/914555*100000/years

df_pregrado = df.query('REGION_SEDE in ["LIB. GRAL B. O\'HIGGINS"] and GEN_ALU == 2')
df_pregrado = df_pregrado.query("NIVEL_CARRERA_1 in {0}".format(g_name))
yohf = df_pregrado[x_name].value_counts()/914555*100000/years

df_100 = pd.DataFrame()
df_100['BioBío_fememino']  = ybbf
df_100['BioBío_masculino'] = ybbm
df_100['Ñuble_femenino']   = ynuf
df_100['Ñuble_masculino']  = ynum
df_100['Maule_femenino']   = ymaf
df_100['Maule_masculino']  = ymam
df_100['OHiggins_femenino']   = yohf
df_100['OHiggins_masculino']  = yohm

df_100

In [None]:
# Reordenamiento para graficar con Altair
df_101 = pd.DataFrame(); df_102 = pd.DataFrame();df_201 = pd.DataFrame(); df_202 = pd.DataFrame();df_301 = pd.DataFrame(); df_302 = pd.DataFrame();df_401 = pd.DataFrame(); df_402 = pd.DataFrame()
df_101['Egresados']  = ybbf
df_101['Categoría']  = ybbf.index
df_101['Género']  = 'Femenino'
df_101['Región']  = 'BioBío'

df_102['Egresados']  = ybbm
df_102['Categoría']  = ybbm.index
df_102['Género']  = 'Masculino'
df_102['Región']  = 'BioBío'

df_201['Egresados']  = ynuf
df_201['Categoría']  = ynuf.index
df_201['Género']  = 'Femenino'
df_201['Región']  = 'Ñuble'

df_202['Egresados']  = ynum
df_202['Categoría']  = ynum.index
df_202['Género']  = 'Masculino'
df_202['Región']  = 'Ñuble'

df_301['Egresados']  = ymaf
df_301['Categoría']  = ymaf.index
df_301['Género']  = 'Femenino'
df_301['Región']  = 'Maule'

df_302['Egresados']  = ymam
df_302['Categoría']  = ymam.index
df_302['Género']  = 'Masculino'
df_302['Región']  = 'Maule'

df_401['Egresados']  = yohf
df_401['Categoría']  = yohf.index
df_401['Género']  = 'Femenino'
df_401['Región']  = 'OHiggins'

df_402['Egresados']  = yohm
df_402['Categoría']  = yohm.index
df_402['Género']  = 'Masculino'
df_402['Región']  = 'OHiggins'

df_10 = pd.concat([df_101,df_102,df_201,df_202,df_301,df_302,df_401,df_402], ignore_index=True)

df_10['OECD_AREA']=df_10['Categoría']
df_10 = df_10.replace({"OECD_AREA": nd2})
df_10.sort_values(by="OECD_AREA", inplace=True)
df_10

In [None]:
import altair as alt
alt.data_transformers.disable_max_rows()

chart = alt.Chart(df_10).mark_bar(
    cornerRadiusTopLeft=3,
    cornerRadiusTopRight=3
).encode(
    y=alt.Y('Egresados:Q', stack=True),
    x=alt.X('Categoría:O', sort=None),
    color=alt.Color('Género:N', scale=alt.Scale(scheme='set1') ),
    #column=alt.Column('Región:O', sort=['BioBío', 'Ñuble', 'Maule','OHiggins'])
).facet(
    facet=alt.Facet('Región:O', sort=['BioBío', 'Ñuble', 'Maule','OHiggins']),
    columns=1
).properties(
    title='Egresados promedio anual por 100M habitantes en Postgrados Universitarios (2017-2019)'
)

chart.configure_title(
    fontSize=24,
    font='Courier',
    anchor='middle',
    color='black'
)