# ETL

In [1]:
import pandas as pd
import os
from scripts.georef import add_unidades_territoriales_to_df

## Carga de inputs

In [2]:
#file
df_alumnos = pd.read_csv('data/input/alumnos.csv',delimiter=',')
df_carreras = pd.read_csv('data/input/carreras.csv',delimiter=',')

if os.path.exists('data/output/universidades.csv'):
    df_universidades = pd.read_csv('data/output/universidades.csv',delimiter=',',dtype={"provincia_id":str})
else:
    df_universidades_raw = pd.read_csv('data/input/universidades.csv',delimiter=',')
    df_universidades_raw["lat"] = df_universidades_raw['coordenadas'].str.split(",").str[0]
    df_universidades_raw["lon"] = df_universidades_raw['coordenadas'].str.split(",").str[1]
    df_universidades = add_unidades_territoriales_to_df(df_universidades_raw, lat_col="lat", lon_col="lon")
    df_universidades.to_csv('data/output/universidades.csv', sep=',', encoding='utf8', index=False)

In [3]:
df_alumnos = df_alumnos[df_alumnos.anio != 2010]

In [4]:
#Universidades consistentes

In [5]:
universidad_anio = df_alumnos[["institucion_nombre",'anio']].drop_duplicates()
universidad_anio_count = universidad_anio.groupby(["institucion_nombre"]).count()

In [6]:
lista_universidades = universidad_anio_count[universidad_anio_count.anio == 7].index

In [7]:
df_alumnos = df_alumnos[df_alumnos.institucion_nombre.isin(lista_universidades)]
df_universidades = df_universidades[df_universidades.institucion_nombre.isin(lista_universidades)]

## Exporacion

In [8]:
df_carreras.head(10)

Unnamed: 0,carrera,carrera_grupo,Carrera_normalizada
0,Abogado,Derecho,Abogacia
1,Abogado - Ciclo de Complementacion Curricular,Derecho,Abogacia
2,Abogado - MD,Derecho,Abogacia
3,Abogado Especialista en Administracion de Just...,Derecho,Abogacia
4,Abogado especialista en Asesoramiento de Empresas,Derecho,Abogacia
5,Abogado Especialista en Asesoria Juridica de E...,Derecho,Abogacia
6,Abogado especialista en Derecho Administrativo...,Derecho,Abogacia
7,Abogado Especialista en Derecho Administrativo...,Derecho,Abogacia
8,Abogado especialista en Derecho Ambiental,Derecho,Abogacia
9,Abogado especialista en Derecho de Alta Tecnol...,Derecho,Abogacia


In [9]:
df_alumnos.head(10)

Unnamed: 0,anio,institucion_tipo,institucion_nombre,institucion_nombre_new,institucion_nombre_unidad_academica,unidad_academica,unidad_academica_new,carrera_nombre,carrera_titulo,institucion_gestion,...,estudiantes_mujeres,nuevos_inscriptos_total,nuevos_inscriptos_varones,nuevos_inscriptos_mujeres,reinscriptos_total,reinscriptos_varones,reinscriptos_mujeres,egresados_total,egresados_varones,egresados_mujeres
87,2011,Universidad,Universidad Torcuato Di Tella,Universidad Torcuato Di Tella,Universidad Torcuato Di Tella - Escuela de Der...,Escuela de Derecho,Escuela de Derecho,Abogacia,Abogado,Privada,...,98.0,35.0,11.0,24.0,132.0,58.0,74.0,14.0,10.0,4.0
88,2011,Universidad,Universidad Nacional del Sur,Universidad Nacional del Sur,Universidad Nacional del Sur - Departamento de...,Departamento de Derecho,Departamento de Derecho,Abogacia,Abogado,Estatal,...,1555.0,476.0,193.0,283.0,2028.0,756.0,1272.0,82.0,26.0,56.0
89,2011,Universidad,Universidad Nacional del Noroeste de la Provin...,Universidad Nacional del Noroeste de la Provin...,Universidad Nacional del Noroeste de la Provin...,Escuela de Ciencias Economicas y Juridicas,Escuela de Ciencias Economicas y Juridicas,Abogacia,Abogado,Estatal,...,439.0,152.0,81.0,71.0,592.0,224.0,368.0,5.0,2.0,3.0
90,2011,Universidad,Universidad Nacional del Nordeste,Universidad Nacional del Nordeste,Universidad Nacional del Nordeste - Facultad d...,"Facultad de Derecho, Ciencias Politicas y Soci...","Facultad de Derecho, Ciencias Politicas y Soci...",Abogacia,Abogado,Estatal,...,5233.0,1789.0,881.0,908.0,8420.0,4095.0,4325.0,629.0,260.0,369.0
91,2011,Universidad,Universidad Nacional del Litoral,Universidad Nacional del Litoral,Universidad Nacional del Litoral - Facultad de...,Facultad de Ciencias Juridicas y Sociales,Facultad de Ciencias Juridicas y Sociales,Abogacia,Abogado,Estatal,...,3352.0,1157.0,500.0,657.0,4455.0,1760.0,2695.0,212.0,77.0,135.0
92,2011,Universidad,Universidad Nacional del Comahue,Universidad Nacional del Comahue,Universidad Nacional del Comahue - Facultad de...,Facultad de Derecho y Ciencias Sociales,Facultad de Derecho y Ciencias Sociales,Abogacia,Abogado,Estatal,...,1174.0,500.0,190.0,310.0,1429.0,565.0,864.0,44.0,20.0,24.0
93,2011,Universidad,Universidad Nacional del Centro de la Provinci...,Universidad Nacional del Centro de la Provinci...,Universidad Nacional del Centro de la Provinci...,Escuela Superior de Derecho,Escuela Superior de Derecho,Abogacia,Abogado,Estatal,...,423.0,179.0,75.0,104.0,508.0,189.0,319.0,24.0,7.0,17.0
94,2011,Universidad,Universidad Nacional de Tucuman,Universidad Nacional de Tucuman,Universidad Nacional de Tucuman - Facultad de ...,Facultad de Derecho y Ciencias Sociales,Facultad de Derecho y Ciencias Sociales,Abogacia,Abogado,Estatal,...,5024.0,1642.0,639.0,1003.0,6590.0,2569.0,4021.0,253.0,104.0,149.0
95,2011,Universidad,Universidad Nacional de San Juan,Universidad Nacional de San Juan,Universidad Nacional de San Juan - Facultad de...,Facultad de Ciencias Sociales,Facultad de Ciencias Sociales,Abogacia,Abogado,Estatal,...,985.0,251.0,106.0,145.0,1224.0,384.0,840.0,48.0,11.0,37.0
96,2011,Universidad,Universidad Nacional de Rosario,Universidad Nacional de Rosario,Universidad Nacional de Rosario - Facultad de ...,Facultad de Derecho,Facultad de Derecho,Abogacia,Abogado,Estatal,...,4899.0,1556.0,613.0,943.0,6275.0,2319.0,3956.0,335.0,123.0,212.0


In [10]:
df_universidades.head(10)

Unnamed: 0,universidad_nombre,institucion_nombre,institucion_direccion,api,coordenadas,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,...,lat,lon,departamento_id,departamento_nombre,latitud,longitud,municipio_id,municipio_nombre,provincia_id,provincia_nombre
0,Escuela Universitaria de Teologia,Escuela Universitaria de Teologia,Pasaje Catedral 1750,,"-36.4494181,-57.7686044",,,,,,...,-36.449418,-57.768604,6238.0,Dolores,-36.449418,-57.768604,60238.0,Dolores,6,Buenos Aires
1,Facultad Latinoamericana de Ciencias Sociales,Facultad Latinoamericana de Ciencias Sociales,Tucumán 1966,,"-34.6021735,-58.3972997",,,,,,...,-34.602173,-58.3973,2021.0,Comuna 3,-34.602173,-58.3973,,,2,Ciudad Autónoma de Buenos Aires
4,Instituto Universitario CEMIC,Instituto Universitario CEMIC,Valdenegro 4337,,"-34.5547176,-58.4972877",,,,,,...,-34.554718,-58.497288,2084.0,Comuna 12,-34.554718,-58.497288,,,2,Ciudad Autónoma de Buenos Aires
7,Instituto Universitario de Gendarmeria Nacional,Instituto Universitario de Gendarmeria Nacional,Av. Paseo Colón 533,,"-34.6142528,-58.371724",,,,,,...,-34.614253,-58.371724,2007.0,Comuna 1,-34.614253,-58.371724,,,2,Ciudad Autónoma de Buenos Aires
13,Instituto Universitario Escuela Argentina de N...,Instituto Universitario Escuela Argentina de N...,Av. Córdoba 1690,,"-34.5997447,-58.3934405",,,,,,...,-34.599745,-58.393441,2021.0,Comuna 3,-34.599745,-58.393441,,,2,Ciudad Autónoma de Buenos Aires
14,Instituto Universitario Escuela de Medicina de...,Instituto Universitario Escuela de Medicina de...,Potosí 4265,,"-34.6071979,-58.4291149",,,,,,...,-34.607198,-58.429115,2035.0,Comuna 5,-34.607198,-58.429115,,,2,Ciudad Autónoma de Buenos Aires
17,Instituto Universitario Italiano de Rosario,Instituto Universitario Italiano de Rosario,Crespo 843,,"-32.9415838,-60.6705633",,,,,,...,-32.941584,-60.670563,82084.0,Rosario,-32.941584,-60.670563,,,82,Santa Fe
24,Universidad Favaloro,Universidad Favaloro,Av. Entre Ríos 495,,"-34.6148113,-58.3940258",,,,,,...,-34.614811,-58.394026,2021.0,Comuna 3,-34.614811,-58.394026,,,2,Ciudad Autónoma de Buenos Aires
25,Universidad Abierta Interamericana,Universidad Abierta Interamericana,Av. San Juan 951,http://apis.datos.gob.ar/georef/api/direccione...,"-34.6221199173329, -58.379325181549746",,,,,,...,-34.62212,-58.379325,2007.0,Comuna 1,-34.62212,-58.379325,,,2,Ciudad Autónoma de Buenos Aires
26,Universidad Adventista del Plata,Universidad Adventista del Plata,25 de mayo 99,http://apis.datos.gob.ar/georef/api/direccione...,"-32.0759594,-60.4665987",,,,,,...,-32.075959,-60.466599,30021.0,Diamante,-32.075959,-60.466599,,,30,Entre Ríos


## Calculo evolucion de genero en carreras

In [11]:
df_alumnos_merged = df_alumnos.merge(df_carreras, how="left", left_on="carrera_titulo", right_on="carrera")

In [12]:
col_nulls = df_alumnos_merged.isnull().any()
col_nulls

anio                                   False
institucion_tipo                       False
institucion_nombre                     False
institucion_nombre_new                 False
institucion_nombre_unidad_academica    False
unidad_academica                       False
unidad_academica_new                   False
carrera_nombre                         False
carrera_titulo                         False
institucion_gestion                    False
carrera_titulo_nivel                   False
Modalidad                              False
estudiantes_total                       True
estudiantes_varones                     True
estudiantes_mujeres                     True
nuevos_inscriptos_total                 True
nuevos_inscriptos_varones               True
nuevos_inscriptos_mujeres               True
reinscriptos_total                      True
reinscriptos_varones                    True
reinscriptos_mujeres                    True
egresados_total                         True
egresados_

In [13]:
df_alumnos_merged.carrera_grupo.isnull().value_counts()

False    54570
True      7258
Name: carrera_grupo, dtype: int64

In [14]:
variables = [
    "estudiantes_total","estudiantes_varones","estudiantes_mujeres",
    "nuevos_inscriptos_total","nuevos_inscriptos_varones","nuevos_inscriptos_mujeres",
    "egresados_total","egresados_varones","egresados_mujeres",
]

In [15]:
df_evolucion_carrera = df_alumnos_merged.groupby(["anio","carrera_grupo"]).sum()

In [16]:
df_evolucion_carrera = df_evolucion_carrera[variables]
df_evolucion_carrera = df_evolucion_carrera.reset_index()
#df_evolucion_carrera = df_evolucion_carrera.drop("index",1)

In [17]:
df_evolucion_carrera.head(10)

Unnamed: 0,anio,carrera_grupo,estudiantes_total,estudiantes_varones,estudiantes_mujeres,nuevos_inscriptos_total,nuevos_inscriptos_varones,nuevos_inscriptos_mujeres,egresados_total,egresados_varones,egresados_mujeres
0,2011,Arquitectura,74024.0,37663.0,36361.0,12644.0,6184.0,6460.0,3861.0,1704.0,2157.0
1,2011,Arte,76792.0,29688.0,47104.0,17843.0,7270.0,10573.0,3351.0,998.0,2353.0
2,2011,Deporte,3308.0,2038.0,1270.0,984.0,660.0,324.0,174.0,107.0,67.0
3,2011,Derecho,241945.0,104181.0,137764.0,54097.0,24557.0,29540.0,16300.0,6926.0,9374.0
4,2011,Economicas,400189.0,182896.0,217293.0,92784.0,44083.0,48701.0,25466.0,11370.0,14096.0
5,2011,Educacion,56627.0,12874.0,43753.0,18042.0,4421.0,13621.0,4200.0,957.0,3243.0
6,2011,Exactas,42427.0,20425.0,22002.0,8938.0,4158.0,4780.0,2511.0,1107.0,1404.0
7,2011,Idiomas,19744.0,4152.0,15592.0,4397.0,946.0,3451.0,785.0,90.0,695.0
8,2011,Ingenieria,104174.0,88608.0,15566.0,21540.0,17985.0,3555.0,4731.0,3907.0,824.0
9,2011,Letras,370.0,68.0,302.0,102.0,24.0,78.0,11.0,0.0,11.0


In [18]:
df_evolucion_carrera["estudiantes_mujeres_pct"] = df_evolucion_carrera.estudiantes_mujeres/df_evolucion_carrera.estudiantes_total
#incriptas como predictor de composicion e interes.
df_evolucion_carrera["inscripciones_mujeres_pct"] = df_evolucion_carrera.nuevos_inscriptos_mujeres/df_evolucion_carrera.nuevos_inscriptos_total
#agregar ratio de hombres
df_evolucion_carrera["estudiantes_hombres_pct"] = df_evolucion_carrera.estudiantes_varones/df_evolucion_carrera.estudiantes_total

In [19]:
df_evolucion_carrera.to_csv("data/output/grupos_evolucion_genero.csv", encoding = "UTF8", index = False)

## Grafico exploratorio

### carreras

In [20]:
df_evolucion_carrera_carreras = df_alumnos_merged.groupby(["anio","carrera_grupo","carrera_nombre"]).sum()

In [21]:
df_evolucion_carrera_carreras = df_evolucion_carrera_carreras[variables]
df_evolucion_carrera_carreras = df_evolucion_carrera_carreras.reset_index()

In [22]:
df_evolucion_carrera_carreras["estudiantes_mujeres_pct"] = df_evolucion_carrera_carreras.estudiantes_mujeres/df_evolucion_carrera_carreras.estudiantes_total
#incriptas como predictor de composicion e interes.
df_evolucion_carrera_carreras["inscripciones_mujeres_pct"] = df_evolucion_carrera_carreras.nuevos_inscriptos_mujeres/df_evolucion_carrera_carreras.nuevos_inscriptos_total
#agregar ratio de hombres
df_evolucion_carrera_carreras["estudiantes_hombres_pct"] = df_evolucion_carrera_carreras.estudiantes_varones/df_evolucion_carrera_carreras.estudiantes_total

In [23]:
df_evolucion_carrera_carreras.to_csv("data/output/grupos_carreras_evolucion_genero.csv", encoding = "UTF8", index = False)

In [24]:
df_evolucion_carrera_universidad = df_alumnos_merged.groupby(["anio","carrera_grupo","institucion_nombre_new"]).sum()

In [25]:
df_evolucion_carrera_universidad = df_evolucion_carrera[variables]
df_evolucion_carrera_universidad = df_evolucion_carrera.reset_index()

In [26]:
df_evolucion_carrera_universidad["estudiantes_mujeres_pct"] = df_evolucion_carrera_universidad.estudiantes_mujeres/df_evolucion_carrera_universidad.estudiantes_total
#incriptas como predictor de composicion e interes.
df_evolucion_carrera_universidad["inscripciones_mujeres_pct"] = df_evolucion_carrera_universidad.nuevos_inscriptos_mujeres/df_evolucion_carrera_universidad.nuevos_inscriptos_total
#agregar ratio de hombres
df_evolucion_carrera_universidad["estudiantes_hombres_pct"] = df_evolucion_carrera_universidad.estudiantes_varones/df_evolucion_carrera_universidad.estudiantes_total

In [27]:
df_evolucion_carrera_universidad.to_csv("data/output/carreras_universidad_evolucion_genero.csv", encoding = "UTF8", index = False)

In [28]:
df_universidades.head()

Unnamed: 0,universidad_nombre,institucion_nombre,institucion_direccion,api,coordenadas,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,...,lat,lon,departamento_id,departamento_nombre,latitud,longitud,municipio_id,municipio_nombre,provincia_id,provincia_nombre
0,Escuela Universitaria de Teologia,Escuela Universitaria de Teologia,Pasaje Catedral 1750,,"-36.4494181,-57.7686044",,,,,,...,-36.449418,-57.768604,6238.0,Dolores,-36.449418,-57.768604,60238.0,Dolores,6,Buenos Aires
1,Facultad Latinoamericana de Ciencias Sociales,Facultad Latinoamericana de Ciencias Sociales,Tucumán 1966,,"-34.6021735,-58.3972997",,,,,,...,-34.602173,-58.3973,2021.0,Comuna 3,-34.602173,-58.3973,,,2,Ciudad Autónoma de Buenos Aires
4,Instituto Universitario CEMIC,Instituto Universitario CEMIC,Valdenegro 4337,,"-34.5547176,-58.4972877",,,,,,...,-34.554718,-58.497288,2084.0,Comuna 12,-34.554718,-58.497288,,,2,Ciudad Autónoma de Buenos Aires
7,Instituto Universitario de Gendarmeria Nacional,Instituto Universitario de Gendarmeria Nacional,Av. Paseo Colón 533,,"-34.6142528,-58.371724",,,,,,...,-34.614253,-58.371724,2007.0,Comuna 1,-34.614253,-58.371724,,,2,Ciudad Autónoma de Buenos Aires
13,Instituto Universitario Escuela Argentina de N...,Instituto Universitario Escuela Argentina de N...,Av. Córdoba 1690,,"-34.5997447,-58.3934405",,,,,,...,-34.599745,-58.393441,2021.0,Comuna 3,-34.599745,-58.393441,,,2,Ciudad Autónoma de Buenos Aires


In [29]:
# chequea si hay instituciones faltantes para el merge
instituciones_en_alumnos = set(df_alumnos_merged.institucion_nombre.unique())
instituciones_en_universidades = set(df_universidades.institucion_nombre.unique())

instituciones_en_universidades - instituciones_en_alumnos

set()

In [30]:
df_universidades_merged = df_alumnos_merged.merge(df_universidades, how="left", left_on="institucion_nombre_new", right_on="institucion_nombre")
df_universidades_merged.head()

Unnamed: 0,anio,institucion_tipo,institucion_nombre_x,institucion_nombre_new,institucion_nombre_unidad_academica,unidad_academica,unidad_academica_new,carrera_nombre,carrera_titulo,institucion_gestion,...,lat,lon,departamento_id,departamento_nombre,latitud,longitud,municipio_id,municipio_nombre,provincia_id,provincia_nombre
0,2011,Universidad,Universidad Torcuato Di Tella,Universidad Torcuato Di Tella,Universidad Torcuato Di Tella - Escuela de Der...,Escuela de Derecho,Escuela de Derecho,Abogacia,Abogado,Privada,...,-34.547697,-58.448939,2091.0,Comuna 13,-34.547697,-58.448939,,,2,Ciudad Autónoma de Buenos Aires
1,2011,Universidad,Universidad Nacional del Sur,Universidad Nacional del Sur,Universidad Nacional del Sur - Departamento de...,Departamento de Derecho,Departamento de Derecho,Abogacia,Abogado,Estatal,...,-38.678663,-62.296111,6056.0,Bahía Blanca,-38.678663,-62.296111,60056.0,Bahía Blanca,6,Buenos Aires
2,2011,Universidad,Universidad Nacional del Noroeste de la Provin...,Universidad Nacional del Noroeste de la Provin...,Universidad Nacional del Noroeste de la Provin...,Escuela de Ciencias Economicas y Juridicas,Escuela de Ciencias Economicas y Juridicas,Abogacia,Abogado,Estatal,...,-34.861685,-61.527556,6469.0,Lincoln,-34.861685,-61.527556,60469.0,Lincoln,6,Buenos Aires
3,2011,Universidad,Universidad Nacional del Nordeste,Universidad Nacional del Nordeste,Universidad Nacional del Nordeste - Facultad d...,"Facultad de Derecho, Ciencias Politicas y Soci...","Facultad de Derecho, Ciencias Politicas y Soci...",Abogacia,Abogado,Estatal,...,-27.460766,-58.954254,22140.0,San Fernando,-27.460766,-58.954254,220413.0,Resistencia,22,Chaco
4,2011,Universidad,Universidad Nacional del Litoral,Universidad Nacional del Litoral,Universidad Nacional del Litoral - Facultad de...,Facultad de Ciencias Juridicas y Sociales,Facultad de Ciencias Juridicas y Sociales,Abogacia,Abogado,Estatal,...,-31.63826,-60.705593,82063.0,La Capital,-31.63826,-60.705593,820147.0,Santa Fe,82,Santa Fe


In [31]:
df_evolucion_universidades = df_universidades_merged.groupby(["anio","provincia_id","carrera_grupo"]).sum()
df_evolucion_universidades = df_evolucion_universidades[variables]
df_evolucion_universidades = df_evolucion_universidades.reset_index()
df_evolucion_universidades.head()

Unnamed: 0,anio,provincia_id,carrera_grupo,estudiantes_total,estudiantes_varones,estudiantes_mujeres,nuevos_inscriptos_total,nuevos_inscriptos_varones,nuevos_inscriptos_mujeres,egresados_total,egresados_varones,egresados_mujeres
0,2011,2,Arquitectura,27018.0,13681.0,13337.0,4833.0,2317.0,2516.0,1594.0,748.0,846.0
1,2011,2,Arte,39501.0,11971.0,27530.0,8614.0,2669.0,5945.0,2099.0,529.0,1570.0
2,2011,2,Deporte,1019.0,561.0,458.0,250.0,148.0,102.0,104.0,60.0,44.0
3,2011,2,Derecho,62661.0,27282.0,35379.0,12744.0,5664.0,7080.0,5756.0,2460.0,3296.0
4,2011,2,Economicas,137467.0,65319.0,72148.0,29461.0,13912.0,15549.0,11157.0,5036.0,6121.0


In [32]:
df_evolucion_universidades["estudiantes_mujeres_pct"] = df_evolucion_universidades.estudiantes_mujeres/df_evolucion_universidades.estudiantes_total

In [33]:
estudiantes_totales = df_evolucion_universidades.groupby(["anio", 'provincia_id']).sum()["estudiantes_total"]

In [34]:
df_evolucion_universidades['estudiantes_grupo_pct'] = df_evolucion_universidades.apply(
    lambda row: row["estudiantes_total"] / estudiantes_totales[row["anio"], row["provincia_id"]],
    axis=1
)

In [35]:
df_evolucion_universidades.head()

Unnamed: 0,anio,provincia_id,carrera_grupo,estudiantes_total,estudiantes_varones,estudiantes_mujeres,nuevos_inscriptos_total,nuevos_inscriptos_varones,nuevos_inscriptos_mujeres,egresados_total,egresados_varones,egresados_mujeres,estudiantes_mujeres_pct,estudiantes_grupo_pct
0,2011,2,Arquitectura,27018.0,13681.0,13337.0,4833.0,2317.0,2516.0,1594.0,748.0,846.0,0.493634,0.046901
1,2011,2,Arte,39501.0,11971.0,27530.0,8614.0,2669.0,5945.0,2099.0,529.0,1570.0,0.696944,0.068571
2,2011,2,Deporte,1019.0,561.0,458.0,250.0,148.0,102.0,104.0,60.0,44.0,0.44946,0.001769
3,2011,2,Derecho,62661.0,27282.0,35379.0,12744.0,5664.0,7080.0,5756.0,2460.0,3296.0,0.56461,0.108775
4,2011,2,Economicas,137467.0,65319.0,72148.0,29461.0,13912.0,15549.0,11157.0,5036.0,6121.0,0.524839,0.238632


In [36]:
df_evolucion_universidades.to_csv("data/output/ubicacion_evolucion_genero.csv", encoding = "UTF8", index = False)

In [37]:
##ETL Markers de universidades

### Calculo indicadores por universidad-grupo carrera

In [38]:
def create_grupo_indics_str(row):
    """Crea string con variables por grupo carrera."""
    
    grupo_indics_str = "{:12}: {:5} estudiantes | {:.1%} mujeres".format(
        row["carrera_grupo"],
        int(row["estudiantes_total"]),
        row["estudiantes_mujeres_pct"],
    )
    #print(grupo_indics_str)
    return grupo_indics_str

In [39]:
# agrupo por universidad-grupo para el año 2017 (el último)
df_universidad_grupo = df_universidades_merged[df_universidades_merged.anio == 2017].groupby(
    ["institucion_nombre_new", "carrera_grupo"]
).sum()
df_universidad_grupo = df_universidad_grupo[variables]
df_universidad_grupo = df_universidad_grupo.reset_index()

# elimino agrupaciones que no tienen estudiantes
df_universidad_grupo = df_universidad_grupo[df_universidad_grupo.estudiantes_total > 0]

# creo indicadores de interés y orden por % estudiantes mujeres
df_universidad_grupo["estudiantes_mujeres_pct"] = df_universidad_grupo.estudiantes_mujeres / df_universidad_grupo.estudiantes_total
df_universidad_grupo["carrera_grupo_indics"] = df_universidad_grupo.apply(create_grupo_indics_str, axis=1)
df_universidad_grupo = df_universidad_grupo.sort_values(
    ["institucion_nombre_new", "estudiantes_mujeres_pct"],
    ascending=False
)

df_universidad_grupo.head()

Unnamed: 0,institucion_nombre_new,carrera_grupo,estudiantes_total,estudiantes_varones,estudiantes_mujeres,nuevos_inscriptos_total,nuevos_inscriptos_varones,nuevos_inscriptos_mujeres,egresados_total,egresados_varones,egresados_mujeres,estudiantes_mujeres_pct,carrera_grupo_indics
932,Universita Degli Studi di Bologna,Sociales,13.0,4.0,9.0,0.0,0.0,0.0,13.0,4.0,9.0,0.692308,Sociales : 13 estudiantes | 69.2% mujeres
924,Universidad del Salvador,Idiomas,876.0,125.0,751.0,194.0,32.0,162.0,28.0,1.0,27.0,0.857306,Idiomas : 876 estudiantes | 85.7% mujeres
928,Universidad del Salvador,Psicologia,4946.0,844.0,4102.0,952.0,176.0,776.0,143.0,26.0,117.0,0.829357,Psicologia : 4946 estudiantes | 82.9% mujeres
929,Universidad del Salvador,Salud,3209.0,818.0,2391.0,697.0,203.0,494.0,104.0,32.0,72.0,0.745092,Salud : 3209 estudiantes | 74.5% mujeres
919,Universidad del Salvador,Arte,318.0,98.0,220.0,63.0,28.0,35.0,14.0,4.0,10.0,0.691824,Arte : 318 estudiantes | 69.2% mujeres


In [40]:
def concatenate_map(grupos_carreras):
    grupos_str = [str(grupo) for grupo in grupos_carreras if pd.notnull(grupo)]
    return ",".join(grupos_str)

In [41]:
df_universidad_grupo.groupby("institucion_nombre_new").sum()

Unnamed: 0_level_0,estudiantes_total,estudiantes_varones,estudiantes_mujeres,nuevos_inscriptos_total,nuevos_inscriptos_varones,nuevos_inscriptos_mujeres,egresados_total,egresados_varones,egresados_mujeres,estudiantes_mujeres_pct
institucion_nombre_new,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Facultad Latinoamericana de Ciencias Sociales,2421.0,715.0,1706.0,925.0,269.0,656.0,303.0,73.0,230.0,3.905212
Instituto Tecnologico de Buenos Aires,6247.0,5015.0,1232.0,671.0,502.0,169.0,655.0,499.0,156.0,1.991524
Instituto Universitario CEMIC,751.0,208.0,543.0,265.0,76.0,189.0,75.0,16.0,59.0,1.559008
Instituto Universitario Escuela Argentina de Negocios,1526.0,699.0,827.0,575.0,257.0,318.0,180.0,99.0,81.0,0.781462
Instituto Universitario Escuela Superior de Economia y Administracion de Empresas,243.0,110.0,133.0,94.0,51.0,43.0,11.0,3.0,8.0,2.076523
Instituto Universitario Escuela de Medicina del Hospital Italiano,1028.0,322.0,706.0,363.0,97.0,266.0,111.0,27.0,84.0,1.892990
Instituto Universitario Italiano de Rosario,1368.0,481.0,887.0,318.0,97.0,221.0,162.0,45.0,117.0,2.166795
Instituto Universitario de Ciencias de la Salud de la Fundacion Barcelo,10703.0,3965.0,6738.0,2213.0,781.0,1432.0,844.0,291.0,553.0,2.167040
Instituto Universitario de Gendarmeria Nacional,1555.0,1189.0,366.0,319.0,259.0,60.0,258.0,185.0,73.0,1.220642
Instituto Universitario de Salud Mental de la Asociacion Psicoanalitica de Buenos Aires,187.0,88.0,99.0,49.0,12.0,37.0,12.0,5.0,7.0,1.083645


In [42]:
serie_lista_grupos = df_universidad_grupo.groupby("institucion_nombre_new")["carrera_grupo_indics"].apply(
    concatenate_map)

df_universidad_indicadores = df_universidad_grupo.groupby("institucion_nombre_new").sum()
df_universidad_indicadores["estudiantes_mujeres_pct"] = df_universidad_indicadores.estudiantes_mujeres / df_universidad_indicadores.estudiantes_total

df_universidad_indicadores_tec = df_universidad_grupo[df_universidad_grupo.carrera_grupo == "Tecnologia"].groupby(
    "institucion_nombre_new").sum()
df_universidad_indicadores_tec["estudiantes_mujeres_tec_pct"] = df_universidad_indicadores_tec.estudiantes_mujeres / df_universidad_indicadores_tec.estudiantes_total
df_universidad_indicadores_tec = df_universidad_indicadores_tec["estudiantes_mujeres_tec_pct"]


In [43]:
df_ubicacion_universidades_grupos = df_universidades.merge(
    serie_lista_grupos, how="left", left_on="institucion_nombre", right_index=True)
df_ubicacion_universidades_grupos = df_ubicacion_universidades_grupos.merge(
    df_universidad_indicadores, how="left", left_on="institucion_nombre", right_index=True)
df_ubicacion_universidades_grupos = df_ubicacion_universidades_grupos.merge(
    df_universidad_indicadores_tec, how="left", left_on="institucion_nombre", right_index=True)

#df_ubicacion_universidades_grupos = df_ubicacion_universidades_grupos.merge(
#    serie_lista_carrera, how="left", left_on="institucion_nombre", right_index=True)

In [44]:
df_ubicacion_universidades_grupos.to_csv("data/output/universidades_mapa.csv", encoding = "UTF8", index = False)
#tasas de egresos pero no lineamente, buscar la formula, estandariza el año de duracion.