# ETL

In [44]:
import pandas as pd
import os
from scripts.georef import add_unidades_territoriales_to_df

## Carga de inputs

In [45]:
df_alumnos = pd.read_csv('data/input/alumnos.csv',delimiter=',')
df_carreras = pd.read_csv('data/input/carreras.csv',delimiter=',')

if os.path.exists('data/output/universidades.csv'):
    df_universidades = pd.read_csv('data/output/universidades.csv',delimiter=',',dtype={"provincia_id":str})
else:
    df_universidades_raw = pd.read_csv('data/input/universidades.csv',delimiter=',')
    df_universidades_raw["lat"] = df_universidades_raw['coordenadas'].str.split(",").str[0]
    df_universidades_raw["lon"] = df_universidades_raw['coordenadas'].str.split(",").str[1]
    df_universidades = add_unidades_territoriales_to_df(df_universidades_raw, lat_col="lat", lon_col="lon")
    df_universidades.to_csv('data/output/universidades.csv', sep=',', encoding='utf8', index=False)

In [46]:
# quitamos los datos del año 2010 ya que la UBA no entrega datos para este año
# si se desean incluir en en análisis tener en cuenta que va a haber una bajada en las cantidades totales para ese año, debido a eso
df_alumnos = df_alumnos[df_alumnos.anio != 2010]

In [47]:
#Universidades consistentes

In [48]:
universidad_anio = df_alumnos[["institucion_nombre",'anio']].drop_duplicates()
universidad_anio_count = universidad_anio.groupby(["institucion_nombre"]).count()

In [49]:
#Decidimos analizar solamente aquellas universidades que entregaron datos para todo el periodo analizado 
#lista_universidades = universidad_anio_count[universidad_anio_count.anio == 7].index

In [50]:
df_alumnos = df_alumnos[df_alumnos.institucion_nombre.isin(lista_universidades)]

## Exporacion

In [51]:
df_carreras.head(10)

Unnamed: 0,carrera,carrera_grupo,Carrera_normalizada
0,Abogado,Juridicas,Abogacia
1,Abogado - Ciclo de Complementacion Curricular,Juridicas,Abogacia
2,Abogado - MD,Juridicas,Abogacia
3,Abogado (Plan 2017),Juridicas,Abogacia
4,Abogado Especialista en Administracion de Just...,Juridicas,Abogacia
5,Abogado especialista en Asesoramiento de Empresas,Juridicas,Abogacia
6,Abogado Especialista en Asesoria Juridica de E...,Juridicas,Abogacia
7,Abogado Especialista en Contratos y Derechos d...,Juridicas,Abogacia
8,Abogado especialista en Derecho Administrativo...,Juridicas,Abogacia
9,Abogado Especialista en Derecho Administrativo...,Juridicas,Abogacia


In [52]:
df_alumnos.head(10)

Unnamed: 0,anio,institucion_tipo,institucion_nombre,institucion_nombre_new,institucion_nombre_unidad_academica,unidad_academica,unidad_academica_new,carrera_titulo,institucion_gestion,carrera_titulo_nivel,...,estudiantes_mujeres,nuevos_inscriptos_total,nuevos_inscriptos_varones,nuevos_inscriptos_mujeres,reinscriptos_total,reinscriptos_varones,reinscriptos_mujeres,egresados_total,egresados_varones,egresados_mujeres
7315,2011,Universidad,Universita Degli Studi di Bologna,Universita Degli Studi di Bologna,Universita Degli Studi di Bologna - Università...,Università Degli Studi di Bologna,Università Degli Studi di Bologna,Magister en Relaciones Internacionales Europa ...,Privada,Posgrado,...,54.0,30.0,13.0,17.0,,,,29.0,14.0,15.0
7316,2011,Universidad,Universidad Torcuato Di Tella,Universidad Torcuato Di Tella,Universidad Torcuato Di Tella - Departamento d...,Departamento de Ciencia Politica y Estudios In...,Departamento de Ciencia Politica y Estudios In...,Doctor en Ciencia Politica,Privada,Posgrado,...,10.0,2.0,,2.0,,,,,,
7317,2011,Universidad,Universidad Torcuato Di Tella,Universidad Torcuato Di Tella,Universidad Torcuato Di Tella - Departamento d...,Departamento de Ciencia Politica y Estudios In...,Departamento de Ciencia Politica y Estudios In...,Licenciatura en Ciencia Politica y Gobierno,Privada,Grado,...,39.0,23.0,10.0,13.0,49.0,23.0,26.0,6.0,4.0,2.0
7318,2011,Universidad,Universidad Torcuato Di Tella,Universidad Torcuato Di Tella,Universidad Torcuato Di Tella - Departamento d...,Departamento de Ciencia Politica y Estudios In...,Departamento de Ciencia Politica y Estudios In...,Magister en Ciencia Politica,Privada,Posgrado,...,18.0,15.0,12.0,3.0,,,,,,
7319,2011,Universidad,Universidad Torcuato Di Tella,Universidad Torcuato Di Tella,Universidad Torcuato Di Tella - Departamento d...,Departamento de Ciencia Politica y Estudios In...,Departamento de Ciencia Politica y Estudios In...,Licenciatura en Estudios Internacionales,Privada,Grado,...,71.0,35.0,13.0,22.0,75.0,26.0,49.0,28.0,7.0,21.0
7320,2011,Universidad,Universidad Torcuato Di Tella,Universidad Torcuato Di Tella,Universidad Torcuato Di Tella - Departamento d...,Departamento de Ciencia Politica y Estudios In...,Departamento de Ciencia Politica y Estudios In...,Magister en Estudios Internacionales,Privada,Posgrado,...,100.0,34.0,15.0,19.0,,,,9.0,5.0,4.0
7321,2011,Universidad,Universidad Torcuato Di Tella,Universidad Torcuato Di Tella,Universidad Torcuato Di Tella - Departamento d...,Departamento de Economia,Departamento de Economia,Licenciatura en Economia,Privada,Grado,...,49.0,42.0,28.0,14.0,117.0,82.0,35.0,36.0,24.0,12.0
7322,2011,Universidad,Universidad Torcuato Di Tella,Universidad Torcuato Di Tella,Universidad Torcuato Di Tella - Departamento d...,Departamento de Economia,Departamento de Economia,Magister en Econometria,Privada,Posgrado,...,18.0,12.0,9.0,3.0,,,,1.0,,1.0
7323,2011,Universidad,Universidad Torcuato Di Tella,Universidad Torcuato Di Tella,Universidad Torcuato Di Tella - Departamento d...,Departamento de Economia,Departamento de Economia,Magister en Economia,Privada,Posgrado,...,14.0,25.0,20.0,5.0,,,,2.0,2.0,
7324,2011,Universidad,Universidad Torcuato Di Tella,Universidad Torcuato Di Tella,Universidad Torcuato Di Tella - Departamento d...,Departamento de Historia,Departamento de Historia,Doctor en Historia,Privada,Posgrado,...,13.0,,,,,,,1.0,,1.0


In [53]:
df_universidades.head(10)


Unnamed: 0,universidad_nombre,institucion_nombre,institucion_direccion,api,coordenadas,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,...,lat,lon,departamento_id,departamento_nombre,municipio_id,municipio_nombre,provincia_id,provincia_nombre,latitud,longitud
0,Escuela Universitaria de Teologia,Escuela Universitaria de Teologia,Pasaje Catedral 1750,,"-36.4494181,-57.7686044",,,,,,...,-36.449418,-57.768604,6238.0,Dolores,60238.0,Dolores,6,Buenos Aires,-36.449418,-57.768604
1,Facultad Latinoamericana de Ciencias Sociales,Facultad Latinoamericana de Ciencias Sociales,Tucumán 1966,,"-34.6021735,-58.3972997",,,,,,...,-34.602173,-58.3973,2021.0,Comuna 3,,,2,Ciudad Autónoma de Buenos Aires,-34.602173,-58.3973
2,Instituto Tecnológico de Buenos Aires,Instituto Tecnológico de Buenos Aires,Av. Eduardo Madero 399,http://apis.datos.gob.ar/georef/api/direccione...,"-34.6028340446427,-58.368183272295",,,,,,...,-34.602834,-58.368183,2007.0,Comuna 1,,,2,Ciudad Autónoma de Buenos Aires,-34.602834,-58.368183
3,Instituto Universitario Aeronáutico,Instituto Universitario Aeronáutico,Av. Fuerza Aerea Argentina 6500,http://apis.datos.gob.ar/georef/api/direccione...,"-31.4337174,-64.2779779",,,,,,...,-31.433717,-64.277978,14014.0,Capital,140077.0,Córdoba,14,Córdoba,-31.433717,-64.277978
4,Instituto Universitario CEMIC,Instituto Universitario CEMIC,Valdenegro 4337,,"-34.5547176,-58.4972877",,,,,,...,-34.554718,-58.497288,2084.0,Comuna 12,,,2,Ciudad Autónoma de Buenos Aires,-34.554718,-58.497288
5,Instituto Universitario de Ciencias Biomedicas...,Instituto Universitario de Ciencias Biomedicas...,Naciones Unidas 400-440,,"-31.4421202,-64.2033758",,,,,,...,-31.44212,-64.203376,14014.0,Capital,140077.0,Córdoba,14,Córdoba,-31.44212,-64.203376
6,Instituto Universitario de Ciencias de la Salu...,Instituto Universitario de Ciencias de la Salu...,Av. Gral. Las Heras 1907,,"-34.5951617,-58.4021427",,,,,,...,-34.595162,-58.402143,2014.0,Comuna 2,,,2,Ciudad Autónoma de Buenos Aires,-34.595162,-58.402143
7,Instituto Universitario de Gendarmeria Nacional,Instituto Universitario de Gendarmeria Nacional,Av. Paseo Colón 533,,"-34.6142528,-58.371724",,,,,,...,-34.614253,-58.371724,2007.0,Comuna 1,,,2,Ciudad Autónoma de Buenos Aires,-34.614253,-58.371724
8,Instituto Universitario de la Policía Federal ...,Instituto Universitario de la Policía Federal ...,Rosario 532,,"-34.6196133,-58.4382653",,,,,,...,-34.619613,-58.438265,2042.0,Comuna 6,,,2,Ciudad Autónoma de Buenos Aires,-34.619613,-58.438265
9,Instituto Universitario de Salud Mental de la ...,Instituto Universitario de Salud Mental de la ...,Báez 248,,"-34.567895,-58.4361568",,,,,,...,-34.567895,-58.436157,2098.0,Comuna 14,,,2,Ciudad Autónoma de Buenos Aires,-34.567895,-58.436157


## Calculo evolucion de genero en carreras

In [54]:
#El archivo alumnos es el que entrega el ministerio
#En el archivo carreras realizamos nuestro mapeo asignandole a cada titulo un grupo (Juridicas, Exactas, Naturales, etc) y un nombre normalizado 
df_alumnos_merged = df_alumnos.merge(df_carreras, how="left", left_on="carrera_titulo", right_on="carrera")

In [55]:
#Incluimos esta validacion aqui para asegurarnos de que no queden carreras sin mappear
col_nulls = df_alumnos_merged.isnull().any()
col_nulls

anio                                   False
institucion_tipo                       False
institucion_nombre                     False
institucion_nombre_new                 False
institucion_nombre_unidad_academica    False
unidad_academica                       False
unidad_academica_new                   False
carrera_titulo                         False
institucion_gestion                    False
carrera_titulo_nivel                   False
Modalidad                              False
estudiantes_total                       True
estudiantes_varones                     True
estudiantes_mujeres                     True
nuevos_inscriptos_total                 True
nuevos_inscriptos_varones               True
nuevos_inscriptos_mujeres               True
reinscriptos_total                      True
reinscriptos_varones                    True
reinscriptos_mujeres                    True
egresados_total                         True
egresados_varones                       True
egresados_

## Validacion y solucion de inconsistencias

In [56]:
df_alumnos_merged.carrera_grupo.isnull().value_counts()
# No debería haber Nulls en True ya que eso quiere decir que no se pudo matchear el nombre del titulo entre alumnos.csv y carreras.csv
# Este caso solo debería darse si, por ejemplo, se agrega un nuevo año con carreras "nuevas" o con nombres un poco diferentes a los que teníamos hasta el momento


False    61786
Name: carrera_grupo, dtype: int64

In [57]:
#Si hubiera inconsistencias las guardamos en este archivo para analizar más comodamente
nulos = df_alumnos_merged[df_alumnos_merged.carrera_grupo.isnull()]
nulos.to_csv("data/validacion/nulls-revisar.csv", encoding = "UTF8", index = False)
titulos_nuevos = pd.DataFrame(data=nulos.carrera_titulo.unique())
titulos_nuevos.to_csv("data/validacion/titulos_nuevos.csv", encoding = "UTF8", index = False)

In [58]:
variables = [
    "estudiantes_total","estudiantes_varones","estudiantes_mujeres",
    "nuevos_inscriptos_total","nuevos_inscriptos_varones","nuevos_inscriptos_mujeres",
    "egresados_total","egresados_varones","egresados_mujeres",
]

In [59]:
df_evolucion_carrera = df_alumnos_merged.groupby(["anio","carrera_grupo"]).sum()

In [60]:
df_evolucion_carrera = df_evolucion_carrera[variables]
df_evolucion_carrera = df_evolucion_carrera.reset_index()

In [61]:
df_evolucion_carrera.head(10)

Unnamed: 0,anio,carrera_grupo,estudiantes_total,estudiantes_varones,estudiantes_mujeres,nuevos_inscriptos_total,nuevos_inscriptos_varones,nuevos_inscriptos_mujeres,egresados_total,egresados_varones,egresados_mujeres
0,2011,Arquitectura y Urbanismo,60050.0,31064.0,28986.0,9645.0,4797.0,4848.0,3063.0,1412.0,1651.0
1,2011,Artes,39177.0,17948.0,21229.0,10031.0,4935.0,5096.0,1251.0,460.0,791.0
2,2011,Comunicacion,111118.0,39992.0,71126.0,24996.0,9730.0,15266.0,6950.0,2087.0,4863.0
3,2011,Diseño,51974.0,18337.0,33637.0,10856.0,3711.0,7145.0,2825.0,820.0,2005.0
4,2011,Economicas,307461.0,144518.0,162943.0,64276.0,31566.0,32710.0,18404.0,8706.0,9698.0
5,2011,Educacion,134797.0,32001.0,102796.0,40811.0,10557.0,30254.0,8380.0,1776.0,6604.0
6,2011,Exactas,23234.0,11244.0,11990.0,5279.0,2429.0,2850.0,1454.0,622.0,832.0
7,2011,"Hoteleria, Gastronomia y Turismo",25263.0,8040.0,17223.0,6733.0,2333.0,4400.0,1467.0,348.0,1119.0
8,2011,Informatica,160535.0,129875.0,30660.0,36354.0,30258.0,6096.0,7329.0,5539.0,1790.0
9,2011,Ingenieria,121803.0,99148.0,22655.0,25275.0,20342.0,4933.0,5707.0,4526.0,1181.0


In [62]:
df_evolucion_carrera["estudiantes_mujeres_pct"] = df_evolucion_carrera.estudiantes_mujeres/df_evolucion_carrera.estudiantes_total
#incriptas como predictor de composicion e interes.
df_evolucion_carrera["inscripciones_mujeres_pct"] = df_evolucion_carrera.nuevos_inscriptos_mujeres/df_evolucion_carrera.nuevos_inscriptos_total
#agregar ratio de hombres
df_evolucion_carrera["estudiantes_hombres_pct"] = df_evolucion_carrera.estudiantes_varones/df_evolucion_carrera.estudiantes_total

In [63]:
df_evolucion_carrera.to_csv("data/output/grupos_evolucion_genero.csv", encoding = "UTF8", index = False)

## Grafico exploratorio

### carreras

In [64]:
df_evolucion_carrera_carreras = df_alumnos_merged.groupby(["anio","carrera_grupo","Carrera_normalizada"]).sum()

In [65]:
df_evolucion_carrera_carreras = df_evolucion_carrera_carreras[variables]
df_evolucion_carrera_carreras = df_evolucion_carrera_carreras.reset_index()

In [66]:
df_evolucion_carrera_carreras["estudiantes_mujeres_pct"] = df_evolucion_carrera_carreras.estudiantes_mujeres/df_evolucion_carrera_carreras.estudiantes_total
#incriptas como predictor de composicion e interes.
df_evolucion_carrera_carreras["inscripciones_mujeres_pct"] = df_evolucion_carrera_carreras.nuevos_inscriptos_mujeres/df_evolucion_carrera_carreras.nuevos_inscriptos_total
#agregar ratio de hombres
df_evolucion_carrera_carreras["estudiantes_hombres_pct"] = df_evolucion_carrera_carreras.estudiantes_varones/df_evolucion_carrera_carreras.estudiantes_total

In [67]:
df_evolucion_carrera_carreras.to_csv("data/output/grupos_carreras_evolucion_genero.csv", encoding = "UTF8", index = False)

In [68]:
df_evolucion_carrera_universidad = df_alumnos_merged.groupby(["anio","carrera_grupo","institucion_nombre_new"]).sum()

In [69]:
df_evolucion_carrera_universidad = df_evolucion_carrera[variables]
df_evolucion_carrera_universidad = df_evolucion_carrera.reset_index()

In [70]:
df_evolucion_carrera_universidad["estudiantes_mujeres_pct"] = df_evolucion_carrera_universidad.estudiantes_mujeres/df_evolucion_carrera_universidad.estudiantes_total
#incriptas como predictor de composicion e interes.
df_evolucion_carrera_universidad["inscripciones_mujeres_pct"] = df_evolucion_carrera_universidad.nuevos_inscriptos_mujeres/df_evolucion_carrera_universidad.nuevos_inscriptos_total
#agregar ratio de hombres
df_evolucion_carrera_universidad["estudiantes_hombres_pct"] = df_evolucion_carrera_universidad.estudiantes_varones/df_evolucion_carrera_universidad.estudiantes_total

In [71]:
df_evolucion_carrera_universidad.to_csv("data/output/carreras_universidad_evolucion_genero.csv", encoding = "UTF8", index = False)

In [72]:
df_universidades.head()

Unnamed: 0,universidad_nombre,institucion_nombre,institucion_direccion,api,coordenadas,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,...,lat,lon,departamento_id,departamento_nombre,municipio_id,municipio_nombre,provincia_id,provincia_nombre,latitud,longitud
0,Escuela Universitaria de Teologia,Escuela Universitaria de Teologia,Pasaje Catedral 1750,,"-36.4494181,-57.7686044",,,,,,...,-36.449418,-57.768604,6238.0,Dolores,60238.0,Dolores,6,Buenos Aires,-36.449418,-57.768604
1,Facultad Latinoamericana de Ciencias Sociales,Facultad Latinoamericana de Ciencias Sociales,Tucumán 1966,,"-34.6021735,-58.3972997",,,,,,...,-34.602173,-58.3973,2021.0,Comuna 3,,,2,Ciudad Autónoma de Buenos Aires,-34.602173,-58.3973
2,Instituto Tecnológico de Buenos Aires,Instituto Tecnológico de Buenos Aires,Av. Eduardo Madero 399,http://apis.datos.gob.ar/georef/api/direccione...,"-34.6028340446427,-58.368183272295",,,,,,...,-34.602834,-58.368183,2007.0,Comuna 1,,,2,Ciudad Autónoma de Buenos Aires,-34.602834,-58.368183
3,Instituto Universitario Aeronáutico,Instituto Universitario Aeronáutico,Av. Fuerza Aerea Argentina 6500,http://apis.datos.gob.ar/georef/api/direccione...,"-31.4337174,-64.2779779",,,,,,...,-31.433717,-64.277978,14014.0,Capital,140077.0,Córdoba,14,Córdoba,-31.433717,-64.277978
4,Instituto Universitario CEMIC,Instituto Universitario CEMIC,Valdenegro 4337,,"-34.5547176,-58.4972877",,,,,,...,-34.554718,-58.497288,2084.0,Comuna 12,,,2,Ciudad Autónoma de Buenos Aires,-34.554718,-58.497288


In [73]:
# chequea si hay instituciones faltantes para el merge
instituciones_en_alumnos = set(df_alumnos_merged.institucion_nombre.unique())
instituciones_en_universidades = set(df_universidades.institucion_nombre.unique())

instituciones_en_universidades - instituciones_en_alumnos

{'Instituto Tecnológico de Buenos Aires',
 'Instituto Universitario Aeronáutico',
 'Instituto Universitario Escuela Superior de Economía y Administración de Empresas',
 'Instituto Universitario ISEDET',
 'Instituto Universitario Nacional de Derechos Humanos "Madres de Plaza de Mayo"',
 'Instituto Universitario Nacional del Arte',
 'Instituto Universitario Naval',
 'Instituto Universitario Patagónico de las Artes',
 'Instituto Universitario River Plate',
 'Instituto Universitario de Ciencias Biomedicas de Córdoba',
 'Instituto Universitario de Ciencias de la Salud de la Fundación Barceló',
 'Instituto Universitario de Salud Mental de la Asociación Psicoanalítica de Buenos Aires',
 'Instituto Universitario de Seguridad Marítima',
 'Instituto Universitario de la Policía Federal Argentina',
 'Instituto Universitario del Ejército "Mayor Francisco Romero"',
 'Instituto Universitario del Gran Rosario',
 'Pontificia Universidad Católica Argentina Santa María de los Buenos Aires',
 'Universidad

In [74]:
df_universidades_merged = df_alumnos_merged.merge(df_universidades, how="left", left_on="institucion_nombre_new", right_on="institucion_nombre")
df_universidades_merged.head()

Unnamed: 0,anio,institucion_tipo,institucion_nombre_x,institucion_nombre_new,institucion_nombre_unidad_academica,unidad_academica,unidad_academica_new,carrera_titulo,institucion_gestion,carrera_titulo_nivel,...,lat,lon,departamento_id,departamento_nombre,municipio_id,municipio_nombre,provincia_id,provincia_nombre,latitud,longitud
0,2011,Universidad,Universita Degli Studi di Bologna,Universita Degli Studi di Bologna,Universita Degli Studi di Bologna - Università...,Università Degli Studi di Bologna,Università Degli Studi di Bologna,Magister en Relaciones Internacionales Europa ...,Privada,Posgrado,...,,,,,,,,,,
1,2011,Universidad,Universidad Torcuato Di Tella,Universidad Torcuato Di Tella,Universidad Torcuato Di Tella - Departamento d...,Departamento de Ciencia Politica y Estudios In...,Departamento de Ciencia Politica y Estudios In...,Doctor en Ciencia Politica,Privada,Posgrado,...,-34.547697,-58.448939,2091.0,Comuna 13,,,2.0,Ciudad Autónoma de Buenos Aires,-34.547697,-58.448939
2,2011,Universidad,Universidad Torcuato Di Tella,Universidad Torcuato Di Tella,Universidad Torcuato Di Tella - Departamento d...,Departamento de Ciencia Politica y Estudios In...,Departamento de Ciencia Politica y Estudios In...,Licenciatura en Ciencia Politica y Gobierno,Privada,Grado,...,-34.547697,-58.448939,2091.0,Comuna 13,,,2.0,Ciudad Autónoma de Buenos Aires,-34.547697,-58.448939
3,2011,Universidad,Universidad Torcuato Di Tella,Universidad Torcuato Di Tella,Universidad Torcuato Di Tella - Departamento d...,Departamento de Ciencia Politica y Estudios In...,Departamento de Ciencia Politica y Estudios In...,Magister en Ciencia Politica,Privada,Posgrado,...,-34.547697,-58.448939,2091.0,Comuna 13,,,2.0,Ciudad Autónoma de Buenos Aires,-34.547697,-58.448939
4,2011,Universidad,Universidad Torcuato Di Tella,Universidad Torcuato Di Tella,Universidad Torcuato Di Tella - Departamento d...,Departamento de Ciencia Politica y Estudios In...,Departamento de Ciencia Politica y Estudios In...,Licenciatura en Estudios Internacionales,Privada,Grado,...,-34.547697,-58.448939,2091.0,Comuna 13,,,2.0,Ciudad Autónoma de Buenos Aires,-34.547697,-58.448939


In [75]:
df_evolucion_universidades = df_universidades_merged.groupby(["anio","provincia_id","carrera_grupo"]).sum()
df_evolucion_universidades = df_evolucion_universidades[variables]
df_evolucion_universidades = df_evolucion_universidades.reset_index()
df_evolucion_universidades.head()

Unnamed: 0,anio,provincia_id,carrera_grupo,estudiantes_total,estudiantes_varones,estudiantes_mujeres,nuevos_inscriptos_total,nuevos_inscriptos_varones,nuevos_inscriptos_mujeres,egresados_total,egresados_varones,egresados_mujeres
0,2011,2,Arquitectura y Urbanismo,21973.0,11153.0,10820.0,3599.0,1731.0,1868.0,1304.0,633.0,671.0
1,2011,2,Artes,13447.0,5137.0,8310.0,3119.0,1263.0,1856.0,585.0,197.0,388.0
2,2011,2,Comunicacion,49171.0,18215.0,30956.0,10444.0,4087.0,6357.0,3569.0,1113.0,2456.0
3,2011,2,Diseño,30894.0,9280.0,21614.0,6646.0,1969.0,4677.0,1739.0,438.0,1301.0
4,2011,2,Economicas,100598.0,51349.0,49249.0,19334.0,9879.0,9455.0,7744.0,3918.0,3826.0


In [76]:
df_evolucion_universidades["estudiantes_mujeres_pct"] = df_evolucion_universidades.estudiantes_mujeres/df_evolucion_universidades.estudiantes_total

In [77]:
estudiantes_totales = df_evolucion_universidades.groupby(["anio", 'provincia_id']).sum()["estudiantes_total"]

In [78]:
df_evolucion_universidades['estudiantes_grupo_pct'] = df_evolucion_universidades.apply(
    lambda row: row["estudiantes_total"] / estudiantes_totales[row["anio"], row["provincia_id"]],
    axis=1
)

In [79]:
df_evolucion_universidades.head()

Unnamed: 0,anio,provincia_id,carrera_grupo,estudiantes_total,estudiantes_varones,estudiantes_mujeres,nuevos_inscriptos_total,nuevos_inscriptos_varones,nuevos_inscriptos_mujeres,egresados_total,egresados_varones,egresados_mujeres,estudiantes_mujeres_pct,estudiantes_grupo_pct
0,2011,2,Arquitectura y Urbanismo,21973.0,11153.0,10820.0,3599.0,1731.0,1868.0,1304.0,633.0,671.0,0.492423,0.036834
1,2011,2,Artes,13447.0,5137.0,8310.0,3119.0,1263.0,1856.0,585.0,197.0,388.0,0.617982,0.022542
2,2011,2,Comunicacion,49171.0,18215.0,30956.0,10444.0,4087.0,6357.0,3569.0,1113.0,2456.0,0.629558,0.082427
3,2011,2,Diseño,30894.0,9280.0,21614.0,6646.0,1969.0,4677.0,1739.0,438.0,1301.0,0.699618,0.051789
4,2011,2,Economicas,100598.0,51349.0,49249.0,19334.0,9879.0,9455.0,7744.0,3918.0,3826.0,0.489562,0.168636


In [80]:
df_evolucion_universidades.to_csv("data/output/ubicacion_evolucion_genero.csv", encoding = "UTF8", index = False)

## ETL Markers de universidades

In [81]:
def crear_universidad(mapa,latitud, longitud, universidad_nombre, carreras_grupos):
    """ Pone una universidad en el mapa con información en el marker.

    Args:
        latitud (float):
        longitud (float):
        universidad_nombre (str):
        carreras_grupos (list):
    """
    

In [82]:
def concatenate_map(grupos_carreras):
    grupos_str = [str(grupo) for grupo in set(grupos_carreras) if pd.notnull(grupo)]
    return ",".join(grupos_str)

    

In [83]:
serie_lista_grupos = df_universidades_merged.groupby("institucion_nombre_new")["carrera_grupo"].apply(concatenate_map)
serie_lista_carrera = df_universidades_merged.groupby("institucion_nombre_new")["carrera_titulo"].apply(concatenate_map)



In [84]:
df_ubicacion_universidades_grupos = df_universidades.merge(
    serie_lista_grupos, how="left", left_on="institucion_nombre", right_index=True)
df_ubicacion_universidades_grupos = df_ubicacion_universidades_grupos.merge(
    serie_lista_carrera, how="left", left_on="institucion_nombre", right_index=True)

In [85]:
df_ubicacion_universidades_grupos.to_csv("data/output/universidades_mapa.csv", encoding = "UTF8", index = False)