# Análisis de sueldos con Python

## Data

* [2021.2 - sysarmy - Encuesta de remuneración salarial Argentina
](https://docs.google.com/spreadsheets/d/1-ZRznwS4TK74o90aOiCKS5SiXxUQ2buN1wxZIMHQmzQ/edit#gid=557755710) 
* [2021.2 - sysarmy - Encuesta de remuneración salarial Latam
](https://docs.google.com/spreadsheets/d/1BkBNt1MHVS7DeIlpgmK9l6krtSQ5t_olRhlcyxMeKy0/edit#gid=557755710)

**Respecto a la relación entre rol y sueldo, las principales conclusiones que se pueden sacar son:**

- Los cargos senior tienen los mayores sueldos, por ejemplo, roles que incluyen
    - directors, 
    - experts, 
    - lead engineers,
    - CIO, 
    - managers, 
    - engineers en general. 
    
Estos sueldos se encuentran en su mayoria por encima de los USD 2000. 

- Los sueldos medios (de entre 1000 y 2000 USD) corresponden principalmente a roles de analistas. 

- Los sueldos más bajos (por debajo de 1000 USD), son roles más técnicos, en su mayoría sasociados a IT support y trainees. 

- Dado lo heterogéneo de las respuestas en esta pregunta, la gráfica sería muy larga y con pocas variaciones entre los casos como para que se aprecie. En un futuro, podrían agruparse los roles en categorías más amplias, para acotar el número de respuestas diferentes. 

**En cuanto a la relación entre nivel académico y sueldo, se observa:**

- En līneas generales, la tendencia de nivel de sueldo sigue una lógica coherente con el nivel académico alcanzado: los sueldos más altos correpsonden a personas que han finalizado o están cursando un curso de posgrado o doctorado, seguido por personas de nivel universitario, luego terciario y por último secundario. 

- El nivel educativo que presentó mediana más alta fue 'Primaria'. Dado que hay un único caso que respondió primaria en todo el set de datos, se considera no representativo y por lo tanto no se tendrá en cuenta para el análisis. De igual manera, los sueldos más bajos corresponden a personas de nivel 'Postdoctorado'. En total se identificaron cinco respuestas en el set, por lo que hay poca representatividad en el valor.

La mediana salarial por nivel de estudios presenta la siguiente distribucion:

     Posgrado      || ---------------------------------------- USD 1904.8

     Doctorado     || ------------------------------------     USD 1853.0

     Universitario || -----------------------------            USD 1523.8

     Terciario     || -----------------------                  USD 1333.3

     Secundario    || ---------------------                    USD 1240.75

     Posdoctorado  || --------                                 USD 571.95

**Del análisis de sueldo en función del género se desprende:** 

- Los varones cis perciben los salarios más elevados. 

- Hay un importante porcentaje de respuestas "Otro", o con mensajes ofensivos (13 % del total de las respuestas). Todos estos casos se agruparon en una única categorīa, que percibe sueldos muy similares a los de los varones cis. (Lo cual puede considerarse indicativo de quienes contestaron con mensajes ofensivos).

- Por debajo de los sueldos de varones cis/otros, se encuentran los sueldos de las personas no binarias. Llama la atención el elevado porcentaje de participación.

- Los sueldos más bajos los perciben las mujeres, siendo que las mujeres cis reciben sueldos equivalentes a un 75 % del sueldo de los varones cis. El sueldo de las mujeres trans es aún más bajo. 

- Los sueldos de varones trans presentan el valor más alto, pero debe evaluarse la represnetatividad de los resultados ya que son muy pocos casos en el global y como ya se mencionó, las respuestas a esta pregunta en muchos casos son irónicas.

        Varón trans ||--------------------------------- USD 1762

        Varón cis   ||-----------------------------     USD 1571

        Otro/NC     ||-----------------------------     USD 1523 

        No binarie  ||------------------------          USD 1321

        Mujer cis   ||--------------------              USD 1190

        Mujer trans ||-------------                     USD 952

**Respecto a las tecnologías más populares, se observa:** 

- Existe una gran variedad de tecnologías y lenguajes, si bien hay cuatro que se separan levemente en popularidad del resto. Estas son:
    - Javascript
    - SQL
    - Python
    - HTML
    
- Para afinar el análisis respecto a este punto, podría ser conveniente agrupar los lenguajes/tecnologías en categorías, que permitan simplificar la distribución de casos. 

        Javascript ||--------------------------------- 15 %

        SQL        ||----------------------            11 %

        Python     ||---------------                    8 % 

        HTML       ||---------------                    8 %   

1. Descargar, leer y unir en una sola estructura de datos. ¿Qué estructura elegiste y por qué?

In [232]:
path_to_file_1 = "2021.2 - sysarmy - Encuesta de remuneración salarial Argentina - Argentina - rev.csv" 
path_to_file_2 = "2021.2 - sysarmy - Encuesta de remuneración salarial Latam - Latam - rev.csv"

raw_cases_ARG = []
raw_cases_LATAM = []

with open(f"{path_to_file_1}", "r") as f1:
    for line in iter(f1.readline, ""):
        #print(line)
        raw_cases_ARG.append(line.split(';'))
        #raw_cases_ARG.append(line)
        
keys_ARG = raw_cases_ARG[9]

with open(f"{path_to_file_2}", "r") as f2:
    for line in iter(f2.readline, ""):
        raw_cases_LATAM.append(line.split(';'))

preguntas_LATAM = raw_cases_LATAM[10]

# print(raw_cases_LATAM[13])
# print(preguntas_LATAM)

# print(keys_ARG)
# print(len(keys_ARG))
        
dict_ARG = dict.fromkeys(keys_ARG, '')

del raw_cases_ARG[:10]
del raw_cases_LATAM[:11]


# print(len(raw_cases_LATAM[19]))
# print(len(preguntas_LATAM))    
# print(len(keys_ARG))

# Reviso que cada caso tenga la misma cantidad de respuestas que las preguntas:

for index, caso in enumerate(raw_cases_ARG):
    if len(caso) != len(keys_ARG):
        print(index, len(caso))
        

# Armar lista de diccionarios con respuestas
        
dict_list_ARG = [dict_ARG]

try:
    for i, case in enumerate(raw_cases_ARG):
        for j, key in enumerate(dict_ARG.keys()): 
            dict_list_ARG[i][key] = raw_cases_ARG[i][j]
        dict_list_ARG.append(dict_ARG.copy())
        #print(dict_list_ARG)
except Exception as e:
    print(e)

#print(dict_list_ARG[20:22])

#print(raw_cases_LATAM[0:12])

for case in raw_cases_LATAM:
    i = 18
    while i <= 18 and i > 0:
        if len(case[i]) == 0:
            case.pop(i)
            # print(case)
        i -= 1
    
# print(raw_cases_LATAM[-1])

del preguntas_LATAM[1:19]  

preguntas_LATAM.append('País')

# print(preguntas_LATAM)

# print(keys_ARG)

# for index, caso in enumerate(raw_cases_LATAM):
#     if len(caso) != len(preguntas_LATAM):
#         print(index, len(caso), len(preguntas_LATAM))

for dic in dict_list_ARG:
    dic['País'] = 'Argentina'

# for case 

for case in raw_cases_LATAM:
    case.append(case[0])
    case.pop(0)
    
# print(raw_cases_LATAM)

dict_LATAM = dict.fromkeys(keys_ARG, '')

dict_LATAM['País'] = ''

# print(dict_LATAM)

dict_list_LATAM = [dict_LATAM]

# print(dict_list_LATAM)

try:
    for i, case in enumerate(raw_cases_LATAM):
        for j, key in enumerate(dict_LATAM.keys()): 
            dict_list_LATAM[i][key] = raw_cases_LATAM[i][j]
        dict_list_LATAM.append(dict_LATAM.copy())
except Exception as e:
    print(e)

dict_list_global = dict_list_ARG + dict_list_LATAM

# print(dict_list_LATAM)

for dic in dict_list_global:
    dic['Me identifico'] = dic['Me identifico\n'].rstrip('\n')
    del dic['Me identifico\n']
    
# print(dict_list_global[-1])

2. Printear porcentaje de participación por región, ordenado de mayor a menor. Ej: 

```
- Ciudad Autónoma de Buenos Aires - 59.4%
- Formosa - 0.04%
```

In [233]:
# print(keys_ARG)

regiones = set()

for dic in dict_list_global:
    region = dic['Dónde estás trabajando']
    # print(region)
    regiones.add(region)

# print(regiones)

regiones_dict = dict.fromkeys(regiones, 0)

# print(regiones_dict)

for region in regiones_dict:
    for dic in dict_list_global:
        if dic['Dónde estás trabajando'] == region:
            regiones_dict[region] += 1

# print(regiones_dict)

regiones_list = list(regiones)
respuestas_region = list(regiones_dict.values())

respuestas_region_totales = sum(respuestas_region)

porcentaje_region = []

for valor in respuestas_region:
    porcentaje = round(100 * valor/respuestas_region_totales, 2)
    porcentaje_region.append(porcentaje)
    
# print(porcentaje_region)

# print(respuestas_region)

regiones_dict = dict()

for i, region in enumerate(regiones_list):
    regiones_dict[region] = porcentaje_region[i]
    
regiones_sorted = dict(sorted(regiones_dict.items(), key=lambda item: item[1], reverse = True))

# print(regiones_sorted)

print(f'La participación por region fue:')

for key, value in regiones_sorted.items():
    print(f'\n - {key} -- {value} %')


La participación por region fue:

 - Ciudad Autónoma de Buenos Aires -- 51.7 %

 - Provincia de Buenos Aires -- 10.1 %

 - GBA -- 9.2 %

 - Córdoba -- 7.8 %

 - Santa Fe -- 5.82 %

 - Mendoza -- 2.18 %

 - Montevideo -- 1.7 %

 - Entre Ríos -- 0.96 %

 - Río Negro -- 0.76 %

 - Tucumán -- 0.76 %

 - Neuquén -- 0.68 %

 - Misiones -- 0.61 %

 - Santiago -- 0.58 %

 - Chaco -- 0.57 %

 - México DF -- 0.48 %

 - Lima -- 0.45 %

 - Salta -- 0.42 %

 - San Juan -- 0.35 %

 - Corrientes -- 0.35 %

 - Bogotá -- 0.28 %

 - Jujuy -- 0.28 %

 - Chubut -- 0.28 %

 - Medellín -- 0.25 %

 - La Rioja -- 0.23 %

 - Quito -- 0.23 %

 - Tierra del Fuego -- 0.17 %

 - San Luis -- 0.17 %

 - Santiago de Cali -- 0.13 %

 - Santiago del Estero -- 0.12 %

 - La Pampa -- 0.12 %

 - Ciudad Guatemala -- 0.12 %

 - Guadalajara -- 0.1 %

 - Asunción -- 0.09 %

 - Guayaquil -- 0.09 %

 - Caracas -- 0.07 %

 - Santa Cruz de la Sierra -- 0.07 %

 - Santa Cruz -- 0.07 %

 - Cochabamba -- 0.06 %

 - Querétaro -- 0.06

3. Printear porcentaje de participación por tipo de rol, ordenado de mayor a menor. Ej:  
`- Developer - 39.11 %`

In [234]:
# print(preguntas_LATAM)

# print(keys_ARG)

roles = set()

for dic in dict_list_global:
    rol = dic['Trabajo de']
    rol_lower = rol.lower()
    roles.add(rol_lower)
    
# print(roles)
    
roles_dict = dict.fromkeys(roles, 0)

# print(roles_dict)

for dic in dict_list_global:
    rol = dic['Trabajo de']
    dic['Trabajo de'] = rol.lower()

for rol in roles_dict:
    for dic in dict_list_global:
        if dic['Trabajo de'] == rol:
            roles_dict[rol] += 1

# print(roles_dict)

roles_list = list(roles)
respuestas_rol = list(roles_dict.values())

# print(respuestas_rol)

respuestas_rol_totales = sum(respuestas_rol)

porcentaje_roles = []

for valor in respuestas_rol:
    porcentaje = round(100 * valor/respuestas_rol_totales, 2)
    porcentaje_roles.append(porcentaje)

# print(porcentaje_roles)
    
# print(respuestas_rol)

roles_dict = dict()

for i, rol in enumerate(roles_list):
    roles_dict[rol] = porcentaje_roles[i]
    
# print(roles_list)
    
roles_sorted = dict(sorted(roles_dict.items(), key=lambda item: item[1], reverse = True))

# print(regiones_sorted)

print(f'La distribucion por roles es:')

for key, value in roles_sorted.items():
    if value > 0.5:
        print(f'\n - {key} -- {value} %')

La distribucion por roles es:

 - developer -- 40.69 %

 - sysadmin / devops / sre -- 11.1 %

 - technical leader -- 6.16 %

 - qa / tester -- 4.29 %

 - manager / director -- 4.28 %

 - project manager -- 3.09 %

 - helpdesk -- 2.62 %

 - bi analyst / data analyst -- 2.45 %

 - architect -- 2.23 %

 - consultant -- 1.92 %

 - data engineer -- 1.76 %

 - business analyst -- 1.69 %

 - networking -- 1.54 %

 - ux -- 1.5 %

 - data scientist -- 1.48 %

 - infosec -- 1.43 %

 - recruiter / hr -- 1.24 %

 - product manager -- 1.21 %

 - dba -- 0.71 %

 - scrum master -- 0.65 %

 - designer -- 0.64 %

 - vp / c-level -- 0.55 %


4. Printear porcentaje de respuesta para las preguntas: 
* ¿Contribuís a proyectos Open Source?
* ¿Programás por hobbie?

In [235]:
#print(preguntas_LATAM)

respuestas_open_source = set()

for i, dic in enumerate(dict_list_global):
    ans = dic['¿Contribuís a proyectos open source?']
    # ans_lower = ans.lower()
    respuestas_open_source.add(ans)
    
# print(respuestas_open_source)
    
respuestas_open_source_dict = dict.fromkeys(respuestas_open_source, 0)

for ans in respuestas_open_source_dict:
    for dic in dict_list_global:
        if dic['¿Contribuís a proyectos open source?'] == ans:
            respuestas_open_source_dict[ans] += 1
            
# print(respuestas_open_source_dict)

respuestas_open_source_list = list(respuestas_open_source)

cantidad_respuestas_os = list(respuestas_open_source_dict.values())

# print(respuestas_rol)

respuestas_os_totales = sum(cantidad_respuestas_os[1:])

# print(cantidad_respuestas_os)

# print(respuestas_os_totales)

porcentaje_open_source = []

for valor in cantidad_respuestas_os:
    porcentaje = round(100 * valor/respuestas_os_totales, 1)
    porcentaje_open_source.append(porcentaje)

porcentaje_open_source_dict = dict()

for i, ans in enumerate(respuestas_open_source_list[1:]):
    porcentaje_open_source_dict[ans] = porcentaje_open_source[(i + 1)]
    
# print(porcentaje_open_source_dict)

porcentaje_os_sorted = dict(sorted(porcentaje_open_source_dict.items(), key=lambda item: item[1], reverse = True))

# print(porcentaje_os_sorted)

no_contribuye = porcentaje_os_sorted['No']
si_contribuye = porcentaje_os_sorted['Sí']

print(f' \n De quienes respondieron la encuesta: \n\n - {no_contribuye} % no contribuye a proyectos open source, \n - {si_contribuye} % sí contribuye')



 
 De quienes respondieron la encuesta: 

 - 85.0 % no contribuye a proyectos open source, 
 - 15.0 % sí contribuye


In [236]:
# print(preguntas_LATAM)

respuestas_hobbie = set()

for dic in dict_list_global:
    ans = dic['¿Programás como hobbie?']
    # ans_lower = ans.lower()
    respuestas_hobbie.add(ans)
    
# print(respuestas_hobbie)
    
respuestas_hobbie_dict = dict.fromkeys(respuestas_hobbie, 0)

for ans in respuestas_hobbie_dict:
    for dic in dict_list_global:
        if dic['¿Programás como hobbie?'] == ans:
            respuestas_hobbie_dict[ans] += 1
            
# print(respuestas_hobbie_dict)

respuestas_hobbie_list = list(respuestas_hobbie)

cantidad_respuestas_hobbie = list(respuestas_hobbie_dict.values())

respuestas_hobbie_totales = sum(cantidad_respuestas_hobbie[1:])

# print(cantidad_respuestas_hobbie)

# print(respuestas_hobbie_totales)

porcentaje_hobbie = []

for valor in cantidad_respuestas_hobbie:
    porcentaje = round(100 * valor/respuestas_hobbie_totales, 1)
    porcentaje_hobbie.append(porcentaje)

porcentaje_hobbie_dict = dict()

for i, ans in enumerate(respuestas_hobbie_list[1:]):
    porcentaje_hobbie_dict[ans] = porcentaje_hobbie[(i + 1)]
    
# print(porcentaje_hobbie_dict)

no_hobbie = porcentaje_hobbie_dict['No']
si_hobbie = porcentaje_hobbie_dict['Sí']

print(f' \n De quienes respondieron la encuesta: \n\n - {si_hobbie} % programa por hobbie, \n - {no_hobbie} % no programa por hobbie.')



 
 De quienes respondieron la encuesta: 

 - 56.0 % programa por hobbie, 
 - 44.0 % no programa por hobbie.


5. Printear porcentaje por seniority según años de experiencia, el mapeo es:
```
Junior: de 0 hasta 2 años.
Semi-Senior: de 2 años inclusive hasta 5 años.
Senior: desde 5 años inclusive.
``` 

In [237]:
respuestas_exp = set()

for i, dic in enumerate(dict_list_global):
    ans = dic['Años de experiencia']
    respuestas_exp.add(ans)
    
# print(respuestas_exp)
    
respuestas_exp_dict = dict.fromkeys(respuestas_exp, 0)

for ans in respuestas_exp_dict:
    for dic in dict_list_global:
        if dic['Años de experiencia'] == ans:
            respuestas_exp_dict[ans] += 1
            
# print(respuestas_exp_dict)

respuestas_exp_list = list(respuestas_exp)

respuestas_exp = list(respuestas_exp_dict.values())

respuestas_exp_totales = sum(respuestas_exp)

# print(respuestas_exp_list)

seniority_dict = {'Junior' : 0, 'Semi-senior' : 0, 'Senior' : 0}

for key, value in respuestas_exp_dict.items():
    if float(key) < 2:
        seniority_dict['Junior'] += float(value)
    elif float(key) >= 2 and float(key) < 5:
        seniority_dict['Semi-senior'] += float(value)
    else:
        seniority_dict['Senior'] += float(value)

# print(seniority_dict)

seniority_list = list(seniority_dict.values())

porcentaje_seniority_list = []

for valor in seniority_list:
    porcentaje = round(100 * valor/respuestas_exp_totales, 1)
    porcentaje_seniority_list.append(porcentaje)
    
# print(porcentaje_seniority)
    
junior = porcentaje_seniority_list[0]
semi_senior = porcentaje_seniority_list[1]
senior = porcentaje_seniority_list[2]

print(
    f'\n La distribución según años de experiencia es la siguiente: \n \n - Junior (hasta 2 años de experiencia): {junior} % \n - Semi-senior (entre 2 y 5 años de experiencia): {semi_senior} % \n - Senior (al menos 5 años de experiencia): {senior} %')


 La distribución según años de experiencia es la siguiente: 
 
 - Junior (hasta 2 años de experiencia): 15.9 % 
 - Semi-senior (entre 2 y 5 años de experiencia): 26.6 % 
 - Senior (al menos 5 años de experiencia): 57.4 %


6. Printear porcentaje de personas encuestadas por años en la compañía actual y por años en el puesto actual.

In [238]:
años_en_empresa = set()
años_en_puesto = set()

for dic in dict_list_global:
    ans_empresa = float(dic['Años en la empresa actual'])
    ans_puesto = float(dic['Años en el puesto actual'])
    años_en_empresa.add(ans_empresa)
    años_en_puesto.add(ans_puesto)
    
def retornar_años(dict_list_global, años_en_empresa, key):

    años_empresa_dict = dict.fromkeys(años_en_empresa, 0)

    # print(años_empresa_dict)

    for ans in años_empresa_dict:
        for dic in dict_list_global:
            if float(dic[key]) == ans:
                años_empresa_dict[ans] += 1

    # print(años_empresa_dict)

    años_empresa_list = list(años_en_empresa)
    respuestas_años_empresa_list = list(años_empresa_dict.values())

    respuestas_años_empresa_totales = sum(respuestas_años_empresa_list)

    años_empresa_dict_agrupado = {'Menos de un año' : 0, 
                         '1 año' : 0, 
                         '2 años' : 0, 
                         '3 años' : 0, 
                         '4 años' : 0, 
                         'Entre 5 y 10 años': 0,
                         'Más de 10 años' : 0}

    for key, value in años_empresa_dict.items():
        if key < 1:
            años_empresa_dict_agrupado['Menos de un año'] += value
        elif key >= 1 and key < 2:
            años_empresa_dict_agrupado['1 año'] += value
        elif key >= 2 and key < 3:
            años_empresa_dict_agrupado['2 años'] += value
        elif key >= 3 and key < 4:
            años_empresa_dict_agrupado['3 años'] += value
        elif key >= 4 and key < 5:
            años_empresa_dict_agrupado['4 años'] += value
        elif key >= 5 and key < 10:
            años_empresa_dict_agrupado['Entre 5 y 10 años'] += value
        else:
            años_empresa_dict_agrupado['Más de 10 años'] += value

    años_agrupados_list = list(años_empresa_dict_agrupado.values())

    # print(años_agrupados_list)

    porcentaje_años_empresa_list = []

    for valor in años_agrupados_list:
        porcentaje = round(100 * valor/respuestas_años_empresa_totales, 1)
        porcentaje_años_empresa_list.append(porcentaje)

    # print(porcentaje_años_empresa_list)

    porcentaje_años_empresa_dict = dict.fromkeys(años_empresa_dict_agrupado.keys(), 0)

    # print(porcentaje_años_empresa_dict)    

    porcentaje_años_empresa_dict['Menos de un año'] = porcentaje_años_empresa_list[0]
    porcentaje_años_empresa_dict['1 año'] = porcentaje_años_empresa_list[1]
    porcentaje_años_empresa_dict['2 años'] = porcentaje_años_empresa_list[2]
    porcentaje_años_empresa_dict['3 años'] = porcentaje_años_empresa_list[3]
    porcentaje_años_empresa_dict['4 años'] = porcentaje_años_empresa_list[4]
    porcentaje_años_empresa_dict['Entre 5 y 10 años'] = porcentaje_años_empresa_list[5]
    porcentaje_años_empresa_dict['Más de 10 años'] = porcentaje_años_empresa_list[6]

    # print(años_empresa_sorted)

    for key, value in porcentaje_años_empresa_dict.items():
        print(f'\n - {key} -- {value} %')

print(f'\n La distribucion por años en la empresa actual es:')

retornar_años(dict_list_global, años_en_empresa, 'Años en la empresa actual')

print(f'\n La distribucion por años en el puesto actual es:')

retornar_años(dict_list_global, años_en_puesto, 'Años en el puesto actual')



 La distribucion por años en la empresa actual es:

 - Menos de un año -- 36.8 %

 - 1 año -- 16.2 %

 - 2 años -- 14.6 %

 - 3 años -- 8.4 %

 - 4 años -- 4.3 %

 - Entre 5 y 10 años -- 11.5 %

 - Más de 10 años -- 8.3 %

 La distribucion por años en el puesto actual es:

 - Menos de un año -- 30.4 %

 - 1 año -- 19.9 %

 - 2 años -- 16.7 %

 - 3 años -- 10.3 %

 - 4 años -- 5.3 %

 - Entre 5 y 10 años -- 11.6 %

 - Más de 10 años -- 5.8 %


7. Printear porcentajes de nivel de educación formal y estado, es decir: % educación secundaria, terciaria, universitaria, postgrado, doctorado, postdoctorado, completo, incompleto y en curso para cada uno.

In [239]:
# print(dict_list_global[0])

# 'Nivel de estudios alcanzado'
# 'Estado'
# 'Carrera'

nivel_estado_list = []
nivel_set = set()
estado_set = set()

for dic in dict_list_global:
    nivel = dic['Nivel de estudios alcanzado']
    estado = dic['Estado']
    if nivel != "":
        nivel_estado_list.append([nivel, estado])
        nivel_set.add(nivel)
        estado_set.add(estado)
    
# print(nivel_estado_list)

# print(nivel_set)
# print(estado_set)

nivel_dict = {k:[0, 0, 0] for k in list(nivel_set)}
estado_list = list(estado_set)

# print(nivel_dict)
# print(estado_list)

for lista in nivel_estado_list:
    nivel = lista[0]
    estado = lista[1]
    if estado == estado_list[0]:
        nivel_dict[nivel][0] += 1
    elif estado == estado_list[1]:
        nivel_dict[nivel][1] += 1
    else:
        nivel_dict[nivel][2] += 1

# print(nivel_dict)

porcentaje_nivel_estado_dict = {k:[0, 0, 0] for k in list(nivel_set)}

for key, value in nivel_dict.items():
    total = sum(value)
#     print(total)
    # print(nivel_dict[key][0]/total)
    porcentaje_nivel_estado_dict[key] = [round(100 * nivel_dict[key][0]/total, 1), round(100 * nivel_dict[key][1]/total, 1), round(100 * nivel_dict[key][2]/total, 1)]
    
# print(porcentaje_nivel_estado_dict)

total_por_nivel_dict = {k: 0 for k in list(nivel_set)}

for key, value in nivel_dict.items():
    total = sum(value)
    total_por_nivel_dict[key] = total
    
# print(total_por_nivel_dict)

total_por_nivel_list = list(total_por_nivel_dict.values())

# print(total_por_nivel_list)
total_respuestas_nivel = sum(total_por_nivel_list)

porcentaje_nivel_dict = {k: 0 for k in list(nivel_set)}

for key, value in total_por_nivel_dict.items():
    porcentaje_nivel_dict[key] = round(100 * value/total_respuestas_nivel, 2)
    
# print(porcentaje_nivel_dict)

porcentaje_nivel_sorted = dict(sorted(porcentaje_nivel_dict.items(), key=lambda item: item[1], reverse = True))

# print(porcentaje_nivel_sorted)

print(f'De quienes respondieron la encuesta:')

for key, value in porcentaje_nivel_sorted.items():
    print(f'\n - {value} % alcanzó Nivel {key},')

print(f'\n Para cada nivel, el porcentaje de avance es el siguiente:')
    
for key, value in porcentaje_nivel_estado_dict.items():
    print(f'\n {key}: Incompleto - {value[0]} %, En curso - {value[1]} %, Completado - {value[2]} %')


De quienes respondieron la encuesta:

 - 68.47 % alcanzó Nivel Universitario,

 - 17.33 % alcanzó Nivel Terciario,

 - 6.94 % alcanzó Nivel Posgrado,

 - 6.39 % alcanzó Nivel Secundario,

 - 0.72 % alcanzó Nivel Doctorado,

 - 0.12 % alcanzó Nivel Posdoctorado,

 - 0.03 % alcanzó Nivel Primario,

 Para cada nivel, el porcentaje de avance es el siguiente:

 Posdoctorado: Incompleto - 25.0 %, En curso - 50.0 %, Completado - 25.0 %

 Universitario: Incompleto - 26.1 %, En curso - 36.8 %, Completado - 37.2 %

 Terciario: Incompleto - 21.4 %, En curso - 51.2 %, Completado - 27.4 %

 Doctorado: Incompleto - 8.0 %, En curso - 52.0 %, Completado - 40.0 %

 Posgrado: Incompleto - 10.8 %, En curso - 65.6 %, Completado - 23.7 %

 Primario: Incompleto - 100.0 %, En curso - 0.0 %, Completado - 0.0 %

 Secundario: Incompleto - 7.2 %, En curso - 90.5 %, Completado - 2.3 %


8. Formatear las carreras universitarias:
- Nombres capitalizados
- Reemplazar vocales con tilde por vocales sin tilde.
- Reemplazar `ñ` por `n`
- *lic*, *lic.* por Licenciatura
- *tec*, *tec.* por Tecnucatura
* *cs, *cs.* por Ciencias
* *ed, ed.* por Educación
* Transformaciones que se consideren necesarias

Printear porcentaje según carrera

In [240]:
# print(dict_list_global[1])

# 'Carrera'
            
def normalize(s):
    pares = (
    ('á', 'a'),
    ("é", "e"),
    ('í', 'i'),
    ('ó', 'o'),
    ('ú', 'u'), 
    ('Lic ', "licenciatura "),
    ('lic ', 'licenciatura '),
    ("Lic.", "licenciatura "),
    ('lic. ', 'licenciatura '),
    ('Tecnicatura', "Tecnico"),
    ('ñ', 'n'),
    ('cs.', 'ciencias '),
    ('cs ', 'ciencias '),
    ('ed.', 'educacion '),
    ('ed ', 'educacion '),
    )
    
    for a, b in pares:
        s = s.replace(a, b).lower()
        
    return s

list_carrera = []
list_carrera_norm = []

for case in dict_list_global:
    carrera = case['Carrera']
    if len(carrera) > 1:
        list_carrera.append(carrera)
        
for carrera in list_carrera:
    carrera_norm = normalize(carrera)
    list_carrera_norm.append(carrera_norm)

# print(list_carrera)

# print(list_carrera_norm)

set_carrera_norm = set()

for carrera in list_carrera_norm:
    set_carrera_norm.add(carrera)
    
# print(set_carrera_norm)

# list_carreras_unicas = list(set_carrera_norm)

carreras_dict = {k: 0 for k in list(set_carrera_norm)}
                
for carrera in list_carrera_norm:
    carreras_dict[carrera] += 1

# print(carreras_dict)

respuestas_totales_carrera = len(list_carrera)

porcentaje_carrera_dict = {k: 0 for k in list(set_carrera_norm)}

for key, value in carreras_dict.items():
    porcentaje_carrera_dict[key] = round(100 * value/respuestas_totales_carrera, 2)
    
# print(porcentaje_carrera_dict)

porcentaje_carrera_sorted = dict(sorted(porcentaje_carrera_dict.items(), key=lambda item: item[1], reverse = True))

# print(porcentaje_carrera_sorted)

print(f'La distribuciœn de carreras entre quienes respondieron la encuesta es:')

for key, value in porcentaje_carrera_sorted.items():
    if value > 0.5:
        print(f'\n - {key}: {value} % ')


La distribuciœn de carreras entre quienes respondieron la encuesta es:

 - ingenieria en sistemas de informacion: 19.02 % 

 - ingenieria en informatica: 11.36 % 

 - analista de sistemas: 8.72 % 

 - licenciatura en sistemas de informacion: 5.66 % 

 - licenciatura en ciencias de la computacion: 5.63 % 

 - licenciatura en informatica: 4.3 % 

 - tecnicatura en programacion: 3.39 % 

 - ingenieria electronica: 3.0 % 

 - ingenieria en computacion: 2.82 % 

 - diseno grafico: 2.48 % 

 - tecnicatura superior en programacion: 2.36 % 

 - licenciatura en administracion: 1.73 % 

 - tecnicatura en informatica: 1.57 % 

 - licenciatura en analisis de sistemas: 1.18 % 

 - ingenieria industrial: 1.18 % 

 - analista programador: 1.12 % 

 - ingenieria en software: 1.06 % 

 - analista programador universitario: 1.0 % 

 - ingenieria en telecomunicaciones: 0.97 % 

 - tecnicatura superior en sistemas informaticos: 0.88 % 

 - analista de computacion: 0.88 % 

 - diseno multimedial: 0.85 % 



9. Printear porcentaje de respuesta a las preguntas:
- ¿Realizaste cursos de especialización?
- Si realizaste, ¿Quién pagó por los cursos de especialización?

In [241]:
# print(dict_list_global[1])

realizo_cursos = set()
cursos_list = list()

for dic in dict_list_global:
    ans = dic['Realizaste cursos de especialización']
    if ans != '':
        realizo_cursos.add(ans)
        cursos_list.append(ans)
        
total_respuestas_curso = len(cursos_list)

# print(realizo_cursos)
    
cursos_dict = dict.fromkeys(realizo_cursos, 0)

for ans in cursos_dict:
    for dic in dict_list_global:
        if dic['Realizaste cursos de especialización'] == ans:
            cursos_dict[ans] += 1

# print(cursos_dict)

realizo_dict = {'No realizó' : 0, 'Sí realizó' : 0}

for key, value in cursos_dict.items():
    if 'No' in key:
        realizo_dict['No realizó'] += value
    else:
        realizo_dict['Sí realizó'] += value

# print(realizo_dict)

porcentaje_realizo_dict = {k: 0 for k in list(realizo_dict)}

for key, value in realizo_dict.items():
    porcentaje_realizo_dict[key] = round(100 * value/total_respuestas_curso, 1)
      
# print(porcentaje_realizo_dict)

print(f'De quienes respondieron la encuesta:')

for key, value in porcentaje_realizo_dict.items():
    print(f'\n - {value} % {key} cursos de especialización,')

# De los que si hicieron cursos, quienes lo pagaron:
    
cursos_list_si_norm = []

for ans in cursos_list:
    if 'Sí' in ans:
        ans_norm = ans.replace('No| ', '').replace('Sí| ', '')
        cursos_list_si_norm.append(ans_norm)

# print(cursos_list_si_norm)

set_pagos = set()

for ans in cursos_list_si_norm:
    set_pagos.add(ans)

# print(set_pagos)

pagos_dict = {k: 0 for k in list(set_pagos)}
                
for forma_pago in cursos_list_si_norm:
    pagos_dict[forma_pago] += 1

# print(pagos_dict)

respuestas_totales_pago = len(cursos_list_si_norm)

porcentaje_pagos_dict = {k: 0 for k in list(set_pagos)}

for key, value in pagos_dict.items():
    porcentaje_pagos_dict[key] = round(100 * value/respuestas_totales_pago, 1)
    
# print(porcentaje_pagos_dict)

# porcentaje_pagos_sorted = dict(sorted(porcentaje_pagos_dict.items(), key=lambda item: item[1], reverse = True))

# print(porcentaje_pagos_sorted)

pago_particular = porcentaje_pagos_dict['de forma particular']
pago_ambos = porcentaje_pagos_dict['de forma particular| los pagó un empleador']
pago_empleador = porcentaje_pagos_dict['los pagó un empleador']

print(f'''\n De quienes respondieron que sí realizaron cursos:
\n - {pago_particular} % fueron pagados de forma particular,
\n - {pago_ambos} % fueron pagados tanto de forma particular como por el empleador,
\n - {pago_empleador} % fueron pagados por el empleador.''')



De quienes respondieron la encuesta:

 - 21.2 % No realizó cursos de especialización,

 - 78.8 % Sí realizó cursos de especialización,

 De quienes respondieron que sí realizaron cursos:

 - 63.3 % fueron pagados de forma particular,

 - 25.8 % fueron pagados tanto de forma particular como por el empleador,

 - 10.8 % fueron pagados por el empleador.


10. Printear porcentaje por identidad de género y personas con discapacidad

In [242]:
# print(dict_list_global[1])

# '¿Tenés algún tipo de discapacidad?'
# 'Me identifico'

identidad_list = list()
discapacidad_list = list()

for dic in dict_list_global:
    identidad = dic['Me identifico']
    discapacidad = dic['¿Tenés algún tipo de discapacidad?']
    identidad_list.append(identidad)
    discapacidad_list.append(discapacidad)

# print(identidad_list)

identidad_dict = {'Mujer Cis' : 0, 
                  'Varón Cis' : 0, 
                  'Mujer Trans' : 0, 
                  'Varón Trans' : 0, 
                  'No binarie' : 0, 
                  'Otro/No contesta' : 0}

for identidad in identidad_list:
    if identidad == 'Mujer Cis':
        identidad_dict['Mujer Cis'] += 1
    elif identidad == 'Varón Cis':
        identidad_dict['Varón Cis'] += 1
    elif identidad == 'Mujer Trans':
        identidad_dict['Mujer Trans'] += 1
    elif identidad == 'Varón Trans':
        identidad_dict['Varón Trans'] += 1
    elif identidad == 'No binarie':
        identidad_dict['No binarie'] += 1
    else:
        identidad_dict['Otro/No contesta'] += 1

# print(identidad_dict)

casos_identidad_list = list(identidad_dict.values())

identidades_list_norm = list(identidad_dict.keys())

respuestas_identidad_totales = sum(casos_identidad_list)

# print(respuestas_identidad_totales)

porcentaje_identidades = []

for valor in casos_identidad_list:
    porcentaje = round(100 * valor/respuestas_identidad_totales, 2)
    porcentaje_identidades.append(porcentaje)
    

porcentaje_identidades_dict = dict()

for i, identidad in enumerate(identidades_list_norm):
    porcentaje_identidades_dict[identidad] = porcentaje_identidades[i]


# print(porcentaje_identidades_dict)
    
identidades_sorted = dict(sorted(porcentaje_identidades_dict.items(), key=lambda item: item[1], reverse = True))

# print(identidades_sorted)

print(f'La distribucion por identidad de género es:')

for key, value in identidades_sorted.items():
    print(f'\n - {key} - {value} %')

# print(discapacidad_list)

discapacidad_dict = {'Visual' : 0, 
                  'Auditiva' : 0, 
                  'Motriz' : 0, 
                  'Mental' : 0,
                  'Otra' : 0, 
                  'Ninguna' : 0}

for respuesta in discapacidad_list:
    if respuesta != '':
        if 'Visual' in respuesta:
            discapacidad_dict['Visual'] += 1
        elif 'Auditiva' in respuesta:
            discapacidad_dict['Auditiva'] += 1
        elif 'Motriz' in respuesta:
            discapacidad_dict['Motriz'] += 1
        elif 'Mental' in respuesta:
            discapacidad_dict['Mental'] += 1
        elif respuesta == 'No' or respuesta == 'no' or respuesta == 'Ninguna' or respuesta == 'Ninguna' or respuesta == 'No aplica':
            discapacidad_dict['Ninguna'] += 1
        else:
            discapacidad_dict['Otra'] += 1
                           
# print(discapacidad_dict)

casos_discapacidad_list = list(discapacidad_dict.values())

discapacidad_list_norm = list(discapacidad_dict.keys())

respuestas_discapacidad_totales = sum(casos_discapacidad_list)

porcentaje_discapacidad = []

for valor in casos_discapacidad_list:
    porcentaje = round(100 * valor/respuestas_discapacidad_totales, 2)
    porcentaje_discapacidad.append(porcentaje)
    
porcentaje_discapacidad_dict = dict()

for i, discapacidad in enumerate(discapacidad_list_norm):
    porcentaje_discapacidad_dict[discapacidad] = porcentaje_discapacidad[i]

discapacidades_sorted = dict(sorted(porcentaje_discapacidad_dict.items(), key=lambda item: item[1], reverse = True))

# print(discapacidades_sorted)

print(f'\n El porcentaje de personas con discapacidad es:')

for key, value in discapacidades_sorted.items():
    print(f'\n - {key} - {value} %')


La distribucion por identidad de género es:

 - Varón Cis - 75.2 %

 - Mujer Cis - 16.15 %

 - Otro/No contesta - 7.61 %

 - No binarie - 0.73 %

 - Varón Trans - 0.2 %

 - Mujer Trans - 0.1 %

 El porcentaje de personas con discapacidad es:

 - Visual - 59.85 %

 - Otra - 16.73 %

 - Ninguna - 9.67 %

 - Mental - 6.32 %

 - Auditiva - 5.2 %

 - Motriz - 2.23 %



11. Salarios: calcular la mediana salarial para cada una de las siguientes categorías:
- Salario según región
- Salario por rol
- Salario por experiencia
- Salario por nivel de formación
- Salario por carrera
- Salario por tecnología
- Salario por lenguaje de programación
- Salario por género

In [258]:
# print(dict_list_global[8])

# 'Dónde estás trabajando'
# 'Trabajo de'
# 'Años de experiencia'
# 'Nivel de estudios alcanzado'
# 'Carrera'
# 'Lenguajes de programación o tecnologías.'
# 'Me identifico'

def obtener(dict_list, ans_list, pregunta):    

    for dic in dict_list:
        ans = dic[pregunta]
        ans_list.append(ans)
    
    return ans_list

region_list = []
rol_list = []
exp_list = []
nivel_list = []
carrera_list = []
lenguaje_list = []
genero_list = []

# Lista de regiones - ok

region_list = obtener(dict_list_global, region_list, 'Dónde estás trabajando')

# Lista de roles

rol_list = obtener(dict_list_global, rol_list, 'Trabajo de')

rol_list_norm = []

for rol in rol_list:
    rol_lower = rol.lower()
    rol_list_norm.append(rol_lower)

# Lista años de experiencia - pasada a float

exp_list = obtener(dict_list_global, exp_list, 'Años de experiencia')

exp_list_float = []

for ans in exp_list:
    exp_list_float.append(float(ans))

# Lista de nivel de estudios - ok    

nivel_list = obtener(dict_list_global, nivel_list, 'Nivel de estudios alcanzado')

# Lista de carreras - hay que normalizarlas

carrera_list = obtener(dict_list_global, carrera_list, 'Carrera')

carrera_list_norm = []

for carrera in carrera_list:
    carrera_norm = normalize(carrera)
    carrera_list_norm.append(carrera_norm)
    
# Lista de generos - requiere depurar

identidad_list_norm = []

for identidad in identidad_list:
    if identidad == 'Mujer Cis':
        identidad_list_norm.append('Mujer Cis')
    elif identidad == 'Varón Cis':
        identidad_list_norm.append('Varón Cis')
    elif identidad == 'Mujer Trans':
        identidad_list_norm.append('Mujer Trans')
    elif identidad == 'Varón Trans':
        identidad_list_norm.append('Varón Trans')
    elif identidad == 'No binarie':
        identidad_list_norm.append('No binarie')
    else:
        identidad_list_norm.append('Otro/No contesta')


# Cambiar salarios a USD 

salarios_list = []
paises_list = []

salarios_list = obtener(dict_list_global, salarios_list, 'Salario mensual o retiro BRUTO (en tu moneda local)')

# print(salarios_list)

salarios_list_float = []

# for ans in salarios_list:
#     salarios_list_float.append(float(ans))

for ans in salarios_list:
    try:
        salarios_list_float.append(float(ans))
    except Exception as e:
        # print(e)
        salarios_list_float.append(0)
            
# print(salarios_list_float)
            
pais_list = obtener(dict_list_global, paises_list, 'País')

# Buscar cotizaciones y dolarizarlos a todos 

cotizaciones_dict = {'Puerto Rico': 1.0, 
                     'Perú': 3.83, 
                     'Guatemala': 7.64, 
                     'Nicaragua': 35.25, 
                     'Uruguay': 43.7, 
                     'Colombia': 3943.0, 
                     'Chile': 800.7, 
                     'Paraguay': 7046.0, 
                     'El Salvador': 8.75, 
                     'República Dominicana': 57.2, 
                     'Panamá': 1.0, 
                     'Venezuela': 4.67, 
                     'México': 20.61, 
                     'Ecuador': 2902.0, 
                     'Costa Rica': 637.7, 
                     'Argentina': 105.0, 
                     'Bolivia': 6.85, 
                     'Cuba': 23.9, 
                     'Honduras': 24.47}

# print(cotizaciones_dict)

salarios_dolar_list = []

for i, pais in enumerate(pais_list):
    try:
        salario = salarios_list_float[i]
        dolar = cotizaciones_dict[pais]
        salarios_dolar_list.append(round(salario / dolar, 1))
    except Exception as e:
        print(e)

# print(salarios_dolar_list)    

# Salario segun región (pais)
    
def salario_ans_dict(ans_list, salarios_dolar_list):
    
    salario_ans_dict = {k : [ ] for k in set(ans_list)}
    
    for i, ans in enumerate(ans_list):
        salario = salarios_dolar_list[i]
        salario_ans_dict[ans].append(salario)
    
    return salario_ans_dict

salario_region_dict = salario_ans_dict(pais_list, salarios_dolar_list)

# print(salario_region_dict)

import statistics

def get_median(ans_list, salario_ans_dict):

    mediana_ans_dict = {k : 0 for k in set(ans_list)}

    for key, value in salario_ans_dict.items():
        mediana_ans_dict[key] = statistics.median(value)
        
    mediana_ans_sorted = dict(sorted(mediana_ans_dict.items(), key=lambda item: item[1], reverse = True))

    return mediana_ans_sorted

mediana_region_dict = get_median(pais_list, salario_region_dict)

# print(mediana_region_dict)

# Salario por rol

salario_rol_dict = salario_ans_dict(rol_list_norm, salarios_dolar_list)

# print(salario_rol_dict)

mediana_rol_dict = get_median(rol_list_norm, salario_rol_dict)

# print(mediana_rol_dict)

# Salario por años de experiencia

salario_exp_dict = salario_ans_dict(exp_list_float, salarios_dolar_list)

mediana_exp_dict = get_median(exp_list_float, salario_exp_dict)

# Salario por nivel de estudios

salario_nivel_dict = salario_ans_dict(nivel_list, salarios_dolar_list)

mediana_nivel_dict = get_median(nivel_list, salario_nivel_dict)

# Salario por carrera

salario_carrera_dict = salario_ans_dict(carrera_list_norm, salarios_dolar_list)

mediana_carrera_dict = get_median(carrera_list_norm, salario_carrera_dict)

# Salario por género

salario_genero_dict = salario_ans_dict(identidad_list_norm, salarios_dolar_list)

mediana_genero_dict = get_median(identidad_list_norm, salario_genero_dict)

# Salario por lenguaje-tecnologia

    # Lista de lenguajes - requiere depurar    
    
lenguaje_list = obtener(dict_list_global, lenguaje_list,  'Lenguajes de programación o tecnologías.')

lenguaje_list_split = []

for ans in lenguaje_list:
    ans_split = ans.split('|')
    lenguaje_list_split.append(ans_split)
    
lenguaje_set = set()

for ans in lenguaje_list_split:
    for lenguaje in ans:
        lenguaje.replace(' ', '')
        lenguaje_set.add(lenguaje)
        
# print(lenguaje_set)

salario_lenguaje_dict = {k : [ ] for k in lenguaje_set}

for i, ans in enumerate(lenguaje_list_split):
    for lenguaje in ans:
        salario = salarios_dolar_list[i]
        salario_lenguaje_dict[lenguaje].append(salario)
        
# print(salario_lenguaje_dict)

mediana_lenguaje_dict = {k : 0 for k in lenguaje_set}

for key, value in salario_lenguaje_dict.items():
    mediana_lenguaje_dict[key] = statistics.median(value)

mediana_lenguaje_sorted = dict(sorted(mediana_lenguaje_dict.items(), key=lambda item: item[1], reverse = True))

# print(mediana_lenguaje_sorted)

In [244]:
print(f'\n La mediana salarial por años de experiencia es:')

for key, value in mediana_exp_dict.items():
    print(f'\n - {key} años - USD {value}')


 La mediana salarial por años de experiencia es:

 - 42.0 años - USD 5047.6

 - 27.0 años - USD 3215.4

 - 31.0 años - USD 3023.8

 - 23.0 años - USD 2961.9

 - 26.0 años - USD 2761.9

 - 4.5 años - USD 2476.2

 - 14.0 años - USD 2381.0

 - 38.0 años - USD 2381.0

 - 24.0 años - USD 2238.1

 - 22.0 años - USD 2190.5

 - 21.0 años - USD 2138.1000000000004

 - 13.0 años - USD 2095.2

 - 30.0 años - USD 2095.2

 - 17.0 años - USD 2081.0

 - 32.0 años - USD 2073.4

 - 20.0 años - USD 2063.6

 - 25.0 años - USD 2054.1000000000004

 - 19.0 años - USD 2038.1

 - 15.0 años - USD 2003.95

 - 12.0 años - USD 2000.0

 - 29.0 años - USD 1974.1

 - 9.0 años - USD 1952.4

 - 18.0 años - USD 1927.0

 - 16.0 años - USD 1914.3

 - 11.0 años - USD 1904.8

 - 10.0 años - USD 1885.7

 - 2.6 años - USD 1828.6

 - 10.5 años - USD 1789.0

 - 7.0 años - USD 1788.1

 - 8.0 años - USD 1766.65

 - 6.0 años - USD 1714.3

 - 7.5 años - USD 1673.3

 - 33.0 años - USD 1666.7

 - 3.5 años - USD 1648.8

 - 5.0 años -

In [245]:
print(f'\n La mediana salarial por región es:')

for key, value in mediana_region_dict.items():
    print(f'\n - {key} - USD {value}')


 La mediana salarial por región es:

 - Puerto Rico - USD 11000.0

 - Uruguay - USD 2746.0

 - Panamá - USD 2620.8

 - Guatemala - USD 2575.25

 - Chile - USD 2506.3999999999996

 - Honduras - USD 2247.7

 - México - USD 1843.8

 - Argentina - USD 1476.2

 - Bolivia - USD 1343.1

 - Perú - USD 1044.4

 - Costa Rica - USD 972.2

 - Paraguay - USD 908.3

 - Colombia - USD 862.3

 - Nicaragua - USD 539.0

 - República Dominicana - USD 472.0

 - El Salvador - USD 342.85

 - Venezuela - USD 321.2

 - Cuba - USD 244.14999999999998

 - Ecuador - USD 0.4


In [246]:
print(f'\n La mediana salarial por rol es:')

for key, value in mediana_rol_dict.items():
    print(f'\n - {key} - USD {value}')


 La mediana salarial por rol es:

 - director of devops and it - USD 13276.2

 - research engineer - USD 11428.6

 - subject matter expert - USD 7142.9

 - senior product owner - USD 6857.1

 - lead data engineer - USD 6285.7

 - sdet - USD 6233.299999999999

 - security research - USD 6196.0

 - cio - USD 6190.5

 - sr staff engineer - USD 6078.4

 - qa - automation engineer - USD 5714.3

 - ingeniero en informatica - USD 5238.1

 - tech lead / arquitecto - USD 5047.6

 - de todo - USD 5028.6

 - delivery manager - USD 5000.0

 - principal se - USD 4952.4

 - cloudengineer/dev/devops - USD 4761.9

 - engineering manager - USD 4666.7

 - app analyst - USD 3890.2

 - exploit writer - USD 3809.5

 - vp / c-level - USD 3728.55

 - research - USD 3571.4

 - product security - USD 3485.7

 - full stack y bi - USD 3447.6

 - product designer - USD 3400.0

 - alliances manager (indirect sales) - USD 3397.0

 - jefe de canales digitales - USD 3333.3

 - operation lead - USD 3333.3

 - fronten

In [247]:
print(f'\n La mediana salarial por nivel de estudios es:')

for key, value in mediana_nivel_dict.items():
    if key != '':
        print(f'\n - {key} - USD {value}') # Primaria un unico caso - no confiable


 La mediana salarial por nivel de estudios es:

 - Primario - USD 2095.2

 - Posgrado - USD 1904.8

 - Doctorado - USD 1853.0

 - Universitario - USD 1523.8

 - Terciario - USD 1333.3

 - Secundario - USD 1240.75

 - Posdoctorado - USD 571.95


In [248]:
print(f'\n La mediana salarial por carrera es:')

for key, value in mediana_carrera_dict.items():
    if key != '':
        print(f'\n - {key} - USD {value}') 


 La mediana salarial por carrera es:

 - licenciatura admin - USD 14285.7

 - n/a - USD 10285.7

 - ciencias de la comunicacion social  - USD 9723.8

 - turismo - USD 9510.5

 - x - USD 8761.9

 - licenciatura en ciencias de la comunicacion social - USD 5962.75

 - geologia - USD 5812.0

 - tecnico en sistemas - USD 5714.3

 - licenciatura en geologia - USD 5342.9

 - certifieducacion tech developer - USD 5181.0

 - ingeniero civil - USD 5059.5

 - licenciatura en fisica - USD 4971.45

 - ingenieria ejecucion electronica - USD 4246.3

 - ciencias de la comunicacion - USD 4205.7

 - - - USD 3890.75

 - recursos humanos - USD 3876.2000000000003

 - tecnicatura en web - USD 3771.4

 - traductora de ingles - USD 3738.4

 - diseno y programacion de simuladores virtuales - USD 3714.3

 - medicina - USD 3692.9

 - tecnico superior en informatica aplicada - USD 3600.0

 - biologia - USD 3535.7

 - licenciatura en estadistica  - USD 3476.2

 - ingenieria mecanica - USD 3452.4

 - analisis de s

In [249]:
print(f'\n La mediana salarial por género es:')

for key, value in mediana_genero_dict.items():
    if key != '':
        print(f'\n - {key} - USD {value}') 


 La mediana salarial por género es:

 - Varón Trans - USD 1761.8999999999999

 - Varón Cis - USD 1571.4

 - Otro/No contesta - USD 1523.8

 - No binarie - USD 1321.65

 - Mujer Cis - USD 1190.5

 - Mujer Trans - USD 952.4


In [259]:
print(f'\n La mediana salarial por lenguaje es:')

for key, value in mediana_lenguaje_sorted.items():
    if key != '':
        print(f'\n - {key} - USD {value}') 


 La mediana salarial por lenguaje es:

 -  Solidity - USD 7619.0

 -  Nodejs - USD 7333.3

 -  Xamarin - USD 5714.3

 - no escribo código en este rol - USD 5597.2

 -  BASH - USD 5495.2

 - Clojure - USD 5142.9

 - Ruby - USD 4971.4

 -  Rust - USD 4890.5

 - Elixir - USD 4679.3

 -  Cython - USD 4523.8

 -  ECL - USD 4285.7

 - Rust - USD 4285.7

 -  Terraform - USD 4246.3

 - Ansible - USD 3965.3

 -  assembly - USD 3809.5

 -  node. js - USD 3809.5

 -  Natural - USD 3752.4

 - Otro - USD 3714.3

 - No aplica a mi posicion - USD 3657.1

 - Apex - USD 3628.6000000000004

 -  GraphQL - USD 3305.0

 -  Lightning Components Salesforce - USD 3192.4

 -  Apex Salesforce - USD 3192.4

 -  Objective-C - USD 3057.9

 - 123 - USD 3047.6

 -  LESS - USD 2952.9

 -  SASS - USD 2952.9

 -  react - USD 2895.2

 - . - USD 2857.1

 - Scala - USD 2857.1

 -  Powershell es un lenguaje!! - USD 2828.6

 -  Rexx - USD 2814.3

 -  terraform - USD 2714.3

 -  XAML - USD 2704.8

 -  Elixir - USD 2666.7

 

12. Printear porcentaje y salario según tipos de contrato .

In [251]:
# print(dict_list_global[2])

contrato_list = []

contrato_list = obtener(dict_list_global, contrato_list, 'Tipo de contrato')

salario_contrato_dict = salario_ans_dict(contrato_list, salarios_dolar_list)

mediana_contrato_dict = get_median(contrato_list, salario_contrato_dict)

contrato_dict = {k : 0 for k in set(contrato_list)}

for ans in contrato_list:
    contrato_dict[ans] += 1

# print(contrato_dict)

respuestas_contrato_totales = len(contrato_list)

porcentaje_contrato = {k : 0 for k in set(contrato_list)}

for key, value in contrato_dict.items():
    porcentaje = round(100 * value/respuestas_contrato_totales, 2)
    porcentaje_contrato[key] = porcentaje

porcentaje_contrato_sorted = dict(sorted(porcentaje_contrato.items(), key=lambda item: item[1], reverse = True))

print(f'\n La mediana salarial por tipo de contrato es:')

for key, value in mediana_contrato_dict.items():
    print(f'\n - {key} - USD {value}') 

print(f'\n El porcentaje de respuestas por tipo de contrato es:')

for key, value in porcentaje_contrato_sorted.items():
    print(f'\n - {key} - {value} %') 


 La mediana salarial por tipo de contrato es:

 - Remoto (empresa de otro país) - USD 4761.9

 - Full-Time - USD 1485.7

 - Tercerizado (trabajo a través de consultora o agencia) - USD 1257.1

 - Participación societaria en una cooperativa - USD 1204.75

 - Freelance - USD 1178.6

 - Part-Time - USD 609.5

 El porcentaje de respuestas por tipo de contrato es:

 - Full-Time - 82.62 %

 - Remoto (empresa de otro país) - 7.12 %

 - Part-Time - 4.37 %

 - Tercerizado (trabajo a través de consultora o agencia) - 3.04 %

 - Freelance - 2.59 %

 - Participación societaria en una cooperativa - 0.26 %


13. Para informe final - tecnlogoias populares

In [269]:
respuestas_lenguaje = len(lenguaje_list_split)
    
casos_lenguaje_dict = {k : 0 for k in lenguaje_set}
    
for i, ans in enumerate(lenguaje_list_split):
    for lenguaje in ans:
        casos_lenguaje_dict[lenguaje] += 1

# print(casos_lenguaje_dict)
respuestas_lenguaje = 0

for lenguaje in casos_lenguaje_dict:
    respuestas_lenguaje += casos_lenguaje_dict[lenguaje]
    
porcentaje_lenguaje = {k : 0 for k in lenguaje_set}

for key, value in casos_lenguaje_dict.items():
    porcentaje = round(100 * value/respuestas_lenguaje, 2)
    porcentaje_lenguaje[key] = porcentaje

porcentaje_lenguaje_sorted = dict(sorted(porcentaje_lenguaje.items(), key=lambda item: item[1], reverse = True))

# print(porcentaje_lenguaje)

print(f'\n El porcentaje de respuestas por lenguaje es:')

for key, value in porcentaje_lenguaje_sorted.items():
    print(f'\n - {key} - {value} %') 


 El porcentaje de respuestas por lenguaje es:

 -  Javascript - 11.41 %

 -  SQL - 10.84 %

 -  HTML - 7.93 %

 -  Python - 6.5 %

 - Ninguno de los anteriores - 5.44 %

 -  TypeScript - 5.0 %

 - Bash/Shell - 4.92 %

 -  Java - 4.47 %

 - CSS - 4.36 %

 - .NET - 4.05 %

 -  PHP - 4.0 %

 -  C# - 3.04 %

 - Java - 2.67 %

 - Javascript - 2.55 %

 -  CSS - 2.24 %

 - Python - 2.2 %

 - HTML - 1.95 %

 - SQL - 1.32 %

 - Go - 1.26 %

 -  Kotlin - 1.11 %

 -  VBA - 0.89 %

 -  Go - 0.89 %

 -  Ruby - 0.79 %

 -  C++ - 0.69 %

 -  C - 0.57 %

 -  Groovy - 0.55 %

 -  Bash/Shell - 0.51 %

 -  R - 0.48 %

 - C# - 0.47 %

 -  Scala - 0.42 %

 -  Swift - 0.39 %

 - PHP - 0.38 %

 - Groovy - 0.35 %

 -  Perl - 0.32 %

 - ABAP - 0.31 %

 - C++ - 0.27 %

 - C - 0.27 %

 -  Objective-C - 0.22 %

 - COBOL - 0.19 %

 -  Dart - 0.18 %

 - Arduino - 0.17 %

 -  COBOL - 0.15 %

 - Swift - 0.12 %

 -  Arduino - 0.12 %

 - Kotlin - 0.11 %

 -  Delphi - 0.1 %

 -  Rust - 0.1 %

 -  Matlab - 0.09 %

 - Ty