In [31]:
import pandas as pd
import datetime as dt
import numpy as np

pd.options.mode.chained_assignment = None  # default='warn'

# Consigna

Vamos a continuar trabajando con el dataset de la encuesta de sueldos en el sector tecnológico.

En esta oportunidad vamos a analizar la calidad de la información brindada. Nos interesa saber:

- si existen registros duplicados

- si existen datos faltantes: analizar especificamente las variables *tenes_algun_tipo_de_discapacidad* y *salario_mensual_neto_en_tu_moneda_local*; nos interesa imputar los faltantes en ambos casos

- si nuesta información es consistente tanto interna como externamente

Para el ultimo punto se sugiere:

- cruzar la edad con los años de experiencia (validez interna)

- cruzar la experiencia con los años en la experiencia actual (validez interna)

- comparar salario bruto con salario neto (validez interna)

- cruzar el sueldo percibido con el sueldo mínimo vigente (validez externa). TIP: usar solo los casos de Argentina (salario mínimo vigente para 2020: $16.875,0)

In [32]:
sueldos = pd.read_csv("https://raw.githubusercontent.com/eea-uba/EEA-2020/master/Fuentes/encuesta_sueldos_sysarmy_1s2020.csv")
sueldos.head()

Unnamed: 0,timestamp,me_identifico,tengo,estoy_trabajando_en,donde_estas_trabajando,anos_de_experiencia,anos_en_la_empresa_actual,anos_en_el_puesto_actual,gente_a_cargo,nivel_de_estudios_alcanzado,estado,carrera,universidad,realizaste_cursos_de_especializacion,contribuis_a_proyectos_open_source,programas_como_hobbie,trabajo_de,plataformas,lenguajes_de_programacion,frameworksherramientas_y_librerias,bases_de_datos,qa_testing,ides,que_so_usas_en_tu_laptoppc_para_trabajar,y_en_tu_celular,tenes_guardias,cuanto_cobras_por_guardia,porcentajebruto_o_neto,tipo_de_contrato,salario_mensual_bruto_en_tu_moneda_local,salario_mensual_neto_en_tu_moneda_local,que_tan_conforme_estas_con_tu_sueldo,como_crees_que_esta_tu_sueldo_con_respecto_al_ultimo_semestre,recibis_algun_tipo_de_bono,a_que_esta_atado_el_bono,tuviste_ajustes_por_inflacion_en_2019,de_que_fue_el_ajuste_total,en_que_mes_fue_el_ultimo_ajuste,sufriste_o_presenciaste_situaciones_de_violencia_laboral,orientacion_sexual,tenes_algun_tipo_de_discapacidad,sentis_que_esto_te_dificulto_el_conseguir_trabajo,a_que_eventos_de_tecnologia_asististe_en_el_ultimo_ano,sos_miembro_de_alguna_comunidad_it,cantidad_de_empleados,actividad_principal,la_recomendas_como_un_buen_lugar_para_trabajar,como_calificas_las_politicas_de_diversidad_e_inclusion,a_cuantos_kilometros_de_tu_casa_queda_la_oficina,beneficios_extra,habias_respondido_nuestra_encuesta_en_ediciones_anteriores,cuales_consideras_que_son_las_mejores_empresas_de_it_para_trabajar_en_este_momentoen_tu_ciudad,sueldo_dolarizado
0,1/31/2020 6:50:26,Hombre,32,Argentina,Ciudad Autónoma de Buenos Aires,10,3,1,0,Secundario,Completado,0,0,"Sí, de forma particular",Sí,No,0,Linux,"Bash/Shell, SQL",,"MySQL, Oracle",,"Nano, Notepad++",Windows,No tengo celular / no es Smartphone,No,0,Porcentaje de mi sueldo,Full-Time,45,40.0,2,2,No,No recibo bono,Dos,10,1,Jamás,Homosexual,,,,,10001+,Producto basado en Software,8,10,6,"Capacitaciones y/o cursos, Comidas pagas / sub...",No,cognizant,False
1,1/28/2020 9:27:48,Hombre,30,Argentina,Ciudad Autónoma de Buenos Aires,3,3,3,0,Terciario,Completado,Diseño Gráfico,antonio berni,"Sí, de forma particular, Sí, los pagó un emple...",No,Sí,Technical Support,Windows Server,"CSS, HTML, Javascript",Bootstrap,,,Visual Studio Code,Windows,Android,No,0,Porcentaje de mi sueldo,Full-Time,48000,40000.0,1,1,No,No recibo bono,Dos,10,7,Jamás,Heterosexual,,No,,,51-100,Otras industrias,7,3,35,Capacitaciones y/o cursos,No,mercadolibre,False
2,1/29/2020 16:54:29,Mujer,40,Argentina,Ciudad Autónoma de Buenos Aires,15,3,3,1,Universitario,Completado,Derecho,UBA - Universidad de Buenos Aires,No,No,No,Abogada,,,,,,,Windows,Android,No,0,Bruto,Full-Time,42000,35000.0,3,2,No,No recibo bono,Dos,10,10,En mi trabajo actual,Heterosexual,,No,,,11-50,Servicios / Consultoría de Software / Digital,8,8,30,"Abono de celular y/o Internet, Capacitaciones ...",No,,False
3,2/1/2020 5:46:25,Mujer,36,Argentina,Ciudad Autónoma de Buenos Aires,10,3,3,0,Universitario,Completado,Derecho,UNC - Universidad Nacional de Córdoba,No,No,No,Abogado,Lex doctor,Ninguno,Ninguno,Ninguno,Ninguno,Ninguno,Windows,Android,No,0,Neto,Full-Time,75000,60000.0,3,3,No,No recibo bono,No,0,0,Jamás,Heterosexual,,,,,51-100,Otras industrias,7,5,4,Viáticos,No,,False
4,2/1/2020 17:51:21,Hombre,29,Argentina,Ciudad Autónoma de Buenos Aires,10,2,2,0,Universitario,Completado,Licenciatura en Marketing,IUEAN - Instituto Universitario Escuela Argent...,No,No,No,Account Manager-Sales,"Springserve, Pulse Point, Improve Digital, Mob...",,,,,,Windows,Android,No,0,Neto,Full-Time,40000,34000.0,1,1,Menos de un sueldo,Performance individual,Uno,24,5,Jamás,Heterosexual,,,,,11-50,Otras industrias,5,8,7,Ninguna de las anteriores,No,,False


## 1) Duplicados

In [33]:
# Validamos si hay registros duplicados


## 2) Faltantes

In [34]:
# Analizamos los posibles valores de la variable tenes_algun_tipo_de_discapacidad


In [35]:
# imputamos como "no" a aquellos valores sin responder


In [36]:
# Para la variable salario_mensual_neto_en_tu_moneda_local, imputamos la mediana en los datos faltantes


## 3) *Sanity Check*

* cruzar la edad con los años de experiencia (validez interna)

* cruzar la experiencia con los años en la experiencia actual (validez interna)

* comparar salario bruto con salario neto (validez interna)

* cruzar el sueldo percibido con el sueldo mínimo vigente (validez externa). TIP: usar solo los casos de Argentina (salario mínimo vigente para 2020: $16.875,0)

Para esta parte vamos a utilizar unicamente los salarios de Argentina.

### a) cruzar la edad con los años de experiencia (validez interna)

In [37]:
# calculo la edad en que la persona empezo a trabajar de acuerdo a lo declarado


In [38]:
# marcamos aquellos casos en los cuales la edad en la cual empezó a trabajar es inferior a los 17 años


### b) cruzar la experiencia con los años en la experiencia actual (validez interna)

### c) comparar salario bruto con salario neto (validez interna)

### d) cruzar el sueldo percibido con el sueldo mínimo vigente (validez externa)

### Validación final

In [39]:
#registros_raw = len(sueldos)
#registros_clean = len(sueldos[(sueldos.inconsistencia_experiencia < 1) &
#                  (sueldos.inconsistencia_experiencia_trabajo_actual < 1) &
#                  (sueldos.inconsistencia_salario_bruto_neto < 1) &
#                  (sueldos.inconsistencia_salario_minimo < 1)])
#diferencia = registros_raw - registros_clean

In [40]:
#print("""Previo a la limipeza, el dataset presenta {} registros para Argentina. Luego de aplicar los filtros para 
#quitar los registros con inconsistencias, se conservan {} registros habiendo eliminado {} observaciones.""".format(registros_raw, registros_clean, diferencia))