In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import wikipedia
import xml.etree.ElementTree as ET
import re
from sklearn.manifold import TSNE
from sklearn.decomposition import PCA
from sklearn.model_selection import cross_val_score, KFold
import xgboost as xgb
from sklearn.metrics import r2_score

%matplotlib inline

In [2]:
df = pd.read_csv('sysarmy2017-1.csv')
df = df[df['Bruto o neto'] == 'Bruto']
sal_col = 'Salario mensual (en tu moneda local)'
df = df[(df[sal_col].astype(float) > 100) & (df[sal_col].astype(float) <= 1_000_000)]
df.head()

Unnamed: 0,Me identifico,Tengo,Argentina,Anos de experiencia,Anos en el puesto actual,Trabajo de,Tipo de contrato,Salario mensual (en tu moneda local),USD,Bruto o neto,...,"Porcentaje, bruto o neto",Que tan conforme estas con tu sueldo,Como crees que esta tu sueldo con respecto a Julio 2016,Recibis algun tipo de bono,A que esta atado el bono,Tuviste ajustes por inflacion en 2016,De que % fue el ajuste,Cambiaste de empresa en los ultimos 6 meses,Cual fue el principal motivo de cambio,Beneficios extra
1,Mujer,31 - 33,Ciudad Autonoma de Buenos Aires,5,2,HelpDesk,Full-Time,1400.0,87,Bruto,...,Porcentaje de mi sueldo,1,1,Menos de un sueldo,Performance individual,Dos,25.0,No,No cambie de empresa,"Abono de celular y/o Internet, Aumento por inf..."
3,Hombre,37 - 40,Provincia de Buenos Aires,10+,10+,Networking,Full-Time,1500.0,93,Bruto,...,Bruto,1,1,No,No recibo bono,Uno,15.0,No,No cambie de empresa,"Comidas pagas/subvencionadas, Ninguna de las a..."
12,Mujer,24 - 26,Ciudad Autonoma de Buenos Aires,6,6,Consultor BI,Full-Time,2000.0,124,Bruto,...,Neto,1,1,Menos de un sueldo,Mix de las anteriores,Uno,28.0,No,No cambie de empresa,"Descuentos en gimnasios, Laptop, Viaticos"
16,Hombre,31 - 33,Provincia de Buenos Aires,7,5,Docente,Part-Time,2300.0,143,Bruto,...,Bruto,2,2,No,No recibo bono,No,28.0,No,No cambie de empresa,Ninguna de las anteriores
18,Mujer,21 - 23,Cordoba,1,1,HelpDesk,Freelance,2300.0,143,Bruto,...,Porcentaje de mi sueldo,4,4,No,No recibo bono,Uno,15.0,No,No cambie de empresa,"Horarios flexibles, Snacks, golosinas, bebidas..."


In [3]:
h, m = (
df[df['Me identifico'] == 'Hombre'][sal_col].median(),
df[df['Me identifico'] == 'Mujer'][sal_col].median(),
)
(h-m)/h

0.13793103448275862

In [4]:
df.columns

Index(['Me identifico', 'Tengo', 'Argentina', 'Anos de experiencia',
       'Anos en el puesto actual', 'Trabajo de', 'Tipo de contrato',
       'Salario mensual (en tu moneda local)', 'USD', 'Bruto o neto',
       'Max Cantidad de empleados', 'Gente a cargo', 'Cuanta',
       'Tecnologias que utilizas', 'Tecnologias que utilizas.1',
       'Automation o funcional', 'Tecnologias que utilizas.2',
       'Tecnologias que utilizas.3', 'Tenes guardias',
       'Cuanto cobras por guardia (en tu moneda local)',
       'Porcentaje, bruto o neto', 'Que tan conforme estas con tu sueldo',
       'Como crees que esta tu sueldo con respecto a Julio 2016',
       'Recibis algun tipo de bono', 'A que esta atado el bono',
       'Tuviste ajustes por inflacion en 2016', 'De que % fue el ajuste',
       'Cambiaste de empresa en los ultimos 6 meses',
       'Cual fue el principal motivo de cambio', 'Beneficios extra'],
      dtype='object')

In [5]:
best = {'colsample_bytree': 0.7000000000000001, 'gamma': 0.8500000000000001, 'learning_rate': 0.025, 'max_depth': 16, 'min_child_weight': 15.0, 'n_estimators': 175, 'subsample': 0.8099576733552297}
regions_map = {
    'Ciudad Autonoma de Buenos Aires': 'AMBA',
    'GBA': 'AMBA',
    'Catamarca': 'NOA',
    'Chaco': 'NEA',
    'Chubut': 'Patagonia',
    'Corrientes': 'NEA',
    'Entre Rios': 'NEA',
    'Formosa': 'NEA',
    'Jujuy': 'NOA',
    'La Pampa': 'Pampa',
    'La Rioja': 'NOA',
    'Mendoza': 'Cuyo',
    'Misiones': 'NEA',
    'Neuquen': 'Patagonia',
    'Rio Negro': 'Patagonia',
    'Salta': 'NOA',
    'San Juan': 'Cuyo',
    'San Luis': 'Cuyo',
    'Santa Cruz': 'Patagonia',
    'Santa Fe': 'Pampa',
    'Santiago del Estero': 'NOA',
    'Tucuman': 'NOA',
    'Cordoba': 'Pampa',
    'Provincia de Buenos Aires': 'Pampa',
    'Tierra del Fuego': 'Patagonia',
}
class Model:
    def __init__(self, **params):
        self.regressor_ = xgb.XGBRegressor(**params)

    def get_params(self, deep=True):
        return self.regressor_.get_params(deep=deep)

    def set_params(self, **params):
        return self.regressor_.set_params(**params)
    
    def clean_words(self, field, value):
        value = value.replace('Microsoft Azure (Tables, CosmosDB, SQL, etc)', 'Microsoft Azure(TablesCosmosDBSQLetc)')
        value = value.replace('Snacks, golosinas, bebidas', 'snacks')
        value = value.replace('Descuentos varios (Clarín 365, Club La Nación, etc)', 'descuentos varios')
        value = value.replace('Sí, de forma particular', 'de forma particular')
        value = value.replace('Sí, los pagó un empleador', 'los pagó un empleador')
        value = value.replace('Sí, activa', 'activa')
        value = value.replace('Sí, pasiva', 'pasiva')
        return [self.clean_word(field, v) for v in value.split(',') if self.clean_word(field, v)]

    def clean_word(self, field, word):
        val = str(word).lower().strip().replace(".", "")
        if val in ('ninguno', 'ninguna', 'no', '0', 'etc)', 'nan'):
            return ''
        if field == 'Lenguajes de programación' and val == 'Microsoft Azure(TablesCosmosDBSQLetc)':
            return 'Microsoft Azure (Tables, CosmosDB, SQL, etc)'
        if field == '¿A qué eventos de tecnología asististe en el último año?' and val in ('pycon', 'pyconar'):
            return 'pyconar'
        if field == '¿A qué eventos de tecnología asististe en el último año?' and val in ('nodeconf', 'nodeconfar'):
            return 'nodeconfar'
        if field == '¿A qué eventos de tecnología asististe en el último año?' and val in ('meetup', 'meetups'):
            return 'meetups'
        if field == '¿A qué eventos de tecnología asististe en el último año?':
            return val.replace(' ', '')
        if field == 'Beneficios extra' and val == 'snacks':
            return 'snacks, golosinas, bebidas'
        if field == 'Beneficios extra' and val == 'descuentos varios':
            return 'descuentos varios (clarín 365, club la nación, etc)'
        return val

    def row_to_words(self, row):
        return [
            f'{key}={row.fillna("")[key]}'
            for key
            in (
                'Me identifico',
                'Trabajo de',
                'Tipo de contrato',
            )
        ] + [
            f'{k}={v}' for k in (
                'Tenes guardias',
                'Beneficios extra',
                'Tecnologias que utilizas',
                'Tecnologias que utilizas.1',
                'Tecnologias que utilizas.2',
                'Tecnologias que utilizas.3',
            ) for v in self.clean_words(k, row.fillna('')[k])
        ] + [
            f'region={regions_map[row["Argentina"]]}'
        ]

    def encode_row(self, row):
        ws = self.row_to_words(row)
        row = pd.Series([w in ws for w in self.valid_words_] + [
            int(row['Anos de experiencia'].replace('+', '').replace('Menos', '0').split(' ')[0]),
            int(row['Tengo'].replace('+', '').replace('Menos', '0').split(' ')[0]),
        ])
        return row

    def fit(self, X, y, **params):
        counts = {}
        for i in range(X.shape[0]):
            for word in self.row_to_words(X.iloc[i]):
                counts[word] = counts.get(word, 0) + 1
        self.valid_words_ = [word for word, c in counts.items() if c > 0.01*X.shape[0]]
        self.regressor_.fit(X.apply(self.encode_row, axis=1).astype(float), y, **params)
        return self
   
    def predict(self, X):
        return self.regressor_.predict(X.apply(self.encode_row, axis=1).astype(float))
    
    def score(self, X, y):
        return r2_score(y, self.predict(X))

In [6]:
kf = KFold(n_splits=5, shuffle=True, random_state=99)
kf_models = []
for train_index, test_index in kf.split(df):
    model = Model(**best).fit(df.iloc[train_index], df.iloc[train_index][sal_col].astype(float))
    df.loc[df.index[test_index], 'e(salary)'] = model.predict(df.iloc[test_index])
    df['Me identifico'] = df['Me identifico'].apply(lambda g: {'Hombre': 'Mujer', 'Mujer': 'Hombre'}[g])
    df.loc[df.index[test_index], 'e_gr(salary)'] = model.predict(df.iloc[test_index])
    df['Me identifico'] = df['Me identifico'].apply(lambda g: {'Hombre': 'Mujer', 'Mujer': 'Hombre'}[g])
    kf_models.append(model)
df['e_h(salary)'] = df.apply(lambda row: row['e(salary)'] if row['Me identifico'] == 'Hombre' else row['e_gr(salary)'], axis=1)
df['e_m(salary)'] = df.apply(lambda row: row['e(salary)'] if row['Me identifico'] == 'Mujer' else row['e_gr(salary)'], axis=1)
df['e_g_diff(salary)'] = (df['e_h(salary)'] - df['e_m(salary)']) / df['e_h(salary)']
r2_score(df[sal_col], df['e(salary)'])

0.5049975994122389

In [7]:
df['e_g_diff(salary)'].median()

0.043444155227593345