In [292]:
import pandas as pd
import numpy as np
from IPython.display import display

df = pd.read_csv('full.csv', low_memory=False)

def normalize_column(df, column_name):
    df[column_name] = df[column_name].str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8')
    return df[column_name]

def inspect_column(df, col):
    print(f'Column: {col}')
    print(f'Unique values: {len(df[col].unique())}')
    print(f'Null values: {df[col].isna().sum()}')
    display(df[[col, 'identificador']].groupby(by=col, as_index=False).count().sort_values(by='identificador', ascending=False))
    
train = df
test = pd.read_csv('test.csv', low_memory=False)

In [293]:
# for col in test.columns:
#     print(f'column {col}, {test.isna().mean()} missing')

In [294]:
train['target'] = train['Salario mensual (en tu moneda local)']/train['Valor dólar informal semestral']

target = 'target'
onehot_features = []
mean_features = ['Dónde estás trabajando',
                'Tipo de contrato',
                'Actividad principal',
                 
                         ]
delete_columns = ['Trabajo de',
                    'Me identifico',
                    'Lenguajes de programación o tecnologías.',
                    'Automation o funcional?',
                    'QA / Testing',
                    'Bases de datos',
                    'Cuánto cobrás por guardia',
                    '¿Porcentaje, bruto o neto?',
                    'Plataformas',
                    'A qué está atado el bono',
                    'Valor dólar informal semestral',
                    'Frameworks, herramientas y librerías',
                    'Universidad', 
                    'Años en la empresa actual',
                    '¿Programás como hobbie?',
                    'Lenguajes de programación', 
                    'IDEs',
                    '¿Qué SO usás en tu laptop/PC para trabajar?',
                    'Orientación sexual',
                    '¿Sentís que esto te dificultó el conseguir trabajo?',
                    'Frameworks, herramientas y librerías',
                    'Nivel de estudios alcanzado',
                    '¿Sufriste o presenciaste situaciones de violencia laboral?',
                    '¿Tenés algún tipo de discapacidad?',
                    'Trabajo para una empresa que no tiene oficina en mi ciudad',
                    '¿Cómo venís llevando la pandemia?',
                    'Sufriste o presenciaste situaciones de violencia y/o acoso por motivo de',
                    '¿Considerás que en tu empresa/organización hay una marcada tendencia a escuchar más a los hombres?',
                    '¿Sentís que podés ser vos en tu trabajo?',
                    '¿Considerás que tenés oportunidades de crecimiento siendo quien sos dentro de tu organización?',
                    '¿Sentís que alguna vez los prejuicios culturales/sociales sobre tu orientación, género, etnia o discapacidad pudieron obstaculizar el que consigas un trabajo?',
                    'En el último año, en tu trabajo ¿recibiste o escuchaste comentarios que considerás inapropiados, subidos de tono y/o discriminatorios?',
                    '¿Cuántas veces a la semana vas a trabajar a la oficina?',
                    '¿Cómo venís llevando la cuarentena?',
                    '¿Tenés hijos/as menores de edad?',
                    '¿Qué tipo de cuarentena hiciste / estás haciendo?',
                    '¿Cambió tu situación laboral a raíz de la pandemia?',
                    '¿Qué tanto sentís que te está apoyando tu empresa/organización en esta situación?',
                    '¿Cómo se vio afectada tu empresa/organización?',
                  'Pagos en dólares',
                 ]

if onehot_features:
    onehotter = OneHotEncoder(handle_unknown='infrequent_if_exist', min_frequency=0.001, drop='if_binary')
    onehotter.fit(train[onehot_features])

if mean_features:
    mean_encoder = {'unk': train[target].mean()}
    for col in mean_features:
        mean_encoder[col] = train.groupby([col])[target].mean().to_dict()

def clean_pipeline(df, test=False):
    
    # gender
    df['Me identifico'] = normalize_column(df, 'Me identifico')
    male_regex = 'varon|hombre|macho|mascul'
    female_regex = 'mujer|femen'
    df['gender_male'] = np.where(df['Me identifico'].str.contains(male_regex, case=False), 1, 0)
    df['gender_female'] = np.where(df['Me identifico'].str.contains(female_regex, case=False), 1, 0)
    df['gender_unk'] = np.where((df['gender_male']==0) & (df['gender_female']==0), 1, 0)
    
    # geography
    north_provinces = {'Jujuy', 'Chaco', 'Catamarca', 'Corrientes', 'Santiago del Estero', 'Tucumán', 'Misiones', 'Formosa', 'Salta'}
    x1 = {key: 'North' for key in north_provinces}
    south_provinces = {'Neuquén', 'Río Negro', 'Chubut', 'Tierra del Fuego', 'Santa Cruz'}
    x2 = {key: 'South' for key in south_provinces}
    center_provinces = {'La Rioja', 'San Juan', 'Mendoza', 'La Pampa', 'Entre Ríos', 'Santa Fe', 'San Luis'}
    x3 = {key: 'Center' for key in center_provinces}
    province_dict= {'Provincia de Buenos Aires': 'PBA', 'GBA':'PBA', 'Ciudad Autónoma de Buenos Aires': 'CABA', 'Córdoba': 'Cordoba'}
    province_dict.update(x1)
    province_dict.update(x2)
    province_dict.update(x3)
    df['Dónde estás trabajando'] = df['Dónde estás trabajando'].map(province_dict)
    df['Dónde estás trabajando'] = df['Dónde estás trabajando'].fillna('CABA')
    
    # experiencia
    if df['Años de experiencia'].dtype != 'float64':
        df['Años de experiencia'] = df['Años de experiencia'].str.split('.').str[0]
        df['Años de experiencia'] = pd.to_numeric(df['Años de experiencia'].str.split(',').str[0].str.replace('\D+', ''))
    df['Años de experiencia'] = pd.cut(df['Años de experiencia'], [-1, 2, 5, 9, 100000], labels=False , retbins=True, right=True)[0]
    df['Años de experiencia'] = df['Años de experiencia'].fillna(0) #the only value is Less than a year that corresponds to the bin 0
    
    if df['Años en el puesto actual'].dtype != 'float64':
        df['Años en el puesto actual'] = df['Años en el puesto actual'].str.split('.').str[0]
        df['Años en el puesto actual'] = pd.to_numeric(df['Años en el puesto actual'].str.split(',').str[0].str.replace('\D+', ''))
    df['Años en el puesto actual'] = pd.cut(df['Años en el puesto actual'], [-1, 1, 3, 5, 100000], labels=False , retbins=True, right=True)[0]
    df['Años en el puesto actual'] = df['Años en el puesto actual'].fillna(0) #the only value is Less than a year that corresponds to the bin 0
    
    # job post
    df['Trabajo de'] = normalize_column(df, 'Trabajo de')
    admin_regex = 'admin'
    manager_regex = 'manager|gesti|geren'
    agile_regex = 'agile'
    analyst_regex = 'anal'
    data_regex = 'data|ML|machine|DBA'
    engineer_regex = 'ingen|engine'
    support_regex = 'suppor|apoy|sopor|help'
    qa_regex = 'qa|test'
    dev_regex = 'dev|desarr'
    designer_regex = 'disen|desig'
    lead_regex = 'lead|CTO|C-level|C-suite'
    df['job_admin'] = np.where(df['Trabajo de'].str.contains(admin_regex, case=False), 1, 0)
    df['job_manager'] = np.where(df['Trabajo de'].str.contains(manager_regex, case=False), 1, 0)
    df['job_agile'] = np.where(df['Trabajo de'].str.contains(agile_regex, case=False), 1, 0)
    df['job_analyst'] = np.where(df['Trabajo de'].str.contains(analyst_regex, case=False), 1, 0)
    df['job_data'] = np.where(df['Trabajo de'].str.contains(data_regex, case=False), 1, 0)
    df['job_engineer'] = np.where(df['Trabajo de'].str.contains(engineer_regex, case=False), 1, 0)
    df['job_support'] = np.where(df['Trabajo de'].str.contains(support_regex, case=False), 1, 0)
    df['job_qa'] = np.where(df['Trabajo de'].str.contains(qa_regex, case=False), 1, 0)
    df['job_dev'] = np.where(df['Trabajo de'].str.contains(dev_regex, case=False), 1, 0)
    df['job_designer'] = np.where(df['Trabajo de'].str.contains(designer_regex, case=False), 1, 0)
    # job_lead can be inferred from number of subordinates better
    # df['job_lead'] = np.where(df['Trabajo de'].str.contains(lead_regex, case=False), 1, 0)
    
    # age
    if df['Años de experiencia'].dtype != 'int64':
        df['Tengo'] = df['Tengo'].str.split('-').str[0]
        df['Tengo'] = pd.to_numeric(df['Tengo'].str.replace('\D+', ''))
    df['Tengo'] = df['Tengo'].fillna(df['Tengo'].mean())
    df['Tengo'] = pd.cut(df['Tengo'], [-1, 25, 30, 35, 45, 100000], labels=False , retbins=True, right=True)[0]

    # platforms
    df['Plataformas'] = df['Plataformas'].fillna('Ninguna de las anteriores')
    df['Plataformas'] = normalize_column(df, 'Plataformas')
    cloud_regex = 'amazon|aws|cloud|azure|ocean|gcp'
    wind_regex = 'wind|micros'
    db_regex = 'sql|terad|databr|fireba|query|mongo'
    bi_regex = 'tableau|powerbi|looker'
    jira_regex = 'jira|atlas'
    linux_regex = 'linux|debian|redhat|ubuntu|centos'
    df['platform_cloud'] = np.where(df['Plataformas'].str.contains(cloud_regex, case=False), 1, 0)
    df['platform_wind'] = np.where(df['Plataformas'].str.contains(wind_regex, case=False), 1, 0)
    df['platform_db'] = np.where(df['Plataformas'].str.contains(db_regex, case=False), 1, 0)
    df['platform_bi'] = np.where(df['Plataformas'].str.contains(bi_regex, case=False), 1, 0)
    df['platform_jira'] = np.where(df['Plataformas'].str.contains(jira_regex, case=False), 1, 0)
    df['platform_linux'] = np.where(df['Plataformas'].str.contains(linux_regex, case=False), 1, 0)
    
    # test_framework
    df['QA / Testing'] = df['QA / Testing'].fillna('Ninguna de las anteriores')
    df['QA / Testing'] = normalize_column(df, 'QA / Testing')
    notest_regex = 'none|ning|no/s|ni/s|no$'
    df['test_notests'] = np.where(df['QA / Testing'].str.contains(notest_regex, case=False), 1, 0)
    
    # languages
    df['Lenguajes de programación o tecnologías.'] = normalize_column(df, 'Lenguajes de programación o tecnologías.')
    df['Lenguajes de programación o tecnologías.'] = df['Lenguajes de programación o tecnologías.'].fillna('Ninguno de los anteriores')
    c_regex = 'assembler|C\+\+|C\#|C$|rust|smalltalk'
    stat_regex = 'SAS|julia|SSIS|R$|matlab'
    js_regex = 'javascript|ux|html|angular|react|typescript'
    python_regex = 'python'
    java_regex = 'java$|clojure|scala|kotlin|groovy'
    bash_regex = 'bash|shell|yaml'
    excel_regex = 'excel|vb|basic'
    df['lang_c'] = np.where(df['Lenguajes de programación o tecnologías.'].str.contains(c_regex, case=False), 1, 0)
    df['lang_stat'] = np.where(df['Lenguajes de programación o tecnologías.'].str.contains(stat_regex, case=False), 1, 0)
    df['lang_js'] = np.where(df['Lenguajes de programación o tecnologías.'].str.contains(js_regex, case=False), 1, 0)
    df['lang_python'] = np.where(df['Lenguajes de programación o tecnologías.'].str.contains(python_regex, case=False), 1, 0)
    df['lang_java'] = np.where(df['Lenguajes de programación o tecnologías.'].str.contains(java_regex, case=False), 1, 0)
    df['lang_bash'] = np.where(df['Lenguajes de programación o tecnologías.'].str.contains(bash_regex, case=False), 1, 0)
    df['lang_excel'] = np.where(df['Lenguajes de programación o tecnologías.'].str.contains(excel_regex, case=False), 1, 0)
    
    # database
    df['Bases de datos'] = df['Bases de datos'].fillna('Ninguna de las anteriores')
    df['Bases de datos'] = normalize_column(df, 'Bases de datos')
    sql_regex = 'MariaDB|oracle|postgre|sql|SOQL'
    nouse_regex = 'none|ning|no/s|ni/s'
    df['db_sql'] = np.where(df['Bases de datos'].str.contains(sql_regex, case=False), 1, 0)
    df['db_nouse'] = np.where(df['Bases de datos'].str.contains(nouse_regex, case=False), 1, 0)
    
    # bono
    bono_mapping = {'No': 0, 'Menos de un sueldo': 1, 'Un sueldo': 2, 'De uno a tres sueldos': 3, '3+ sueldos': 4}
    df['Recibís algún tipo de bono'] = df['Recibís algún tipo de bono'].map(bono_mapping)
    df['Recibís algún tipo de bono'] = df['Recibís algún tipo de bono'].fillna(0)
    
    # guardias
    df['¿Tenés guardias?'] = df['¿Tenés guardias?'].fillna('No')
    df['¿Tenés guardias?'] = normalize_column(df, '¿Tenés guardias?')
    yes_regex = 'si'
    df['¿Tenés guardias?'] = np.where(df['¿Tenés guardias?'].str.contains(yes_regex, case=False), 1, 0)
    
    # gente a cargo
    df['¿Gente a cargo?'] = pd.cut(df['¿Gente a cargo?'], [-1, 0, 5, 20, 100000], labels=False , retbins=True, right=True)[0]


    # platforms
    df['Frameworks, herramientas y librerías'] = df['Frameworks, herramientas y librerías'].fillna('Ninguno de los anteriores')
    df['Frameworks, herramientas y librerías'] = normalize_column(df, 'Frameworks, herramientas y librerías')
    backend_regex = 'Spring|\.net|django|node|nest|express|fast|flask|graph|hibern|laravel|rail|sqlalc|goland|go land|php'
    frontend_regex = 'react|vue|angular|js|jquery|tailwind'
    data_regex = 'spark|hadoop|sklea|pandas|numpy|spss|torch|tensor|keras|opencv|airflow'
    df['framework_backend'] = np.where(df['Frameworks, herramientas y librerías'].str.contains(backend_regex, case=False), 1, 0)
    df['framework_frontend'] = np.where(df['Frameworks, herramientas y librerías'].str.contains(frontend_regex, case=False), 1, 0)
    df['framework_data'] = np.where(df['Frameworks, herramientas y librerías'].str.contains(data_regex, case=False), 1, 0)
    
    
    # company size 
    # 0 - 51 - 200 - 2000 - 10000 - 
    compsize_mapping = {'11-50': 0, 
                    '2-10': 0,
                    '1 (solamente yo)': 0,
                    '1-10': 0, 
                    '51-100': 1, 
                    '101-200': 1,
                    '201-500': 2, 
                    '501-1000': 2, 
                    '1001-2000': 2,
                    '1001+': 2,
                    '2001-5000': 3,
                    '5001-10000': 3, 
                    '10001+': 3}
    df['Cantidad de personas en tu organización'] = df['Cantidad de personas en tu organización'].map(compsize_mapping)



    # education
    education_mapping = {
                    'Primario': 0,
                    'Secundario': 0, 
                    'Terciario': 1, 
                    'Universitario': 2, 
                    'Posgrado': 3, 
                    'Doctorado': 3, 
                    'Posdoctorado' : 3}
    df['Nivel de estudios alcanzado'] = df['Nivel de estudios alcanzado'].map(education_mapping)
    df['education_isnan'] = np.where(df['Nivel de estudios alcanzado'].isna(), 1, 0)


    #estado
    education_state_mapping = {'En curso': 0, 
                    'Incompleto': 0, 
                    'Completado' : 1}
    df['Estado'] = df['Estado'].map(education_state_mapping)


    #carrera
    df['Carrera'] = df['Carrera'].fillna('placeholder')
    df['Carrera'] = normalize_column(df, 'Carrera')
    tech_regex = 'cien|ing|anal|infor'
    df['Carrera'] = np.where(df['Carrera'].str.contains(tech_regex, case=False), 1, 0)


    #cursos especializacion
    df['Realizaste cursos de especialización'] = df['Realizaste cursos de especialización'].fillna('placeholder')
    df['Realizaste cursos de especialización'] = normalize_column(df, 'Realizaste cursos de especialización')
    df['Realizaste cursos de especialización'] = np.where(df['Realizaste cursos de especialización'].str.contains('Si', case=False), 1, 0)

    #contribucion open source
    df['¿Contribuís a proyectos open source?'] = df['¿Contribuís a proyectos open source?'].fillna('placeholder')
    df['¿Contribuís a proyectos open source?'] = normalize_column(df, '¿Contribuís a proyectos open source?')
    df['¿Contribuís a proyectos open source?'] = np.where(df['¿Contribuís a proyectos open source?'].str.contains('Si', case=False), 1, 0)

    #Discpacidad
    regex_disc = r'\bno\b/gm'
    df['¿Tenés algún tipo de discapacidad?'] = df['¿Tenés algún tipo de discapacidad?'].fillna('placeholder')
    df['¿Tenés algún tipo de discapacidad?'] = normalize_column(df, '¿Tenés algún tipo de discapacidad?')
    df['¿Tenés algún tipo de discapacidad?'] = np.where(df['¿Tenés algún tipo de discapacidad?'].str.contains(regex_disc, case=False),1,0)
    
    #actividad
    df['actividad_isnan'] = np.where(df['Actividad principal'].isna(), 1, 0)
    #recommendation
    df['recommendation_isnan'] = np.where(df['¿La recomendás como un buen lugar para trabajar?'].isna(), 1, 0)
    #diversidad
    df['deiversity_isnan'] = np.where(df['¿Cómo calificás las políticas de diversidad e inclusión?'].isna(), 1, 0)
    #dollar pay
    df['dollar_isnan'] = np.where(df['Pagos en dólares'].isna(), 1, 0)
    #pandemia
    df['pandemia_isnan'] = np.where(df['¿Qué tanto sentís que te está apoyando tu empresa/organización en esta situación?'].isna(), 1, 0)
    
    
    # ONEHOT ENCODING
    if onehot_features:
        onehot_data = onehotter.transform(df[onehot_features]).toarray()
        onehot_columns = onehotter.get_feature_names_out([x for x in onehot_features])
        onehot_data = pd.DataFrame(onehot_data, columns=onehot_columns)
        df = df.drop(columns=onehot_features)
        df = df.join(onehot_data)
    # MEAN ENCODING
    if mean_features:
        for col in mean_features:
            df[col] = df[col].map(mean_encoder[col])
            df[col] = df[col].fillna(mean_encoder['unk'])
    
    # delete features
    df = df.drop(columns=delete_columns)
    if not test:
        df = df.drop(columns=['Salario mensual (en tu moneda local)'])
    return df

In [295]:
train = clean_pipeline(train)

  df['Años de experiencia'] = pd.to_numeric(df['Años de experiencia'].str.split(',').str[0].str.replace('\D+', ''))
  df['Años en el puesto actual'] = pd.to_numeric(df['Años en el puesto actual'].str.split(',').str[0].str.replace('\D+', ''))
  df['Tengo'] = pd.to_numeric(df['Tengo'].str.replace('\D+', ''))


In [296]:
train.shape

(45227, 59)

In [297]:
test = clean_pipeline(test, test=True)

In [298]:
test.shape

(5368, 58)