In [42]:
from collections import defaultdict
import re
import pandas as pd
import numpy as np
from sklearn.feature_extraction import FeatureHasher
from sklearn.model_selection import train_test_split
from sklearn.ensemble import (RandomForestClassifier,GradientBoostingClassifier)
from sklearn import linear_model
from sklearn.pipeline import make_pipeline
from sklearn.model_selection import GridSearchCV
from sklearn import linear_model
from sklearn.svm import LinearSVC
from sklearn.cluster import KMeans

# Preparacion del set de entrenamiento

In [43]:
defaultHiperparametrosClusteringAvisos = { 'cantidadFeaturesTitulo' : 40, 'cantidadClusteresAvisos' : 50, 'featureListParaClustering': ['tipo_de_trabajo_nro', 'nivel_laboral_nro', 'nombre_area_nro', 'zona_nro'], 'randomState': 177 }
hiperparametrosAvisos = defaultHiperparametrosClusteringAvisos

def get_postulaciones(size=None):
    postulaciones = pd.read_csv('data/FiubaHasta15Abril/fiuba_4_postulaciones.csv', nrows =size).drop_duplicates(subset=['idpostulante', 'idaviso'], keep='last')
    columns_rename = {'idaviso': 'id_aviso', 'idpostulante': 'id_postulante', 'fechapostulacion': 'fecha_postulacion'}
    postulaciones = postulaciones.rename(columns=columns_rename)
    postulaciones['fecha_postulacion']=pd.to_datetime(postulaciones['fecha_postulacion'])
    return postulaciones

def get_vistas(size=None):
    vistas1 = pd.read_csv('data/FiubaHasta15Abril/fiuba_3_vistas.csv', nrows =size)
    vistas2 = pd.read_csv('data/FiubaDesde15Abril/fiuba_3_vistas.csv', nrows =size)
    vistas3 = pd.read_csv('data/fiuba_3_vistas.csv', nrows =size)
    vistas = pd.concat([vistas1, vistas2, vistas3])
    vistas_sumarizadas = vistas.groupby(['idpostulante', 'idAviso'], as_index=False)['timestamp'].count()
    columns_rename = {'idAviso': 'id_aviso', 'idpostulante': 'id_postulante', 'timestamp': 'visualizaciones'}
    vistas_sumarizadas = vistas_sumarizadas.rename(columns=columns_rename)
    
    return vistas_sumarizadas

def tokens(doc):
    return (tok.lower() for tok in re.findall(r"\w+", doc))

def token_freqs(doc):
    freq = defaultdict(int)
    for tok in tokens(doc):
        freq[tok] += 1
    return freq

def agregar_clusters(avisos_detalle, hiperparametrosAvisos = None):
    if(hiperparametrosAvisos is None):
        hiperparametrosAvisos = defaultHiperparametrosClusteringAvisos
    x_avisos = hiperparametrosAvisos['featureListParaClustering']
    if(hiperparametrosAvisos['cantidadFeaturesTitulo']>0):
        x_avisos= x_avisos + list(range(0, hiperparametrosAvisos['cantidadFeaturesTitulo']))
        h = FeatureHasher(n_features = hiperparametrosAvisos['cantidadFeaturesTitulo'], input_type='string', dtype='float32')
        avisos_detalle['titulo_as_token_freq'] = avisos_detalle.titulo.apply(lambda x: token_freqs(x))
        x = h.transform(avisos_detalle['titulo_as_token_freq'])
        avisos_detalle['titulo'] = list(x.toarray())
        titulos_como_lista = avisos_detalle.titulo.apply(pd.Series)
        avisos_detalle = pd.merge(avisos_detalle, titulos_como_lista, left_index = True, right_index = True)
        avisos_detalle = avisos_detalle.drop(['titulo'], axis=1)
    if(hiperparametrosAvisos['cantidadClusteresAvisos']>0):
        y_pred = KMeans(n_clusters=hiperparametrosAvisos['cantidadClusteresAvisos'], random_state=hiperparametrosAvisos['randomState']).fit_predict(avisos_detalle[x_avisos])
        avisos_detalle['cluster_aviso'] = y_pred
    return avisos_detalle

def get_avisos_detalle(hiperparametrosAvisos = None):    
    avisos1 = pd.read_csv('data/fiuba_6_avisos_detalle.csv')
    avisos2 = pd.read_csv('data/FiubaDesde15Abril/fiuba_6_avisos_detalle.csv')
    avisos3 = pd.read_csv('data/FiubaHasta15Abril/fiuba_6_avisos_detalle.csv')
    avisos4 = pd.read_csv('data/fiuba_6_avisos_detalle_missing_nivel_laboral.csv')        
    avisos_detalle = pd.concat([avisos1,avisos2,avisos3,avisos4]).drop_duplicates(subset=['idaviso'], keep='last').reset_index(drop=True)
    columns_rename = {'idpostulante': 'id_postulante', 'idaviso': 'id_aviso'}
    avisos_detalle = avisos_detalle.rename(columns=columns_rename)
    to_nivel_laboral_nro = {'Senior / Semi-Senior' : 2, 'Junior':1, 'Otro':0,
       'Jefe / Supervisor / Responsable':3,
       'Gerencia / Alta Gerencia / Dirección':4}
    to_tipo_trabajo_nro={'Full-time':0, 'Part-time':1, 'Teletrabajo':2, 'Por Horas':3, 'Pasantia':4,
       'Temporario':5, 'Por Contrato':6, 'Fines de Semana':7, 'Primer empleo':8,
       'Voluntario':9}
    to_nombre_area_numero = pd.Series(avisos_detalle['nombre_area'].unique()).to_dict()
    to_nombre_area_numero  = {v: k for k, v in to_nombre_area_numero.items()}
    to_nombre_zona_numero = pd.Series(avisos_detalle['nombre_zona'].unique()).to_dict()
    to_nombre_zona_numero  = {v: k for k, v in to_nombre_zona_numero.items()}
    avisos_detalle['nivel_laboral_nro']= avisos_detalle['nivel_laboral'].map(to_nivel_laboral_nro)
    avisos_detalle['nivel_laboral_nro'].fillna(value =0, inplace = True)
    avisos_detalle['tipo_de_trabajo_nro'] = avisos_detalle['tipo_de_trabajo'].map(to_tipo_trabajo_nro)
    avisos_detalle['nombre_area_nro'] = avisos_detalle['nombre_area'].map(to_nombre_area_numero)
    avisos_detalle['zona_nro'] = avisos_detalle['nombre_zona'].map(to_nombre_zona_numero)
    avisos_detalle['titulo_aviso'] = avisos_detalle['titulo']    
    
    return agregar_clusters(avisos_detalle, hiperparametrosAvisos)

def get_year_of_birth(postulantes_genero_edad):
    return (pd.to_datetime
            (postulantes_genero_edad['fechanacimiento'], errors='coerce', format='%Y-%m-%d')
            .dt.year)

def get_age(yearOfBirth):
    return 2018 - yearOfBirth
    
def get_age_range(yearOfBirth):
    age = get_age(yearOfBirth)
    if(age<25): return 'Entre 18 y 24'
    if(age<30): return 'Entre 25 y 30'
    if(age<35): return 'Entre 30 y 35'
    if(age<40): return 'Entre 35 y 40'
    if(age<45): return 'Entre 40 y 45'
    if(age<50): return 'Entre 45 y 50'
    return 'Mayor de 50'

def get_order_for_age_range():
    return ['Entre 18 y 24', 'Entre 25 y 30','Entre 30 y 35','Entre 35 y 40','Entre 40 y 45','Entre 45 y 50', 'Mayor de 50']

def get_postulantes_nivel_educativo_para(path):
    postulantes_nivel_educativo = pd.read_csv(path)
    columns_rename = {'idpostulante': 'id_postulante', 'nombre': 'formacion_postulante', 'estado': 'estado_formacion_postulante'}
    postulantes_nivel_educativo=postulantes_nivel_educativo.rename(columns=columns_rename)
    formacion_to_number={'Secundario' : 10, 'Otro': 20, 'Terciario/Técnico' : 30, 'Universitario' : 40, 'Posgrado' : 50,
    'Master' : 50, 'Doctorado' : 50}
    postulantes_nivel_educativo['formacion_postulante_numero']=postulantes_nivel_educativo['formacion_postulante'].map(formacion_to_number);
    estado_to_number = {'En Curso': 4, 'Abandonado': 0, 'Graduado': 8}
    postulantes_nivel_educativo['estado_formacion_postulante_numero']=postulantes_nivel_educativo['estado_formacion_postulante'].map(estado_to_number)
    postulantes_nivel_educativo['nivel_educativo_postulante_numero'] = postulantes_nivel_educativo['formacion_postulante_numero'] + postulantes_nivel_educativo['estado_formacion_postulante_numero']
    postulantes_nivel_educativo['nivel_educativo_postulante_texto'] = postulantes_nivel_educativo['formacion_postulante'] + ' - ' + postulantes_nivel_educativo['estado_formacion_postulante']
    relevant_columns = ['id_postulante','nivel_educativo_postulante_texto', 'nivel_educativo_postulante_numero']
    postulantes_nivel_educativo = postulantes_nivel_educativo[relevant_columns]
    grouped=postulantes_nivel_educativo.groupby(['id_postulante']).agg({'nivel_educativo_postulante_numero':['max']}) 
    df=grouped.reset_index()
    df.columns = ['id_postulante', 'maximo_nivel_educativo_postulante']
    return df

def get_postulantes_nivel_educativo():
    postulantes1 = get_postulantes_nivel_educativo_para('data/fiuba_1_postulantes_educacion.csv')
    postulantes2 = get_postulantes_nivel_educativo_para('data/FiubaDesde15Abril/fiuba_1_postulantes_educacion.csv')
    postulantes3 = get_postulantes_nivel_educativo_para('data/FiubaHasta15Abril/fiuba_1_postulantes_educacion.csv')
    return pd.concat([postulantes1,postulantes2,postulantes3]).drop_duplicates(subset=['id_postulante'], keep='last').reset_index(drop=True)

def get_postulantes_genero_edad():
    postulantes1 = pd.read_csv('data/fiuba_2_postulantes_genero_y_edad.csv')
    postulantes2 = pd.read_csv('data/FiubaDesde15Abril/fiuba_2_postulantes_genero_y_edad.csv')
    postulantes3 = pd.read_csv('data/FiubaHasta15Abril/fiuba_2_postulantes_genero_y_edad.csv')
    postulantes_genero_edad = pd.concat([postulantes1,postulantes2,postulantes3]).drop_duplicates(subset=['idpostulante'], keep='last').reset_index(drop=True)
    postulantes_genero_edad['año_nacimiento_postulante']=get_year_of_birth(postulantes_genero_edad)
    postulantes_genero_edad['edad_postulante']=postulantes_genero_edad['año_nacimiento_postulante'].map(get_age, na_action=None)
    postulantes_genero_edad['rango_edad_postulante']=postulantes_genero_edad['año_nacimiento_postulante'].map(get_age_range, na_action=None)
    columns_rename = {'idpostulante': 'id_postulante', 'fechanacimiento': 'fecha_nacimiento_postulante', 'sexo': 'genero_postulante'}
    postulantes_genero_edad = postulantes_genero_edad.rename(columns=columns_rename)
    postulantes_genero_edad = postulantes_genero_edad[['id_postulante', 'genero_postulante', 'fecha_nacimiento_postulante', 'edad_postulante', 'rango_edad_postulante']]
    postulantes_genero_edad['genero_postulante_nro'] = postulantes_genero_edad['genero_postulante'].map({'FEM': 0, 'MASC': 1, 'NO_DECLARA': 2})
    return postulantes_genero_edad

def get_postulantes_limpios():
    postulantes = pd.merge(get_postulantes_genero_edad(), get_postulantes_nivel_educativo(), on='id_postulante', how='outer')
    order_for_columns = ['id_postulante','edad_postulante', 'genero_postulante', 'genero_postulante_nro', 'maximo_nivel_educativo_postulante']
    return postulantes[order_for_columns]

def get_detalle_postulaciones(size=None):
    postulaciones = get_postulaciones(size)
    avisos = get_avisos_detalle()
    postulantes = get_postulantes_limpios()
    detalle_postulaciones = pd.merge(postulantes, postulaciones, on='id_postulante', how='inner') 
    detalle_postulaciones = pd.merge(detalle_postulaciones, avisos, on='id_aviso', how='inner')
    
    return detalle_postulaciones

def get_postulantes_vistas_por_area(size=None):
    grouped = get_detalle_vistas(size).groupby(['id_postulante', 'nombre_area']).agg({'visualizaciones':'sum'})
    visualizaciones_por_postulante_area=grouped.stack().reset_index()
    visualizaciones_por_postulante_area.columns=['id_postulante','nombre_area','actividad','valor']
    visualizaciones_por_postulante_area=visualizaciones_por_postulante_area.pivot(index='id_postulante',columns='nombre_area',values='valor').fillna(value=0)
    visualizaciones_por_postulante_area = visualizaciones_por_postulante_area.reset_index()
    visualizaciones_por_postulante_area.columns.rename(name='', inplace = True)
    postulantes_limpios = get_postulantes_limpios()['id_postulante'].to_frame()
    visualizaciones_por_postulante_area = pd.merge(postulantes_limpios, visualizaciones_por_postulante_area, on='id_postulante', how='left')
    visualizaciones_por_postulante_area.fillna(value = 0, inplace = True)
    return visualizaciones_por_postulante_area

def get_postulantes_con_tag_cluster(sizeVistas=None):
    visualizaciones_por_postulante_area = get_postulantes_vistas_por_area(sizeVistas)
    x = list(visualizaciones_por_postulante_area.columns)
    x.remove('id_postulante')
    y_pred = KMeans(n_clusters=50, random_state=177).fit_predict(visualizaciones_por_postulante_area[x])
    visualizaciones_por_postulante_area['cluster_postulante'] = y_pred
    return visualizaciones_por_postulante_area

def get_detalle_vistas(size=None):
    vistas = get_vistas(size)
    avisos = get_avisos_detalle()
    postulantes = get_postulantes_limpios()
    detalle_vistas = pd.merge(postulantes, vistas, on='id_postulante', how='inner') 
    detalle_vistas = pd.merge(detalle_vistas, avisos, on='id_aviso', how='inner')
    return detalle_vistas

def x_entrenamiento():
    return ['cluster_postulante', 'edad_postulante', 'genero_postulante_nro', 'maximo_nivel_educativo_postulante', 'cluster_aviso', 'nivel_laboral_nro', 'visualizaciones', 'nombre_area_nro']+list(range(0,hiperparametrosAvisos['cantidadFeaturesTitulo']))

def y_entrenamiento():
    return ['sepostulo']

def columnas_relevantes_test_data():
    return ['id','id_aviso','id_postulante'] + x_entrenamiento()

def get_test_data(cluster_postulantes):
    tests = pd.read_csv('data/Test/test_final_100k.csv')
    columns_rename = {'idpostulante': 'id_postulante', 'idaviso': 'id_aviso'}
    tests = tests.rename(columns=columns_rename)
    tests = pd.merge(tests, get_avisos_detalle(), on='id_aviso', how='left')
    tests = pd.merge(tests, get_postulantes_limpios(), on='id_postulante', how='left')
    tests = pd.merge(tests, cluster_postulantes, on='id_postulante', how='left')
    vistas = get_vistas()
    tests = pd.merge(tests, vistas, on=['id_postulante', 'id_aviso'], how='left' )    
    tests['visualizaciones'].fillna(value=0, inplace=True) 
        
    return tests[columnas_relevantes_test_data()]

def get_default_null_values(df):
    return {'edad_postulante':int(df['edad_postulante'].mean()), 'genero_postulante_nro':int(0), 'maximo_nivel_educativo_postulante':int(df['maximo_nivel_educativo_postulante'].mean()), 'nivel_laboral_nro':int(0), 'visualizaciones':int(0), 'nombre_area_nro':int(0)}


def get_test_data_clean(cluster_postulantes):
    tests = get_test_data(cluster_postulantes)
    tests = tests.fillna(value=get_default_null_values(tests))
    tests.fillna(value = 0, inplace = True)
    return tests

def get_datos_entrenamiento(size=None):
    postulaciones_aplicadas = get_detalle_postulaciones(size)
    columnas_relevantes = x_entrenamiento() + y_entrenamiento()
    postulaciones_aplicadas['sepostulo'] = True
    postulaciones_no_aplicadas = get_detalle_vistas(size)
    vistas = postulaciones_no_aplicadas[['id_postulante', 'id_aviso', 'visualizaciones']]        
    postulaciones_aplicadas = pd.merge(postulaciones_aplicadas, vistas, on=['id_postulante', 'id_aviso'], how='left' )    
    postulaciones_aplicadas['visualizaciones'].fillna(value=0, inplace=True)    
    postulaciones_no_aplicadas['sepostulo'] = False    
    postulaciones_aplicadas = postulaciones_aplicadas[:postulaciones_no_aplicadas.shape[0]]
    postulaciones_no_aplicadas = postulaciones_no_aplicadas[:postulaciones_aplicadas.shape[0]]
    postulaciones_no_aplicadas = postulaciones_aplicadas.append(postulaciones_no_aplicadas).drop_duplicates(subset=['id_aviso', 'id_postulante'], keep='first')
    cluster_postulantes = get_postulantes_con_tag_cluster(200)
    postulaciones_no_aplicadas = pd.merge(postulaciones_no_aplicadas, cluster_postulantes, on='id_postulante', how='inner')
    return (postulaciones_no_aplicadas[columnas_relevantes].dropna(), cluster_postulantes)

In [44]:
set_entrenamiento, cluster_postulantes = get_datos_entrenamiento(100000)

In [45]:
set_entrenamiento['sepostulo'].value_counts()

True     91113
False    88214
Name: sepostulo, dtype: int64

In [46]:
set_entrenamiento.shape

(179327, 49)

In [47]:
set_entrenamiento.head()

Unnamed: 0,cluster_postulante,edad_postulante,genero_postulante_nro,maximo_nivel_educativo_postulante,cluster_aviso,nivel_laboral_nro,visualizaciones,nombre_area_nro,0,1,...,31,32,33,34,35,36,37,38,39,sepostulo
0,0,37.0,0.0,48.0,21,2.0,0.0,58,1.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,-1.0,True
1,0,33.0,0.0,48.0,21,2.0,0.0,58,1.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,-1.0,True
2,0,33.0,0.0,48.0,35,2.0,0.0,29,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,-1.0,True
3,0,33.0,0.0,48.0,21,2.0,0.0,58,0.0,0.0,...,0.0,0.0,0.0,-1.0,0.0,0.0,0.0,1.0,-1.0,True
4,0,33.0,0.0,48.0,21,1.0,0.0,58,0.0,0.0,...,-1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,True


# Entrenamiento del modelo

In [51]:
X_train, X_test, y_train, y_test = train_test_split(set_entrenamiento.loc[:, x_entrenamiento()], set_entrenamiento.loc[:, 'sepostulo'], test_size=0.3, random_state=43)
clf = RandomForestClassifier(n_estimators=70,min_samples_split=10,min_samples_leaf=10)
predictor_local =  clf.fit(X_train, y_train)


In [52]:
predictor_local.score(X_test, y_test)

0.99408910946300122

# Entrenamiento del modelo para la competencia

In [53]:
clf = RandomForestClassifier(n_estimators=70,min_samples_split=10,min_samples_leaf=10)
predictor =  clf.fit(set_entrenamiento.loc[:, x_entrenamiento()], set_entrenamiento.loc[:, 'sepostulo'])

In [54]:
set_test = get_test_data_clean(cluster_postulantes)


In [55]:
set_test.head()

Unnamed: 0,id,id_aviso,id_postulante,cluster_postulante,edad_postulante,genero_postulante_nro,maximo_nivel_educativo_postulante,cluster_aviso,nivel_laboral_nro,visualizaciones,...,30,31,32,33,34,35,36,37,38,39
0,0,739260,6M9ZQR,0,42.0,0.0,58.0,28,3.0,0.0,...,0.0,-1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,1,739260,6v1xdL,0,31.0,1.0,38.0,28,3.0,0.0,...,0.0,-1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,2,739260,ezRKm9,0,36.0,0.0,48.0,28,3.0,0.0,...,0.0,-1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,3,758580,1Q35ej,0,69.0,1.0,58.0,13,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,4,758580,EAN4J6,0,32.0,0.0,44.0,13,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [56]:
def obtener_predicciones(predictor, set_test):
    x = set_entrenamiento.columns.values.tolist()
    x.remove('sepostulo')    
    return predictor.predict(set_test[x]).astype(int)

def guardar_resultados(fileName, predictor, set_test):
    result = obtener_predicciones(predictor, set_test)
    set_test['sepostulo'] = result
    set_test[['id','sepostulo']].set_index('id').to_csv(fileName)
    return


guardar_resultados('MaximoScoreGrupo36.csv', predictor, set_test)