In [1]:
import matplotlib.pyplot as plt
from matplotlib_venn import venn2
import numpy as np
import seaborn as sbn
import pandas as pd
from datetime import datetime
import time
import gc
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import GridSearchCV
from pandas.api.types import CategoricalDtype

%matplotlib inline
from IPython.core.display import display, HTML
display(HTML("<style>.container { width:100% !important; }</style>"))
plt.style.use('default') 
sbn.set(style="whitegrid") 

# **Satinización de archivos de edad y genero**

In [2]:
def postulantes_str2timestamp(s): # debo
    if type(s) is datetime:
        return s
    try:
        return datetime.strptime(s, '%Y-%m-%d')
    except:
        return None
def sanitize_postulante_genero_edad(df):
    df['sexo'] = df['sexo'].astype('category').fillna("NO_DECLARA")
    df = df.drop_duplicates(subset='idpostulante')
    df['fechanacimiento']= df['fechanacimiento'].map(postulantes_str2timestamp)
    mean_datetime = datetime.now()
    df['fechanacimiento']= df['fechanacimiento'].map(lambda it: it if it else mean_datetime)
    df['edad'] = df.fechanacimiento.apply(lambda it: 2018 - it.year)
    #df = df[df.edad >17][df.edad<105]
    return df.drop(['fechanacimiento'],1)
def generar_nivel_educativo(postulantes, educacion):
    #Considero como nivel educativo el maximo nivel que alcanzaron que fue completado.
    #Descarto estudios en curso o abandonados, quizas deba volver aca en algun momento
    tipo_estudio = CategoricalDtype(
        categories=["Otro","Secundario","Terciario/Técnico","Universitario","Posgrado","Master","Doctorado"],
        ordered=True
    )
    educacion = educacion[educacion.estado=='Graduado'].drop(['estado'],1)
    educacion.nombre= educacion.nombre.astype(tipo_estudio)
    educacion = educacion.sort_values(by='nombre',ascending=True)
    educacion = educacion.drop_duplicates(subset='idpostulante',keep='last')
    postulantes = postulantes.merge(educacion, on='idpostulante',how='left')
    postulantes = postulantes.rename(index=str,columns={'nombre':'nivel_educativo'})
    print("postulantes sin nivel educativo: ",postulantes.nivel_educativo.isna().value_counts())
    return postulantes
def satinizar_vistas(vistas):
    vistas = vistas.drop_duplicates().rename(columns={'idAviso': 'idaviso'})
    #vistas.date = pd.to_datetime(vistas.timestamp).dt.date
    vistas.idaviso = vistas.idaviso.astype('int64')
    #return vistas.loc[:,['idaviso','date','idpostulante']]
    return vistas.loc[:,['idaviso','timestamp','idpostulante']]

def sanitize_aviso_detalle(df):
    df = df.drop_duplicates(subset='idaviso')
    tipo_trabajo = CategoricalDtype(
        categories=["Full-time","Part-time","Teletrabajo","Por Horas","Pasantia","Temporario","Por Contrato","Fines de Semana","Primer empleo"],
        ordered=True #de 'mas fijo' a 'menos fijo'
    )
    df['tipo_de_trabajo'] = df['tipo_de_trabajo'].astype(tipo_trabajo)
    # el numero quizas amerite tratarse como hiperparametro
    #empresas_reconocidas = df.denominacion_empresa.value_counts().index[:100]
    #df.loc[:,'denominacion_empresa'] = df.denominacion_empresa.apply(lambda it: it if it in empresas_reconocidas else 'Otro')
    popularidad_empresa = CategoricalDtype(
        categories=df.denominacion_empresa.value_counts(ascending=True).index,
        ordered=True
    )
    df.loc[:,'denominacion_empresa'] = df.loc[:,'denominacion_empresa'].astype(popularidad_empresa)
    for columna in ['nombre_zona','nombre_area','nivel_laboral']:
        df.loc[:,columna] = df.loc[:,columna].astype('category')
    #df.nivel_laboral = df.nivel_laboral.fillna('Otro')
    #df.denominacion_empresa = df.denominacion_empresa.fillna('Otro')
    return df.drop(['ciudad','idpais','mapacalle'],1)
def sanitize_postulaciones(df):
    df['date'] = pd.to_datetime(df['fechapostulacion']).dt.date
    df['time'] = pd.to_datetime(df['fechapostulacion']).dt.time
    df = df[pd.to_datetime(df.fechapostulacion) > datetime(2018,2,23,18,38)]
    return df.drop_duplicates(subset=['idpostulante','idanuncio'],keep='last')
def agregar_cantidad_anuncios(df, nombre_columna, anuncios):
    values = pd.DataFrame()
    value_counts = anuncios['idpostulante'].value_counts()
    values['idpostulante'] = value_counts.index
    values[nombre_columna] = value_counts.values
    df = pd.merge(df,values, on='idpostulante',how='left')
    df[nombre_columna] = df[nombre_columna].fillna(0)
    return df

In [3]:
#Antes que nada, me intriga si los archivos de 'datos_navent' y los de 'hasta15/4' tienen overlap, son redundantes o consecutivos
def leer_datos_entrenamiento():
    genero_edad_postulantes = pd.concat([
        pd.read_csv('datos/datos_navent/fiuba_2_postulantes_genero_y_edad.csv'),
        pd.read_csv('datos/hasta_15_4/fiuba_2_postulantes_genero_y_edad.csv')
    ])
    #veo que hay repetidos por id
    #veo que hay gente (4) con sexo '0'
    # Genero una funcion para satinizar archivos de postulantes_genero_edad
    genero_edad_postulantes = sanitize_postulante_genero_edad(genero_edad_postulantes)
    educacion_postulantes = pd.concat([
        pd.read_csv('datos/datos_navent/fiuba_1_postulantes_educacion.csv'),
        pd.read_csv('datos/hasta_15_4/fiuba_1_postulantes_educacion.csv')
    ])
    postulantes = generar_nivel_educativo(genero_edad_postulantes, educacion_postulantes)
    vistas = pd.concat([
        pd.read_csv('datos/hasta_15_4/fiuba_3_vistas.csv'),
        pd.read_csv('datos/datos_navent/fiuba_3_vistas.csv')
    ])
    vistas = satinizar_vistas(vistas)
    vistas.idaviso = vistas.idaviso.astype('int64')
    postulantes = agregar_cantidad_anuncios(postulantes, 'anuncios_vistos', vistas)
    postulaciones = pd.concat([
        pd.read_csv('datos/datos_navent/fiuba_4_postulaciones.csv'),
        pd.read_csv('datos/hasta_15_4/fiuba_4_postulaciones.csv')
    ])
    postulaciones = sanitize_postulaciones(postulaciones)
    avisos_detalle = pd.concat([
        pd.read_csv('datos/datos_navent/fiuba_6_avisos_detalle.csv'),
        pd.read_csv('datos/hasta_15_4/fiuba_6_avisos_detalle.csv'),
        pd.read_csv('datos/fiuba_6_avisos_detalle_missing_nivel_laboral.csv')
    ])
    #ESTE DF TIENE MUCHOS DATOS NULOS EN LAS COLUMNAS DE 'CIUDAD' y 'MAPACALLE'. 
    #Decidimos eliminarlas ya que no nos parecieron muy relevantes para el analisis
    #idpais solo tiene valor 1, la descripcion nunca es nula
    #avisos_detalle.drop('descripcion',1,inplace=True)
    tipo_trabajo = CategoricalDtype(
        categories=["Full-time","Part-time","Teletrabajo","Por Horas","Pasantia","Temporario","Por Contrato","Fines de Semana","Primer empleo"],
        ordered=True #de 'mas fijo' a 'menos fijo'
    )
    avisos_detalle.nombre_area.value_counts()# hay muchas areas, no van a tener su propia categoria
    avisos_detalle = sanitize_aviso_detalle(avisos_detalle)
    return postulantes, avisos_detalle, vistas, postulaciones

In [4]:

def leer_datos_predicciones():
    vistas = satinizar_vistas(pd.read_csv('datos/desde_15_4/fiuba_3_vistas.csv'))
    avisos = sanitize_aviso_detalle(pd.concat([
        pd.read_csv('datos/desde_15_4/fiuba_6_avisos_detalle.csv'),
        pd.read_csv('datos/fiuba_6_avisos_detalle_missing_nivel_laboral.csv')#
    ]))
    genero_edad_postulantes = sanitize_postulante_genero_edad(
        pd.concat([
            pd.read_csv('datos/desde_15_4/fiuba_2_postulantes_genero_y_edad.csv'),
            pd.read_csv('datos/hasta_15_4/fiuba_2_postulantes_genero_y_edad.csv')
        ])
    )
    postulantes = generar_nivel_educativo(genero_edad_postulantes, pd.read_csv('datos/desde_15_4/fiuba_1_postulantes_educacion.csv'))
    postulantes = agregar_cantidad_anuncios(postulantes, 'anuncios_vistos', vistas)
    template_submit = pd.read_csv('datos/template_resultado.csv')
    return postulantes, avisos, vistas, template_submit

In [5]:
postulantes, avisos_detalle, vistas, postulaciones = leer_datos_entrenamiento()
gc.collect()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  # This is added back by InteractiveShellApp.init_path()
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  del sys.path[0]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  


postulantes sin nivel educativo:  False    290986
True     117160
Name: nivel_educativo, dtype: int64


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  self.obj[item] = s


76

# Pruebo un random forest, con solamente las variables numericas/categoricas

In [6]:
def codificar_categoricas(df):
    categorical_coulumns = df.select_dtypes(['category']).columns
    df[categorical_coulumns] = df[categorical_coulumns].apply(lambda it: it.cat.codes)
    return df
def armar_dataframe_forest(postulantes, avisos, vistas, postulaciones, proporcion_entrenamiento):
    avisos_forest =  avisos.drop(['titulo','descripcion'],1)
    joined = postulantes.merge(
        vistas.loc[:,['idpostulante','idaviso']],on='idpostulante',how='left'
    ).merge(
        avisos_forest,on='idaviso',how='left'
    )
    #joined['visto'] = 1
    #random_relationships = pd.DataFrame()
    #random_relationships = avisos.sample(random_state=0)
    if proporcion_entrenamiento != 0 and postulaciones is not None:
        postulaciones_forest = postulaciones.loc[:,['idaviso','idpostulante']]
        postulaciones_forest['sepostulo'] = 1
        joined = joined.merge(
            postulaciones_forest,on=['idaviso','idpostulante'],how='left'
        )
        joined.sepostulo = joined.sepostulo.fillna(0)
        joined['es_entrenamiento'] = np.random.uniform(0, 1, joined.shape[0]) <= proporcion_entrenamiento
    features = [it for it in joined.columns if it not in ['id','idaviso','idpostulante','es_entrenamiento','sepostulo']]
    joined = codificar_categoricas(joined)
    return joined, features

In [11]:
df_forest, features = armar_dataframe_forest(postulantes, avisos_detalle, vistas, postulaciones, 0.99)
df_forest = df_forest.reset_index()
classifier = RandomForestClassifier(n_jobs=5, random_state=0)
#classifier.fit(df_entrenamiento[features], df_entrenamiento.sepostulo.astype('int64').values)
train, test = df_forest[df_forest.es_entrenamiento],df_forest[~df_forest.es_entrenamiento]
classifier.fit(train[features], train.sepostulo.astype('int64').values)

In [18]:
results = classifier.predict(test[features])
roc_auc_score(y_true=test.sepostulo.astype('int64').values,y_score=results)

0.8404823701073915

## A partir de aqui, tengo armado el dataframe de entrenamiento
por lo que no necesito ya los dataframes 'crudos'

In [21]:
gc.collect()
#du.fu.du.du.du
postulantes, avisos, vistas, submit = leer_datos_predicciones()
del postulaciones
gc.collect()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  # This is added back by InteractiveShellApp.init_path()
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  del sys.path[0]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  


postulantes sin nivel educativo:  True     216660
False    203830
Name: nivel_educativo, dtype: int64


181

In [22]:
def clasificar_random_forest(classifier, postulantes, avisos, template_submit):
    df_predicciones = template_submit.merge(
        postulantes, on='idpostulante', how='inner'
    ).merge(
        avisos, on='idaviso',how='inner'
    )
    df_predicciones = codificar_categoricas(df_predicciones)
    df_predicciones = df_predicciones.drop(['titulo','descripcion'],1)
    features = [it for it in df_predicciones.columns if it not in ['id','idaviso','idpostulante','es_entrenamiento','sepostulo']]
    df_predicciones['sepostulo'] = classifier.predict(df_predicciones[features])
    df_predicciones = df_predicciones.merge(
        submit, how='right',on=['idaviso','idpostulante','id']
    ).loc[:,['id','sepostulo']].set_index('id')
    print("sepostulo originalmente nulo: ",df_predicciones.sepostulo.isna().value_counts())
    df_predicciones.sepostulo = df_predicciones.sepostulo.fillna(0).astype('int64')
    return df_predicciones
tentativo_submit = clasificar_random_forest(classifier, postulantes, avisos, submit)

sepostulo originalmente nulo:  False    99988
True        12
Name: sepostulo, dtype: int64


In [23]:
tentativo_submit.to_csv(path_or_buf='submit.csv')
tentativo_submit.sepostulo.value_counts()

0    95351
1     4649
Name: sepostulo, dtype: int64

In [None]:
classifier = RandomForestClassifier(n_jobs=5, random_state=0)


In [None]:
param_grid = dict(max_features = [0.5,0.75],
                    min_samples_leaf= [2,4,7,12,19],
                    n_estimators = [5,10,30,50]
                 )
# caso entrenado con muchos datos
df_forest, features = armar_dataframe_forest(postulantes, avisos_detalle, vistas, postulaciones, 0.75)
train, test = df_forest[df_forest.es_entrenamiento],df_forest[~df_forest.es_entrenamiento]
classifier = RandomForestClassifier(n_jobs=5, random_state=0)
grid_bien_entrenada = GridSearchCV(estimator=classifier, n_jobs=2, param_grid=param_grid)
grid_bien_entrenada.fit(train[features], train.sepostulo.astype('int64').values)
print("La matriz bien entrenada logro un puntaje de ", grid_bien_entrenada.best_score_," con parametros ", grid_bien_entrenada.best_params_)
#Caso entrenado con pocos datos
df_forest, features = armar_dataframe_forest(postulantes, avisos_detalle, vistas, postulaciones, 0.25)
train, test = df_forest[df_forest.es_entrenamiento],df_forest[~df_forest.es_entrenamiento]
classifier = RandomForestClassifier(n_jobs=5, random_state=0)
grid_poco_entrenada = GridSearchCV(estimator=classifier, n_jobs=2, param_grid=param_grid)
grid_poco_entrenada.fit(train[features], train.sepostulo.astype('int64').values)
print("La matriz poco entrenada logro un puntaje de ", grid_poco_entrenada.best_score_," con parametros ", grid_poco_entrenada.best_params_)

# Generar un resultado

# Defino los shingles de cada anuncio

In [None]:
def shingles(string, n = 3):
    return [string[i:i + n] for i in range(len(string) - n + 1)]

def jaccard_similarity(list1, list2):
    intersection = len(list(set(list1).intersection(list2)))
    print(set(list1).intersection(list2))
    union = (len(list1) + len(list2)) - intersection
    print(union)
    return float(intersection / union)
#avisos_detalle['shingles_descripcion'] = avisos_detalle.descripcion.apply(shingles)
#avisos_detalle['shingles_titulo'] = avisos_detalle.titulo.apply(shingles)