In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime

from sklearn import tree
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn import preprocessing
from sklearn.externals import joblib
from sklearn.ensemble import RandomForestClassifier

%matplotlib inline

In [3]:
avisos = pd.read_csv("../../Data/fiuba_entrenamiento/gian/avisos_titulos.csv")
avisos.head()

Unnamed: 0.1,Unnamed: 0,idaviso,titulo,nombre_zona,tipo_de_trabajo,nivel_laboral,nombre_area,denominacion_empresa,titulo_uppercase,pide_hombre,...,pide_vendedor,pide_administrativo,pide_tecnico,pide_analista,pide_comercial,pide_asistente,pide_ejecutivo,pide_ingeniero,pide_operario,pide_desarollador
0,0,8725750,VENDEDOR/A PROVINCIA DE SANTA FE,Gran Buenos Aires,Full-time,Senior / Semi-Senior,Comercial,VENTOR,True,False,...,True,False,False,False,False,False,False,False,False,False
1,1,1000610287,CHOFER DE CAMIONETA BAHIA BLANCA - PUNTA ALTA,Gran Buenos Aires,Full-time,Senior / Semi-Senior,Transporte,Wurth Argentina S.A,True,False,...,False,False,False,False,False,False,False,False,False,False
2,2,1000872556,Operarios de Planta - Rubro Electrodomésticos,Gran Buenos Aires,Full-time,Senior / Semi-Senior,Producción,ELECTRO OUTLET SRL,False,False,...,False,False,False,False,False,False,False,False,True,False
3,3,1001135716,Vendedor Viajante TUCUMAN/SANTIAGO DEL ESTERO,Gran Buenos Aires,Full-time,Senior / Semi-Senior,Ventas,Wurth Argentina S.A,True,False,...,True,False,False,False,False,False,False,False,False,False
4,4,1001326344,Vendedor Viajante RECONQUISTA/AVELLANEDA,Gran Buenos Aires,Full-time,Senior / Semi-Senior,Ventas,Wurth Argentina S.A,True,False,...,True,False,False,False,False,False,False,False,False,False


In [11]:
postulantes = pd.read_csv("../../Data/fiuba_entrenamiento/gian/postulantes.csv")

In [12]:
postulantes.head()

Unnamed: 0,idpostulante,sexo,edad,Doctorado,Master,Otro,Posgrado,Secundario,Terciario/Técnico,Universitario
0,NM5M,FEM,47.0,-,-,-,-,Graduado,-,-
1,5awk,FEM,55.0,-,-,-,-,Graduado,Graduado,Graduado
2,ZaO5,FEM,39.0,-,-,-,-,-,Graduado,Abandonado
3,NdJl,MASC,49.0,-,-,-,En Curso,Graduado,-,Graduado
4,eo2p,MASC,37.0,-,Graduado,-,-,Graduado,-,Graduado


In [13]:
def masculino(sexo):
    return 1 if sexo == "MASC" else 0
def femenino(sexo):
    return 1 if sexo == "FEM" else 0

In [14]:
postulantes['masculino'] = postulantes['sexo'].apply(lambda x: masculino(x))

In [15]:
postulantes['femenino'] = postulantes['sexo'].apply(lambda x: femenino(x))

In [16]:
def educacion(nivel_ed):
    if nivel_ed == "Graduado":
        return 1
    if nivel_ed == "En curso":
        return 0.5
    if nivel_ed == "Abandonado":
        return 0.15
    return 0

In [17]:
postulantes['Doctorado'] = postulantes['Doctorado'].astype(str)
postulantes['Master'] = postulantes['Master'].astype(str)
postulantes['Posgrado'] = postulantes['Posgrado'].astype(str)
postulantes['Secundario'] = postulantes['Secundario'].astype(str)
postulantes['Terciario/Técnico'] = postulantes['Terciario/Técnico'].astype(str)
postulantes['Universitario'] = postulantes['Universitario'].astype(str)

In [18]:
postulantes.head()

Unnamed: 0,idpostulante,sexo,edad,Doctorado,Master,Otro,Posgrado,Secundario,Terciario/Técnico,Universitario,masculino,femenino
0,NM5M,FEM,47.0,-,-,-,-,Graduado,-,-,0,1
1,5awk,FEM,55.0,-,-,-,-,Graduado,Graduado,Graduado,0,1
2,ZaO5,FEM,39.0,-,-,-,-,-,Graduado,Abandonado,0,1
3,NdJl,MASC,49.0,-,-,-,En Curso,Graduado,-,Graduado,1,0
4,eo2p,MASC,37.0,-,Graduado,-,-,Graduado,-,Graduado,1,0


In [20]:
postulantes['Doctorado'] = postulantes['Doctorado'].apply(lambda x: educacion(x))
postulantes['Universitario'] = postulantes['Universitario'].apply(lambda x: educacion(x))
postulantes['Master'] = postulantes['Master'].apply(lambda x: educacion(x))
postulantes['Posgrado'] = postulantes['Posgrado'].apply(lambda x: educacion(x))
postulantes['Secundario'] = postulantes['Secundario'].apply(lambda x: educacion(x))
postulantes['Terciario/Técnico'] = postulantes['Terciario/Técnico'].apply(lambda x: educacion(x))
postulantes.head()

Unnamed: 0,idpostulante,sexo,edad,Doctorado,Master,Otro,Posgrado,Secundario,Terciario/Técnico,Universitario,masculino,femenino
0,NM5M,FEM,47.0,0,0.0,-,0.0,1.0,0.0,0,0,1
1,5awk,FEM,55.0,0,0.0,-,0.0,1.0,1.0,0,0,1
2,ZaO5,FEM,39.0,0,0.0,-,0.0,0.0,1.0,0,0,1
3,NdJl,MASC,49.0,0,0.0,-,0.0,1.0,0.0,0,1,0
4,eo2p,MASC,37.0,0,1.0,-,0.0,1.0,0.0,0,1,0


In [21]:
postulantes.drop(['Otro', 'sexo'], axis=1, inplace=True)
postulantes.head()

Unnamed: 0,idpostulante,edad,Doctorado,Master,Posgrado,Secundario,Terciario/Técnico,Universitario,masculino,femenino
0,NM5M,47.0,0,0.0,0.0,1.0,0.0,0,0,1
1,5awk,55.0,0,0.0,0.0,1.0,1.0,0,0,1
2,ZaO5,39.0,0,0.0,0.0,0.0,1.0,0,0,1
3,NdJl,49.0,0,0.0,0.0,1.0,0.0,0,1,0
4,eo2p,37.0,0,1.0,0.0,1.0,0.0,0,1,0


In [22]:
postulantes.to_csv("postulantes_amp.csv")

In [23]:
vistas = pd.read_csv("../../Data/fiuba_entrenamiento/gian/vistas.csv")

In [24]:
vistas.drop(['timestamp','dia','mes','semana','diadelasemana','hora'],axis=1,inplace=True)

In [25]:
vistas['cantidad']=0
vistas2=vistas.groupby(['idAviso','idpostulante'],as_index=False).agg({'cantidad':'count'})
vistas2=vistas2.rename(columns={'idAviso': 'idaviso'})
vistas2.head()

Unnamed: 0,idaviso,idpostulante,cantidad
0,18,BolNL,2
1,48375,RwVdKR,1
2,169730,1KjXB,2
3,169730,2AKzxa,2
4,169730,6LJ64,1


In [26]:
vistas=vistas.groupby(['idpostulante'],as_index=False).agg({'cantidad':'count'});
vistas=vistas.rename(columns={'idAviso': 'idaviso'})
vistas.head()

Unnamed: 0,idpostulante,cantidad
0,0002q,15
1,0005E,58
2,000R8,14
3,001XE,26
4,003k9,32


In [27]:
vistas2=pd.merge(vistas2,vistas,on='idpostulante',how='left')
vistas2.head()

Unnamed: 0,idaviso,idpostulante,cantidad_x,cantidad_y
0,18,BolNL,2,28
1,48375,RwVdKR,1,15
2,169730,1KjXB,2,99
3,169730,2AKzxa,2,2
4,169730,6LJ64,1,23


In [28]:
vistas2['cantidad']=vistas2['cantidad_x']/vistas2['cantidad_y']
vistas2.drop(['cantidad_x','cantidad_y'],axis=1,inplace=True)
vistas=vistas2
vistas2.head()

Unnamed: 0,idaviso,idpostulante,cantidad
0,18,BolNL,0.071429
1,48375,RwVdKR,0.066667
2,169730,1KjXB,0.020202
3,169730,2AKzxa,1.0
4,169730,6LJ64,0.043478


In [29]:
def cantidad(x):
    return 1 if x > 0 else 0

In [30]:
vistas['cantidad'] = vistas['cantidad'].apply(lambda x: cantidad(x))

In [31]:
vistas.head()

Unnamed: 0,idaviso,idpostulante,cantidad
0,18,BolNL,1
1,48375,RwVdKR,1
2,169730,1KjXB,1
3,169730,2AKzxa,1
4,169730,6LJ64,1


In [32]:
len(vistas)

8597915

In [33]:
vistas['cantidad'].sum()

8597915

In [34]:
vistas.to_csv("vistas_amp.csv")

In [35]:
avisos['nombre_zona'] = avisos['nombre_zona'].astype(str)

In [37]:
def granBsAs(x):
    return 1 if x == "Gran Buenos Aires" else 0
def buenosAires(x):
    return 1 if x == "Capital Federal" else 0
def fueraGbaOBuenosAires(x):
    return 1 if(x == "Buenos Aires (fuera de GBA)" or x == "GBA Oeste") else 0
def cordoba(x):
    return 1 if x == "Cordoba" else 0

In [38]:
avisos['gran_BA'] = avisos['nombre_zona'].apply(lambda x: granBsAs(x))
avisos['capital_f'] = avisos['nombre_zona'].apply(lambda x: buenosAires(x))
avisos['fueraOeste_GBA'] = avisos['nombre_zona'].apply(lambda x: fueraGbaOBuenosAires(x))
avisos['cordoba'] = avisos['nombre_zona'].apply(lambda x: cordoba(x))

In [40]:
avisos.drop(['nombre_zona'], axis=1, inplace=True)

In [41]:
avisos.head()

Unnamed: 0.1,Unnamed: 0,idaviso,titulo,tipo_de_trabajo,nivel_laboral,nombre_area,denominacion_empresa,pide_hombre,pide_mujer,ingles,...,pide_comercial,pide_asistente,pide_ejecutivo,pide_ingeniero,pide_operario,pide_desarollador,gran_BA,capital_f,fueraOeste_GBA,cordoba
0,0,8725750,VENDEDOR/A PROVINCIA DE SANTA FE,Full-time,Senior / Semi-Senior,Comercial,VENTOR,False,False,False,...,False,False,False,False,False,False,1,0,0,0
1,1,1000610287,CHOFER DE CAMIONETA BAHIA BLANCA - PUNTA ALTA,Full-time,Senior / Semi-Senior,Transporte,Wurth Argentina S.A,False,False,False,...,False,False,False,False,False,False,1,0,0,0
2,2,1000872556,Operarios de Planta - Rubro Electrodomésticos,Full-time,Senior / Semi-Senior,Producción,ELECTRO OUTLET SRL,False,False,False,...,False,False,False,False,True,False,1,0,0,0
3,3,1001135716,Vendedor Viajante TUCUMAN/SANTIAGO DEL ESTERO,Full-time,Senior / Semi-Senior,Ventas,Wurth Argentina S.A,False,False,False,...,False,False,False,False,False,False,1,0,0,0
4,4,1001326344,Vendedor Viajante RECONQUISTA/AVELLANEDA,Full-time,Senior / Semi-Senior,Ventas,Wurth Argentina S.A,False,False,False,...,False,False,False,False,False,False,1,0,0,0


In [42]:
avisos.drop(['titulo'], axis=1, inplace=True)

In [43]:
def fullT(x):
    return 1 if x == "Full-time" else 0
def partT(x):
    return 1 if x == "Part-time" else 0
def teletrabajo(x):
    return 1 if x == "Teletrabajo" else 0
def pasantia(x):
    return 1 if x == "Pasantia" else 0

In [44]:
avisos['tipo_de_trabajo'] = avisos['tipo_de_trabajo'].astype(str)

In [45]:
avisos['full_time'] = avisos['tipo_de_trabajo'].apply(lambda x: fullT(x))
avisos['part_time'] = avisos['tipo_de_trabajo'].apply(lambda x: partT(x))
avisos['teletrabajo'] = avisos['tipo_de_trabajo'].apply(lambda x: teletrabajo(x))
avisos['pasantia'] = avisos['tipo_de_trabajo'].apply(lambda x: pasantia(x))
avisos.head()

Unnamed: 0.1,Unnamed: 0,idaviso,tipo_de_trabajo,nivel_laboral,nombre_area,denominacion_empresa,pide_hombre,pide_mujer,ingles,experiencia,...,pide_operario,pide_desarollador,gran_BA,capital_f,fueraOeste_GBA,cordoba,full_time,part_time,teletrabajo,pasantia
0,0,8725750,Full-time,Senior / Semi-Senior,Comercial,VENTOR,False,False,False,False,...,False,False,1,0,0,0,1,0,0,0
1,1,1000610287,Full-time,Senior / Semi-Senior,Transporte,Wurth Argentina S.A,False,False,False,False,...,False,False,1,0,0,0,1,0,0,0
2,2,1000872556,Full-time,Senior / Semi-Senior,Producción,ELECTRO OUTLET SRL,False,False,False,False,...,True,False,1,0,0,0,1,0,0,0
3,3,1001135716,Full-time,Senior / Semi-Senior,Ventas,Wurth Argentina S.A,False,False,False,False,...,False,False,1,0,0,0,1,0,0,0
4,4,1001326344,Full-time,Senior / Semi-Senior,Ventas,Wurth Argentina S.A,False,False,False,False,...,False,False,1,0,0,0,1,0,0,0


In [46]:
avisos.drop(['Unnamed: 0','tipo_de_trabajo'], axis=1, inplace=True)

In [47]:
avisos.head()

Unnamed: 0,idaviso,nivel_laboral,nombre_area,denominacion_empresa,pide_hombre,pide_mujer,ingles,experiencia,liderazgo,secundario,...,pide_operario,pide_desarollador,gran_BA,capital_f,fueraOeste_GBA,cordoba,full_time,part_time,teletrabajo,pasantia
0,8725750,Senior / Semi-Senior,Comercial,VENTOR,False,False,False,False,False,True,...,False,False,1,0,0,0,1,0,0,0
1,1000610287,Senior / Semi-Senior,Transporte,Wurth Argentina S.A,False,False,False,False,False,False,...,False,False,1,0,0,0,1,0,0,0
2,1000872556,Senior / Semi-Senior,Producción,ELECTRO OUTLET SRL,False,False,False,False,False,False,...,True,False,1,0,0,0,1,0,0,0
3,1001135716,Senior / Semi-Senior,Ventas,Wurth Argentina S.A,False,False,False,False,False,False,...,False,False,1,0,0,0,1,0,0,0
4,1001326344,Senior / Semi-Senior,Ventas,Wurth Argentina S.A,False,False,False,False,False,False,...,False,False,1,0,0,0,1,0,0,0


In [48]:
def senior(x):
    return 1 if x == "Senior / Semi-Senior" else 0
def junior(x):
    return 1 if x == "Junior" else 0
def jefe(x):
    return 1 if x == "Jefe / Supervisor / Responsable" else 0
def gerente(x):
    return 1 if x == "Gerencia / Alta Gerencia / Dirección" else 0

In [49]:
avisos['senior'] = avisos['nivel_laboral'].apply(lambda x: senior(x))
avisos['junior'] = avisos['nivel_laboral'].apply(lambda x: junior(x))
avisos['jefe'] = avisos['nivel_laboral'].apply(lambda x: jefe(x))
avisos['gerente'] = avisos['nivel_laboral'].apply(lambda x: gerente(x))

In [50]:
avisos.drop(['nivel_laboral'], axis=1, inplace=True)

In [51]:
avisos.drop(['liderazgo','capacitacion','remuneracion_pretendida', 'conocimientos_especificos', 'buen_ambiente', 'discriminacion'], axis=1, inplace=True)

In [53]:
avisos.head()

Unnamed: 0,idaviso,nombre_area,denominacion_empresa,pide_hombre,pide_mujer,ingles,experiencia,secundario,viajar,graduados,...,fueraOeste_GBA,cordoba,full_time,part_time,teletrabajo,pasantia,senior,junior,jefe,gerente
0,8725750,Comercial,VENTOR,False,False,False,False,True,False,False,...,0,0,1,0,0,0,1,0,0,0
1,1000610287,Transporte,Wurth Argentina S.A,False,False,False,False,False,True,False,...,0,0,1,0,0,0,1,0,0,0
2,1000872556,Producción,ELECTRO OUTLET SRL,False,False,False,False,False,False,False,...,0,0,1,0,0,0,1,0,0,0
3,1001135716,Ventas,Wurth Argentina S.A,False,False,False,False,False,False,False,...,0,0,1,0,0,0,1,0,0,0
4,1001326344,Ventas,Wurth Argentina S.A,False,False,False,False,False,False,False,...,0,0,1,0,0,0,1,0,0,0


In [54]:
avisos.drop(['viajar'], axis=1, inplace=True)

In [55]:
def ventas(x):
    return 1 if x == "Ventas" else 0
def administracion(x):
    return 1 if x == "Administración" else 0
def produccion(x):
    return 1 if x == "Producción" else 0
def comercial(x):
    return 1 if x == "Comercial" else 0
def at_cliente(x):
    return 1 if x == "Atención al Cliente" else 0
def recep(x):
    return 1 if x == "Recepcionista" else 0
def call_center(x):
    return 1 if x == "Call Center" else 0
def cont(x):
    return 1 if x == "Contabilidad" else 0
def program(x):
    return 1 if x == "Programación" else 0
def tecno(x):
    return 1 if x == "Tecnologia / Sistemas" else 0
def telemark(x):
    return 1 if x == "Telemarketing" else 0
def teso(x):
    return 1 if x == "Tesorería" else 0
def almacen(x):
    return 1 if x == "Almacén / Depósito / Expedición" else 0
def rrhh(x):
    return 1 if x == "Recursos Humanos" else 0
def limpieza(x):
    return 1 if x == "Mantenimiento y Limpieza" else 0

In [56]:
avisos['ventas'] = avisos['nombre_area'].map(lambda x: ventas(x))
avisos['admin'] = avisos['nombre_area'].map(lambda x: administracion(x))
avisos['producc'] = avisos['nombre_area'].map(lambda x: produccion(x))
avisos['comercial'] = avisos['nombre_area'].map(lambda x: comercial(x))
avisos['at_cliente'] = avisos['nombre_area'].map(lambda x: at_cliente(x))
avisos['conta'] = avisos['nombre_area'].map(lambda x: cont(x))
avisos['prog'] = avisos['nombre_area'].map(lambda x: program(x))
avisos['tecno'] = avisos['nombre_area'].map(lambda x: tecno(x))
avisos['telemrkt'] = avisos['nombre_area'].map(lambda x: telemark(x))
avisos['teso'] = avisos['nombre_area'].map(lambda x: teso(x))
avisos['almacen'] = avisos['nombre_area'].map(lambda x: almacen(x))
avisos['rrhh'] = avisos['nombre_area'].map(lambda x: rrhh(x))
avisos['limpieza'] = avisos['nombre_area'].map(lambda x: limpieza(x))

In [57]:
avisos.head()

Unnamed: 0,idaviso,nombre_area,denominacion_empresa,pide_hombre,pide_mujer,ingles,experiencia,secundario,graduados,estudiantes,...,comercial,at_cliente,conta,prog,tecno,telemrkt,teso,almacen,rrhh,limpieza
0,8725750,Comercial,VENTOR,False,False,False,False,True,False,False,...,1,0,0,0,0,0,0,0,0,0
1,1000610287,Transporte,Wurth Argentina S.A,False,False,False,False,False,False,False,...,0,0,0,0,0,0,0,0,0,0
2,1000872556,Producción,ELECTRO OUTLET SRL,False,False,False,False,False,False,False,...,0,0,0,0,0,0,0,0,0,0
3,1001135716,Ventas,Wurth Argentina S.A,False,False,False,False,False,False,False,...,0,0,0,0,0,0,0,0,0,0
4,1001326344,Ventas,Wurth Argentina S.A,False,False,False,False,False,False,False,...,0,0,0,0,0,0,0,0,0,0


In [58]:
avisos.drop(['nombre_area'], axis=1, inplace=True)

In [59]:
def bool_a_int(x):
    return 1 if x == True else 0

In [60]:
avisos['pide_administrativo'] = avisos['pide_administrativo'].map(lambda x: bool_a_int(x))
avisos['pide_analista'] = avisos['pide_analista'].map(lambda x: bool_a_int(x))
avisos['pide_asistente'] = avisos['pide_asistente'].map(lambda x: bool_a_int(x))
avisos['pide_comercial'] = avisos['pide_comercial'].map(lambda x: bool_a_int(x))
avisos['pide_desarollador'] = avisos['pide_desarollador'].map(lambda x: bool_a_int(x))
avisos['pide_ejecutivo'] = avisos['pide_ejecutivo'].map(lambda x: bool_a_int(x))
avisos['pide_ingeniero'] = avisos['pide_ingeniero'].map(lambda x: bool_a_int(x))
avisos['pide_mujer'] = avisos['pide_mujer'].map(lambda x: bool_a_int(x))
avisos['pide_tecnico'] = avisos['pide_tecnico'].map(lambda x: bool_a_int(x))
avisos['pide_operario'] = avisos['pide_operario'].map(lambda x: bool_a_int(x))
avisos['pide_vendedor'] = avisos['pide_vendedor'].map(lambda x: bool_a_int(x))
avisos['ingles'] = avisos['ingles'].map(lambda x: bool_a_int(x))
avisos['experiencia'] = avisos['experiencia'].map(lambda x: bool_a_int(x))
avisos['secundario'] = avisos['secundario'].map(lambda x: bool_a_int(x))
avisos['graduados'] = avisos['graduados'].map(lambda x: bool_a_int(x))
avisos['estudiantes'] = avisos['estudiantes'].map(lambda x: bool_a_int(x))

In [62]:
avisos.head()

Unnamed: 0,idaviso,denominacion_empresa,pide_hombre,pide_mujer,ingles,experiencia,secundario,graduados,estudiantes,pide_vendedor,...,comercial,at_cliente,conta,prog,tecno,telemrkt,teso,almacen,rrhh,limpieza
0,8725750,VENTOR,False,0,0,0,1,0,0,1,...,1,0,0,0,0,0,0,0,0,0
1,1000610287,Wurth Argentina S.A,False,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,1000872556,ELECTRO OUTLET SRL,False,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,1001135716,Wurth Argentina S.A,False,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
4,1001326344,Wurth Argentina S.A,False,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0


In [63]:
avisos['pide_hombre'] = avisos['pide_hombre'].apply(lambda x: bool_a_int(x))

In [64]:
avisos.to_csv("avisos_amp.csv")