In [1]:
import pandas as pd
import numpy as np
from datetime import datetime
            
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn import tree
from collections import Counter
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import BaggingClassifier
from sklearn.model_selection import cross_val_score
from sklearn.naive_bayes import GaussianNB
from collections import Counter
from sklearn.neighbors import KNeighborsClassifier

### Cargo dataset completo, borro filas con rows nulas, tomo rapidamente muestra de tamanio menor para ahorrar memoria, y borro el original

In [2]:
data_set_complete = pd.read_csv('data_set_complete.csv', parse_dates=['fechapostulacion', 'ultima_vista'], dtype={'sepostulo':'int8', 'idaviso':'int64', 'idpostulante':'object', 'veces_visto':'int16', 'estudios':'category', 'estado':'category', 'edad':'int8', 'sexo':'category','nombre_zona':'category', 'tipo_de_trabajo':'category', 'nivel_laboral':'category', 'nombre_area':'category'})
data_set_complete.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13208286 entries, 0 to 13208285
Data columns (total 16 columns):
sepostulo               int8
idaviso                 int64
idpostulante            object
fechapostulacion        datetime64[ns]
ultima_vista            datetime64[ns]
veces_visto             int16
estudios                category
estado                  category
sexo                    category
edad                    int8
titulo                  object
nombre_zona             category
tipo_de_trabajo         category
nivel_laboral           category
nombre_area             category
denominacion_empresa    object
dtypes: category(7), datetime64[ns](2), int16(1), int64(1), int8(2), object(3)
memory usage: 755.8+ MB


In [3]:
data_set_complete.dropna(subset=['estudios','estado','sexo','edad','nombre_zona','tipo_de_trabajo','nivel_laboral','nombre_area'], inplace=True)
data_set_complete = data_set_complete[data_set_complete['sexo']!='NO_DECLARA']
data = data_set_complete.sample(1000000)
del data_set_complete

### Concateno toda la info de educacion

In [103]:
edu_totales = pd.concat([pd.read_csv('datos_navent_fiuba/fiuba_1_postulantes_educacion.csv'), pd.read_csv('fiuba_hasta_15_abril/fiuba_1_postulantes_educacion.csv'), pd.read_csv('Fiuba desde 15 Abril/fiuba_1_postulantes_educacion.csv')])
edu_totales.drop_duplicates(inplace=True)

edu_totales = edu_totales.rename(columns={'nombre':'estudios'})
edu_totales['estudios'] = edu_totales['estudios'].astype('category')
edu_totales['estado'] = edu_totales['estado'].astype('category')

#Saco abandonados y me separo graduados de en curso

edu_graduados = edu_totales[edu_totales['estado']=='Graduado'].drop(columns='estado')
edu_encurso = edu_totales[edu_totales['estado']=='En Curso'].drop(columns='estado')

del edu_totales

# Creo nuevas columnas indicando el orden del nivel del estudio

edu_estudios_list = ['Ninguno','Secundario', 'Otro', 'Terciario/Técnico', 'Universitario', 'Posgrado', 'Master', 'Doctorado']

edu_graduados['estudio_graduado'] = edu_graduados['estudios'].apply(lambda x: edu_estudios_list.index(x)).astype('int8')
edu_graduados.sort_values('estudio_graduado', ascending=True, inplace=True)
edu_graduados.drop_duplicates(subset=['idpostulante'], keep='last', inplace=True)
edu_graduados.sort_values(by=['idpostulante'], ascending=True, inplace=True)
edu_graduados.rename(columns={'estudios':'graduado'}, inplace=True)
edu_graduados.reset_index(drop=True, inplace=True)

edu_encurso['estudio_encurso'] = edu_encurso['estudios'].apply(lambda x: edu_estudios_list.index(x)).astype('int8')
edu_encurso.sort_values('estudio_encurso', ascending=True, inplace=True)
edu_encurso.drop_duplicates(subset=['idpostulante'], keep='last', inplace=True)
edu_encurso.sort_values(by=['idpostulante'], ascending=True, inplace=True)
edu_encurso.rename(columns={'estudios':'encurso'}, inplace=True)
edu_encurso.reset_index(drop=True, inplace=True)

edu_totales = pd.merge(edu_encurso, edu_graduados, how='outer', on='idpostulante')

del edu_graduados, edu_encurso

edu_totales.head()

Unnamed: 0,idpostulante,encurso,estudio_encurso,graduado,estudio_graduado
0,0zB028M,Terciario/Técnico,3.0,Otro,2.0
1,0zB03O9,Terciario/Técnico,3.0,Secundario,1.0
2,0zB0PLa,Universitario,4.0,Secundario,1.0
3,0zB0WZE,Universitario,4.0,,
4,0zB0Xwd,Universitario,4.0,Secundario,1.0


### Concateno todos los set de vistas y calculo cantidad de vistas de cada usuario a cada anuncio

In [104]:
vistas_totales = pd.concat([pd.read_csv('datos_navent_fiuba/fiuba_3_vistas.csv'), pd.read_csv('fiuba_hasta_15_abril/fiuba_3_vistas.csv'), pd.read_csv('Fiuba desde 15 Abril/fiuba_3_vistas.csv')])

def normalize_str(date_str):
    return (date_str[:10]+' '+date_str[11:19])
    
vistas_totales['timestamp'] = vistas_totales['timestamp'].apply(normalize_str)
vistas_totales['timestamp'] = pd.to_datetime(vistas_totales['timestamp'])

vistas_totales.drop_duplicates(inplace=True)

vistas_totales.rename(columns={'idAviso':'idaviso'}, inplace=True)

#Calculo cantidad de vistas de cada usuario a cada anuncio

vistas_totales_count = vistas_totales.groupby(by=['idaviso', 'idpostulante']).count()
vistas_totales_count.reset_index(drop=False, inplace=True)
vistas_totales_count.rename(columns={'timestamp':'veces_visto'}, inplace=True)

del vistas_totales

vistas_totales_count.head()

Unnamed: 0,idaviso,idpostulante,veces_visto
0,18,BolNL,2
1,48375,RwVdKR,1
2,169730,1KjXB,2
3,169730,2AKzxa,2
4,169730,6LJ64,1


### Trabajo sobre la data, realizo one hot encoding manual

In [7]:
data.drop(columns=['estudios', 'estado'], inplace=True)
data = data.merge(edu_totales[['idpostulante','estudio_encurso','estudio_graduado']], on='idpostulante', how='left')

data['estudio_encurso'] = data['estudio_encurso'].fillna(value=0).astype('int8')
data['estudio_graduado'] = data['estudio_graduado'].fillna(value=0).astype('int8')

In [8]:
data['tipo_de_trabajo'].value_counts()

Full-time          847667
Part-time          136942
Pasantia             4904
Por Horas            3483
Temporario           2687
Por Contrato         1454
Fines de Semana      1450
Teletrabajo          1021
Primer empleo         342
Voluntario             50
Name: tipo_de_trabajo, dtype: int64

In [9]:
data['tipo_full-time'] = data['tipo_de_trabajo'].apply(lambda x: 1 if (x=='Full-time') else 0).astype('int8')
data['tipo_part-time'] = data['tipo_de_trabajo'].apply(lambda x: 1 if (x=='Part-time') else 0).astype('int8')
data['tipo_otro'] = data['tipo_de_trabajo'].apply(lambda x: 1 if ((x != 'Full-time') & (x != 'Part-time')) else 0).astype('int8')

data.drop(columns='tipo_de_trabajo', inplace=True)

In [10]:
data['zona_gba'] = data['nombre_zona'].apply(lambda x: 1 if ((x=='Gran Buenos Aires') or (x=='GBA Oeste')) else 0).astype('int8')
data['zona_caba'] = data['nombre_zona'].apply(lambda x: 1 if (x=='Capital Federal') else 0).astype('int8')

data.drop(columns='nombre_zona', inplace=True)

In [11]:
data['nivel_senior'] = data['nivel_laboral'].apply(lambda x: 1 if (x=='Senior / Semi-Senior') else 0).astype('int8')
data['nivel_junior'] = data['nivel_laboral'].apply(lambda x: 1 if (x=='Junior') else 0).astype('int8')
data['nivel_otro'] = data['nivel_laboral'].apply(lambda x: 1 if (x=='Otro') else 0).astype('int8')
data['nivel_jefe'] = data['nivel_laboral'].apply(lambda x: 1 if (x=='Jefe / Supervisor / Responsable') else 0).astype('int8')
data['nivel_gerente'] = data['nivel_laboral'].apply(lambda x: 1 if (x=='Gerencia / Alta Gerencia / Dirección') else 0).astype('int8')

data.drop(columns='nivel_laboral', inplace=True)

In [12]:
data['sexo'] = data['sexo'].apply(lambda x: 1 if (x=='MASC') else 0).astype('int8')
data.reset_index(drop=True, inplace=True)
data.head()

Unnamed: 0,sepostulo,idaviso,idpostulante,fechapostulacion,ultima_vista,veces_visto,sexo,edad,titulo,nombre_area,...,tipo_full-time,tipo_part-time,tipo_otro,zona_gba,zona_caba,nivel_senior,nivel_junior,nivel_otro,nivel_jefe,nivel_gerente
0,1,1112254546,xkv1PwK,2018-01-29 10:35:55,NaT,1,1,18,Banco Líder en Argentina busca Jóvenes Profesi...,Comercial,...,1,0,0,1,0,1,0,0,0,0
1,0,1112359015,pzYWb3m,NaT,NaT,0,1,41,Customer Service Specialist,Atención al Cliente,...,1,0,0,1,0,0,0,0,1,0
2,0,1112420704,A3XaYrD,NaT,NaT,0,0,21,"Analista de Créditos y Cobranzas, CABA",Créditos y Cobranzas,...,1,0,0,1,0,1,0,0,0,0
3,0,1112280950,YjrJ8kr,NaT,NaT,0,1,27,Camareros/as,Camareros,...,1,0,0,1,0,0,1,0,0,0
4,1,1112343030,W9AmwVa,2018-03-03 13:59:55,NaT,1,0,33,ABASTECEDOR DE DEPÓSITO,Almacén / Depósito / Expedición,...,1,0,0,1,0,1,0,0,0,0


In [13]:
## TIENE QUE SER EL ENCODER CON TODAS LAS LABELS
le = preprocessing.LabelEncoder()
data['nombre_area'] = le.fit_transform(data['nombre_area'].astype(str))

### Con veces_visto (en inexistentes usamos default en 1 para postulantes, en 0 para no postulantes)

In [15]:
train_set, test_set, train_classes, test_classes = train_test_split(data.drop(columns=['sepostulo','idaviso','idpostulante', 'fechapostulacion','ultima_vista','titulo', 'denominacion_empresa']), data['sepostulo'], test_size=0.3)

In [16]:
clf = RandomForestClassifier(n_estimators=15).fit(train_set, train_classes)
print('Test:', clf.score(test_set, test_classes), 'Entrenamiento:', clf.score(train_set, train_classes))

Test: 0.99923 Entrenamiento: 0.9995471428571429


### Con veces_visto (en inexistentes usamos default en 0 para todos)

In [43]:
data['veces_visto'] = (pd.merge(data[['idaviso','idpostulante']], vistas_totales_count, on=['idaviso', 'idpostulante'], how='left'))['veces_visto']
data['veces_visto'].fillna(value=0, inplace=True)
data['veces_visto'] = data['veces_visto'].astype('int16')

veces_visto_fillna_0 = data['veces_visto'] #Lo guardo para futuras comparaciones

In [44]:
del train_set, test_set, train_classes, test_classes
train_set, test_set, train_classes, test_classes = train_test_split(data.drop(columns=['sepostulo','idaviso','idpostulante', 'fechapostulacion','ultima_vista','titulo', 'denominacion_empresa']), data['sepostulo'], test_size=0.3)

In [45]:
clf1 = RandomForestClassifier(n_estimators=15).fit(train_set, train_classes)
print('Test:', clf1.score(test_set, test_classes), 'Entrenamiento:', clf1.score(train_set, train_classes))

Test: 0.6881266666666667 Entrenamiento: 0.7922257142857143


### Con veces_visto (en inexistentes usamos random 0/1 para postulaciones, 0 para no postulaciones)

In [46]:
aux = data['sepostulo'].apply(lambda x: (np.random.randint(2)) if (x==1) else 0)

data['veces_visto'] = (pd.merge(data[['idaviso','idpostulante']], vistas_totales_count, on=['idaviso', 'idpostulante'], how='left'))['veces_visto']
data['veces_visto'].fillna(aux, inplace=True)
data['veces_visto'] = data['veces_visto'].astype('int16')

del aux

veces_visto_fillna_random = data['veces_visto'] #Lo guardo para futuras comparaciones

In [47]:
del train_set, test_set, train_classes, test_classes
train_set, test_set, train_classes, test_classes = train_test_split(data.drop(columns=['sepostulo','idaviso','idpostulante', 'fechapostulacion','ultima_vista','titulo', 'denominacion_empresa']), data['sepostulo'], test_size=0.3)

In [48]:
clf2 = RandomForestClassifier(n_estimators=15).fit(train_set, train_classes)
print('Test:', clf2.score(test_set, test_classes), 'Entrenamiento:', clf2.score(train_set, train_classes))

Test: 0.8108666666666666 Entrenamiento: 0.8763057142857142


### Sin veces_visto

In [49]:
del train_set, test_set, train_classes, test_classes
train_set, test_set, train_classes, test_classes = train_test_split(data.drop(columns=['veces_visto','sepostulo','idaviso','idpostulante', 'fechapostulacion','ultima_vista','titulo', 'denominacion_empresa']), data['sepostulo'], test_size=0.3)

In [50]:
clf3 = RandomForestClassifier(n_estimators=15).fit(train_set, train_classes)
print('Test:', clf3.score(test_set, test_classes), 'Entrenamiento:', clf3.score(train_set, train_classes))

Test: 0.6257266666666667 Entrenamiento: 0.7466014285714285


### One Hot Encoding de todas las areas de los anuncios

In [51]:
enc = preprocessing.OneHotEncoder(n_values=188)
encoded_areas = enc.fit_transform(data['nombre_area'].values.reshape(-1,1))  

In [52]:
encoded_areas_df = pd.DataFrame(encoded_areas.toarray()).astype('int8')
encoded_areas_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000000 entries, 0 to 999999
Columns: 188 entries, 0 to 187
dtypes: int8(188)
memory usage: 179.3 MB


In [53]:
data = pd.concat([data, encoded_areas_df], axis=1)

del encoded_areas, encoded_areas_df

data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000000 entries, 0 to 999999
Columns: 211 entries, sepostulo to 187
dtypes: datetime64[ns](2), int16(1), int64(2), int8(203), object(3)
memory usage: 248.9+ MB


In [54]:
data.head()

Unnamed: 0,sepostulo,idaviso,idpostulante,fechapostulacion,ultima_vista,veces_visto,sexo,edad,titulo,nombre_area,...,178,179,180,181,182,183,184,185,186,187
0,1,1112254546,xkv1PwK,2018-01-29 10:35:55,NaT,0,1,18,Banco Líder en Argentina busca Jóvenes Profesi...,29,...,0,0,0,0,0,0,0,0,0,0
1,0,1112359015,pzYWb3m,NaT,NaT,0,1,41,Customer Service Specialist,14,...,0,0,0,0,0,0,0,0,0,0
2,0,1112420704,A3XaYrD,NaT,NaT,0,0,21,"Analista de Créditos y Cobranzas, CABA",45,...,0,0,0,0,0,0,0,0,0,0
3,0,1112280950,YjrJ8kr,NaT,NaT,0,1,27,Camareros/as,26,...,0,0,0,0,0,0,0,0,0,0
4,1,1112343030,W9AmwVa,2018-03-03 13:59:55,NaT,0,0,33,ABASTECEDOR DE DEPÓSITO,5,...,0,0,0,0,0,0,0,0,0,0


### Sin veces_visto

In [55]:
del train_set, test_set, train_classes, test_classes
train_set, test_set, train_classes, test_classes = train_test_split(data.drop(columns=['veces_visto','sepostulo','idaviso','idpostulante', 'fechapostulacion','ultima_vista','titulo', 'denominacion_empresa', 'nombre_area']), data['sepostulo'], test_size=0.3)

In [56]:
clf4 = RandomForestClassifier(n_estimators=15).fit(train_set, train_classes)
print('Test:', clf4.score(test_set, test_classes), 'Entrenamiento:', clf4.score(train_set, train_classes))

Test: 0.63035 Entrenamiento: 0.7464614285714286


### Con veces_visto (en inexistentes usamos random 0/1 para postulaciones, 0 para no postulaciones)

In [57]:
del train_set, test_set, train_classes, test_classes
train_set, test_set, train_classes, test_classes = train_test_split(data.drop(columns=['sepostulo','idaviso','idpostulante', 'fechapostulacion','ultima_vista','titulo', 'denominacion_empresa', 'nombre_area']), data['sepostulo'], test_size=0.3)

In [58]:
clf5 = RandomForestClassifier(n_estimators=15).fit(train_set, train_classes)
print('Test:', clf5.score(test_set, test_classes), 'Entrenamiento:', clf5.score(train_set, train_classes))

Test: 0.8113266666666666 Entrenamiento: 0.8762871428571428


### Con veces_visto (en inexistentes usamos default en 0 para todos)

In [61]:
data['veces_visto'] = veces_visto_fillna_0

del train_set, test_set, train_classes, test_classes
train_set, test_set, train_classes, test_classes = train_test_split(data.drop(columns=['sepostulo','idaviso','idpostulante', 'fechapostulacion','ultima_vista','titulo', 'denominacion_empresa', 'nombre_area']), data['sepostulo'], test_size=0.3)

In [62]:
clf6 = RandomForestClassifier(n_estimators=15).fit(train_set, train_classes)
print('Test:', clf6.score(test_set, test_classes), 'Entrenamiento:', clf6.score(train_set, train_classes))

Test: 0.6909166666666666 Entrenamiento: 0.7917971428571429


### One Hot Encoding de las empresas con mayor presencia

In [63]:
#Chequear si mejora si el top100 lo saco de avisos

data['Adecco'] = data['denominacion_empresa'].astype(str).apply(lambda x: 1 if('Adecco' in x) else 0).astype('int8')
data['Manpower'] = data['denominacion_empresa'].astype(str).apply(lambda x: 1 if('Manpower' in x) else 0).astype('int8')
data['RANDSTAD'] = data['denominacion_empresa'].astype(str).apply(lambda x: 1 if('RANDSTAD' in x) else 0).astype('int8')
data['Assistem'] = data['denominacion_empresa'].astype(str).apply(lambda x: 1 if('Assistem' in x) else 0).astype('int8')
data['Pullmen'] = data['denominacion_empresa'].astype(str).apply(lambda x: 1 if('Pullmen' in x) else 0).astype('int8')
data['BAYTON'] = data['denominacion_empresa'].astype(str).apply(lambda x: 1 if('BAYTON' in x) else 0).astype('int8')
data['Suple'] = data['denominacion_empresa'].astype(str).apply(lambda x: 1 if('Suple' in x) else 0).astype('int8')
data['Medical'] = data['denominacion_empresa'].astype(str).apply(lambda x: 1 if('Medical' in x) else 0).astype('int8')
data['Talentum'] = data['denominacion_empresa'].astype(str).apply(lambda x: 1 if('Talentum' in x) else 0).astype('int8')
data['HuCap'] = data['denominacion_empresa'].astype(str).apply(lambda x: 1 if('HuCap' in x) else 0).astype('int8')
data['Asoko'] = data['denominacion_empresa'].astype(str).apply(lambda x: 1 if('Asoko' in x) else 0).astype('int8')
data['COTO'] = data['denominacion_empresa'].astype(str).apply(lambda x: 1 if('COTO' in x) else 0).astype('int8')
data['EAYA'] = data['denominacion_empresa'].astype(str).apply(lambda x: 1 if('EAYA' in x) else 0).astype('int8')
data['Personal'] = data['denominacion_empresa'].astype(str).apply(lambda x: 1 if('Personal' in x) else 0).astype('int8')
data['CONA'] = data['denominacion_empresa'].astype(str).apply(lambda x: 1 if('CONA' in x) else 0).astype('int8')
data['InBev'] = data['denominacion_empresa'].astype(str).apply(lambda x: 1 if('InBev' in x) else 0).astype('int8')
data['APPLICA'] = data['denominacion_empresa'].astype(str).apply(lambda x: 1 if('APPLICA' in x) else 0).astype('int8')
data['Favaloro'] = data['denominacion_empresa'].astype(str).apply(lambda x: 1 if('Favaloro' in x) else 0).astype('int8')
data['Teleperformance'] = data['denominacion_empresa'].astype(str).apply(lambda x: 1 if('Teleperformance' in x) else 0).astype('int8')
data['ConfiaRH'] = data['denominacion_empresa'].astype(str).apply(lambda x: 1 if('ConfiaRH' in x) else 0).astype('int8')
data['PROSEGUR'] = data['denominacion_empresa'].astype(str).apply(lambda x: 1 if('PROSEGUR' in x) else 0).astype('int8')
data['Banco'] = data['denominacion_empresa'].astype(str).apply(lambda x: 1 if(('BBVA' in x) or ('Banco' in x)) else 0).astype('int8')
data['Farmacias'] = data['denominacion_empresa'].astype(str).apply(lambda x: 1 if(('Farmacity' in x) or ('Farmacias' in x)) else 0).astype('int8')
data['VentaTecno'] = data['denominacion_empresa'].astype(str).apply(lambda x: 1 if(('Garbarino' in x) or ('Musimundo' in x) or ('Frávega' in x)) else 0).astype('int8')
data['Cervecería'] = data['denominacion_empresa'].astype(str).apply(lambda x: 1 if(('Cervecería' in x) or ('Maltería' in x) or ('Quilmes' in x)) else 0).astype('int8')

data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000000 entries, 0 to 999999
Columns: 236 entries, sepostulo to Cervecería
dtypes: datetime64[ns](2), int16(1), int64(2), int8(228), object(3)
memory usage: 272.8+ MB


In [64]:
data.head()

Unnamed: 0,sepostulo,idaviso,idpostulante,fechapostulacion,ultima_vista,veces_visto,sexo,edad,titulo,nombre_area,...,InBev,APPLICA,Favaloro,Teleperformance,ConfiaRH,PROSEGUR,Banco,Farmacias,VentaTecno,Cervecería
0,1,1112254546,xkv1PwK,2018-01-29 10:35:55,NaT,0,1,18,Banco Líder en Argentina busca Jóvenes Profesi...,29,...,0,0,0,0,0,0,0,0,0,0
1,0,1112359015,pzYWb3m,NaT,NaT,0,1,41,Customer Service Specialist,14,...,1,0,0,0,0,0,0,0,0,1
2,0,1112420704,A3XaYrD,NaT,NaT,0,0,21,"Analista de Créditos y Cobranzas, CABA",45,...,0,0,0,0,0,0,0,0,0,0
3,0,1112280950,YjrJ8kr,NaT,NaT,0,1,27,Camareros/as,26,...,0,0,0,0,0,0,0,0,0,0
4,1,1112343030,W9AmwVa,2018-03-03 13:59:55,NaT,0,0,33,ABASTECEDOR DE DEPÓSITO,5,...,0,0,0,0,0,0,0,0,0,0


### Sin veces_visto

In [65]:
del train_set, test_set, train_classes, test_classes
train_set, test_set, train_classes, test_classes = train_test_split(data.drop(columns=['veces_visto','sepostulo','idaviso','idpostulante', 'fechapostulacion','ultima_vista','titulo', 'denominacion_empresa', 'nombre_area']), data['sepostulo'], test_size=0.3)

In [66]:
clf7 = RandomForestClassifier(n_estimators=15).fit(train_set, train_classes)
print('Test:', clf7.score(test_set, test_classes), 'Entrenamiento:', clf7.score(train_set, train_classes))

Test: 0.6230933333333334 Entrenamiento: 0.7947614285714286


### Con veces_visto (en inexistentes usamos default en 0 para todos)

In [67]:
del train_set, test_set, train_classes, test_classes
train_set, test_set, train_classes, test_classes = train_test_split(data.drop(columns=['sepostulo','idaviso','idpostulante', 'fechapostulacion','ultima_vista','titulo', 'denominacion_empresa', 'nombre_area']), data['sepostulo'], test_size=0.3)

In [68]:
clf8 = RandomForestClassifier(n_estimators=15).fit(train_set, train_classes)
print('Test:', clf8.score(test_set, test_classes), 'Entrenamiento:', clf8.score(train_set, train_classes))

Test: 0.68687 Entrenamiento: 0.83277


### Con veces_visto (en inexistentes usamos random 0/1 para postulaciones, 0 para no postulaciones)

In [69]:
data['veces_visto'] = veces_visto_fillna_random

del train_set, test_set, train_classes, test_classes
train_set, test_set, train_classes, test_classes = train_test_split(data.drop(columns=['sepostulo','idaviso','idpostulante', 'fechapostulacion','ultima_vista','titulo', 'denominacion_empresa', 'nombre_area']), data['sepostulo'], test_size=0.3)

In [70]:
clf9 = RandomForestClassifier(n_estimators=15).fit(train_set, train_classes)
print('Test:', clf9.score(test_set, test_classes), 'Entrenamiento:', clf9.score(train_set, train_classes))

Test: 0.8060066666666666 Entrenamiento: 0.8999242857142857


### Sin campo sexo, a partir de ahora las pruebas individuales de cada feature, con veces_visto (en inexistentes usamos default en 0 para todos)

In [71]:
data['veces_visto'] = veces_visto_fillna_0
data.head()

Unnamed: 0,sepostulo,idaviso,idpostulante,fechapostulacion,ultima_vista,veces_visto,sexo,edad,titulo,nombre_area,...,InBev,APPLICA,Favaloro,Teleperformance,ConfiaRH,PROSEGUR,Banco,Farmacias,VentaTecno,Cervecería
0,1,1112254546,xkv1PwK,2018-01-29 10:35:55,NaT,0,1,18,Banco Líder en Argentina busca Jóvenes Profesi...,29,...,0,0,0,0,0,0,0,0,0,0
1,0,1112359015,pzYWb3m,NaT,NaT,0,1,41,Customer Service Specialist,14,...,1,0,0,0,0,0,0,0,0,1
2,0,1112420704,A3XaYrD,NaT,NaT,0,0,21,"Analista de Créditos y Cobranzas, CABA",45,...,0,0,0,0,0,0,0,0,0,0
3,0,1112280950,YjrJ8kr,NaT,NaT,0,1,27,Camareros/as,26,...,0,0,0,0,0,0,0,0,0,0
4,1,1112343030,W9AmwVa,2018-03-03 13:59:55,NaT,0,0,33,ABASTECEDOR DE DEPÓSITO,5,...,0,0,0,0,0,0,0,0,0,0


In [72]:
del train_set, test_set, train_classes, test_classes
train_set, test_set, train_classes, test_classes = train_test_split(data.drop(columns=['sexo','sepostulo','idaviso','idpostulante', 'fechapostulacion','ultima_vista','titulo', 'denominacion_empresa', 'nombre_area']), data['sepostulo'], test_size=0.3)

In [73]:
clf10 = RandomForestClassifier(n_estimators=15).fit(train_set, train_classes)
print('Test:', clf10.score(test_set, test_classes), 'Entrenamiento:', clf10.score(train_set, train_classes))

Test: 0.6718266666666667 Entrenamiento: 0.7984014285714286


- Con el campo: Test: 0.68687 Entrenamiento: 0.83277

### Sin campo edad

In [74]:
del train_set, test_set, train_classes, test_classes
train_set, test_set, train_classes, test_classes = train_test_split(data.drop(columns=['edad','sepostulo','idaviso','idpostulante', 'fechapostulacion','ultima_vista','titulo', 'denominacion_empresa', 'nombre_area']), data['sepostulo'], test_size=0.3)

In [75]:
clf11 = RandomForestClassifier(n_estimators=15).fit(train_set, train_classes)
print('Test:', clf11.score(test_set, test_classes), 'Entrenamiento:', clf11.score(train_set, train_classes))

Test: 0.69919 Entrenamiento: 0.7379528571428572


- Con el campo: Test: 0.68687 Entrenamiento: 0.83277

### Sin campos geograficos

In [76]:
del train_set, test_set, train_classes, test_classes
train_set, test_set, train_classes, test_classes = train_test_split(data.drop(columns=['zona_caba', 'zona_gba','sepostulo','idaviso','idpostulante', 'fechapostulacion','ultima_vista','titulo', 'denominacion_empresa', 'nombre_area']), data['sepostulo'], test_size=0.3)

In [77]:
clf12 = RandomForestClassifier(n_estimators=15).fit(train_set, train_classes)
print('Test:', clf12.score(test_set, test_classes), 'Entrenamiento:', clf12.score(train_set, train_classes))

Test: 0.6871566666666666 Entrenamiento: 0.82595


- Con el campo: Test: 0.68687 Entrenamiento: 0.83277

### Sin campos tipo de trabajo

In [78]:
del train_set, test_set, train_classes, test_classes
train_set, test_set, train_classes, test_classes = train_test_split(data.drop(columns=['tipo_full-time', 'tipo_part-time', 'tipo_otro','sepostulo','idaviso','idpostulante', 'fechapostulacion','ultima_vista','titulo', 'denominacion_empresa', 'nombre_area']), data['sepostulo'], test_size=0.3)

In [79]:
clf13 = RandomForestClassifier(n_estimators=15).fit(train_set, train_classes)
print('Test:', clf13.score(test_set, test_classes), 'Entrenamiento:', clf13.score(train_set, train_classes))

Test: 0.68722 Entrenamiento: 0.8236914285714285


- Con el campo: Test: 0.68687 Entrenamiento: 0.83277

### Sin campos estudios (ambos, en curso y graduados)

In [80]:
del train_set, test_set, train_classes, test_classes
train_set, test_set, train_classes, test_classes = train_test_split(data.drop(columns=['estudio_encurso', 'estudio_graduado','sepostulo','idaviso','idpostulante', 'fechapostulacion','ultima_vista','titulo', 'denominacion_empresa', 'nombre_area']), data['sepostulo'], test_size=0.3)

In [81]:
clf14 = RandomForestClassifier(n_estimators=15).fit(train_set, train_classes)
print('Test:', clf14.score(test_set, test_classes), 'Entrenamiento:', clf14.score(train_set, train_classes))

Test: 0.6639833333333334 Entrenamiento: 0.7275371428571429


- Con el campo: Test: 0.68687 Entrenamiento: 0.83277

### Sin campos estudios en curso

In [82]:
del train_set, test_set, train_classes, test_classes
train_set, test_set, train_classes, test_classes = train_test_split(data.drop(columns=['estudio_encurso','sepostulo','idaviso','idpostulante', 'fechapostulacion','ultima_vista','titulo', 'denominacion_empresa', 'nombre_area']), data['sepostulo'], test_size=0.3)

In [83]:
clf15 = RandomForestClassifier(n_estimators=15).fit(train_set, train_classes)
print('Test:', clf15.score(test_set, test_classes), 'Entrenamiento:', clf15.score(train_set, train_classes))

Test: 0.6780433333333333 Entrenamiento: 0.7913085714285715


- Con el campo: Test: 0.68687 Entrenamiento: 0.83277

### Sin campos estudios graduado

In [84]:
del train_set, test_set, train_classes, test_classes
train_set, test_set, train_classes, test_classes = train_test_split(data.drop(columns=['estudio_graduado','sepostulo','idaviso','idpostulante', 'fechapostulacion','ultima_vista','titulo', 'denominacion_empresa', 'nombre_area']), data['sepostulo'], test_size=0.3)

In [85]:
clf16 = RandomForestClassifier(n_estimators=15).fit(train_set, train_classes)
print('Test:', clf16.score(test_set, test_classes), 'Entrenamiento:', clf16.score(train_set, train_classes))

Test: 0.67129 Entrenamiento: 0.7705571428571428


- Con el campo: Test: 0.68687 Entrenamiento: 0.83277

### Cargo un test100k para hacer una prueba

In [107]:
test100k = pd.read_csv('test_final_100k_complete.csv', parse_dates=['fechapostulacion', 'ultima_vista'], dtype={'sepostulo':'int8', 'idaviso':'int64', 'idpostulante':'object', 'veces_visto':'int16', 'estudios':'category', 'estado':'category', 'edad':'int8', 'sexo':'category','nombre_zona':'category', 'tipo_de_trabajo':'category', 'nivel_laboral':'category', 'nombre_area':'category'})

aux = ['MASC', 'FEM']
test100k['sexo'] = test100k['sexo'].apply(lambda x: aux[np.random.randint(2)] if (x == 'NO_DECLARA') else x)
del aux

test100k['nombre_zona'].fillna(value='Gran Buenos Aires',inplace=True)
test100k['tipo_de_trabajo'].fillna(value='Full-time',inplace=True)
test100k['nivel_laboral'].fillna(value='Senior / Semi-Senior',inplace=True)
test100k['nombre_area'].fillna(value='Ventas',inplace=True)

In [108]:
test100k.drop(columns=['estudios', 'estado'], inplace=True)
test100k = test100k.merge(edu_totales[['idpostulante','estudio_encurso','estudio_graduado']], on='idpostulante', how='left')

test100k['estudio_encurso'] = test100k['estudio_encurso'].fillna(value=0).astype('int8')
test100k['estudio_graduado'] = test100k['estudio_graduado'].fillna(value=0).astype('int8')

In [109]:
test100k['tipo_full-time'] = test100k['tipo_de_trabajo'].apply(lambda x: 1 if (x=='Full-time') else 0).astype('int8')
test100k['tipo_part-time'] = test100k['tipo_de_trabajo'].apply(lambda x: 1 if (x=='Part-time') else 0).astype('int8')
test100k['tipo_otro'] = test100k['tipo_de_trabajo'].apply(lambda x: 1 if ((x != 'Full-time') & (x != 'Part-time')) else 0).astype('int8')

test100k.drop(columns='tipo_de_trabajo', inplace=True)

In [110]:
test100k['zona_gba'] = test100k['nombre_zona'].apply(lambda x: 1 if ((x=='Gran Buenos Aires') or (x=='GBA Oeste')) else 0).astype('int8')
test100k['zona_caba'] = test100k['nombre_zona'].apply(lambda x: 1 if (x=='Capital Federal') else 0).astype('int8')

test100k.drop(columns='nombre_zona', inplace=True)

In [111]:
test100k['nivel_senior'] = test100k['nivel_laboral'].apply(lambda x: 1 if (x=='Senior / Semi-Senior') else 0).astype('int8')
test100k['nivel_junior'] = test100k['nivel_laboral'].apply(lambda x: 1 if (x=='Junior') else 0).astype('int8')
test100k['nivel_otro'] = test100k['nivel_laboral'].apply(lambda x: 1 if (x=='Otro') else 0).astype('int8')
test100k['nivel_jefe'] = test100k['nivel_laboral'].apply(lambda x: 1 if (x=='Jefe / Supervisor / Responsable') else 0).astype('int8')
test100k['nivel_gerente'] = test100k['nivel_laboral'].apply(lambda x: 1 if (x=='Gerencia / Alta Gerencia / Dirección') else 0).astype('int8')

test100k.drop(columns='nivel_laboral', inplace=True)

In [112]:
test100k['sexo'] = test100k['sexo'].apply(lambda x: 1 if (x=='MASC') else 0).astype('int8')
test100k.reset_index(drop=True, inplace=True)
test100k.head()

Unnamed: 0,id,idaviso,idpostulante,fechapostulacion,ultima_vista,veces_visto,sexo,edad,titulo,nombre_area,...,tipo_full-time,tipo_part-time,tipo_otro,zona_gba,zona_caba,nivel_senior,nivel_junior,nivel_otro,nivel_jefe,nivel_gerente
0,0,739260,6M9ZQR,NaT,NaT,0,0,42,Asistente Comercial,Comercial,...,1,0,0,0,1,0,0,0,1,0
1,1,739260,6v1xdL,NaT,NaT,0,1,30,Asistente Comercial,Comercial,...,1,0,0,0,1,0,0,0,1,0
2,2,739260,ezRKm9,NaT,NaT,0,0,36,Asistente Comercial,Comercial,...,1,0,0,0,1,0,0,0,1,0
3,3,758580,1Q35ej,NaT,NaT,0,1,68,Oracle Financials Sr. Application Developer,Tecnologia / Sistemas,...,1,0,0,0,1,0,0,1,0,0
4,4,758580,EAN4J6,NaT,NaT,0,0,32,Oracle Financials Sr. Application Developer,Tecnologia / Sistemas,...,1,0,0,0,1,0,0,1,0,0


In [125]:
test100k['nombre_area'] = le.transform(test100k['nombre_area'].astype(str))

In [127]:
encoded_areas = enc.transform(test100k['nombre_area'].values.reshape(-1,1))
encoded_areas_df = pd.DataFrame(encoded_areas.toarray()).astype('int8')
encoded_areas_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Columns: 188 entries, 0 to 187
dtypes: int8(188)
memory usage: 17.9 MB


In [128]:
test100k = pd.concat([test100k, encoded_areas_df], axis=1)

del encoded_areas, encoded_areas_df

test100k.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Columns: 211 entries, id to 187
dtypes: datetime64[ns](2), int16(1), int64(3), int8(202), object(3)
memory usage: 25.6+ MB


In [130]:
test100k.head()

Unnamed: 0,id,idaviso,idpostulante,fechapostulacion,ultima_vista,veces_visto,sexo,edad,titulo,nombre_area,...,178,179,180,181,182,183,184,185,186,187
0,0,739260,6M9ZQR,NaT,NaT,0,0,42,Asistente Comercial,29,...,0,0,0,0,0,0,0,0,0,0
1,1,739260,6v1xdL,NaT,NaT,0,1,30,Asistente Comercial,29,...,0,0,0,0,0,0,0,0,0,0
2,2,739260,ezRKm9,NaT,NaT,0,0,36,Asistente Comercial,29,...,0,0,0,0,0,0,0,0,0,0
3,3,758580,1Q35ej,NaT,NaT,0,1,68,Oracle Financials Sr. Application Developer,167,...,0,0,0,0,0,0,0,0,0,0
4,4,758580,EAN4J6,NaT,NaT,0,0,32,Oracle Financials Sr. Application Developer,167,...,0,0,0,0,0,0,0,0,0,0


In [131]:
test100k['Adecco'] = test100k['denominacion_empresa'].astype(str).apply(lambda x: 1 if('Adecco' in x) else 0).astype('int8')
test100k['Manpower'] = test100k['denominacion_empresa'].astype(str).apply(lambda x: 1 if('Manpower' in x) else 0).astype('int8')
test100k['RANDSTAD'] = test100k['denominacion_empresa'].astype(str).apply(lambda x: 1 if('RANDSTAD' in x) else 0).astype('int8')
test100k['Assistem'] = test100k['denominacion_empresa'].astype(str).apply(lambda x: 1 if('Assistem' in x) else 0).astype('int8')
test100k['Pullmen'] = test100k['denominacion_empresa'].astype(str).apply(lambda x: 1 if('Pullmen' in x) else 0).astype('int8')
test100k['BAYTON'] = test100k['denominacion_empresa'].astype(str).apply(lambda x: 1 if('BAYTON' in x) else 0).astype('int8')
test100k['Suple'] = test100k['denominacion_empresa'].astype(str).apply(lambda x: 1 if('Suple' in x) else 0).astype('int8')
test100k['Medical'] = test100k['denominacion_empresa'].astype(str).apply(lambda x: 1 if('Medical' in x) else 0).astype('int8')
test100k['Talentum'] = test100k['denominacion_empresa'].astype(str).apply(lambda x: 1 if('Talentum' in x) else 0).astype('int8')
test100k['HuCap'] = test100k['denominacion_empresa'].astype(str).apply(lambda x: 1 if('HuCap' in x) else 0).astype('int8')
test100k['Asoko'] = test100k['denominacion_empresa'].astype(str).apply(lambda x: 1 if('Asoko' in x) else 0).astype('int8')
test100k['COTO'] = test100k['denominacion_empresa'].astype(str).apply(lambda x: 1 if('COTO' in x) else 0).astype('int8')
test100k['EAYA'] = test100k['denominacion_empresa'].astype(str).apply(lambda x: 1 if('EAYA' in x) else 0).astype('int8')
test100k['Personal'] = test100k['denominacion_empresa'].astype(str).apply(lambda x: 1 if('Personal' in x) else 0).astype('int8')
test100k['CONA'] = test100k['denominacion_empresa'].astype(str).apply(lambda x: 1 if('CONA' in x) else 0).astype('int8')
test100k['InBev'] = test100k['denominacion_empresa'].astype(str).apply(lambda x: 1 if('InBev' in x) else 0).astype('int8')
test100k['APPLICA'] = test100k['denominacion_empresa'].astype(str).apply(lambda x: 1 if('APPLICA' in x) else 0).astype('int8')
test100k['Favaloro'] = test100k['denominacion_empresa'].astype(str).apply(lambda x: 1 if('Favaloro' in x) else 0).astype('int8')
test100k['Teleperformance'] = test100k['denominacion_empresa'].astype(str).apply(lambda x: 1 if('Teleperformance' in x) else 0).astype('int8')
test100k['ConfiaRH'] = test100k['denominacion_empresa'].astype(str).apply(lambda x: 1 if('ConfiaRH' in x) else 0).astype('int8')
test100k['PROSEGUR'] = test100k['denominacion_empresa'].astype(str).apply(lambda x: 1 if('PROSEGUR' in x) else 0).astype('int8')
test100k['Banco'] = test100k['denominacion_empresa'].astype(str).apply(lambda x: 1 if(('BBVA' in x) or ('Banco' in x)) else 0).astype('int8')
test100k['Farmacias'] = test100k['denominacion_empresa'].astype(str).apply(lambda x: 1 if(('Farmacity' in x) or ('Farmacias' in x)) else 0).astype('int8')
test100k['VentaTecno'] = test100k['denominacion_empresa'].astype(str).apply(lambda x: 1 if(('Garbarino' in x) or ('Musimundo' in x) or ('Frávega' in x)) else 0).astype('int8')
test100k['Cervecería'] = test100k['denominacion_empresa'].astype(str).apply(lambda x: 1 if(('Cervecería' in x) or ('Maltería' in x) or ('Quilmes' in x)) else 0).astype('int8')

test100k.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Columns: 236 entries, id to Cervecería
dtypes: datetime64[ns](2), int16(1), int64(3), int8(227), object(3)
memory usage: 27.9+ MB


In [132]:
test100k.head()

Unnamed: 0,id,idaviso,idpostulante,fechapostulacion,ultima_vista,veces_visto,sexo,edad,titulo,nombre_area,...,InBev,APPLICA,Favaloro,Teleperformance,ConfiaRH,PROSEGUR,Banco,Farmacias,VentaTecno,Cervecería
0,0,739260,6M9ZQR,NaT,NaT,0,0,42,Asistente Comercial,29,...,0,0,0,0,0,0,0,0,0,0
1,1,739260,6v1xdL,NaT,NaT,0,1,30,Asistente Comercial,29,...,0,0,0,0,0,0,0,0,0,0
2,2,739260,ezRKm9,NaT,NaT,0,0,36,Asistente Comercial,29,...,0,0,0,0,0,0,0,0,0,0
3,3,758580,1Q35ej,NaT,NaT,0,1,68,Oracle Financials Sr. Application Developer,167,...,0,0,0,0,0,0,0,0,0,0
4,4,758580,EAN4J6,NaT,NaT,0,0,32,Oracle Financials Sr. Application Developer,167,...,0,0,0,0,0,0,0,0,0,0


- Ahora entrenamos un clasificador sin el campo 'edad', que vimos que nos baja el score, y veces_visto con fillna random en las postulaciones

In [133]:
data['veces_visto'] = veces_visto_fillna_random

del train_set, test_set, train_classes, test_classes
train_set, test_set, train_classes, test_classes = train_test_split(data.drop(columns=['edad','sepostulo','idaviso','idpostulante', 'fechapostulacion','ultima_vista','titulo', 'denominacion_empresa', 'nombre_area']), data['sepostulo'], test_size=0.3)

In [134]:
clf17 = RandomForestClassifier(n_estimators=15).fit(train_set, train_classes)
print('Test:', clf17.score(test_set, test_classes), 'Entrenamiento:', clf17.score(train_set, train_classes))

Test: 0.8197833333333333 Entrenamiento: 0.84514


- Y predecimos el test100k, ya formatiado con las features numericas y one hot encoding como el set de data con el que se entreno el clasificador

In [135]:
test100k['sepostulo'] = clf17.predict(test100k.drop(columns=['id','edad', 'idaviso','idpostulante', 'fechapostulacion','ultima_vista','titulo', 'denominacion_empresa', 'nombre_area']))
test100k['sepostulo'].mean()

0.41539

In [136]:
test100k[['id','sepostulo']].to_csv('Resultados/randforest_convecesvistorandom_sinedad_onehotencodingallareas_partialempresas.csv', index=False)

- Pruebo con fillna en postulaciones, con 66% probabilidad para 1, 33% para 0

In [157]:
prob = [1,1,0]

aux = data['sepostulo'].apply(lambda x: (prob[np.random.randint(3)]) if (x==1) else 0)

data['veces_visto'] = (pd.merge(data[['idaviso','idpostulante']], vistas_totales_count, on=['idaviso', 'idpostulante'], how='left'))['veces_visto']
data['veces_visto'].fillna(aux, inplace=True)
data['veces_visto'] = data['veces_visto'].astype('int16')

del aux

In [158]:
del train_set, test_set, train_classes, test_classes
train_set, test_set, train_classes, test_classes = train_test_split(data.drop(columns=['edad','sepostulo','idaviso','idpostulante', 'fechapostulacion','ultima_vista','titulo', 'denominacion_empresa', 'nombre_area']), data['sepostulo'], test_size=0.3)

In [159]:
clf18 = RandomForestClassifier(n_estimators=15).fit(train_set, train_classes)
print('Test:', clf18.score(test_set, test_classes), 'Entrenamiento:', clf18.score(train_set, train_classes))

Test: 0.8752333333333333 Entrenamiento: 0.8930528571428571


- Y predecimos el test100k, ya formatiado con las features numericas y one hot encoding como el set de data con el que se entreno el clasificador

In [161]:
test100k['sepostulo'] = clf18.predict(test100k.drop(columns=['id', 'sepostulo','edad', 'idaviso','idpostulante', 'fechapostulacion','ultima_vista','titulo', 'denominacion_empresa', 'nombre_area']))
test100k['sepostulo'].mean()

0.37258

In [162]:
test100k[['id','sepostulo']].to_csv('Resultados/randforest_convecesvistorandom66_sinedad_onehotencodingallareas_partialempresas.csv', index=False)

- Probamos KNN

In [196]:
data['veces_visto'] = veces_visto_fillna_random

del train_set, test_set, train_classes, test_classes
train_set, test_set, train_classes, test_classes = train_test_split(data.drop(columns=['edad','sepostulo','idaviso','idpostulante', 'fechapostulacion','ultima_vista','titulo', 'denominacion_empresa', 'nombre_area']), data['sepostulo'], test_size=0.3)

In [202]:
knn = KNeighborsClassifier()
knn.fit(train_set, train_classes)
print('Test:', knn.score(test_set, test_classes), 'Entrenamiento:', knn.score(train_set, train_classes))

Test: 0.8019733333333333 Entrenamiento: 0.8200357142857143


In [52]:
#Counter(" ".join(data["denominacion_empresa"].astype(str)).split()).most_common(150)

[('S.A.', 80594),
 ('Adecco', 69531),
 ('Grupo', 50929),
 ('SA', 47919),
 ('-Región', 44707),
 ('&', 37446),
 ('Manpower', 36582),
 ('Argentina', 36200),
 ('RANDSTAD', 34875),
 ('SRL', 34716),
 ('de', 32268),
 ('-', 31862),
 ('Gestión', 29407),
 ('Consultores', 27782),
 ('Office', 26439),
 ('Assistem', 24876),
 ('Servicios', 24065),
 ('GBA', 23887),
 ('Group', 23475),
 ('RRHH', 22330),
 ('Recursos', 20547),
 ('BBVA', 20144),
 ('Francés', 20144),
 ('Humanos', 19297),
 ('Farmacity', 19182),
 ('Pullmen', 17841),
 ('Empresarios', 17841),
 ('BAYTON', 16546),
 ('S.R.L.', 16358),
 ('S.A', 15879),
 ('y', 15613),
 ('RH', 14903),
 ('SUR', 14594),
 ('Región', 13908),
 ('Consultora', 12718),
 ('Suministra', 12585),
 ('Consulting', 12490),
 ('OESTE', 11951),
 ('NORTE', 11883),
 ('ARGENTINA', 11801),
 ('Suple', 11761),
 ('Complement', 10654),
 ('(holding)', 10654),
 ('Asociados', 10442),
 ('Laboral', 9937),
 ('Marketing', 9838),
 ('DE', 9795),
 ('en', 9597),
 ('Medical', 8785),
 ('Talentum', 8713),


In [None]:
parameters = {'splitter':('best', 'random'), 'min_samples_split':[2,20,200,2000,20000,0.01,0.05,0.1,0.15,0.20], 'min_samples_leaf':[1,10,100,1000,10000,0.01,0.05,0.1,0.15,0.20]}
tree_clf = tree.DecisionTreeClassifier()
clf2 = GridSearchCV(tree_clf, parameters)
clf2.fit(train_set, train_classes)

In [None]:
clf2.cv_results_

In [None]:
clf2.score(test_set, test_classes)

In [18]:
clf3=BaggingClassifier().fit(train_set,train_classes)
clf3.score(test_set, test_classes)

0.6270366666666667

In [19]:
clf4=RandomForestClassifier().fit(train_set,train_classes)
clf4.score(test_set, test_classes)

0.6246733333333333

In [20]:
clf5=ExtraTreesClassifier().fit(train_set,train_classes)
clf5.score(test_set, test_classes)

0.6234266666666667

In [None]:
clf6 = ExtraTreesClassifier()
scores = cross_val_score(clf6,train_set,train_classes)
scores

In [21]:
clf7 = GradientBoostingClassifier().fit(train_set,train_classes)
clf7.score(test_set, test_classes)

0.5928966666666666

In [22]:
clf8 = GaussianNB().fit(train_set,train_classes)
clf8.score(test_set, test_classes)

0.5366933333333334

In [None]:
clf4=RandomForestClassifier().fit(train_set,train_classes)
clf4.score(test_set, test_classes)

In [None]:
train_set, test_set, train_classes, test_classes = train_test_split(data.drop(columns=['sepostulo','idaviso','idpostulante', 'fechapostulacion','ultima_vista','titulo']), data['sepostulo'], test_size=0.3)

In [None]:
parameters = {'n_estimators':[10], 'min_samples_split':[2,20,200,2000,20000,0.01,0.05,0.1,0.15,0.20], 'min_samples_leaf':[1,10,100,1000,10000,0.01,0.05,0.1,0.15,0.20]}
tree_clf9 = RandomForestClassifier()
clf9 = GridSearchCV(tree_clf9, parameters)
clf9.fit(train_set, train_classes)

In [None]:
clf9.score(test_set, test_classes)