In [1]:
import pandas as pd
import numpy as np
import datetime as DT
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
import random

# Comenzamos con los datos de genero y edad

Concatenamos los datos disponibles en un solo DF

In [2]:
concatAge = pd.concat([pd.read_csv('data/datos_navent_fiuba/fiuba_2_postulantes_genero_y_edad.csv'),
                       pd.read_csv('data/entrega6/fiuba_2_postulantes_genero_y_edad.csv'),
                       pd.read_csv('data/Fiuba desde 15 Abril/fiuba_2_postulantes_genero_y_edad.csv')]
                    )
concatAge.head()

Unnamed: 0,idpostulante,fechanacimiento,sexo
0,NM5M,1970-12-03,FEM
1,5awk,1962-12-04,FEM
2,ZaO5,1978-08-10,FEM
3,NdJl,1969-05-09,MASC
4,eo2p,1981-02-16,MASC


Eliminamos los datos duplicados, quedandonos con el ultimo disponible. Ademas calculamos
la edad de cada usuario en base a su fecha de nacimiento. 

In [3]:
concatAge.drop_duplicates('idpostulante',keep = 'last', inplace = True)
concatAge.reset_index(inplace = True)
concatAge.drop(columns = ['index'],inplace = True)
concatAge.rename(columns = {'fechanacimiento':'edad'}, inplace = True)


# hoy : 30/5/2018
hoy = pd.Timestamp(DT.datetime.now())
concatAge['edad'] = pd.to_datetime(concatAge['edad'],errors = 'coerce')
concatAge['edad'] = (hoy - concatAge['edad']).astype('<m8[Y]')

In [4]:
concatAge['sexo'].value_counts()

FEM           251205
MASC          227853
NO_DECLARA     25342
0.0                7
Name: sexo, dtype: int64

Transformamos la columnas del genero de los usuarios al tipo booleano, indicando si son o no
usuarios masculinos. A los que no declararon sexo se les otorga un sexo random (hay que mejorar esto). Por suerte es una cantidad acotada (5%)

In [4]:
def sexoABool(sexo):
    if (sexo == 'MASC'):
        return True
    if (sexo == 'FEM'):
        return False
    return (bool(random.getrandbits(1)))

In [5]:
concatAge['sexo'] = concatAge['sexo'].apply(sexoABool)
concatAge.rename(columns = {'sexo':'sexo_masculino'}, inplace = True)
concatAge.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 504407 entries, 0 to 504406
Data columns (total 3 columns):
idpostulante      504407 non-null object
edad              478311 non-null float64
sexo_masculino    504407 non-null bool
dtypes: bool(1), float64(1), object(1)
memory usage: 8.2+ MB


Con la edad sucede algo parecido en cuanto a los datos faltantes. Los rellenamos con numeros
cuya probabilidad corresponden a una distribucion exponencial, manteniendo la media original.

In [6]:
media = concatAge['edad'].mean()
concatAge['edad'].fillna(int(random.expovariate(1/media)),inplace = True)

In [7]:
def recalcularEdad(edad):
    if ((edad < 18) or (edad > 75)):
        nueva_edad = int(random.expovariate(1/media))
        while ((nueva_edad < 18) or (nueva_edad>75)):
            nueva_edad = int(random.expovariate(1/media))
        return nueva_edad
    return edad

In [8]:
concatAge['edad'] = concatAge['edad'].apply(recalcularEdad)

In [10]:
concatAge.edad.value_counts()

26.0    27164
25.0    26687
27.0    26634
24.0    26308
23.0    25836
22.0    24190
28.0    23685
29.0    22665
21.0    22183
30.0    20694
31.0    19705
20.0    18908
32.0    17731
33.0    15751
34.0    14660
19.0    14614
35.0    13801
36.0    12964
37.0    12218
38.0    11248
39.0    10634
40.0     9443
41.0     8534
18.0     8041
42.0     7724
43.0     7020
44.0     6007
45.0     5328
46.0     5000
47.0     4521
48.0     4056
49.0     3404
50.0     3153
51.0     2800
52.0     2534
53.0     2345
54.0     2133
55.0     1917
56.0     1832
57.0     1606
58.0     1380
59.0     1123
60.0      916
61.0      837
62.0      683
63.0      544
64.0      465
66.0      404
65.0      370
67.0      352
68.0      270
69.0      256
71.0      211
70.0      187
73.0      185
74.0      184
72.0      182
75.0      180
Name: edad, dtype: int64

# Pasamos a los datos sobre la educacion

Concatenamos todos los datos disponibles sobre la educacion de los usuarios

In [9]:
concatEduc = pd.concat([pd.read_csv('data/datos_navent_fiuba/fiuba_1_postulantes_educacion.csv'),
                        pd.read_csv('data/entrega6/fiuba_1_postulantes_educacion.csv'),
                        pd.read_csv('data/Fiuba desde 15 Abril/fiuba_1_postulantes_educacion.csv')]
                      )
concatEduc.head()

Unnamed: 0,idpostulante,nombre,estado
0,NdJl,Posgrado,En Curso
1,8BkL,Universitario,En Curso
2,1d2B,Universitario,En Curso
3,NPBx,Universitario,En Curso
4,NPBx,Master,En Curso


In [12]:
concatEduc.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1103193 entries, 0 to 397508
Data columns (total 3 columns):
idpostulante    1103193 non-null object
nombre          1103193 non-null object
estado          1103193 non-null object
dtypes: object(3)
memory usage: 33.7+ MB


In [13]:
concatEduc['nombre'].value_counts()

Universitario        404619
Secundario           382927
Terciario/Técnico    180091
Otro                  84674
Posgrado              33484
Master                16436
Doctorado               962
Name: nombre, dtype: int64

Agregamos columnas que indiquen si el usuario está graduado en educacion de determinado
nivel

In [10]:
def estudioSuperior(nivel):
    if ((nivel=='Posgrado') or (nivel =='Doctorado') or (nivel=='Master')):
        return 1
    else:
        return 0

In [11]:
graduados = (concatEduc['estado'].astype(str)== 'Graduado').astype(int)

universitarios = (concatEduc['nombre'].astype(str) == 'Universitario').astype(int)

secundario = (concatEduc['nombre'].astype(str) == 'Secundario').astype(int)

mayor_a_universitario = concatEduc['nombre'].apply(estudioSuperior)

In [12]:
concatEduc['titulo_universitario'] = universitarios*graduados
concatEduc['titulo_secundario'] = secundario*graduados
concatEduc['titulo_superior'] = mayor_a_universitario * graduados

In [13]:
titulos = concatEduc.groupby('idpostulante').agg({'titulo_universitario':'max',
                                                   'titulo_secundario':'max',
                                                   'titulo_superior':'max'})
titulos.reset_index(inplace = True)

titulos.head()

Unnamed: 0,idpostulante,titulo_universitario,titulo_secundario,titulo_superior
0,0z5Dmrd,1,0,0
1,0z5JW1r,0,1,0
2,0z5VvGv,0,1,0
3,0zB01pE,0,0,0
4,0zB026d,0,1,0


Aqui creamos un nuevo DF llamado 'usuarios', donde cada fila corresponde a un usuario y 
posee las columnas que corresponden a los datos sobre su educacion, edad y genero

In [14]:
usuarios = concatAge.merge(titulos, on = 'idpostulante', how = 'left')
usuarios.head()

Unnamed: 0,idpostulante,edad,sexo_masculino,titulo_universitario,titulo_secundario,titulo_superior
0,eo2p,37.0,True,1.0,1.0,1.0
1,1d2B,42.0,True,0.0,0.0,0.0
2,EBO0,44.0,False,1.0,0.0,1.0
3,a6MKW,44.0,True,1.0,0.0,1.0
4,6MWd4,43.0,True,1.0,0.0,0.0


convertimos a booleano algunas columnas para reducir tamaño

In [15]:
usuarios['titulo_universitario'] = usuarios['titulo_universitario'].astype(bool)
usuarios['titulo_secundario'] = usuarios['titulo_secundario'].astype(bool)
usuarios['titulo_superior'] = usuarios['titulo_superior'].astype(bool)

In [20]:
usuarios.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 504407 entries, 0 to 504406
Data columns (total 6 columns):
idpostulante            504407 non-null object
edad                    504407 non-null float64
sexo_masculino          504407 non-null bool
titulo_universitario    504407 non-null bool
titulo_secundario       504407 non-null bool
titulo_superior         504407 non-null bool
dtypes: bool(4), float64(1), object(1)
memory usage: 13.5+ MB


# Pasamos a los datos sobre los avisos

Concatenamos toda la informacion sobre avisos

In [16]:
avisos = pd.concat([pd.read_csv('data/datos_navent_fiuba/fiuba_6_avisos_detalle.csv'),
                    pd.read_csv('data/entrega6/fiuba_6_avisos_detalle.csv'),
                    pd.read_csv('data/Fiuba desde 15 Abril/fiuba_6_avisos_detalle.csv'),
                    pd.read_csv('data/fiuba_6_avisos_detalle_missing_nivel_laboral.csv')])


avisos.head()

Unnamed: 0,idaviso,idpais,titulo,descripcion,nombre_zona,ciudad,mapacalle,tipo_de_trabajo,nivel_laboral,nombre_area,denominacion_empresa
0,8725750,1,VENDEDOR/A PROVINCIA DE SANTA FE,<p><strong><strong>Empresa:</strong></strong> ...,Gran Buenos Aires,,,Full-time,Senior / Semi-Senior,Comercial,VENTOR
1,17903700,1,Enfermeras,<p>Solicitamos para importante cadena de farma...,Gran Buenos Aires,,,Full-time,Senior / Semi-Senior,Salud,Farmacias Central Oeste
2,1000150677,1,Chofer de taxi,<p>TE GUSTA MANEJAR? QUERES GANAR PLATA HACIEN...,Capital Federal,,Empedrado 2336,Full-time,Senior / Semi-Senior,Transporte,FAMITAX SRL
3,1000610287,1,CHOFER DE CAMIONETA BAHIA BLANCA - PUNTA ALTA,<p><strong>Somos una empresa multinacional que...,Gran Buenos Aires,,,Full-time,Senior / Semi-Senior,Transporte,Wurth Argentina S.A
4,1000872556,1,Operarios de Planta - Rubro Electrodomésticos,<p><strong>OPERARIOS DE PLANTA</strong></p><p>...,Gran Buenos Aires,,,Full-time,Senior / Semi-Senior,Producción,ELECTRO OUTLET SRL


In [24]:
avisos.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 45969 entries, 0 to 337
Data columns (total 11 columns):
idaviso                 45969 non-null int64
idpais                  45969 non-null int64
titulo                  45969 non-null object
descripcion             45969 non-null object
nombre_zona             45969 non-null object
ciudad                  225 non-null object
mapacalle               3444 non-null object
tipo_de_trabajo         45969 non-null object
nivel_laboral           45634 non-null object
nombre_area             45969 non-null object
denominacion_empresa    45955 non-null object
dtypes: int64(2), object(9)
memory usage: 4.2+ MB


Eliminamos los datos repetidos, quedándonos con el último disponible

In [17]:
avisos.drop_duplicates('idaviso', keep = 'last', inplace = True)
avisos.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 25288 entries, 4 to 337
Data columns (total 11 columns):
idaviso                 25288 non-null int64
idpais                  25288 non-null int64
titulo                  25288 non-null object
descripcion             25288 non-null object
nombre_zona             25288 non-null object
ciudad                  160 non-null object
mapacalle               2070 non-null object
tipo_de_trabajo         25288 non-null object
nivel_laboral           24953 non-null object
nombre_area             25288 non-null object
denominacion_empresa    25281 non-null object
dtypes: int64(2), object(9)
memory usage: 2.3+ MB


In [26]:
avisos.idpais.value_counts()

1    25288
Name: idpais, dtype: int64

Eliminamos las columnas cuyos elementos son casi todos nulos, o cuyos datos son todos iguales

In [18]:
avisos.drop(columns = ['mapacalle','ciudad','idpais'], inplace = True)

In [28]:
avisos['tipo_de_trabajo'].value_counts()

Full-time          22831
Part-time           1746
Teletrabajo          248
Por Horas            125
Pasantia             119
Temporario            96
Por Contrato          88
Fines de Semana       28
Primer empleo          6
Voluntario             1
Name: tipo_de_trabajo, dtype: int64

Vemos que la mayoria de los tipos de trabajo son full o part-time. Creamos dos columnas que nos indiquen si el trabajo es Full-time y si es Part-time

In [19]:
avisos['Full-time'] = (avisos['tipo_de_trabajo'].astype(str) == 'Full-time').astype(bool)
avisos['Part-time'] = (avisos['tipo_de_trabajo'].astype(str) == 'Part-time').astype(bool)

In [30]:
avisos['nombre_zona'].value_counts()

Gran Buenos Aires              23017
Capital Federal                 2183
Buenos Aires (fuera de GBA)       57
GBA Oeste                         10
La Plata                           4
Mendoza                            3
Ciudad de Mendoza                  3
Cordoba                            2
Rosario                            2
Santa Fe                           1
Tucuman                            1
Corrientes                         1
Neuquen                            1
San Juan                           1
Santa Cruz                         1
Catamarca                          1
Name: nombre_zona, dtype: int64

Casi el 100% de los avisos son de GBA o capital federal. Creamos una columna booleanaque indique si el trabajo es en GBA

In [20]:
avisos.rename(columns = {'nombre_zona':'GBA'},inplace = True)

In [21]:
avisos['GBA'] = (avisos['GBA'].astype(str) == 'Gran Buenos Aires').astype(bool)
avisos.head(10)

Unnamed: 0,idaviso,titulo,descripcion,GBA,tipo_de_trabajo,nivel_laboral,nombre_area,denominacion_empresa,Full-time,Part-time
4,1000872556,Operarios de Planta - Rubro Electrodomésticos,<p><strong>OPERARIOS DE PLANTA</strong></p><p>...,True,Full-time,Senior / Semi-Senior,Producción,ELECTRO OUTLET SRL,True,False
8,9240880,"Productores Asesores Independiente, para venta...",Agente\r\noficial Selecciona:</span></strong><...,False,Full-time,Jefe / Supervisor / Responsable,Comercial,Agencia Oficial Alejandro Arizaga,True,False
19,1110185164,Administrativo de Recepción,<p>Centro Médico Accord se encuentra en la bús...,True,Full-time,Junior,Administración,Unión Personal,True,False
21,1110513885,Distribuidor domiciliario con moto (SAN MIGUEL),<p>Importante correo privado ubicado en SAN MI...,True,Full-time,Junior,Distribución,Asoko Tempo SA,True,False
32,1111034024,Vendedores para venta de medicina pre paga y o...,<p> </p><p><strong>Comercializadora incorpora ...,True,Full-time,Senior / Semi-Senior,Comercial,JELS SRL,True,False
35,1111101289,PM. Zona Norte / Pacheco,<p>Acciona IT se encuentra en la búsqueda de P...,True,Full-time,Senior / Semi-Senior,Liderazgo de Proyecto,ACCIONA IT,True,False
38,1111109704,"Supervisor de obra civil, eléctrico/ instrumen...",<p>Buscamos para importante empresa petrolera ...,True,Full-time,Senior / Semi-Senior,Construcción,Hahn Solarz S.R.L.,True,False
45,1111172357,Empleado Administrativo para Tramites de Habil...,"<p style=""""><strong><em><span style="""">Brujula...",True,Full-time,Senior / Semi-Senior,Administración,Brujula SA,True,False
46,1111174081,Gestor de Cobranzas - Telecobrador,<p><strong>En MAS ACTIVOS BPO te estamos esper...,False,Part-time,Senior / Semi-Senior,Call Center,MAS ACTIVOS S.A.,False,True
47,1111235995,Analista de Recursos Humanos - Quilmes (Plazo...,<p>Cervecería y Maltería Quilmes es una de las...,True,Full-time,Senior / Semi-Senior,Recursos Humanos,AB InBev - Cervecería y Maltería Quilmes,True,False


La columna de tipo de trabajo ya no es relevante, la dropeamos.

In [22]:
avisos.drop(columns = 'tipo_de_trabajo', inplace = True)

In [34]:
avisos['nivel_laboral'].value_counts()

Senior / Semi-Senior                    16975
Junior                                   4152
Otro                                     1977
Jefe / Supervisor / Responsable          1527
Gerencia / Alta Gerencia / Dirección      322
Name: nivel_laboral, dtype: int64

Transformamos la columna de niuvel laborar en 5 features que indiquen si el puesto de trabajo
corresponde o no a determinado nivel

In [23]:
avisos.rename(columns = {'nivel_laboral':'nivel'}, inplace = True)


In [24]:
avisos['senior'] = (avisos['nivel'].astype(str) == 'Senior / Semi-Senior').astype(bool)
avisos['junior'] = (avisos['nivel'].astype(str) == 'Junior').astype(bool)
avisos['otro'] = (avisos['nivel'].astype(str) == 'Otro').astype(bool)
avisos['Jefe'] = (avisos['nivel'].astype(str) == 'Jefe / Supervisor / Responsable').astype(bool)
avisos['Gerencia'] = (avisos['nivel'].astype(str) == 'Gerencia')

In [37]:
avisos.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 25288 entries, 4 to 337
Data columns (total 14 columns):
idaviso                 25288 non-null int64
titulo                  25288 non-null object
descripcion             25288 non-null object
GBA                     25288 non-null bool
nivel                   24953 non-null object
nombre_area             25288 non-null object
denominacion_empresa    25281 non-null object
Full-time               25288 non-null bool
Part-time               25288 non-null bool
senior                  25288 non-null bool
junior                  25288 non-null bool
otro                    25288 non-null bool
Jefe                    25288 non-null bool
Gerencia                25288 non-null bool
dtypes: bool(8), int64(1), object(5)
memory usage: 1.5+ MB


In [38]:
avisos['nombre_area'].value_counts()

Ventas                                       3153
Comercial                                    1780
Administración                               1708
Producción                                   1536
Programación                                  958
Contabilidad                                  783
Tecnologia / Sistemas                         758
Atención al Cliente                           657
Mantenimiento                                 537
Recursos Humanos                              423
Logística                                     400
Gastronomia                                   394
Call Center                                   391
Soporte Técnico                               382
Almacén / Depósito / Expedición               379
Oficios y Profesiones                         377
Marketing                                     321
Recepcionista                                 306
Mantenimiento y Limpieza                      295
Compras                                       287


Agregamos features que indiquen si el aviso corresponde a una determinada area laboral, para
las N areas laborales que querramos

In [25]:
top_areas = avisos['nombre_area'].value_counts().nlargest(15).index
for area in top_areas:
    avisos[area] = (avisos['nombre_area'] == area).astype(bool)
    
avisos.head()

Unnamed: 0,idaviso,titulo,descripcion,GBA,nivel,nombre_area,denominacion_empresa,Full-time,Part-time,senior,...,Contabilidad,Tecnologia / Sistemas,Atención al Cliente,Mantenimiento,Recursos Humanos,Logística,Gastronomia,Call Center,Soporte Técnico,Almacén / Depósito / Expedición
4,1000872556,Operarios de Planta - Rubro Electrodomésticos,<p><strong>OPERARIOS DE PLANTA</strong></p><p>...,True,Senior / Semi-Senior,Producción,ELECTRO OUTLET SRL,True,False,True,...,False,False,False,False,False,False,False,False,False,False
8,9240880,"Productores Asesores Independiente, para venta...",Agente\r\noficial Selecciona:</span></strong><...,False,Jefe / Supervisor / Responsable,Comercial,Agencia Oficial Alejandro Arizaga,True,False,False,...,False,False,False,False,False,False,False,False,False,False
19,1110185164,Administrativo de Recepción,<p>Centro Médico Accord se encuentra en la bús...,True,Junior,Administración,Unión Personal,True,False,False,...,False,False,False,False,False,False,False,False,False,False
21,1110513885,Distribuidor domiciliario con moto (SAN MIGUEL),<p>Importante correo privado ubicado en SAN MI...,True,Junior,Distribución,Asoko Tempo SA,True,False,False,...,False,False,False,False,False,False,False,False,False,False
32,1111034024,Vendedores para venta de medicina pre paga y o...,<p> </p><p><strong>Comercializadora incorpora ...,True,Senior / Semi-Senior,Comercial,JELS SRL,True,False,True,...,False,False,False,False,False,False,False,False,False,False


Dropeamos algunas columnas que ya no nos interesan mas

In [26]:
avisos.drop(columns = ['titulo','descripcion','denominacion_empresa','nivel'],
            inplace = True)

In [41]:
avisos.head()

Unnamed: 0,idaviso,GBA,nombre_area,Full-time,Part-time,senior,junior,otro,Jefe,Gerencia,...,Contabilidad,Tecnologia / Sistemas,Atención al Cliente,Mantenimiento,Recursos Humanos,Logística,Gastronomia,Call Center,Soporte Técnico,Almacén / Depósito / Expedición
4,1000872556,True,Producción,True,False,True,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
8,9240880,False,Comercial,True,False,False,False,False,True,False,...,False,False,False,False,False,False,False,False,False,False
19,1110185164,True,Administración,True,False,False,True,False,False,False,...,False,False,False,False,False,False,False,False,False,False
21,1110513885,True,Distribución,True,False,False,True,False,False,False,...,False,False,False,False,False,False,False,False,False,False
32,1111034024,True,Comercial,True,False,True,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False


In [42]:
avisos.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 25288 entries, 4 to 337
Data columns (total 25 columns):
idaviso                            25288 non-null int64
GBA                                25288 non-null bool
nombre_area                        25288 non-null object
Full-time                          25288 non-null bool
Part-time                          25288 non-null bool
senior                             25288 non-null bool
junior                             25288 non-null bool
otro                               25288 non-null bool
Jefe                               25288 non-null bool
Gerencia                           25288 non-null bool
Ventas                             25288 non-null bool
Comercial                          25288 non-null bool
Administración                     25288 non-null bool
Producción                         25288 non-null bool
Programación                       25288 non-null bool
Contabilidad                       25288 non-null bool
Tecnologia

# Vistas

Concatenamos todos los datos de vistas en un DF

In [27]:
concatVistas = pd.concat([pd.read_csv('data/datos_navent_fiuba/fiuba_3_vistas.csv'),
                          pd.read_csv('data/entrega6/fiuba_3_vistas.csv'),
                          pd.read_csv('data/Fiuba desde 15 Abril/fiuba_3_vistas.csv')])

concatVistas.head()

Unnamed: 0,idAviso,timestamp,idpostulante
0,1111780242,2018-02-23T13:38:13.187-0500,YjVJQ6Z
1,1112263876,2018-02-23T13:38:14.296-0500,BmVpYoR
2,1112327963,2018-02-23T13:38:14.329-0500,wVkBzZd
3,1112318643,2018-02-23T13:38:17.921-0500,OqmP9pv
4,1111903673,2018-02-23T13:38:18.973-0500,DrpbXDP


In [44]:
concatVistas.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 18368813 entries, 0 to 11648229
Data columns (total 3 columns):
idAviso         int64
timestamp       object
idpostulante    object
dtypes: int64(1), object(2)
memory usage: 560.6+ MB


En vez guardar un registro de cada visita realizada, guardamos la cantidad de visitas 
que realizo cada postulante a cada aviso que visitó

In [28]:
concatVistas['visitas'] = 1
concatVistas.rename(columns = {'idAviso':'idaviso'}, inplace = True)

In [29]:
concatVistas = concatVistas.groupby(['idpostulante','idaviso'])\
                           .agg({'visitas':'sum'})\
                           .reset_index()

In [47]:
concatVistas.head()

Unnamed: 0,idpostulante,idaviso,visitas
0,0002q,1789742,4
1,0002q,1807692,6
2,0002q,1808090,5
3,0005E,1744005,3
4,0005E,1785430,2


In [48]:
concatVistas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8597915 entries, 0 to 8597914
Data columns (total 3 columns):
idpostulante    object
idaviso         int64
visitas         int64
dtypes: int64(2), object(1)
memory usage: 196.8+ MB


# Pasamos a las postulaciones

Concatenamos los datos de postulaciones disponibles

In [30]:
postulaciones = pd.concat([pd.read_csv('data/datos_navent_fiuba/fiuba_4_postulaciones.csv'),
                           pd.read_csv('data/entrega6/fiuba_4_postulaciones.csv')])
postulaciones.head()

Unnamed: 0,idaviso,idpostulante,fechapostulacion
0,1112257047,NM5M,2018-01-15 16:22:34
1,1111920714,NM5M,2018-02-06 09:04:50
2,1112346945,NM5M,2018-02-22 09:04:47
3,1112345547,NM5M,2018-02-22 09:04:59
4,1112237522,5awk,2018-01-25 18:55:03


Dropeamos la columna de fecha/horario ya que no nos interesa

In [31]:
postulaciones.drop(columns = 'fechapostulacion', inplace = True)

In [51]:
postulaciones.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 8311264 entries, 0 to 4909640
Data columns (total 2 columns):
idaviso         int64
idpostulante    object
dtypes: int64(1), object(1)
memory usage: 190.2+ MB


Eliminamos las postulaciones duplicadas

In [32]:
postulaciones.drop_duplicates(subset = ['idaviso','idpostulante'],
                              keep = 'first',
                              inplace = True)
postulaciones.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6603752 entries, 0 to 4909640
Data columns (total 2 columns):
idaviso         int64
idpostulante    object
dtypes: int64(1), object(1)
memory usage: 151.1+ MB


### Aca agrego features a los usuarios de acuerdo a las areas a las que postularon

In [33]:
postulaciones = postulaciones.merge(avisos[['idaviso','nombre_area']],
                                    on  = 'idaviso',
                                    how = 'left')

In [54]:
postulaciones.head()

Unnamed: 0,idaviso,idpostulante,nombre_area
0,1112257047,NM5M,Atención al Cliente
1,1111920714,NM5M,Telemarketing
2,1112346945,NM5M,Telemarketing
3,1112345547,NM5M,Telemarketing
4,1112237522,5awk,Contabilidad


Listamos(manteniendo la multiplicidad), las áreas a las que se postulo cada usuarios

In [34]:
areas_por_postulante = postulaciones.groupby('idpostulante')\
                .agg({'nombre_area': lambda x: list(x),
                      'idaviso':'count'})

areas_por_postulante.head()

Unnamed: 0_level_0,nombre_area,idaviso
idpostulante,Unnamed: 1_level_1,Unnamed: 2_level_1
0z5Dmrd,"[Recursos Humanos, Recursos Humanos]",2
0z5JW1r,"[Almacén / Depósito / Expedición, Comercial, D...",7
0z5VvGv,"[Ventas, Ventas, Atención al Cliente, Atención...",50
0zB01pE,"[Administracion de Seguros, Administracion de ...",3
0zB026d,"[Producción, Producción, Producción, Producció...",10


In [35]:
areas_por_postulante.reset_index(inplace = True)
areas_por_postulante.rename(columns = {'nombre_area':'areas', 'idaviso':'cantidad_postulaciones'},
                            inplace = True)

areas_por_postulante.head()

Unnamed: 0,idpostulante,areas,cantidad_postulaciones
0,0z5Dmrd,"[Recursos Humanos, Recursos Humanos]",2
1,0z5JW1r,"[Almacén / Depósito / Expedición, Comercial, D...",7
2,0z5VvGv,"[Ventas, Ventas, Atención al Cliente, Atención...",50
3,0zB01pE,"[Administracion de Seguros, Administracion de ...",3
4,0zB026d,"[Producción, Producción, Producción, Producció...",10


In [57]:
areas_por_postulante.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 348883 entries, 0 to 348882
Data columns (total 3 columns):
idpostulante              348883 non-null object
areas                     348883 non-null object
cantidad_postulaciones    348883 non-null int64
dtypes: int64(1), object(2)
memory usage: 8.0+ MB


Aqui vamos a agregar un feature que indique, por cada una de las top_areas que habiamos
definido cuando trabajamos con los avisos, que indique la cantidad de postulaciones que cada
usuarios realizo a esa area

In [36]:
for area in top_areas:
    print(area)
    lista_area = []
    for i in range(0,len(areas_por_postulante)):
        lista_areas_usuario = areas_por_postulante.loc[i,'areas']
        lista_area.append(lista_areas_usuario.count(area))
    
    areas_por_postulante['postulaciones_'+ area] = pd.Series(lista_area)

Ventas
Comercial
Administración
Producción
Programación
Contabilidad
Tecnologia / Sistemas
Atención al Cliente
Mantenimiento
Recursos Humanos
Logística
Gastronomia
Call Center
Soporte Técnico
Almacén / Depósito / Expedición


In [59]:
areas_por_postulante.head()

Unnamed: 0,idpostulante,areas,cantidad_postulaciones,postulaciones_Ventas,postulaciones_Comercial,postulaciones_Administración,postulaciones_Producción,postulaciones_Programación,postulaciones_Contabilidad,postulaciones_Tecnologia / Sistemas,postulaciones_Atención al Cliente,postulaciones_Mantenimiento,postulaciones_Recursos Humanos,postulaciones_Logística,postulaciones_Gastronomia,postulaciones_Call Center,postulaciones_Soporte Técnico,postulaciones_Almacén / Depósito / Expedición
0,0z5Dmrd,"[Recursos Humanos, Recursos Humanos]",2,0,0,0,0,0,0,0,0,0,2,0,0,0,0,0
1,0z5JW1r,"[Almacén / Depósito / Expedición, Comercial, D...",7,1,1,0,0,0,0,0,0,0,0,0,1,0,0,1
2,0z5VvGv,"[Ventas, Ventas, Atención al Cliente, Atención...",50,13,7,1,0,0,0,1,11,0,0,1,0,4,0,0
3,0zB01pE,"[Administracion de Seguros, Administracion de ...",3,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
4,0zB026d,"[Producción, Producción, Producción, Producció...",10,1,0,0,8,0,0,0,0,0,0,0,0,0,0,1


Agregamos al DF de usuarios estas columnas (features) que acabamos de calcular. 

In [37]:
usuarios = usuarios.merge(areas_por_postulante.drop(columns = 'areas'),
                          on = 'idpostulante',
                          how = 'left')
usuarios.head()

Unnamed: 0,idpostulante,edad,sexo_masculino,titulo_universitario,titulo_secundario,titulo_superior,cantidad_postulaciones,postulaciones_Ventas,postulaciones_Comercial,postulaciones_Administración,...,postulaciones_Contabilidad,postulaciones_Tecnologia / Sistemas,postulaciones_Atención al Cliente,postulaciones_Mantenimiento,postulaciones_Recursos Humanos,postulaciones_Logística,postulaciones_Gastronomia,postulaciones_Call Center,postulaciones_Soporte Técnico,postulaciones_Almacén / Depósito / Expedición
0,eo2p,37.0,True,True,True,True,6.0,0.0,1.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,1d2B,42.0,True,False,False,False,4.0,1.0,0.0,1.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,EBO0,44.0,False,True,False,True,8.0,0.0,3.0,1.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,a6MKW,44.0,True,True,False,True,3.0,0.0,1.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,6MWd4,43.0,True,True,False,False,3.0,0.0,2.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [61]:
usuarios.isnull().sum()

idpostulante                                          0
edad                                                  0
sexo_masculino                                        0
titulo_universitario                                  0
titulo_secundario                                     0
titulo_superior                                       0
cantidad_postulaciones                           155524
postulaciones_Ventas                             155524
postulaciones_Comercial                          155524
postulaciones_Administración                     155524
postulaciones_Producción                         155524
postulaciones_Programación                       155524
postulaciones_Contabilidad                       155524
postulaciones_Tecnologia / Sistemas              155524
postulaciones_Atención al Cliente                155524
postulaciones_Mantenimiento                      155524
postulaciones_Recursos Humanos                   155524
postulaciones_Logística                         

Tenemos usuarios que no realizaron postulaciones, por eso poseen algunos features nulos, 
los completamos con ceros, que es lo que corresponde en este caso

In [38]:
usuarios.fillna(0, inplace = True)
usuarios.isnull().sum()

idpostulante                                     0
edad                                             0
sexo_masculino                                   0
titulo_universitario                             0
titulo_secundario                                0
titulo_superior                                  0
cantidad_postulaciones                           0
postulaciones_Ventas                             0
postulaciones_Comercial                          0
postulaciones_Administración                     0
postulaciones_Producción                         0
postulaciones_Programación                       0
postulaciones_Contabilidad                       0
postulaciones_Tecnologia / Sistemas              0
postulaciones_Atención al Cliente                0
postulaciones_Mantenimiento                      0
postulaciones_Recursos Humanos                   0
postulaciones_Logística                          0
postulaciones_Gastronomia                        0
postulaciones_Call Center      

### Postulaciones por aviso

In [39]:
postulaciones_por_aviso = postulaciones.groupby('idaviso')\
                                        .agg({'idpostulante':'count'})

In [40]:
postulaciones_por_aviso.reset_index(inplace = True)

In [41]:
postulaciones_por_aviso.rename(columns = {'idpostulante':'postulaciones_aviso'}, inplace = True)
postulaciones_por_aviso.head()

Unnamed: 0,idaviso,postulaciones_aviso
0,8725750,137
1,11740890,13
2,12543760,1080
3,12812680,159
4,17903700,175


In [42]:
avisos = avisos.merge(postulaciones_por_aviso, on = 'idaviso', how = 'left')
avisos.head()

Unnamed: 0,idaviso,GBA,nombre_area,Full-time,Part-time,senior,junior,otro,Jefe,Gerencia,...,Tecnologia / Sistemas,Atención al Cliente,Mantenimiento,Recursos Humanos,Logística,Gastronomia,Call Center,Soporte Técnico,Almacén / Depósito / Expedición,postulaciones_aviso
0,1000872556,True,Producción,True,False,True,False,False,False,False,...,False,False,False,False,False,False,False,False,False,
1,9240880,False,Comercial,True,False,False,False,False,True,False,...,False,False,False,False,False,False,False,False,False,
2,1110185164,True,Administración,True,False,False,True,False,False,False,...,False,False,False,False,False,False,False,False,False,
3,1110513885,True,Distribución,True,False,False,True,False,False,False,...,False,False,False,False,False,False,False,False,False,
4,1111034024,True,Comercial,True,False,True,False,False,False,False,...,False,False,False,False,False,False,False,False,False,


In [67]:
avisos['postulaciones_aviso'].isnull().sum()

6593

In [43]:
avisos['postulaciones_aviso'].fillna(0,inplace = True)
avisos.head()

Unnamed: 0,idaviso,GBA,nombre_area,Full-time,Part-time,senior,junior,otro,Jefe,Gerencia,...,Tecnologia / Sistemas,Atención al Cliente,Mantenimiento,Recursos Humanos,Logística,Gastronomia,Call Center,Soporte Técnico,Almacén / Depósito / Expedición,postulaciones_aviso
0,1000872556,True,Producción,True,False,True,False,False,False,False,...,False,False,False,False,False,False,False,False,False,0.0
1,9240880,False,Comercial,True,False,False,False,False,True,False,...,False,False,False,False,False,False,False,False,False,0.0
2,1110185164,True,Administración,True,False,False,True,False,False,False,...,False,False,False,False,False,False,False,False,False,0.0
3,1110513885,True,Distribución,True,False,False,True,False,False,False,...,False,False,False,False,False,False,False,False,False,0.0
4,1111034024,True,Comercial,True,False,True,False,False,False,False,...,False,False,False,False,False,False,False,False,False,0.0


### Volvemos a las postulaciones

In [69]:
postulaciones.head()

Unnamed: 0,idaviso,idpostulante,nombre_area
0,1112257047,NM5M,Atención al Cliente
1,1111920714,NM5M,Telemarketing
2,1112346945,NM5M,Telemarketing
3,1112345547,NM5M,Telemarketing
4,1112237522,5awk,Contabilidad


A cada postulacion le agregamos los features del aviso en cuestión

In [44]:
postulaciones.drop(columns = 'nombre_area', inplace = True)
postulaciones = postulaciones.merge(avisos, 
                                    on = 'idaviso',
                                    how = 'left')

postulaciones.head()

Unnamed: 0,idaviso,idpostulante,GBA,nombre_area,Full-time,Part-time,senior,junior,otro,Jefe,...,Tecnologia / Sistemas,Atención al Cliente,Mantenimiento,Recursos Humanos,Logística,Gastronomia,Call Center,Soporte Técnico,Almacén / Depósito / Expedición,postulaciones_aviso
0,1112257047,NM5M,True,Atención al Cliente,False,True,False,False,True,False,...,False,True,False,False,False,False,False,False,False,2391.0
1,1111920714,NM5M,True,Telemarketing,False,True,True,False,False,False,...,False,False,False,False,False,False,False,False,False,524.0
2,1112346945,NM5M,True,Telemarketing,True,False,True,False,False,False,...,False,False,False,False,False,False,False,False,False,1126.0
3,1112345547,NM5M,True,Telemarketing,True,False,True,False,False,False,...,False,False,False,False,False,False,False,False,False,1804.0
4,1112237522,5awk,True,Contabilidad,True,False,True,False,False,False,...,False,False,False,False,False,False,False,False,False,193.0


In [71]:
postulaciones.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6603752 entries, 0 to 6603751
Data columns (total 27 columns):
idaviso                            int64
idpostulante                       object
GBA                                object
nombre_area                        object
Full-time                          object
Part-time                          object
senior                             object
junior                             object
otro                               object
Jefe                               object
Gerencia                           object
Ventas                             object
Comercial                          object
Administración                     object
Producción                         object
Programación                       object
Contabilidad                       object
Tecnologia / Sistemas              object
Atención al Cliente                object
Mantenimiento                      object
Recursos Humanos                   object
Logíst

Agregamos una columna que indique que se realizo una postulación que implica el par
(idpostulante, idaviso). Esto ahora parece no tener sentido, pero luego querremos tener
también pares que no impliquen una postulacion, y de esta forma podremos diferenciarlos

In [45]:
postulaciones['postulacion'] = True
postulaciones.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6603752 entries, 0 to 6603751
Data columns (total 28 columns):
idaviso                            int64
idpostulante                       object
GBA                                object
nombre_area                        object
Full-time                          object
Part-time                          object
senior                             object
junior                             object
otro                               object
Jefe                               object
Gerencia                           object
Ventas                             object
Comercial                          object
Administración                     object
Producción                         object
Programación                       object
Contabilidad                       object
Tecnologia / Sistemas              object
Atención al Cliente                object
Mantenimiento                      object
Recursos Humanos                   object
Logíst

Ahora agregamos a la postulacion, al igual que agregamos los datos de los avisos, los datos
de los usuarios

In [46]:
postulaciones = postulaciones.merge(usuarios, on = 'idpostulante', how = 'left')
postulaciones.head()

Unnamed: 0,idaviso,idpostulante,GBA,nombre_area,Full-time,Part-time,senior,junior,otro,Jefe,...,postulaciones_Contabilidad,postulaciones_Tecnologia / Sistemas,postulaciones_Atención al Cliente,postulaciones_Mantenimiento,postulaciones_Recursos Humanos,postulaciones_Logística,postulaciones_Gastronomia,postulaciones_Call Center,postulaciones_Soporte Técnico,postulaciones_Almacén / Depósito / Expedición
0,1112257047,NM5M,True,Atención al Cliente,False,True,False,False,True,False,...,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,1111920714,NM5M,True,Telemarketing,False,True,True,False,False,False,...,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,1112346945,NM5M,True,Telemarketing,True,False,True,False,False,False,...,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,1112345547,NM5M,True,Telemarketing,True,False,True,False,False,False,...,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,1112237522,5awk,True,Contabilidad,True,False,True,False,False,False,...,9.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [74]:
postulaciones.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6603752 entries, 0 to 6603751
Data columns (total 49 columns):
idaviso                                          int64
idpostulante                                     object
GBA                                              object
nombre_area                                      object
Full-time                                        object
Part-time                                        object
senior                                           object
junior                                           object
otro                                             object
Jefe                                             object
Gerencia                                         object
Ventas                                           object
Comercial                                        object
Administración                                   object
Producción                                       object
Programación                                    

Por alguna razon que desconozco, columnas que antes eran booleanas se transformaron en object
y aumento mucho el tamaño de los datos. Vamos a transformarlas nuevamente en booleanas

In [47]:
columnas_booleanas = ['GBA','Full-time',
       'Part-time', 'senior', 'junior', 'otro', 'Jefe', 'Gerencia', 'Ventas',
       'Comercial', 'Administración', 'Producción', 'Programación',
       'Contabilidad', 'Tecnologia / Sistemas', 'Atención al Cliente',
       'Mantenimiento', 'Recursos Humanos', 'Logística', 'Gastronomia',
       'Call Center', 'Soporte Técnico', 'Almacén / Depósito / Expedición',
       'postulacion','sexo_masculino', 'titulo_universitario',
       'titulo_secundario', 'titulo_superior']

In [48]:
for columna in columnas_booleanas:
    postulaciones[columna] = postulaciones[columna].astype(bool)
    
postulaciones.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6603752 entries, 0 to 6603751
Data columns (total 49 columns):
idaviso                                          int64
idpostulante                                     object
GBA                                              bool
nombre_area                                      object
Full-time                                        bool
Part-time                                        bool
senior                                           bool
junior                                           bool
otro                                             bool
Jefe                                             bool
Gerencia                                         bool
Ventas                                           bool
Comercial                                        bool
Administración                                   bool
Producción                                       bool
Programación                                     bool
Contabilidad      

Agregamos a las postulaciones la cantidad de visitas que cada usuario realizo al aviso
al que se postuló

In [49]:
postulaciones = postulaciones.merge(concatVistas,
                                    on = ['idaviso','idpostulante'],
                                    how = 'left')
postulaciones.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6603752 entries, 0 to 6603751
Data columns (total 50 columns):
idaviso                                          int64
idpostulante                                     object
GBA                                              bool
nombre_area                                      object
Full-time                                        bool
Part-time                                        bool
senior                                           bool
junior                                           bool
otro                                             bool
Jefe                                             bool
Gerencia                                         bool
Ventas                                           bool
Comercial                                        bool
Administración                                   bool
Producción                                       bool
Programación                                     bool
Contabilidad      

In [50]:
postulaciones['visitas'].fillna(0,inplace = True)
postulaciones.head()

Unnamed: 0,idaviso,idpostulante,GBA,nombre_area,Full-time,Part-time,senior,junior,otro,Jefe,...,postulaciones_Tecnologia / Sistemas,postulaciones_Atención al Cliente,postulaciones_Mantenimiento,postulaciones_Recursos Humanos,postulaciones_Logística,postulaciones_Gastronomia,postulaciones_Call Center,postulaciones_Soporte Técnico,postulaciones_Almacén / Depósito / Expedición,visitas
0,1112257047,NM5M,True,Atención al Cliente,False,True,False,False,True,False,...,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,1111920714,NM5M,True,Telemarketing,False,True,True,False,False,False,...,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,1112346945,NM5M,True,Telemarketing,True,False,True,False,False,False,...,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,1112345547,NM5M,True,Telemarketing,True,False,True,False,False,False,...,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,1112237522,5awk,True,Contabilidad,True,False,True,False,False,False,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [79]:
postulaciones.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6603752 entries, 0 to 6603751
Data columns (total 50 columns):
idaviso                                          int64
idpostulante                                     object
GBA                                              bool
nombre_area                                      object
Full-time                                        bool
Part-time                                        bool
senior                                           bool
junior                                           bool
otro                                             bool
Jefe                                             bool
Gerencia                                         bool
Ventas                                           bool
Comercial                                        bool
Administración                                   bool
Producción                                       bool
Programación                                     bool
Contabilidad      

In [80]:
postulaciones.isnull().sum()

idaviso                                               0
idpostulante                                          0
GBA                                                   0
nombre_area                                      415823
Full-time                                             0
Part-time                                             0
senior                                                0
junior                                                0
otro                                                  0
Jefe                                                  0
Gerencia                                              0
Ventas                                                0
Comercial                                             0
Administración                                        0
Producción                                            0
Programación                                          0
Contabilidad                                          0
Tecnologia / Sistemas                           

Aqui ya tenemos un set de datos que nos serviría para entrenar a un algoritmo 
de Machine Learning. Este algoritmo debe predecir si un postulante se postuló o no a un 
determinado aviso basandose en los features que definimos. Se podria decir que se trata
de un problema de clasificación binaria, donde las categorias posibles de clasificación son
'postulacion' o 'no_postulacion'. 
Bajo esta caracterización del problema, ahora nuestro set de entrenamiento resulta incompleto,
ya que solo tenemos datos de una categoría ('postulacion' o columna 'postulacion' = True).
Por lo tanto debemos generar datos que correspondan a pares de usuarios y avisos cuya 
categoría corresponda a 'no_postulacion'.

## Generando No_Postulaciones

Tomo al azar una cantidad de usuarios y avisos. Los uno indice a indice, y luego le doy al 
DF el mismo formato que el DF de postulaciones

In [51]:
no_postulaciones = usuarios.sample(10000)
for i in range(1,300):
    no_postulaciones = pd.concat([no_postulaciones, usuarios.sample(25000)])

In [52]:
avisos_no_postulaciones = avisos.sample(10000)
for i in range(1,300):
    avisos_no_postulaciones = pd.concat([avisos_no_postulaciones,avisos.sample(25000)])

In [83]:
no_postulaciones.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 7485000 entries, 82541 to 374595
Data columns (total 22 columns):
idpostulante                                     object
edad                                             float64
sexo_masculino                                   bool
titulo_universitario                             bool
titulo_secundario                                bool
titulo_superior                                  bool
cantidad_postulaciones                           float64
postulaciones_Ventas                             float64
postulaciones_Comercial                          float64
postulaciones_Administración                     float64
postulaciones_Producción                         float64
postulaciones_Programación                       float64
postulaciones_Contabilidad                       float64
postulaciones_Tecnologia / Sistemas              float64
postulaciones_Atención al Cliente                float64
postulaciones_Mantenimiento               

In [84]:
no_postulaciones.head()

Unnamed: 0,idpostulante,edad,sexo_masculino,titulo_universitario,titulo_secundario,titulo_superior,cantidad_postulaciones,postulaciones_Ventas,postulaciones_Comercial,postulaciones_Administración,...,postulaciones_Contabilidad,postulaciones_Tecnologia / Sistemas,postulaciones_Atención al Cliente,postulaciones_Mantenimiento,postulaciones_Recursos Humanos,postulaciones_Logística,postulaciones_Gastronomia,postulaciones_Call Center,postulaciones_Soporte Técnico,postulaciones_Almacén / Depósito / Expedición
82541,ow2XMRa,20.0,False,False,True,False,5.0,2.0,1.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
248100,6rZX8Kx,30.0,True,True,False,False,31.0,0.0,0.0,3.0,...,19.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
203964,RzrAwV9,31.0,False,False,True,False,17.0,5.0,0.0,1.0,...,0.0,0.0,1.0,0.0,0.0,0.0,0.0,2.0,0.0,0.0
73515,96X8GPw,18.0,False,False,True,False,10.0,1.0,2.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
72139,2zPD52w,22.0,False,False,True,False,4.0,0.0,1.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [53]:
no_postulaciones.reset_index(inplace = True)
no_postulaciones.drop(columns = 'index', inplace = True)
no_postulaciones.head()

Unnamed: 0,idpostulante,edad,sexo_masculino,titulo_universitario,titulo_secundario,titulo_superior,cantidad_postulaciones,postulaciones_Ventas,postulaciones_Comercial,postulaciones_Administración,...,postulaciones_Contabilidad,postulaciones_Tecnologia / Sistemas,postulaciones_Atención al Cliente,postulaciones_Mantenimiento,postulaciones_Recursos Humanos,postulaciones_Logística,postulaciones_Gastronomia,postulaciones_Call Center,postulaciones_Soporte Técnico,postulaciones_Almacén / Depósito / Expedición
0,YAr32r,46.0,False,False,False,False,15.0,1.0,0.0,1.0,...,0.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0
1,qewYZKx,37.0,False,True,True,True,7.0,2.0,1.0,2.0,...,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,OqbVj26,49.0,False,False,True,False,9.0,1.0,0.0,0.0,...,0.0,0.0,1.0,0.0,0.0,0.0,0.0,3.0,0.0,0.0
3,GNoMzLe,22.0,False,False,True,False,10.0,0.0,0.0,4.0,...,0.0,0.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
4,EzeYwB6,49.0,False,True,True,True,4.0,1.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0


In [86]:
avisos_no_postulaciones.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 7485000 entries, 24258 to 8555
Data columns (total 26 columns):
idaviso                            int64
GBA                                bool
nombre_area                        object
Full-time                          bool
Part-time                          bool
senior                             bool
junior                             bool
otro                               bool
Jefe                               bool
Gerencia                           bool
Ventas                             bool
Comercial                          bool
Administración                     bool
Producción                         bool
Programación                       bool
Contabilidad                       bool
Tecnologia / Sistemas              bool
Atención al Cliente                bool
Mantenimiento                      bool
Recursos Humanos                   bool
Logística                          bool
Gastronomia                        bool
Cal

In [87]:
avisos_no_postulaciones.head()

Unnamed: 0,idaviso,GBA,nombre_area,Full-time,Part-time,senior,junior,otro,Jefe,Gerencia,...,Tecnologia / Sistemas,Atención al Cliente,Mantenimiento,Recursos Humanos,Logística,Gastronomia,Call Center,Soporte Técnico,Almacén / Depósito / Expedición,postulaciones_aviso
24258,1112390398,True,Seguridad,True,False,True,False,False,False,False,...,False,False,False,False,False,False,False,False,False,289.0
7859,1112386592,True,Administración,True,False,True,False,False,False,False,...,False,False,False,False,False,False,False,False,False,98.0
15898,1112452548,True,Ingeniería Química,True,False,False,False,False,True,False,...,False,False,False,False,False,False,False,False,False,43.0
2601,1112091103,True,Programación,True,False,True,False,False,False,False,...,False,False,False,False,False,False,False,False,False,16.0
6672,1112378389,True,Ventas,True,False,True,False,False,False,False,...,False,False,False,False,False,False,False,False,False,145.0


In [54]:
avisos_no_postulaciones.reset_index(inplace = True)
avisos_no_postulaciones.drop(columns = 'index', inplace = True)
avisos_no_postulaciones.head()

Unnamed: 0,idaviso,GBA,nombre_area,Full-time,Part-time,senior,junior,otro,Jefe,Gerencia,...,Tecnologia / Sistemas,Atención al Cliente,Mantenimiento,Recursos Humanos,Logística,Gastronomia,Call Center,Soporte Técnico,Almacén / Depósito / Expedición,postulaciones_aviso
0,1112267095,True,Contabilidad,True,False,True,False,False,False,False,...,False,False,False,False,False,False,False,False,False,284.0
1,1112340185,True,Camareros,True,False,True,False,False,False,False,...,False,False,False,False,False,False,False,False,False,1039.0
2,1112272774,True,Contabilidad,True,False,False,False,False,True,False,...,False,False,False,False,False,False,False,False,False,167.0
3,1112205015,True,Comercial,True,False,True,False,False,False,False,...,False,False,False,False,False,False,False,False,False,124.0
4,1112494019,True,Tecnologia / Sistemas,True,False,True,False,False,False,False,...,True,False,False,False,False,False,False,False,False,0.0


In [89]:
avisos_no_postulaciones.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7485000 entries, 0 to 7484999
Data columns (total 26 columns):
idaviso                            int64
GBA                                bool
nombre_area                        object
Full-time                          bool
Part-time                          bool
senior                             bool
junior                             bool
otro                               bool
Jefe                               bool
Gerencia                           bool
Ventas                             bool
Comercial                          bool
Administración                     bool
Producción                         bool
Programación                       bool
Contabilidad                       bool
Tecnologia / Sistemas              bool
Atención al Cliente                bool
Mantenimiento                      bool
Recursos Humanos                   bool
Logística                          bool
Gastronomia                        bool
Call

In [55]:
no_postulaciones = no_postulaciones.join(avisos_no_postulaciones)
no_postulaciones.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7485000 entries, 0 to 7484999
Data columns (total 48 columns):
idpostulante                                     object
edad                                             float64
sexo_masculino                                   bool
titulo_universitario                             bool
titulo_secundario                                bool
titulo_superior                                  bool
cantidad_postulaciones                           float64
postulaciones_Ventas                             float64
postulaciones_Comercial                          float64
postulaciones_Administración                     float64
postulaciones_Producción                         float64
postulaciones_Programación                       float64
postulaciones_Contabilidad                       float64
postulaciones_Tecnologia / Sistemas              float64
postulaciones_Atención al Cliente                float64
postulaciones_Mantenimiento                  

In [56]:
no_postulaciones['postulacion'] = False
no_postulaciones.head()

Unnamed: 0,idpostulante,edad,sexo_masculino,titulo_universitario,titulo_secundario,titulo_superior,cantidad_postulaciones,postulaciones_Ventas,postulaciones_Comercial,postulaciones_Administración,...,Atención al Cliente,Mantenimiento,Recursos Humanos,Logística,Gastronomia,Call Center,Soporte Técnico,Almacén / Depósito / Expedición,postulaciones_aviso,postulacion
0,YAr32r,46.0,False,False,False,False,15.0,1.0,0.0,1.0,...,False,False,False,False,False,False,False,False,284.0,False
1,qewYZKx,37.0,False,True,True,True,7.0,2.0,1.0,2.0,...,False,False,False,False,False,False,False,False,1039.0,False
2,OqbVj26,49.0,False,False,True,False,9.0,1.0,0.0,0.0,...,False,False,False,False,False,False,False,False,167.0,False
3,GNoMzLe,22.0,False,False,True,False,10.0,0.0,0.0,4.0,...,False,False,False,False,False,False,False,False,124.0,False
4,EzeYwB6,49.0,False,True,True,True,4.0,1.0,0.0,0.0,...,False,False,False,False,False,False,False,False,0.0,False


In [57]:
no_postulaciones = no_postulaciones.merge(concatVistas,
                                          on = ['idaviso','idpostulante'],
                                          how = 'left')
no_postulaciones.head()

Unnamed: 0,idpostulante,edad,sexo_masculino,titulo_universitario,titulo_secundario,titulo_superior,cantidad_postulaciones,postulaciones_Ventas,postulaciones_Comercial,postulaciones_Administración,...,Mantenimiento,Recursos Humanos,Logística,Gastronomia,Call Center,Soporte Técnico,Almacén / Depósito / Expedición,postulaciones_aviso,postulacion,visitas
0,YAr32r,46.0,False,False,False,False,15.0,1.0,0.0,1.0,...,False,False,False,False,False,False,False,284.0,False,
1,qewYZKx,37.0,False,True,True,True,7.0,2.0,1.0,2.0,...,False,False,False,False,False,False,False,1039.0,False,
2,OqbVj26,49.0,False,False,True,False,9.0,1.0,0.0,0.0,...,False,False,False,False,False,False,False,167.0,False,
3,GNoMzLe,22.0,False,False,True,False,10.0,0.0,0.0,4.0,...,False,False,False,False,False,False,False,124.0,False,
4,EzeYwB6,49.0,False,True,True,True,4.0,1.0,0.0,0.0,...,False,False,False,False,False,False,False,0.0,False,


In [58]:
no_postulaciones['visitas'].fillna(0, inplace = True)
no_postulaciones.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 7485000 entries, 0 to 7484999
Data columns (total 50 columns):
idpostulante                                     object
edad                                             float64
sexo_masculino                                   bool
titulo_universitario                             bool
titulo_secundario                                bool
titulo_superior                                  bool
cantidad_postulaciones                           float64
postulaciones_Ventas                             float64
postulaciones_Comercial                          float64
postulaciones_Administración                     float64
postulaciones_Producción                         float64
postulaciones_Programación                       float64
postulaciones_Contabilidad                       float64
postulaciones_Tecnologia / Sistemas              float64
postulaciones_Atención al Cliente                float64
postulaciones_Mantenimiento                  

In [59]:
no_postulaciones = no_postulaciones[postulaciones.columns]
no_postulaciones.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 7485000 entries, 0 to 7484999
Data columns (total 50 columns):
idaviso                                          int64
idpostulante                                     object
GBA                                              bool
nombre_area                                      object
Full-time                                        bool
Part-time                                        bool
senior                                           bool
junior                                           bool
otro                                             bool
Jefe                                             bool
Gerencia                                         bool
Ventas                                           bool
Comercial                                        bool
Administración                                   bool
Producción                                       bool
Programación                                     bool
Contabilidad      

Las no postulaciones ya tienen el mismo formato que las postulaciones, con la columna que 
corresponde a las postulaciones en False.
Vamos a concatenar postulaciones y no_postulaciones en el DF de postulaciones, para tener
un solo set de datos compacto

In [60]:
postulaciones = pd.concat([postulaciones,no_postulaciones])

In [96]:
postulaciones.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 14088752 entries, 0 to 7484999
Data columns (total 50 columns):
idaviso                                          int64
idpostulante                                     object
GBA                                              bool
nombre_area                                      object
Full-time                                        bool
Part-time                                        bool
senior                                           bool
junior                                           bool
otro                                             bool
Jefe                                             bool
Gerencia                                         bool
Ventas                                           bool
Comercial                                        bool
Administración                                   bool
Producción                                       bool
Programación                                     bool
Contabilidad     

Es posible que cuando generé las no_postulaciones de forma random, se hayan generado pares
(idpostulante, idaviso) que de hecho correspondian a postulaciones. Solucionamos esto 
eliminando los pares duplicados y quedandonos con la primera aparición de cada par.

In [61]:
postulaciones.drop_duplicates(subset = ['idaviso','idpostulante'], keep = 'first',inplace = True)
postulaciones.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 14082998 entries, 0 to 7484999
Data columns (total 50 columns):
idaviso                                          int64
idpostulante                                     object
GBA                                              bool
nombre_area                                      object
Full-time                                        bool
Part-time                                        bool
senior                                           bool
junior                                           bool
otro                                             bool
Jefe                                             bool
Gerencia                                         bool
Ventas                                           bool
Comercial                                        bool
Administración                                   bool
Producción                                       bool
Programación                                     bool
Contabilidad     

Ahora si, ya tenemos nuestro set de datos listo para entrenar un algoritmo de Machine Learning

In [96]:
postulaciones.isnull().sum()

idaviso                                               0
idpostulante                                          0
GBA                                                   0
nombre_area                                      415823
Full-time                                             0
Part-time                                             0
senior                                                0
junior                                                0
otro                                                  0
Jefe                                                  0
Gerencia                                              0
Ventas                                                0
Comercial                                             0
Administración                                        0
Producción                                            0
Programación                                          0
Contabilidad                                          0
Tecnologia / Sistemas                           

No se por qué quedaron filas con postulaciones_aviso = NaN. Rellenamos con ceros

In [62]:
postulaciones['postulaciones_aviso'].fillna(0, inplace = True)
postulaciones.isnull().sum()

idaviso                                               0
idpostulante                                          0
GBA                                                   0
nombre_area                                      415823
Full-time                                             0
Part-time                                             0
senior                                                0
junior                                                0
otro                                                  0
Jefe                                                  0
Gerencia                                              0
Ventas                                                0
Comercial                                             0
Administración                                        0
Producción                                            0
Programación                                          0
Contabilidad                                          0
Tecnologia / Sistemas                           

# Importando el set de datos corresponiente al Test final

Importamos el csv test_final. Que tiene formato (id,idaviso,idpostulante).
Debemos darle el mismo formato que tiene el df postulaciones, agregando los features
correspondientes. Es claro que este df tendrá una columna menos, la de postulaciones, ya que 
esa es la columna que el algoritmo de ML deberá predecir.

In [63]:
test_final = pd.read_csv('data/test_final_100k.csv')

In [64]:
test_final = test_final.merge(usuarios, on='idpostulante', how = 'left')
test_final.head()

Unnamed: 0,id,idaviso,idpostulante,edad,sexo_masculino,titulo_universitario,titulo_secundario,titulo_superior,cantidad_postulaciones,postulaciones_Ventas,...,postulaciones_Contabilidad,postulaciones_Tecnologia / Sistemas,postulaciones_Atención al Cliente,postulaciones_Mantenimiento,postulaciones_Recursos Humanos,postulaciones_Logística,postulaciones_Gastronomia,postulaciones_Call Center,postulaciones_Soporte Técnico,postulaciones_Almacén / Depósito / Expedición
0,0,739260,6M9ZQR,42.0,False,True,False,True,2.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,1,739260,6v1xdL,30.0,True,False,False,False,68.0,4.0,...,0.0,0.0,14.0,0.0,0.0,1.0,3.0,4.0,0.0,0.0
2,2,739260,ezRKm9,36.0,False,True,False,False,1.0,0.0,...,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0
3,3,758580,1Q35ej,68.0,True,True,False,True,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,4,758580,EAN4J6,32.0,False,False,False,False,1.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [65]:
test_final = test_final.merge(avisos,
                            on = 'idaviso',
                            how = 'left')
test_final.head()

Unnamed: 0,id,idaviso,idpostulante,edad,sexo_masculino,titulo_universitario,titulo_secundario,titulo_superior,cantidad_postulaciones,postulaciones_Ventas,...,Tecnologia / Sistemas,Atención al Cliente,Mantenimiento,Recursos Humanos,Logística,Gastronomia,Call Center,Soporte Técnico,Almacén / Depósito / Expedición,postulaciones_aviso
0,0,739260,6M9ZQR,42.0,False,True,False,True,2.0,0.0,...,False,False,False,False,False,False,False,False,False,0.0
1,1,739260,6v1xdL,30.0,True,False,False,False,68.0,4.0,...,False,False,False,False,False,False,False,False,False,0.0
2,2,739260,ezRKm9,36.0,False,True,False,False,1.0,0.0,...,False,False,False,False,False,False,False,False,False,0.0
3,3,758580,1Q35ej,68.0,True,True,False,True,0.0,0.0,...,True,False,False,False,False,False,False,False,False,0.0
4,4,758580,EAN4J6,32.0,False,False,False,False,1.0,0.0,...,True,False,False,False,False,False,False,False,False,0.0


In [100]:
test_final.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 100000 entries, 0 to 99999
Data columns (total 49 columns):
id                                               100000 non-null int64
idaviso                                          100000 non-null int64
idpostulante                                     100000 non-null object
edad                                             100000 non-null float64
sexo_masculino                                   100000 non-null bool
titulo_universitario                             100000 non-null bool
titulo_secundario                                100000 non-null bool
titulo_superior                                  100000 non-null bool
cantidad_postulaciones                           100000 non-null float64
postulaciones_Ventas                             100000 non-null float64
postulaciones_Comercial                          100000 non-null float64
postulaciones_Administración                     100000 non-null float64
postulaciones_Producción       

In [66]:
test_final = test_final.merge(concatVistas, on = ['idaviso','idpostulante'], how = 'left')
test_final.head()

Unnamed: 0,id,idaviso,idpostulante,edad,sexo_masculino,titulo_universitario,titulo_secundario,titulo_superior,cantidad_postulaciones,postulaciones_Ventas,...,Atención al Cliente,Mantenimiento,Recursos Humanos,Logística,Gastronomia,Call Center,Soporte Técnico,Almacén / Depósito / Expedición,postulaciones_aviso,visitas
0,0,739260,6M9ZQR,42.0,False,True,False,True,2.0,0.0,...,False,False,False,False,False,False,False,False,0.0,
1,1,739260,6v1xdL,30.0,True,False,False,False,68.0,4.0,...,False,False,False,False,False,False,False,False,0.0,
2,2,739260,ezRKm9,36.0,False,True,False,False,1.0,0.0,...,False,False,False,False,False,False,False,False,0.0,
3,3,758580,1Q35ej,68.0,True,True,False,True,0.0,0.0,...,False,False,False,False,False,False,False,False,0.0,
4,4,758580,EAN4J6,32.0,False,False,False,False,1.0,0.0,...,False,False,False,False,False,False,False,False,0.0,


In [67]:
test_final['visitas'].fillna(0, inplace = True)
test_final.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 100000 entries, 0 to 99999
Data columns (total 50 columns):
id                                               100000 non-null int64
idaviso                                          100000 non-null int64
idpostulante                                     100000 non-null object
edad                                             100000 non-null float64
sexo_masculino                                   100000 non-null bool
titulo_universitario                             100000 non-null bool
titulo_secundario                                100000 non-null bool
titulo_superior                                  100000 non-null bool
cantidad_postulaciones                           100000 non-null float64
postulaciones_Ventas                             100000 non-null float64
postulaciones_Comercial                          100000 non-null float64
postulaciones_Administración                     100000 non-null float64
postulaciones_Producción       

Ahora tenemos todo listo para entrenar nuestro algoritmo de ML

# Empieza perceptron


La columna 'nombre_area' no nos va a servir para este algoritmo, la vamos a dejar de lado.
Lo mismo con los ids, que no son features en sí

In [68]:
datos = postulaciones.drop(columns = ['idpostulante','idaviso','postulacion','nombre_area'])
categorias = postulaciones['postulacion']

In [104]:
datos.head()

Unnamed: 0,GBA,Full-time,Part-time,senior,junior,otro,Jefe,Gerencia,Ventas,Comercial,...,postulaciones_Tecnologia / Sistemas,postulaciones_Atención al Cliente,postulaciones_Mantenimiento,postulaciones_Recursos Humanos,postulaciones_Logística,postulaciones_Gastronomia,postulaciones_Call Center,postulaciones_Soporte Técnico,postulaciones_Almacén / Depósito / Expedición,visitas
0,True,False,True,False,False,True,False,False,False,False,...,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,True,False,True,True,False,False,False,False,False,False,...,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,True,True,False,True,False,False,False,False,False,False,...,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,True,True,False,True,False,False,False,False,False,False,...,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,True,True,False,True,False,False,False,False,False,False,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [69]:
test_size = 0.33
random_state = 0

In [70]:
datos_train, datos_test, cat_train, cat_test = train_test_split(datos,
                                                               categorias,
                                                               test_size = test_size,
                                                               random_state = random_state)

In [71]:
clf = RandomForestClassifier(random_state=random_state)

In [72]:
clf.fit(datos_train,cat_train)

RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
            max_depth=None, max_features='auto', max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, n_estimators=10, n_jobs=1,
            oob_score=False, random_state=0, verbose=0, warm_start=False)

In [74]:
cat_pred = clf.predict(datos_test)

print('accuracy: {0:.2f}%'.format(accuracy_score(cat_test,cat_pred)*100))

accuracy: 93.38%


In [75]:
final_test_data = test_final[datos.columns]

In [76]:
final_test_data.head()

Unnamed: 0,GBA,Full-time,Part-time,senior,junior,otro,Jefe,Gerencia,Ventas,Comercial,...,postulaciones_Tecnologia / Sistemas,postulaciones_Atención al Cliente,postulaciones_Mantenimiento,postulaciones_Recursos Humanos,postulaciones_Logística,postulaciones_Gastronomia,postulaciones_Call Center,postulaciones_Soporte Técnico,postulaciones_Almacén / Depósito / Expedición,visitas
0,False,True,False,False,False,False,True,False,False,True,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,False,True,False,False,False,False,True,False,False,True,...,0.0,14.0,0.0,0.0,1.0,3.0,4.0,0.0,0.0,0.0
2,False,True,False,False,False,False,True,False,False,True,...,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0
3,False,True,False,False,False,True,False,False,False,False,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,False,True,False,False,False,True,False,False,False,False,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [77]:
prediccion = clf.predict(final_test_data)
prediccion = prediccion.astype(int)

In [78]:
test_final['sepostulo'] = prediccion
entregable = test_final[['id','sepostulo']]

In [79]:
entregable.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 100000 entries, 0 to 99999
Data columns (total 2 columns):
id           100000 non-null int64
sepostulo    100000 non-null int32
dtypes: int32(1), int64(1)
memory usage: 1.9 MB


In [80]:
entregable.index = entregable['id']
entregable.drop(columns = 'id', inplace = True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  


In [81]:
entregable2 = pd.read_csv('submits/submit_38.csv')

FileNotFoundError: File b'submits/submit_38.csv' does not exist

In [154]:
print('accuracy: {0:.2f}%'.format(accuracy_score(entregable['sepostulo'],
                                                 entregable2['sepostulo'])*100))

accuracy: 89.75%


In [83]:
entregable.to_csv('submit_38.csv')

In [84]:
no_postulaciones_csv = postulaciones.loc[postulaciones['postulacion'] == False][['idpostulante','idaviso']]


In [85]:
no_postulaciones_csv.to_csv('data/no_postulaciones.csv')