In [1]:
import numpy as np 
import pandas as pd
import datetime
import calendar
import matplotlib.pyplot as plt
import seaborn as sns
import re # regex
from scipy.misc import imread
#from wordcloud import WordCloud, STOPWORDS # Wordcloud: pip install wordcloud
from collections import Counter

%matplotlib inline
pd.set_option('display.max_columns', None)

## Los datos del TP 1 y los de hasta el 15 abril son los que usamos para entrenar

# Datos del TP 1

In [2]:
postulantes_educacion_orig = pd.read_csv('../data/datos_navent_fiuba/fiuba_1_postulantes_educacion.csv', encoding='utf-8')
postulantes_genero_edad_orig = pd.read_csv('../data/datos_navent_fiuba/fiuba_2_postulantes_genero_y_edad.csv', encoding='utf-8')
vistas_orig = pd.read_csv('../data/datos_navent_fiuba/fiuba_3_vistas.csv', encoding='utf-8')
postulaciones_orig = pd.read_csv('../data/datos_navent_fiuba/fiuba_4_postulaciones.csv', encoding='utf-8')
avisos_online_orig = pd.read_csv('../data/datos_navent_fiuba/fiuba_5_avisos_online.csv', encoding='utf-8')
avisos_detalle_orig = pd.read_csv('../data/datos_navent_fiuba/fiuba_6_avisos_detalle.csv', encoding='utf-8')

# Datos hasta 15 abril

In [3]:
postulantes_educacion_hasta_15_04 = pd.read_csv('../data/datos_navent_fiuba/fiuba_hasta_15_abril/entrega6/fiuba_1_postulantes_educacion.csv', encoding='utf-8')
postulantes_genero_edad_hasta_15_04 = pd.read_csv('../data/datos_navent_fiuba/fiuba_hasta_15_abril/entrega6/fiuba_2_postulantes_genero_y_edad.csv', encoding='utf-8')
vistas_hasta_15_04 = pd.read_csv('../data/datos_navent_fiuba/fiuba_hasta_15_abril/entrega6/fiuba_3_vistas.csv', encoding='utf-8')
postulaciones_hasta_15_04 = pd.read_csv('../data/datos_navent_fiuba/fiuba_hasta_15_abril/entrega6/fiuba_4_postulaciones.csv', encoding='utf-8')
avisos_online_hasta_15_04 = pd.read_csv('../data/datos_navent_fiuba/fiuba_hasta_15_abril/entrega6/fiuba_5_avisos_online.csv', encoding='utf-8')
avisos_detalle_hasta_15_04 = pd.read_csv('../data/datos_navent_fiuba/fiuba_hasta_15_abril/entrega6/fiuba_6_avisos_detalle.csv', encoding='utf-8')

## Juntamos los datos del tp1 con los de hasta 15 abril y exportamos a un csv nuevo para trabajar con esos

### postulantes_educacion

In [4]:
print('Longitud original: ', len(postulantes_educacion_orig))
print('Longitud nuevo set: ', len(postulantes_educacion_hasta_15_04))
postulantes_educacion_train = pd.concat([postulantes_educacion_orig, postulantes_educacion_hasta_15_04])
print('Longitud concat: ', len(postulantes_educacion_train))

# Eliminamos los duplicados. En este caso se considera duplicado si estas 3 columnas matchean
postulantes_educacion_train.drop_duplicates(['idpostulante', 'nombre', 'estado'], keep='last', inplace=True)
print('Longitud unique: ', len(postulantes_educacion_train))

Longitud original:  298231
Longitud nuevo set:  407453
Longitud concat:  705684
Longitud unique:  568612


In [5]:
postulantes_educacion_train.rename(columns={'nombre':'nombre_estudio','estado':'estado_estudio'}, inplace=True)
postulantes_educacion_train.head(1)

Unnamed: 0,idpostulante,nombre_estudio,estado_estudio
1,8BkL,Universitario,En Curso


In [6]:
postulantes_educacion_train.to_csv('../data/1_postulantes_educacion_train.csv', index=False, sep=',', encoding='utf-8')

### postulantes_genero_edad

In [7]:
print('Longitud original: ', len(postulantes_genero_edad_orig))
print('Longitud nuevo set: ', len(postulantes_genero_edad_hasta_15_04))
postulantes_genero_edad_train = pd.concat([postulantes_genero_edad_orig, postulantes_genero_edad_hasta_15_04])
print('Longitud concat: ', len(postulantes_genero_edad_train))

# Eliminamos los duplicados. En este caso se considera duplicado si el idpostulante matchea
postulantes_genero_edad_train.drop_duplicates(['idpostulante'], keep='last', inplace=True)
print('Longitud unique: ', len(postulantes_genero_edad_train))

Longitud original:  200888
Longitud nuevo set:  297747
Longitud concat:  498635
Longitud unique:  408146


In [8]:
postulantes_genero_edad_train.head(1)

Unnamed: 0,idpostulante,fechanacimiento,sexo
0,NM5M,1970-12-03,FEM


In [9]:
postulantes_genero_edad_train.to_csv('../data/2_postulantes_genero_edad_train.csv', index=False, sep=',', encoding='utf-8')

### vistas

In [10]:
print('Longitud original: ', len(vistas_orig))
print('Longitud nuevo set: ', len(vistas_hasta_15_04))
vistas_train = pd.concat([vistas_orig, vistas_hasta_15_04])
print('Longitud concat: ', len(vistas_train))

# Eliminamos los duplicados. En este caso se considera duplicado si estas 3 columnas matchean
vistas_train.drop_duplicates(['idaviso', 'timestamp', 'idpostulante'], keep='last', inplace=True)
print('Longitud unique: ', len(vistas_train))

Longitud original:  961897
Longitud nuevo set:  5758686
Longitud concat:  6720583
Longitud unique:  6682591


In [11]:
vistas_train.rename(columns={'idAviso':'idaviso','timestamp':'fechavista'}, inplace=True)
vistas_train.head(1)

Unnamed: 0,idaviso,fechavista,idpostulante
0,1111780242,2018-02-23T13:38:13.187-0500,YjVJQ6Z


In [12]:
vistas_train.to_csv('../data/3_vistas_train.csv', index=False, sep=',', encoding='utf-8')

### postulaciones

In [13]:
print('Longitud original: ', len(postulaciones_orig))
print('Longitud nuevo set: ', len(postulaciones_hasta_15_04))
postulaciones_train = pd.concat([postulaciones_orig, postulaciones_hasta_15_04])
print('Longitud concat: ', len(postulaciones_train))

# Eliminamos los duplicados. En este caso se considera duplicado si estas 3 columnas matchean
postulaciones_train.drop_duplicates(['idaviso', 'idpostulante', 'fechapostulacion'], keep='last', inplace=True)
print('Longitud unique: ', len(postulaciones_train))

Longitud original:  3401623
Longitud nuevo set:  4909641
Longitud concat:  8311264
Longitud unique:  6604534


In [14]:
postulaciones_train.head(1)

Unnamed: 0,idaviso,idpostulante,fechapostulacion
0,1112257047,NM5M,2018-01-15 16:22:34


In [15]:
postulaciones_train.to_csv('../data/4_postulaciones_train.csv', index=False, sep=',', encoding='utf-8')

### avisos_online

In [16]:
print('Longitud original: ', len(avisos_online_orig))
print('Longitud nuevo set: ', len(avisos_online_hasta_15_04))
avisos_online_train = pd.concat([avisos_online_orig, avisos_online_hasta_15_04])
print('Longitud concat: ', len(avisos_online_train))

# Eliminamos los duplicados. En este caso se considera duplicado si esta columna matchea
avisos_online_train.drop_duplicates(['idaviso'], keep='last', inplace=True)
print('Longitud unique: ', len(avisos_online_train))

Longitud original:  5028
Longitud nuevo set:  4858
Longitud concat:  9886
Longitud unique:  9430


In [17]:
avisos_online_train.head(1)

Unnamed: 0,idaviso
0,1112355872


In [18]:
avisos_online_train.to_csv('../data/5_avisos_online_train.csv', index=False, sep=',', encoding='utf-8')

### avisos_detalle

In [19]:
print('Longitud original: ', len(avisos_detalle_orig))
print('Longitud nuevo set: ', len(avisos_detalle_hasta_15_04))
avisos_detalle_train = pd.concat([avisos_detalle_orig, avisos_detalle_hasta_15_04])
print('Longitud concat: ', len(avisos_detalle_train))

# Eliminamos los duplicados. En este caso se considera duplicado si matchean estas columnas (por no matchear todas)
avisos_detalle_train.drop_duplicates(['idaviso', 'titulo', 'descripcion', 'nombre_zona', 'ciudad', 'tipo_de_trabajo', 'nivel_laboral'], keep='last', inplace=True)
print('Longitud unique: ', len(avisos_detalle_train))

Longitud original:  13534
Longitud nuevo set:  18299
Longitud concat:  31833
Longitud unique:  19632


In [20]:
avisos_detalle_train.drop(columns=['idpais','ciudad','mapacalle', 'nombre_zona'], inplace=True)
avisos_detalle_train.head(1)

Unnamed: 0,idaviso,titulo,descripcion,tipo_de_trabajo,nivel_laboral,nombre_area,denominacion_empresa
1,17903700,Enfermeras,<p>Solicitamos para importante cadena de farma...,Full-time,Senior / Semi-Senior,Salud,Farmacias Central Oeste


In [21]:
def clean_html(row):
    clean_html_regex = re.compile('<.*?>')
    row['descripcion'] = re.sub(clean_html_regex, '', row['descripcion'])
    return row

avisos_detalle_train = avisos_detalle_train.apply(lambda row: clean_html(row), axis=1)

In [22]:
avisos_detalle_train.head(1)

Unnamed: 0,idaviso,titulo,descripcion,tipo_de_trabajo,nivel_laboral,nombre_area,denominacion_empresa
1,17903700,Enfermeras,Solicitamos para importante cadena de farmacia...,Full-time,Senior / Semi-Senior,Salud,Farmacias Central Oeste


In [23]:
avisos_detalle_train['descripcion'].head(5)

1     Solicitamos para importante cadena de farmacia...
2     TE GUSTA MANEJAR? QUERES GANAR PLATA HACIENDO ...
4     OPERARIOS DE PLANTANos encontramos en la búsqu...
8     Agente\r\noficial Selecciona:\r\n \r\nNuestra ...
11    Somos una empresa multinacional que opera en A...
Name: descripcion, dtype: object

In [24]:
stopwords = ['a', 'al', 'ante', 'aquel', 'aires', 'bien', 'buenos', 'como', 'con', 'conseguir', 'cual', 'de', 'del', 'descripcion', 
             'desde', 'donde', 'e', 'el', 'ella', 'ello', 'en', 'es', 'esa', 'encima', 'entonces', 'entre', 'encontramos', 
             'encuentra', 'era', 'esta', 'estas' 'estan', 'etc', 'fe', 'fue', 'gusta', 'hs', 'ha', 'hacen', 'hacemos', 'hacer', 'hasta', 
             'incluso', 'ir', 'jamas', 'jamas', 'la', 'las', 'lo', 'los', 'mas', 'me', 'menos', 'mi', 'mis', 'misma', 'mismo', 'mucha', 'muchas', 
             'mucho', 'muchos', 'muy', 'ni', 'no', 'nos', 'nosotros', 'nuestras', 'nuestra', 'nuestro', 'nuestros', 'o', 'para', 'por', 'puesta', 
             'que', 'qué', 'sabe', 'santa', 'saber', 'se', 'solicitamos', 'selecciona', 'segun', 'ser', 'serán', 'seran', 'si', 'siendo', 'sin', 
             'sobre', 'solo', 'solicita', 'somos', 'su', 'sus', 'te', 'trabajar', 'tiene', 'tus', 'tu', 'uso', 
             'un', 'una', 'ubicada', 'valoramos', 'vaya', 'y']

invalid_characters = [',', ':', '.', ';', '?', '¿', '!', '¡', '(', ')', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 
                      '<', '>', '-', '_', '/', '*', '\r', '\n', '', '·', '§', 'ª', '+']

def clean_html(string):
    clean_html_regex = re.compile('<.*?>')
    string = re.sub(clean_html_regex, ' ', string).strip()
    return string

def clean_string(row, col):     
    for invalid_char in invalid_characters:
        row[col] = row[col].replace(invalid_char, ' ').strip()
        row[col] = row[col].strip().lower()
    
    row[col] = row[col].replace('á', "a")
    row[col] = row[col].replace('é', "e")
    row[col] = row[col].replace('í', "i")
    row[col] = row[col].replace('ó', "o")
    row[col] = row[col].replace('ú', "u")
    row[col] = row[col].replace('ü', "u")
    
    words = row[col].split()
    
    # Se filtran las stop words
    valid_words = []
    for word in words:
        for w in stopwords:
            if (word == w):
                word = word.replace(w, ' ')
        if (word.strip() != ''):
            valid_words.append(word)
        
    row[col] = valid_words
    return row

In [25]:
avisos_detalle_train = avisos_detalle_train.apply(lambda row: clean_string(row, 'descripcion'), axis=1)

In [26]:
avisos_detalle_train['descripcion'].head(10)

1     [importante, cadena, farmacias, zona, oeste, e...
2     [manejar, queres, ganar, plata, haciendo, cont...
4     [operarios, plantanos, busqueda, operarios, em...
8     [agente, oficial, busqueda, orientada, persona...
11    [empresa, multinacional, opera, argentina, per...
12    [yamanil, s, busqueda, preventistas, requiere,...
16    [estamos, busqueda, representantes, ventas, pr...
18    [sc, johnson, empresa, lider, mundial, fabrica...
19    [centro, medico, accord, busqueda, administrat...
21    [importante, correo, privado, ubicado, san, mi...
Name: descripcion, dtype: object

In [27]:
def process_words(row, columna):
    lista_palabras_frecuentes_descripcion = []
    words = row[columna]
    for word in words:
        lista_palabras_frecuentes_descripcion.append(word)
    row[columna] = Counter(lista_palabras_frecuentes_descripcion).most_common(25)
    
    return row

avisos_detalle_train = avisos_detalle_train.apply(lambda row: process_words(row, 'descripcion'), axis=1)

In [28]:
avisos_detalle_train.head(5)

Unnamed: 0,idaviso,titulo,descripcion,tipo_de_trabajo,nivel_laboral,nombre_area,denominacion_empresa
1,17903700,Enfermeras,"[(oeste, 2), (experiencia, 2), (años, 2), (imp...",Full-time,Senior / Semi-Senior,Salud,Farmacias Central Oeste
2,1000150677,Chofer de taxi,"[(tenes, 3), (estas, 2), (trabajo, 2), (años, ...",Full-time,Senior / Semi-Senior,Transporte,FAMITAX SRL
4,1000872556,Operarios de Planta - Rubro Electrodomésticos,"[(control, 6), (produccion, 4), (operarios, 2)...",Full-time,Senior / Semi-Senior,Producción,ELECTRO OUTLET SRL
8,9240880,"Productores Asesores Independiente, para venta...","[(agente, 1), (oficial, 1), (busqueda, 1), (or...",Full-time,Jefe / Supervisor / Responsable,Comercial,Agencia Oficial Alejandro Arizaga
11,1002181678,Vendedor Viajante TIERRA DEL FUEGO,"[(empresa, 1), (multinacional, 1), (opera, 1),...",Full-time,Senior / Semi-Senior,Ventas,Wurth Argentina S.A


In [29]:
avisos_detalle_train = avisos_detalle_train.apply(lambda row: clean_string(row, 'titulo'), axis=1)

In [30]:
avisos_detalle_train = avisos_detalle_train.apply(lambda row: process_words(row, 'titulo'), axis=1)

In [31]:
avisos_detalle_train.head(5)

Unnamed: 0,idaviso,titulo,descripcion,tipo_de_trabajo,nivel_laboral,nombre_area,denominacion_empresa
1,17903700,"[(enfermeras, 1)]","[(oeste, 2), (experiencia, 2), (años, 2), (imp...",Full-time,Senior / Semi-Senior,Salud,Farmacias Central Oeste
2,1000150677,"[(chofer, 1), (taxi, 1)]","[(tenes, 3), (estas, 2), (trabajo, 2), (años, ...",Full-time,Senior / Semi-Senior,Transporte,FAMITAX SRL
4,1000872556,"[(operarios, 1), (planta, 1), (rubro, 1), (ele...","[(control, 6), (produccion, 4), (operarios, 2)...",Full-time,Senior / Semi-Senior,Producción,ELECTRO OUTLET SRL
8,9240880,"[(productores, 1), (asesores, 1), (independien...","[(agente, 1), (oficial, 1), (busqueda, 1), (or...",Full-time,Jefe / Supervisor / Responsable,Comercial,Agencia Oficial Alejandro Arizaga
11,1002181678,"[(vendedor, 1), (viajante, 1), (tierra, 1), (f...","[(empresa, 1), (multinacional, 1), (opera, 1),...",Full-time,Senior / Semi-Senior,Ventas,Wurth Argentina S.A


In [32]:
avisos_detalle_train.to_csv('../data/6_avisos_detalle_train.csv', index=False, sep=',', encoding='utf-8')

# Juntamos todo en un solo DF

In [33]:
postulantes_educacion = pd.read_csv('../data/1_postulantes_educacion_train.csv', encoding='utf-8')
postulantes_genero_edad = pd.read_csv('../data/2_postulantes_genero_edad_train.csv', encoding='utf-8')
vistas = pd.read_csv('../data/3_vistas_train.csv', encoding='utf-8')
postulaciones = pd.read_csv('../data/4_postulaciones_train.csv', encoding='utf-8')
avisos_online = pd.read_csv('../data/5_avisos_online_train.csv', encoding='utf-8')
avisos_detalle = pd.read_csv('../data/6_avisos_detalle_train.csv', encoding='utf-8')

# Juntamos de los postulantes la informacion sobre educacion, genero, y edad

### Obtenemos el maximo nivel de educacion para cada postulante

In [34]:
postulantes_educacion.head(2)

Unnamed: 0,idpostulante,nombre_estudio,estado_estudio
0,8BkL,Universitario,En Curso
1,1d2B,Universitario,En Curso


In [35]:
len(postulantes_educacion)

568612

In [36]:
print('Existen datos de educacion de', len(postulantes_educacion.drop_duplicates(['idpostulante'], keep='last', inplace=False)), 'postulantes')

Existen datos de educacion de 366395 postulantes


In [37]:
def cuantificar_estudios(row):
    if (row['nombre_estudio'] == 'Doctorado'):
        row['nombre_estudio'] = 7
    if (row['nombre_estudio'] == 'Master'):    
        row['nombre_estudio'] = 6
    if (row['nombre_estudio'] == 'Posgrado'):    
        row['nombre_estudio'] = 5
    if (row['nombre_estudio'] == 'Universitario'):    
        row['nombre_estudio'] = 4
    if (row['nombre_estudio'] == 'Terciario/Técnico'):    
        row['nombre_estudio'] = 3
    if (row['nombre_estudio'] == 'Secundario'):    
        row['nombre_estudio'] = 2
    if (row['nombre_estudio'] == 'Otro'):    
        row['nombre_estudio'] = 1    
        
    if (row['estado_estudio'] == 'Graduado'):
        row['estado_estudio'] = 3
    if (row['estado_estudio'] == 'En Curso'):    
        row['estado_estudio'] = 2
    if (row['estado_estudio'] == 'Abandonado'):    
        row['estado_estudio'] = 1
        
    return row    

def descuantificar_estudios(row):
    if (row['nombre_estudio'] == 7):
        row['nombre_estudio'] = 'Doctorado'
    if (row['nombre_estudio'] == 6):    
        row['nombre_estudio'] = 'Master'
    if (row['nombre_estudio'] == 5):    
        row['nombre_estudio'] = 'Posgrado'
    if (row['nombre_estudio'] == 4):    
        row['nombre_estudio'] = 'Universitario'
    if (row['nombre_estudio'] == 3):    
        row['nombre_estudio'] = 'Terciario/Técnico'
    if (row['nombre_estudio'] == 2):    
        row['nombre_estudio'] = 'Secundario'
    if (row['nombre_estudio'] == 1):    
        row['nombre_estudio'] = 'Otro'    
        
    if (row['estado_estudio'] == 3):
        row['estado_estudio'] = 'Graduado'
    if (row['estado_estudio'] == 2):    
        row['estado_estudio'] = 'En Curso'
    if (row['estado_estudio'] == 1):    
        row['estado_estudio'] = 'Abandonado'
        
    return row    

In [38]:
postulantes_educacion = postulantes_educacion.apply(lambda row: cuantificar_estudios(row), axis=1)

In [39]:
# Obtenemos max de la columna nombre
idx = postulantes_educacion.groupby(['idpostulante'])['nombre_estudio'].transform(max) == postulantes_educacion['nombre_estudio']

In [40]:
# Sobre los anteriores, obtenemos los max de la columna estado
idx_postulantes_educacion_max = postulantes_educacion[idx].groupby(['idpostulante'])['estado_estudio'].transform(max) == postulantes_educacion[idx]['estado_estudio']

In [41]:
postulantes_educacion_max = postulantes_educacion[idx][idx_postulantes_educacion_max]
len(postulantes_educacion_max)

366395

In [42]:
# Verificamos, por ejemplo para este postulante debe traer el maximo nombre y estado
postulantes_educacion[postulantes_educacion['idpostulante'] == '1QLLO'] 

Unnamed: 0,idpostulante,nombre_estudio,estado_estudio
5,1QLLO,4,2
290,1QLLO,4,3


In [43]:
# Efectivamente lo hace
postulantes_educacion_max[postulantes_educacion_max['idpostulante'] == '1QLLO'] 

Unnamed: 0,idpostulante,nombre_estudio,estado_estudio
290,1QLLO,4,3


In [44]:
postulantes_educacion_max = postulantes_educacion_max.apply(lambda row: descuantificar_estudios(row), axis=1)

In [45]:
postulantes_educacion_max.head(2)

Unnamed: 0,idpostulante,nombre_estudio,estado_estudio
1,1d2B,Universitario,En Curso
3,6M3jr,Universitario,En Curso


### Join con genero y edad

In [57]:
len(postulantes_genero_edad)

408146

In [58]:
len(postulantes_genero_edad.drop_duplicates(['idpostulante'], keep='last', inplace=False))

408146

In [59]:
postulantes = pd.merge(postulantes_educacion_max, postulantes_genero_edad, on='idpostulante', how='inner')

In [82]:
postulantes.dtypes

idpostulante       object
nombre_estudio     object
estado_estudio     object
fechanacimiento    object
sexo               object
dtype: object

In [83]:
len(postulantes)

366395

In [84]:
if(postulantes.isna().any().any()):
    postulantes.dropna(inplace=True)

In [86]:
# Convierto columnas con fechas a datetime
postulantes['fechanacimiento'] = pd.to_datetime(postulantes.fechanacimiento, format='%Y/%m/%d', errors='coerce')
if(postulantes.isna().any().any()):
    print(postulantes.isna().any())
    postulantes.dropna(inplace=True)

# Agrego columna edad
anio_actual = pd.to_datetime('today').year
postulantes['edad'] = postulantes.fechanacimiento.map(lambda fecha: anio_actual - fecha.year).astype(int)

idpostulante       False
nombre_estudio     False
estado_estudio     False
fechanacimiento     True
sexo               False
dtype: bool


In [89]:
postulantes.drop(columns=['fechanacimiento'], inplace=True)

In [90]:
len(postulantes)

358872

In [92]:
postulantes.head(1)

Unnamed: 0,idpostulante,nombre_estudio,estado_estudio,sexo,edad
0,1d2B,Universitario,En Curso,MASC,42


In [103]:
postulantes['edad'].value_counts()

27     20334
26     19979
25     19894
24     19450
28     19129
23     18396
29     17298
22     16814
30     16296
31     14995
21     14475
32     13825
33     12354
20     11148
34     11051
35     10244
36      9667
37      8981
38      8460
39      7811
40      6976
19      6672
41      6282
42      5633
43      5268
44      4393
45      3775
46      3438
47      3092
48      2851
       ...  
63       238
64       181
65       133
66       104
67        82
68        68
69        49
70        38
71        19
17        17
72        16
74        11
73        10
75         8
77         5
78         4
76         3
79         2
16         2
12         2
103        2
15         1
11         1
243        1
116        1
81         1
83         1
97         1
101        1
10         1
Name: edad, Length: 75, dtype: int64

In [104]:
postulantes['edad'] = postulantes[(postulantes['edad'] > 16) & (postulantes['edad'] < 86)]

In [105]:
postulantes.to_csv('../data/postulantes.csv', index=False, sep=',', encoding='utf-8')

### Merge con avisos_detalle

In [65]:
avisos_detalle.head(1)

Unnamed: 0,idaviso,titulo,descripcion,tipo_de_trabajo,nivel_laboral,nombre_area,denominacion_empresa
0,17903700,"[('enfermeras', 1)]","[('oeste', 2), ('experiencia', 2), ('años', 2)...",Full-time,Senior / Semi-Senior,Salud,Farmacias Central Oeste


In [117]:
print(len(avisos_detalle))

19632


In [119]:
avisos_detalle = avisos_detalle.dropna(subset=['idaviso'], how='all')

In [120]:
print(len(avisos_detalle))

19632


In [121]:
avisos_detalle.dtypes

idaviso                  int64
titulo                  object
descripcion             object
tipo_de_trabajo         object
nivel_laboral           object
nombre_area             object
denominacion_empresa    object
dtype: object

In [122]:
avisos_detalle.head(1)

Unnamed: 0,idaviso,titulo,descripcion,tipo_de_trabajo,nivel_laboral,nombre_area,denominacion_empresa
0,17903700,"[('enfermeras', 1)]","[('oeste', 2), ('experiencia', 2), ('años', 2)...",Full-time,Senior / Semi-Senior,Salud,Farmacias Central Oeste


In [124]:
avisos_detalle['descripcion'].isnull().sum()

0

In [125]:
avisos_detalle.drop(['denominacion_empresa'], axis=1, inplace=True)

In [126]:
avisos_detalle.head(1)

Unnamed: 0,idaviso,titulo,descripcion,tipo_de_trabajo,nivel_laboral,nombre_area
0,17903700,"[('enfermeras', 1)]","[('oeste', 2), ('experiencia', 2), ('años', 2)...",Full-time,Senior / Semi-Senior,Salud


In [127]:
avisos_detalle['tipo_de_trabajo'].value_counts()

Full-time          17893
Part-time           1226
Teletrabajo          184
Por Horas            109
Pasantia              76
Temporario            60
Por Contrato          57
Fines de Semana       22
Primer empleo          4
Voluntario             1
Name: tipo_de_trabajo, dtype: int64

In [128]:
avisos_detalle['tipo_full'] = (avisos_detalle['tipo_de_trabajo'].astype(str) == 'Full-time').astype(bool)
avisos_detalle['tipo_part'] = (avisos_detalle['tipo_de_trabajo'].astype(str) == 'Part-time').astype(bool)
avisos_detalle['tipo_otro'] = ((avisos_detalle['tipo_de_trabajo'].astype(str) != 'Part-time') & (avisos_detalle['tipo_de_trabajo'].astype(str) != 'Full-time')).astype(bool)

In [129]:
avisos_detalle.drop(['tipo_de_trabajo'], axis=1, inplace=True)

In [130]:
avisos_detalle.head(5)

Unnamed: 0,idaviso,titulo,descripcion,nivel_laboral,nombre_area,tipo_full,tipo_part,tipo_otro
0,17903700,"[('enfermeras', 1)]","[('oeste', 2), ('experiencia', 2), ('años', 2)...",Senior / Semi-Senior,Salud,True,False,False
1,1000150677,"[('chofer', 1), ('taxi', 1)]","[('tenes', 3), ('estas', 2), ('trabajo', 2), (...",Senior / Semi-Senior,Transporte,True,False,False
2,1000872556,"[('operarios', 1), ('planta', 1), ('rubro', 1)...","[('control', 6), ('produccion', 4), ('operario...",Senior / Semi-Senior,Producción,True,False,False
3,9240880,"[('productores', 1), ('asesores', 1), ('indepe...","[('agente', 1), ('oficial', 1), ('busqueda', 1...",Jefe / Supervisor / Responsable,Comercial,True,False,False
4,1002181678,"[('vendedor', 1), ('viajante', 1), ('tierra', ...","[('empresa', 1), ('multinacional', 1), ('opera...",Senior / Semi-Senior,Ventas,True,False,False


### Join con vistas y postulaciones

In [132]:
print(len(vistas))
print(len(postulaciones))

6682591
6604534


In [133]:
vistas.head(1)

Unnamed: 0,idaviso,idpostulante
0,1111780242,YjVJQ6Z


In [134]:
postulaciones.head(1)

Unnamed: 0,idaviso,idpostulante
0,1112257047,NM5M


In [135]:
vistas.to_csv('../data/vistas.csv', index=False, sep=',', encoding='utf-8')
postulaciones.to_csv('../data/postulaciones.csv', index=False, sep=',', encoding='utf-8')

In [136]:
postulaciones_postulantes = pd.merge(postulaciones, postulantes, on='idpostulante', how='outer')

In [137]:
print(len(postulaciones_postulantes))

6646106


In [138]:
postulaciones_postulantes.tail(2)

Unnamed: 0,idaviso,idpostulante,nombre_estudio,estado_estudio,sexo,edad
6646104,,DrXeJbA,Secundario,Abandonado,MASC,DrXeJbA
6646105,,VNr0VD2,Terciario/Técnico,Abandonado,FEM,VNr0VD2


In [139]:
postulaciones_postulantes.isnull().any()

idaviso            True
idpostulante      False
nombre_estudio     True
estado_estudio     True
sexo               True
edad               True
dtype: bool

In [140]:
postulaciones_postulantes.dropna(inplace=True)

In [142]:
postulaciones_postulantes.isnull().any()

idaviso           False
idpostulante      False
nombre_estudio    False
estado_estudio    False
sexo              False
edad              False
dtype: bool

In [141]:
len(postulaciones_postulantes)

6323242

In [143]:
postulaciones_postulantes.head(1)

Unnamed: 0,idaviso,idpostulante,nombre_estudio,estado_estudio,sexo,edad
0,1112257000.0,NM5M,Secundario,Graduado,FEM,NM5M


In [148]:
postulaciones_postulantes['idaviso'] = postulaciones_postulantes['idaviso'].astype(int)
postulaciones_postulantes.head(1)

Unnamed: 0,idaviso,idpostulante,nombre_estudio,estado_estudio,sexo,edad
0,1112257047,NM5M,Secundario,Graduado,FEM,NM5M


In [149]:
postulaciones_postulantes.to_csv('../data/postulaciones_postulantes.csv', index=False, sep=',', encoding='utf-8')

In [114]:
postulaciones_postulantes = pd.read_csv('../data/postulaciones_postulantes.csv', encoding='utf-8')

### Juntamos con los avisos

In [150]:
postulaciones_postulantes_avisos = pd.merge(postulaciones_postulantes, avisos_detalle, on='idaviso', how='left')

In [151]:
postulaciones_postulantes_avisos.head(1)

Unnamed: 0,idaviso,idpostulante,nombre_estudio,estado_estudio,sexo,edad,titulo,descripcion,nivel_laboral,nombre_area,tipo_full,tipo_part,tipo_otro
0,1112257047,NM5M,Secundario,Graduado,FEM,NM5M,"[('representantes', 1), ('atencion', 1), ('cli...","[('retencion', 3), ('atencion', 2), ('cliente'...",Otro,Atención al Cliente,False,True,False


In [152]:
postulaciones_postulantes_avisos['postulado'] = True

In [153]:
postulaciones_postulantes_avisos.head(1)

Unnamed: 0,idaviso,idpostulante,nombre_estudio,estado_estudio,sexo,edad,titulo,descripcion,nivel_laboral,nombre_area,tipo_full,tipo_part,tipo_otro,postulado
0,1112257047,NM5M,Secundario,Graduado,FEM,NM5M,"[('representantes', 1), ('atencion', 1), ('cli...","[('retencion', 3), ('atencion', 2), ('cliente'...",Otro,Atención al Cliente,False,True,False,True


In [154]:
postulaciones_postulantes_avisos.to_csv('../data/postulaciones_postulantes_avisos.csv', index=False, sep=',', encoding='utf-8')

In [155]:
postulaciones_postulantes_avisos = pd.read_csv('../data/postulaciones_postulantes_avisos.csv', encoding='utf-8')

In [157]:
print(len(postulaciones_postulantes_avisos))
postulaciones_postulantes_avisos.head(1)

6487256


Unnamed: 0,idaviso,idpostulante,nombre_estudio,estado_estudio,sexo,edad,titulo,descripcion,nivel_laboral,nombre_area,tipo_full,tipo_part,tipo_otro,postulado
0,1112257047,NM5M,Secundario,Graduado,FEM,NM5M,"[('representantes', 1), ('atencion', 1), ('cli...","[('retencion', 3), ('atencion', 2), ('cliente'...",Otro,Atención al Cliente,False,True,False,True


### Generamos pares (idAviso, idPostulante) con postulado == False

In [159]:
postulantes_sample = postulantes.sample(10000)
for i in range(1,650):
    postulantes_sample = pd.concat([postulantes_sample, postulantes.sample(10000)])

In [160]:
print(len(postulantes_sample))

6500000


In [172]:
postulantes_sample.reset_index(inplace=True)
postulantes_sample.drop(columns = 'index', inplace = True)
postulantes_sample.head(1)

Unnamed: 0,idpostulante,nombre_estudio,estado_estudio,sexo,edad
0,A3vqNZY,Universitario,Graduado,FEM,A3vqNZY


In [167]:
avisos_sample = avisos_detalle.sample(10000)
for i in range(1,650):
    avisos_sample = pd.concat([avisos_sample, avisos_detalle.sample(10000)])

In [168]:
print(len(avisos_sample))

6500000


In [173]:
avisos_sample.reset_index(inplace=True)
avisos_sample.drop(columns = 'index', inplace = True)
avisos_sample.head(1)

Unnamed: 0,idaviso,titulo,descripcion,nivel_laboral,nombre_area,tipo_full,tipo_part,tipo_otro
0,1112221958,"[('cajero', 1), ('repositor', 1), ('mendoza', 1)]","[('juleriaque', 1), ('seleccionara', 1), ('men...",Senior / Semi-Senior,Ventas,True,False,False


In [174]:
no_postulados = postulantes_sample.join(avisos_sample)

In [180]:
no_postulados['postulado'] = False
no_postulados.head(1)

Unnamed: 0,idpostulante,nombre_estudio,estado_estudio,sexo,edad,idaviso,titulo,descripcion,nivel_laboral,nombre_area,tipo_full,tipo_part,tipo_otro,postulado
0,A3vqNZY,Universitario,Graduado,FEM,A3vqNZY,1112221958,"[('cajero', 1), ('repositor', 1), ('mendoza', 1)]","[('juleriaque', 1), ('seleccionara', 1), ('men...",Senior / Semi-Senior,Ventas,True,False,False,False


In [181]:
no_postulados.to_csv('../data/no_postulados.csv', index=False, sep=',', encoding='utf-8')

In [178]:
no_postulados = pd.read_csv('../data/no_postulados.csv', encoding='utf-8')

In [182]:
print(len(no_postulados))
no_postulados.head(1)

6500000


Unnamed: 0,idpostulante,nombre_estudio,estado_estudio,sexo,edad,idaviso,titulo,descripcion,nivel_laboral,nombre_area,tipo_full,tipo_part,tipo_otro,postulado
0,A3vqNZY,Universitario,Graduado,FEM,A3vqNZY,1112221958,"[('cajero', 1), ('repositor', 1), ('mendoza', 1)]","[('juleriaque', 1), ('seleccionara', 1), ('men...",Senior / Semi-Senior,Ventas,True,False,False,False


In [183]:
postulaciones_postulantes_avisos.head(1)

Unnamed: 0,idaviso,idpostulante,nombre_estudio,estado_estudio,sexo,edad,titulo,descripcion,nivel_laboral,nombre_area,tipo_full,tipo_part,tipo_otro,postulado
0,1112257047,NM5M,Secundario,Graduado,FEM,NM5M,"[('representantes', 1), ('atencion', 1), ('cli...","[('retencion', 3), ('atencion', 2), ('cliente'...",Otro,Atención al Cliente,False,True,False,True


In [184]:
training = pd.concat([no_postulados, postulaciones_postulantes_avisos])

In [185]:
training.drop_duplicates(subset = ['idaviso','idpostulante'], keep = 'first',inplace = True)

In [186]:
print(len(training))

12814055


In [188]:
training.sample(20)

Unnamed: 0,descripcion,edad,estado_estudio,idaviso,idpostulante,nivel_laboral,nombre_area,nombre_estudio,postulado,sexo,tipo_full,tipo_otro,tipo_part,titulo
922238,"[('stock', 6), ('control', 5), ('costos', 4), ...",8Ql1lR,En Curso,1112380006,8Ql1lR,Senior / Semi-Senior,Contabilidad,Posgrado,False,FEM,True,False,False,"[('analista', 1), ('control', 1), ('gestion', ..."
248392,"[('tramites', 3), ('control', 2), ('docentes',...",YOzOOJ,Graduado,1112389521,YOzOOJ,Junior,Administración,Universitario,True,FEM,True,False,False,"[('administrativo', 1), ('rectorado', 1), ('un..."
1780800,,QNrz3ON,Graduado,1112311768,QNrz3ON,,,Secundario,True,MASC,,,,
3048287,"[('atencion', 2), ('cliente', 2), ('trabajo', ...",X9lxMkd,Abandonado,1112414466,X9lxMkd,Senior / Semi-Senior,Call Center,Universitario,True,FEM,False,False,True,"[('operador', 1), ('call', 1), ('center', 1)]"
1140779,"[('trabajo', 4), ('proveedores', 3), ('excluye...",5mdAqoN,En Curso,1112368188,5mdAqoN,Junior,Tesorería,Universitario,False,FEM,True,False,False,"[('analista', 1), ('cuentas', 1), ('pagar', 1)..."
6161040,"[('analista', 2), ('hcm', 2), ('empresa', 2), ...",EzOG0W9,Graduado,1112383753,EzOG0W9,Senior / Semi-Senior,Tecnologia / Sistemas,Secundario,False,FEM,True,False,False,"[('analista', 1), ('funcional', 1), ('sap', 1)..."
4360301,"[('and', 15), ('of', 12), ('the', 12), ('to', ...",8MBAQ2z,En Curso,1112444015,8MBAQ2z,Jefe / Supervisor / Responsable,Finanzas,Universitario,False,FEM,False,True,False,"[('vp', 1), ('of', 1), ('finance', 1), ('$', 1..."
1203537,"[('activo', 2), ('contact', 2), ('center', 2),...",1eJQKj,Graduado,1112432931,1eJQKj,Senior / Semi-Senior,Telemarketing,Posgrado,False,MASC,False,False,True,"[('asesores', 1), ('ventas', 1), ('telefonicas..."
3529161,"[('importante', 1), ('taller', 1), ('electrici...",eGvPop,Abandonado,1112401027,eGvPop,Senior / Semi-Senior,Servicios,Universitario,False,FEM,True,False,False,"[('electricidad', 1), ('automotor', 1)]"
1500793,"[('nivel', 4), ('vicente', 2), ('lopez', 2), (...",VNJz1J2,En Curso,1112350139,VNJz1J2,Senior / Semi-Senior,Recepcionista,Universitario,False,FEM,True,False,False,"[('recepcionista', 1), ('administrativa', 1)]"


In [189]:
training.to_csv('../data/training.csv', index=False, sep=',', encoding='utf-8')

In [191]:
print(len(training[training['postulado'] == True]))
print(len(training[training['postulado'] == False]))

6317070
6496985


# De aca para abajo son los datos correspondientes a lo que hay que predecir, hay que aplicarles las mismas transformaciones que le aplicamos a los de entrenamiento. SIN TERMINAR!

# 338 faltantes

In [70]:
# Estos registros solo aparecen en el set a predecir
avisos_detalle_338_faltantes = pd.read_csv('../data/datos_navent_fiuba/338_faltantes/fiuba_6_avisos_detalle_missing_nivel_laboral.csv', encoding='utf-8')

In [71]:
# Eliminamos los duplicados. En este caso se considera duplicado si matchean estas columnas (por no matchear todas)
avisos_detalle_338_faltantes.drop_duplicates(['idaviso', 'titulo', 'descripcion', 'nombre_zona', 'ciudad', 'tipo_de_trabajo', 'nivel_laboral'], keep='last', inplace=True)
print('Longitud unique: ', len(avisos_detalle_338_faltantes))

Longitud unique:  338


In [72]:
avisos_detalle_338_faltantes.drop(columns=['idpais','ciudad','mapacalle', 'nombre_zona'], inplace=True)

In [73]:
avisos_detalle_338_faltantes.head(1)

Unnamed: 0,idaviso,titulo,descripcion,tipo_de_trabajo,nivel_laboral,nombre_area,denominacion_empresa
0,1001284385,Dejanos tu CV,<p><br />Si est&aacute;s interesado en ser par...,Full-time,,Otros,Establecimiento Las Marías


# Datos desde 15 abril

In [74]:
postulantes_educacion_desde_15_04 = pd.read_csv('../data/datos_navent_fiuba/fiuba_desde_15_abril/Fiuba desde 15 Abril/fiuba_1_postulantes_educacion.csv', encoding='utf-8')
postulantes_genero_edad_desde_15_04 = pd.read_csv('../data/datos_navent_fiuba/fiuba_desde_15_abril/Fiuba desde 15 Abril/fiuba_2_postulantes_genero_y_edad.csv', encoding='utf-8')
vistas_desde_15_04 = pd.read_csv('../data/datos_navent_fiuba/fiuba_desde_15_abril/Fiuba desde 15 Abril/fiuba_3_vistas.csv', encoding='utf-8')
avisos_detalle_desde_15_04 = pd.read_csv('../data/datos_navent_fiuba/fiuba_desde_15_abril/Fiuba desde 15 Abril/fiuba_6_avisos_detalle.csv', encoding='utf-8')

### postulantes_educacion

In [75]:
# Eliminamos los duplicados. En este caso se considera duplicado si estas 3 columnas matchean
postulantes_educacion_desde_15_04.drop_duplicates(['idpostulante', 'nombre', 'estado'], keep='last', inplace=True)
print('Longitud unique: ', len(postulantes_educacion_desde_15_04))

Longitud unique:  397509


In [76]:
postulantes_educacion_desde_15_04.rename(columns={'nombre':'nombre_estudio','estado':'estado_estudio'}, inplace=True)
postulantes_educacion_desde_15_04.head(1)

Unnamed: 0,idpostulante,nombre_estudio,estado_estudio
0,YZP,Master,En Curso


### postulantes_genero_edad

In [77]:
# Eliminamos los duplicados. En este caso se considera duplicado si el idpostulante matchea
postulantes_genero_edad_desde_15_04.drop_duplicates(['idpostulante'], keep='last', inplace=True)
print('Longitud unique: ', len(postulantes_genero_edad_desde_15_04))

Longitud unique:  281385


In [78]:
postulantes_genero_edad_desde_15_04.head(1)

Unnamed: 0,idpostulante,fechanacimiento,sexo
0,6MM,1985-01-01,MASC


### vistas

In [79]:
# Eliminamos los duplicados. En este caso se considera duplicado si estas 3 columnas matchean
vistas_desde_15_04.drop_duplicates(['idaviso', 'timestamp', 'idpostulante'], keep='last', inplace=True)
print('Longitud unique: ', len(vistas_desde_15_04))
vistas_desde_15_04.rename(columns={'idAviso':'idaviso','timestamp':'fechavista'}, inplace=True)

Longitud unique:  10416104


In [80]:
vistas_desde_15_04.head(1)

Unnamed: 0,idaviso,fechavista,idpostulante
0,1808556,2018-04-30T19:55:37.990-0400,6kDNzl


### avisos_detalle 

In [81]:
# Eliminamos los duplicados. En este caso se considera duplicado si matchean estas columnas (por no matchear todas)
avisos_detalle_desde_15_04.drop_duplicates(['idaviso', 'titulo', 'descripcion', 'nombre_zona', 'ciudad', 'tipo_de_trabajo', 'nivel_laboral'], keep='last', inplace=True)
print('Longitud unique: ', len(avisos_detalle_desde_15_04))
avisos_detalle_desde_15_04.drop(columns=['idpais','ciudad','mapacalle', 'nombre_zona'], inplace=True)

Longitud unique:  13798


In [82]:
def clean_html(row):
    clean_html_regex = re.compile('<.*?>')
    row['descripcion'] = re.sub(clean_html_regex, '', row['descripcion'])
    return row

avisos_detalle_desde_15_04 = avisos_detalle_desde_15_04.apply(lambda row: clean_html(row), axis=1)

In [83]:
avisos_detalle_desde_15_04.head(1)

Unnamed: 0,idaviso,titulo,descripcion,tipo_de_trabajo,nivel_laboral,nombre_area,denominacion_empresa
0,1573840,VENDEDORA/O,Nuestra Búsqueda se orienta a la incorporación...,Full-time,Otro,Ventas,RIBEIRO SUC. FLORES


## Juntamos los 338 registros que faltan con el set a predecir

In [84]:
avisos_detalle_desde_15_04 = pd.concat([avisos_detalle_desde_15_04, avisos_detalle_338_faltantes])

In [85]:
print(len(avisos_detalle_desde_15_04))

14136


## Set a predecir

In [86]:
data_predecir = pd.read_csv('../data/test_final_100k.csv', encoding='utf-8')