In [1]:
import pandas as pd
from pandas.api.types import CategoricalDtype
import time
from datetime import datetime
import scipy.spatial
import numpy as np
from sklearn.preprocessing import LabelEncoder

In [2]:
dtypes = pd.Series({'nombre_zona': CategoricalDtype(categories=['Buenos Aires (fuera de GBA)', 'Capital Federal',
                  'GBA Oeste', 'Gran Buenos Aires'],ordered=False),'ciudad': CategoricalDtype(categories=['Argentina', 'Barracas', 'Buenos Aires',
                  'Buenos Aires Province', 'CABA', 'Capital Federal', 'La Plata', 'Mendoza', 'Microcentro', 
                'Parque Patricios','República Argentina', 'San Isidro', 'Santa Rosa ','Tortuguitas',
                'Vicente Lopez', 'Zárate, Campana, Escobar','caba', 'paternal'], ordered=False),
                'nivel_laboral': CategoricalDtype(categories=['Gerencia / Alta Gerencia / Dirección',
                  'Jefe / Supervisor / Responsable', 'Junior', 'Otro', 'Senior / Semi-Senior'],
                 ordered=False),'tipo_de_trabajo': CategoricalDtype(categories=['Fines de Semana', 'Full-time', 'Part-time', 'Pasantia',
                  'Por Contrato', 'Por Horas', 'Primer empleo', 'Teletrabajo','Temporario'],ordered=False)})

dtypes_col = dtypes.index
dtypes_type = [i.name for i in dtypes.values]

column_types = dict(zip(dtypes_col, dtypes_type))

avisos_detalle = pd.read_csv('Data/Avisos-Detalle/Avisos-Detalle-merge.csv',dtype=column_types)
avisos_detalle = avisos_detalle.drop(columns=['Unnamed: 0','mapacalle','ciudad'])

In [3]:
avisos_detalle.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25288 entries, 0 to 25287
Data columns (total 9 columns):
idaviso                 25288 non-null int64
idpais                  25288 non-null int64
titulo                  25288 non-null object
descripcion             25288 non-null object
nombre_zona             25288 non-null category
tipo_de_trabajo         25288 non-null category
nivel_laboral           24953 non-null category
nombre_area             25288 non-null object
denominacion_empresa    25281 non-null object
dtypes: category(3), int64(2), object(4)
memory usage: 1.2+ MB


# Limpio descripciones para recuperar datos

In [4]:
listado_caracteres = ["</p>","<strong>","<p>","</strong>","<br />","<ul>","<li>","<u>","<em>",'<p align="center">',\
                        " </u>",'<span lang="ES">',"</em>","</a>","</span>","</u>","</li>","</ul>",'<p style="">',\
                        '<span style="">',"&quot",'<ul style="">','<li style="">','<div style="">','</div>',\
                        '<div>','<span lang="ES" style="">','<u style="">','<strong style="">',\
                        '<p align="center" style="">','<span style="text-decoration: underline;">','\r\n','\t',\
                        '<span>','<span style="text-decoration: line-through;">','<ol>','</ol>','ü','<p <p',\
                        '<span lang="es" style="">','<em style="">',"&gt", "&","acute;",
                      '<p style="display: inline !important;">']
avisos_detalle['descripcion'].replace(regex=True,inplace=True,to_replace=listado_caracteres,value=r' ')

In [5]:
def recuperar_nivel_laboral_titulo(titulo):
    "Recupera el dato nivel laboral del titulo"
    titulo = titulo.lower()
    if "junior" in titulo:
        return "Junior"
    elif "jr" in titulo:
        return "Junior"
    elif "senior" in titulo:
        return "Senior / Semi-Senior"
    elif "sr/ssr" in titulo:
        return "Senior / Semi-Senior"
    elif "sr" in titulo:
        return "Senior / Semi-Senior"
    elif "ssr" in titulo:
        return "Senior / Semi-Senior"
    elif "jefe" in titulo:
        return "Jefe / Supervisor / Responsable"
    else:
        return None
    
def recuperar_nivel_laboral_descripcion(descripcion):
    "Recupera el dato nivel laboral del descripcion"
    descripcion = descripcion.lower()
    if "junior" in descripcion:
        return "Junior"
    elif "jr" in descripcion:
        return "Junior"
    elif "senior" in descripcion:
        return "Senior / Semi-Senior"
    elif "sr/ssr" in descripcion:
        return "Senior / Semi-Senior"
    elif "sr" in descripcion:
        return "Senior / Semi-Senior"
    elif "ssr" in descripcion:
        return "Senior / Semi-Senior"
    elif "jefe" in descripcion:
        return "Jefe / Supervisor / Responsable"
    else:
        return "Otro"

In [6]:
avisos_detalle.loc[avisos_detalle['nivel_laboral'].isnull(),'nivel_laboral'] = avisos_detalle['titulo'].apply(recuperar_nivel_laboral_titulo)
avisos_detalle.loc[avisos_detalle['nivel_laboral'].isnull(),'nivel_laboral'] = avisos_detalle['descripcion'].apply(recuperar_nivel_laboral_descripcion)

In [7]:
avisos_detalle[avisos_detalle['denominacion_empresa'].isnull()]

Unnamed: 0,idaviso,idpais,titulo,descripcion,nombre_zona,tipo_de_trabajo,nivel_laboral,nombre_area,denominacion_empresa
3168,1111960305,1,VENDEDORA- PORTSAID- ZONA NORTE,EXPERIENCIA PORTSAID 2017 Llegan las Fi...,Gran Buenos Aires,Full-time,Otro,Ventas,
3169,1111960330,1,VENDEDORA- PORTSAID- CAPITAL FEDERAL,EXPERIENCIA PORTSAID 2017 Llega las fie...,Gran Buenos Aires,Full-time,Otro,Ventas,
3521,1112289439,1,Muestrista Desiderata,En Mazalosa s.a. nos encontramos en la búsque...,Gran Buenos Aires,Part-time,Senior / Semi-Senior,Producción,
6221,1112430233,1,MODELO DE CALCE,Importante Empresa Nacional de Indumentaria ...,Gran Buenos Aires,Part-time,Otro,Otros,
8819,1112243714,1,Analista Comercial Senior - PORTSAID-,En Mazalosa nos encontramos en la búsqueda de...,Gran Buenos Aires,Full-time,Senior / Semi-Senior,Comercial,
17401,1111946024,1,VENDEDOR DE SALON - PORTSAID-,En Portsaid estamos buscando al mejor vendedo...,Gran Buenos Aires,Full-time,Senior / Semi-Senior,Ventas,
18602,1112017891,1,Promotora - MODELO DE CALCE PORTSAID Y DESIDER...,Nos encontramos en la búsqueda de una Modelo ...,Gran Buenos Aires,Por Horas,Otro,Ventas,


In [8]:
avisos_detalle.loc[3168,'denominacion_empresa'] = "Portsaid"
avisos_detalle.loc[3169,'denominacion_empresa'] = "Portsaid"
avisos_detalle.loc[3521,'denominacion_empresa'] = "Mazalosa S.A"
avisos_detalle.loc[8819,'denominacion_empresa'] = "Mazalosa S.A"
avisos_detalle.loc[17401,'denominacion_empresa'] = "Portsaid"
avisos_detalle.loc[18602,'denominacion_empresa'] = "Portsaid"

In [9]:
avisos_detalle.drop(6221,inplace=True) #Ver si realmente sirve de algo en realidad la columna denom...
avisos_detalle.drop(columns=['descripcion','titulo','idpais'],inplace=True) # Ya no me sirven
avisos_detalle.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 25287 entries, 0 to 25287
Data columns (total 6 columns):
idaviso                 25287 non-null int64
nombre_zona             25287 non-null category
tipo_de_trabajo         25287 non-null category
nivel_laboral           25287 non-null category
nombre_area             25287 non-null object
denominacion_empresa    25287 non-null object
dtypes: category(3), int64(1), object(2)
memory usage: 865.6+ KB


In [10]:
#Vamos a codificar cada columna que sea de strings
lb_make1 = LabelEncoder()
avisos_detalle["nombre_area_code"] = lb_make1.fit_transform(avisos_detalle["nombre_area"])

lb_make2 = LabelEncoder()
avisos_detalle["denominacion_empresa_code"] = lb_make2.fit_transform(avisos_detalle["denominacion_empresa"])

lb_make3 = LabelEncoder()
avisos_detalle["nivel_laboral_code"] = lb_make3.fit_transform(avisos_detalle["nivel_laboral"])

lb_make4 = LabelEncoder()
avisos_detalle["tipo_de_trabajo_code"] = lb_make4.fit_transform(avisos_detalle["tipo_de_trabajo"])

lb_make5 = LabelEncoder()
avisos_detalle["nombre_zona_code"] = lb_make5.fit_transform(avisos_detalle["nombre_zona"])

In [11]:
avisos_detalle.drop(columns=['nombre_area','denominacion_empresa','nivel_laboral',
                            'tipo_de_trabajo','nombre_zona'],inplace=True) # Ya no me sirven
avisos_detalle.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 25287 entries, 0 to 25287
Data columns (total 6 columns):
idaviso                      25287 non-null int64
nombre_area_code             25287 non-null int64
denominacion_empresa_code    25287 non-null int64
nivel_laboral_code           25287 non-null int64
tipo_de_trabajo_code         25287 non-null int64
nombre_zona_code             25287 non-null int64
dtypes: int64(6)
memory usage: 1.4 MB


In [12]:
# We're going to be calculating memory usage a lot,
# so we'll create a function to save us some time!

def mem_usage(pandas_obj):
    if isinstance(pandas_obj,pd.DataFrame):
        usage_b = pandas_obj.memory_usage(deep=True).sum()
    else: # we assume if not a df it's a series
        usage_b = pandas_obj.memory_usage(deep=True)
    usage_mb = usage_b / 1024 ** 2 # convert bytes to megabytes
    return "{:03.2f} MB".format(usage_mb)

In [13]:
avisos_detalle_int = avisos_detalle.select_dtypes(include=['int'])
converted_int = avisos_detalle_int.apply(pd.to_numeric,downcast='unsigned')

print(mem_usage(avisos_detalle_int))
print(mem_usage(converted_int))

compare_ints = pd.concat([avisos_detalle_int.dtypes,converted_int.dtypes],axis=1)
compare_ints.columns = ['before','after']
compare_ints.apply(pd.Series.value_counts)

1.35 MB
0.43 MB


Unnamed: 0,before,after
uint8,,4.0
uint16,,1.0
uint32,,1.0
int64,6.0,


In [14]:
optimized_avisos_detalle = avisos_detalle.copy()

optimized_avisos_detalle[converted_int.columns] = converted_int

print(mem_usage(avisos_detalle))
print(mem_usage(optimized_avisos_detalle))
optimized_avisos_detalle.info()

1.35 MB
0.43 MB
<class 'pandas.core.frame.DataFrame'>
Int64Index: 25287 entries, 0 to 25287
Data columns (total 6 columns):
idaviso                      25287 non-null uint32
nombre_area_code             25287 non-null uint8
denominacion_empresa_code    25287 non-null uint16
nivel_laboral_code           25287 non-null uint8
tipo_de_trabajo_code         25287 non-null uint8
nombre_zona_code             25287 non-null uint8
dtypes: uint16(1), uint32(1), uint8(4)
memory usage: 444.5 KB


In [15]:
optimized_avisos_detalle.to_csv('Data/optimized_avisos_detalle.csv')

In [212]:
testingSet = pd.read_csv('Data/test_final_100k.csv')

In [216]:
mergesito = pd.merge(testingSet,optimized_avisos_detalle,on="idaviso",how="inner")

In [217]:
mergesito

Unnamed: 0,id,idaviso,idpostulante,nombre_area_code,denominacion_empresa_code,nivel_laboral_code,tipo_de_trabajo_code,nombre_zona_code
0,0,739260,6M9ZQR,30,465,1,1,1
1,1,739260,6v1xdL,30,465,1,1,1
2,2,739260,ezRKm9,30,465,1,1,1
3,3,758580,1Q35ej,170,3891,3,1,1
4,4,758580,EAN4J6,170,3891,3,1,1
5,5,758580,8R6pzR,170,3891,3,1,1
6,6,776420,aZJ2XN,40,3060,3,1,1
7,7,776420,Nmpo3J,40,3060,3,1,1
8,8,776420,eVqWar,40,3060,3,1,1
9,9,820850,6ZBD33,154,2486,3,4,0


In [221]:
postulantes_optimized = pd.read_csv('Data/optimized_postulantes_merge.csv')
postulantes_optimized.drop(columns=['Unnamed: 0'],inplace=True)

In [223]:
mergesito2 = pd.merge(mergesito,postulantes_optimized,on="idpostulante",how='left')
mergesito2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 100000 entries, 0 to 99999
Data columns (total 12 columns):
id                           100000 non-null int64
idaviso                      100000 non-null int64
idpostulante                 100000 non-null object
nombre_area_code             100000 non-null uint8
denominacion_empresa_code    100000 non-null uint16
nivel_laboral_code           100000 non-null uint8
tipo_de_trabajo_code         100000 non-null uint8
nombre_zona_code             100000 non-null uint8
edad                         93346 non-null float64
estado_code                  93346 non-null float64
sexo_code                    93346 non-null float64
nombre_code                  93346 non-null float64
dtypes: float64(4), int64(2), object(1), uint16(1), uint8(4)
memory usage: 6.7+ MB


In [224]:
mergesito2[mergesito2['edad'].isnull()]

Unnamed: 0,id,idaviso,idpostulante,nombre_area_code,denominacion_empresa_code,nivel_laboral_code,tipo_de_trabajo_code,nombre_zona_code,edad,estado_code,sexo_code,nombre_code
26,26,1145170,Y9d5Bw,185,3614,3,2,1,,,,
55,55,1309510,1xOqmO,170,3684,3,1,1,,,,
60,60,1483300,8wb9AL,168,2633,3,1,3,,,,
78,78,1499190,eRV4RE,31,1543,3,1,11,,,,
82,82,1508460,eRWJz8,40,198,3,1,0,,,,
109,109,1573840,NGmez5,185,3290,3,1,1,,,,
111,111,1573840,6MM,185,3290,3,1,1,,,,
112,112,1604840,aPR4m,26,2633,3,1,8,,,,
114,114,1604840,5dlZDz,26,2633,3,1,8,,,,
119,119,1628670,NAD0Mz,170,3695,3,1,0,,,,
