In [1]:
import numpy as np
import pandas as pd
import seaborn as sb
import matplotlib.pyplot as plt
%matplotlib inline

In [2]:
from sklearn.base import TransformerMixin

class DataFrameImputer(TransformerMixin):

    def __init__(self):
        """Impute missing values.

        Columns of dtype object are imputed with the most frequent value 
        in column.

        Columns of other types are imputed with mean of column.

        """
    def fit(self, X, y=None):

        self.fill = pd.Series([X[c].value_counts().index[0]
            if X[c].dtype == np.dtype('O') else X[c].mean() for c in X],
            index=X.columns)

        return self

    def transform(self, X, y=None):
        return X.fillna(self.fill)

In [3]:
most_frequent_words = ['experiencia','empresa','búsqueda','importante','manejo','tareas','lunes','equipo','conocimientos','principales','viernes',
                       'desarrollo','capacidad','disponibilidad','excelente','full','administración','atención','relaciones',
                       'compromiso','ventas','perfil','persona','sistemas']

In [4]:
test = pd.read_csv('../test/100k_info_predecir.csv')

In [5]:
test.drop(columns=['denominacion_empresa','idpais','ciudad','nombre','mapacalle'],inplace = True)
test.head()

Unnamed: 0,id,idaviso,idpostulante,estado,nombre_sort,fechanacimiento,sexo,titulo,descripcion,nombre_zona,tipo_de_trabajo,nivel_laboral,nombre_area
0,0,739260,6M9ZQR,Graduado,6.0,1976-03-29,FEM,Asistente Comercial,Nuestro cliente es una empresa nac. ubicada en...,Capital Federal,Full-time,Jefe / Supervisor / Responsable,Comercial
1,1,739260,6v1xdL,Graduado,2.0,1987-06-27,MASC,Asistente Comercial,Nuestro cliente es una empresa nac. ubicada en...,Capital Federal,Full-time,Jefe / Supervisor / Responsable,Comercial
2,2,739260,ezRKm9,Graduado,3.0,1982-02-17,FEM,Asistente Comercial,Nuestro cliente es una empresa nac. ubicada en...,Capital Federal,Full-time,Jefe / Supervisor / Responsable,Comercial
3,3,758580,1Q35ej,Graduado,4.0,1949-12-24,MASC,Oracle Financials Sr. Application Developer,"\r\nTeleTech, the worlwide leader in outsource...",Capital Federal,Full-time,Otro,Tecnologia / Sistemas
4,4,758580,EAN4J6,Abandonado,3.0,1986-05-27,FEM,Oracle Financials Sr. Application Developer,"\r\nTeleTech, the worlwide leader in outsource...",Capital Federal,Full-time,Otro,Tecnologia / Sistemas


In [6]:
def datetime(date,format_string):
    return pd.to_datetime(date,format= format_string,errors='coerce')

In [7]:
test = DataFrameImputer().fit_transform(test)

In [8]:
test['edadPostulante'] = datetime(test['fechanacimiento'],'%Y-%m-%d')
test['edadPostulante'] = test['edadPostulante'].map(lambda x: 2018 - x.year)
test.drop(columns = ['fechanacimiento'],inplace= True)

In [9]:
# estado Mapping 
test['estadoEncoded'] = test['estado'].map( {'En Curso': 0, 'Abandonado': 2, 'Graduado': 1} ).astype(int)

# tipoDeTrabajo Mapping 
test['tipoDeTrabajoEncoded'] = test['tipo_de_trabajo'].map( {'Full-time':0, 'Part-time':1, 'Teletrabajo':2, 'Por Horas': 3, 'Pasantia': 4, 'Temporario': 5, 'Por Contrato': 6,'Fines de Semana': 7, 'Primer empleo': 8,'Corrientes':9,'Vicente López':10} ).astype(int)
 

    
# Nivel de trabajo Mapping
test['nivelLaboralEncoded'] = test['nivel_laboral'].map( {'Senior / Semi-Senior':0, 'Junior':1, 'Otro':2, 'Jefe / Supervisor / Responsable': 3, 
                                                              'Gerencia / Alta Gerencia / Dirección': 4,'Microcentro':5,'Full-time':6} ).astype(int)


#Sexo Mapping

test['sexoEncoded'] = test['sexo'].map({'FEM':0, 'MASC':1, 'NO_DECLARA':2}).astype(int)


# Mapping edad del postulante
test.loc[ test['edadPostulante'] <= 21, 'edadEncoded']= 0
test.loc[(test['edadPostulante'] > 21) & (test['edadPostulante'] <= 26), 'edadEncoded'] = 1
test.loc[(test['edadPostulante'] > 26) & (test['edadPostulante'] <= 30), 'edadEncoded'] = 2
test.loc[(test['edadPostulante'] > 30) & (test['edadPostulante'] <= 40), 'edadEncoded'] = 3
test.loc[ test['edadPostulante'] > 40, 'edadEncoded'] = 4

#Mapping nombre de la zona

test['zonaEncoded'] = test['nombre_zona'].map({'Gran Buenos Aires': 0, 'Capital Federal': 1,'GBA Oeste': 2, 'Buenos Aires (fuera de GBA)': 3 })

In [10]:
drop_elements = ['tipo_de_trabajo','estado','sexo','edadPostulante','nivel_laboral','nombre_zona']
test= test.drop(drop_elements, axis = 1)

In [11]:
test.head()

Unnamed: 0,id,idaviso,idpostulante,nombre_sort,titulo,descripcion,nombre_area,estadoEncoded,tipoDeTrabajoEncoded,nivelLaboralEncoded,sexoEncoded,edadEncoded,zonaEncoded
0,0,739260,6M9ZQR,6.0,Asistente Comercial,Nuestro cliente es una empresa nac. ubicada en...,Comercial,1,0,3,0,4.0,1.0
1,1,739260,6v1xdL,2.0,Asistente Comercial,Nuestro cliente es una empresa nac. ubicada en...,Comercial,1,0,3,1,3.0,1.0
2,2,739260,ezRKm9,3.0,Asistente Comercial,Nuestro cliente es una empresa nac. ubicada en...,Comercial,1,0,3,0,3.0,1.0
3,3,758580,1Q35ej,4.0,Oracle Financials Sr. Application Developer,"\r\nTeleTech, the worlwide leader in outsource...",Tecnologia / Sistemas,1,0,2,1,4.0,1.0
4,4,758580,EAN4J6,3.0,Oracle Financials Sr. Application Developer,"\r\nTeleTech, the worlwide leader in outsource...",Tecnologia / Sistemas,2,0,2,0,3.0,1.0


In [12]:
import re

def cleanhtml(raw_html):
    cleanr = re.compile('<.*?>')
    subclean = re.sub(cleanr, '', raw_html)
    cleantext = subclean.replace("\r","")
    cleantext = cleantext.replace('\n',"")
    return cleantext

def has_frequent_words(string):
    clearString = cleanhtml(string)
    words = clearString.split(' ')
    mf_words = ['experiencia','empresa','búsqueda','importante','manejo','tareas','lunes','equipo','conocimientos','principales','viernes',
                       'desarrollo','capacidad','disponibilidad','excelente','full','administración','atención','relaciones',
                       'compromiso','ventas','perfil','persona','sistemas']
    for word in words:
        if word in mf_words:
            mf_words.remove(word)
    if len(mf_words)<= 19: return 1 #son 23 palabras, si hay 12 en el texto entonces devuelvo 1 
    return 0

In [13]:
test['descripcion'] = test["descripcion"].map(lambda x: has_frequent_words(x))

In [14]:
test['descripcion'].value_counts()

0    60644
1    39356
Name: descripcion, dtype: int64

In [15]:
test = DataFrameImputer().fit_transform(test)

In [16]:
test.head()

Unnamed: 0,id,idaviso,idpostulante,nombre_sort,titulo,descripcion,nombre_area,estadoEncoded,tipoDeTrabajoEncoded,nivelLaboralEncoded,sexoEncoded,edadEncoded,zonaEncoded
0,0,739260,6M9ZQR,6.0,Asistente Comercial,1,Comercial,1,0,3,0,4.0,1.0
1,1,739260,6v1xdL,2.0,Asistente Comercial,1,Comercial,1,0,3,1,3.0,1.0
2,2,739260,ezRKm9,3.0,Asistente Comercial,1,Comercial,1,0,3,0,3.0,1.0
3,3,758580,1Q35ej,4.0,Oracle Financials Sr. Application Developer,0,Tecnologia / Sistemas,1,0,2,1,4.0,1.0
4,4,758580,EAN4J6,3.0,Oracle Financials Sr. Application Developer,0,Tecnologia / Sistemas,2,0,2,0,3.0,1.0


In [17]:
test.to_csv('MappedTest.csv',index = False)