In [1]:
import numpy as np
import pandas as pd
import seaborn as sb
import matplotlib.pyplot as plt
%matplotlib inline

In [2]:
from sklearn.base import TransformerMixin

class DataFrameImputer(TransformerMixin):

    def __init__(self):
        """Impute missing values.

        Columns of dtype object are imputed with the most frequent value 
        in column.

        Columns of other types are imputed with mean of column.

        """
    def fit(self, X, y=None):

        self.fill = pd.Series([X[c].value_counts().index[0]
            if X[c].dtype == np.dtype('O') else X[c].mean() for c in X],
            index=X.columns)

        return self

    def transform(self, X, y=None):
        return X.fillna(self.fill)

In [3]:
most_frequent_words = ['experiencia','empresa','búsqueda','importante','manejo','tareas','lunes','equipo','conocimientos','principales','viernes',
                       'desarrollo','capacidad','disponibilidad','excelente','full','administración','atención','relaciones',
                       'compromiso','ventas','perfil','persona','sistemas']

In [4]:
cd Algorithms

[Errno 2] No such file or directory: 'Algorithms'
/home/agustin/Escritorio/FIUBA/Datos/OrgaDatos/TP2/MapDataAnalysis


In [5]:
total = pd.read_csv('../DataAnalysis/data4M.csv')

In [6]:
total.sample(5)

Unnamed: 0,descripcion,estado,fechanacimiento,idaviso,idpostulante,nivel_laboral,nombre_area,nombre_sort,nombre_zona,se_postulo,sexo,tipo_de_trabajo,titulo
3182725,"<p> </p><p style=""""><span lang=""ES"" style="""">P...",Graduado,1990-08-09,1112417224,e31maW,Jefe / Supervisor / Responsable,Ingeniería Eléctrica y Electrónica,0.0,Gran Buenos Aires,0,MASC,Full-time,Responsable de Automatización de Planta
3144470,"<p><span style="""">Estamos en la búsqueda de un...",Graduado,1989-12-06,1112394870,dY5Y0Da,Senior / Semi-Senior,Producción,3.0,Gran Buenos Aires,0,MASC,Full-time,Operador CNC Waterjet maquina de corte x agua ...
3267065,<p>Nos encontramos en la búsqueda de un Admini...,En Curso,1992-03-14,1112339555,ZDr1LrV,Senior / Semi-Senior,Administración,3.0,Gran Buenos Aires,0,FEM,Full-time,Administrativo Jr de Logística zona Quilmes
597212,<p>Estamos en la búsqueda de una Asistente Adm...,En Curso,1992-05-31,1112442093,VNkRmYE,Junior,Administración,2.0,Capital Federal,1,FEM,Full-time,Asistente Administrativa
833292,<p>Importante empresa ubicada en la zona de Ci...,,1984-10-07,1112450973,4rPl4lM,Senior / Semi-Senior,Producción,,Gran Buenos Aires,1,FEM,Full-time,Operario de Acondicionamiento Manual


In [7]:
def datetime(date,format_string):
    return pd.to_datetime(date,format= format_string,errors='coerce')

In [8]:
total = DataFrameImputer().fit_transform(total)

In [9]:
total['edadPostulante'] = datetime(total['fechanacimiento'],'%Y-%m-%d')

In [10]:
total['edadPostulante'] = total['edadPostulante'].map(lambda x: 2018 - x.year)

In [11]:
total.drop(columns = ['fechanacimiento'],inplace= True)

In [12]:
total=total.fillna(method='pad')

In [13]:
# estado Mapping 
total['estadoEncoded'] = total['estado'].map( {'En Curso': 0, 'Abandonado': 2, 'Graduado': 1} ).astype(int)



In [14]:
# tipoDeTrabajo Mapping 
total['tipoDeTrabajoEncoded'] = total['tipo_de_trabajo'].map( {'Full-time':0, 'Part-time':1, 'Teletrabajo':2, 'Por Horas': 3, 'Pasantia': 4, 'Temporario': 5, 'Por Contrato': 6,'Fines de Semana': 7, 'Primer empleo': 8,'Corrientes':9,'Vicente López':10, 'Voluntario': 11} ).astype(int)
 

    


In [15]:
# Nivel de trabajo Mapping
total['nivelLaboralEncoded'] = total['nivel_laboral'].map( {'Senior / Semi-Senior':0, 'Junior':1, 'Otro':2, 'Jefe / Supervisor / Responsable': 3, 
                                                              'Gerencia / Alta Gerencia / Dirección': 4,'Microcentro':5,'Full-time':6} ).astype(int)


In [16]:
#Sexo Mapping

total['sexoEncoded'] = total['sexo'].map({'FEM':0, 'MASC':1, 'NO_DECLARA':2, '0.0':2}).astype(int)


In [17]:
# Mapping edad del postulante
total.loc[ total['edadPostulante'] <= 21, 'edadEncoded']                         = 0
total.loc[(total['edadPostulante'] > 21) & (total['edadPostulante'] <= 26), 'edadEncoded'] = 1
total.loc[(total['edadPostulante'] > 26) & (total['edadPostulante'] <= 30), 'edadEncoded'] = 2
total.loc[(total['edadPostulante'] > 30) & (total['edadPostulante'] <= 40), 'edadEncoded'] = 3
total.loc[ total['edadPostulante'] > 40, 'edadEncoded'] = 4

In [18]:
#Mapping nombre de la zona

total['zonaEncoded'] = total['nombre_zona'].map({'Gran Buenos Aires': 0, 'Capital Federal': 1,'GBA Oeste': 2, 'Buenos Aires (fuera de GBA)': 3 })

In [19]:
total.head()

Unnamed: 0,descripcion,estado,idaviso,idpostulante,nivel_laboral,nombre_area,nombre_sort,nombre_zona,se_postulo,sexo,tipo_de_trabajo,titulo,edadPostulante,estadoEncoded,tipoDeTrabajoEncoded,nivelLaboralEncoded,sexoEncoded,edadEncoded,zonaEncoded
0,<p>En Farmacia Central Oeste estamos buscando ...,En Curso,1111662226,EzpVOLz,Otro,Farmacéutica,3.0,Gran Buenos Aires,1,MASC,Full-time,Cajeros/as- Atencion al cliente,31.0,0,0,2,1,3.0,0
1,"<p>Gestión de seguimiento de reclamos, retenci...",En Curso,1111413600,kPjordV,Otro,Telemarketing,3.0,Capital Federal,1,MASC,Part-time,Operador telefónico / Retención y Fidelizació...,20.0,0,1,2,1,0.0,1
2,"<p style=""""><span style="""">Nuestro Cliente una...",Graduado,1112401116,pzNk9Rr,Junior,Soporte Técnico,1.0,Gran Buenos Aires,1,MASC,Full-time,Técnico en Reparación de Celulares,35.0,1,0,1,1,3.0,0
3,"<p style="""">En <strong style="""">PROSEGUR ACTIV...",Graduado,1112319004,vV3BMz1,Junior,Ventas,1.0,Capital Federal,1,MASC,Full-time,Asesores Comerciales NEUQUEN,64.0,1,0,1,1,4.0,1
4,<p>Seleccionaremos para Importante Entidad Ban...,Abandonado,1112094756,a4GRrN,Senior / Semi-Senior,Call Center,3.0,Gran Buenos Aires,1,MASC,Part-time,Representante de Atencion al Cliente/ Banco,40.0,2,1,0,1,3.0,0


In [20]:
drop_elements = ['tipo_de_trabajo','estado','sexo','edadPostulante','nivel_laboral','nombre_zona']
total = total.drop(drop_elements, axis = 1)

In [21]:
total = DataFrameImputer().fit_transform(total)

In [22]:
total.head(5)

Unnamed: 0,descripcion,idaviso,idpostulante,nombre_area,nombre_sort,se_postulo,titulo,estadoEncoded,tipoDeTrabajoEncoded,nivelLaboralEncoded,sexoEncoded,edadEncoded,zonaEncoded
0,<p>En Farmacia Central Oeste estamos buscando ...,1111662226,EzpVOLz,Farmacéutica,3.0,1,Cajeros/as- Atencion al cliente,0,0,2,1,3.0,0
1,"<p>Gestión de seguimiento de reclamos, retenci...",1111413600,kPjordV,Telemarketing,3.0,1,Operador telefónico / Retención y Fidelizació...,0,1,2,1,0.0,1
2,"<p style=""""><span style="""">Nuestro Cliente una...",1112401116,pzNk9Rr,Soporte Técnico,1.0,1,Técnico en Reparación de Celulares,1,0,1,1,3.0,0
3,"<p style="""">En <strong style="""">PROSEGUR ACTIV...",1112319004,vV3BMz1,Ventas,1.0,1,Asesores Comerciales NEUQUEN,1,0,1,1,4.0,1
4,<p>Seleccionaremos para Importante Entidad Ban...,1112094756,a4GRrN,Call Center,3.0,1,Representante de Atencion al Cliente/ Banco,2,1,0,1,3.0,0


In [23]:
import re

def cleanhtml(raw_html):
    cleanr = re.compile('<.*?>')
    subclean = re.sub(cleanr, '', raw_html)
    cleantext = subclean.replace("\r","")
    cleantext = cleantext.replace('\n',"")
    return cleantext

def has_frequent_words(string):
    clearString = cleanhtml(string)
    words = clearString.split(' ')
    mf_words = ['experiencia','empresa','búsqueda','importante','manejo','tareas','lunes','equipo','conocimientos','principales','viernes',
                       'desarrollo','capacidad','disponibilidad','excelente','full','administración','atención','relaciones',
                       'compromiso','ventas','perfil','persona','sistemas']
    for word in words:
        if word in mf_words:
            mf_words.remove(word)
    if len(mf_words)<= 19: return 1 #son 23 palabras, si hay al menos 4 en el texto entonces devuelvo 1 
    return 0

In [24]:
total['descripcion'] = total["descripcion"].map(lambda x: has_frequent_words(x))

In [25]:
total['descripcion'].value_counts()

0    2352691
1    1628409
Name: descripcion, dtype: int64

In [26]:
total.to_csv('MappedData4M.csv')