In [1]:
import pandas as pd
import numpy as np
import datetime
import sklearn

## Lectura de datos

### Datos originales

In [2]:
# Postulantes
postulantes_educacion = pd.read_csv(\
    './data/fiuba_1_postulantes_educacion.csv', low_memory=False)
postulantes_sexo_y_edad = pd.read_csv(\
    './data/fiuba_2_postulantes_genero_y_edad.csv', low_memory=False)

# Avisos
avisos_online = pd.read_csv(\
    './data/fiuba_5_avisos_online.csv', low_memory=False)
avisos_detalle = pd.read_csv(\
    './data/fiuba_6_avisos_detalle.csv', low_memory=False)

# Transacciones
vistas = pd.read_csv(\
    './data/fiuba_3_vistas.csv', low_memory=False)
postulaciones = pd.read_csv(\
    './data/fiuba_4_postulaciones.csv', low_memory=False)

### Datos hasta 15 de abril

In [3]:
# Postulantes
h15_postulantes_educacion = pd.read_csv(\
    './data/fiuba_hasta_15_abril/entrega6/fiuba_1_postulantes_educacion.csv',\
    low_memory=False)
h15_postulantes_sexo_y_edad = pd.read_csv(\
    './data/fiuba_hasta_15_abril/entrega6/fiuba_2_postulantes_genero_y_edad.csv',\
    low_memory=False)

# Avisos
h15_avisos_online = pd.read_csv(\
    './data/fiuba_hasta_15_abril/entrega6/fiuba_5_avisos_online.csv',\
    low_memory=False)
h15_avisos_detalle = pd.read_csv(\
    './data/fiuba_hasta_15_abril/entrega6/fiuba_6_avisos_detalle.csv',\
    low_memory=False)

# Transacciones
h15_vistas = pd.read_csv(\
    './data/fiuba_hasta_15_abril/entrega6/fiuba_3_vistas.csv',\
    low_memory=False)
h15_postulaciones = pd.read_csv(\
    './data/fiuba_hasta_15_abril/entrega6/fiuba_4_postulaciones.csv',\
    low_memory=False)

### Datos desde el 15 de abril

In [4]:
# Postulantes
d15_postulantes_educacion = pd.read_csv(\
    './data/fiuba_desde_15_Abril/fiuba_1_postulantes_educacion.csv',\
    low_memory=False)
d15_postulantes_sexo_y_edad = pd.read_csv(\
    './data/fiuba_desde_15_Abril/fiuba_2_postulantes_genero_y_edad.csv',\
    low_memory=False)

# Avisos
d15_avisos_detalle = pd.read_csv(\
    './data/fiuba_desde_15_Abril/fiuba_6_avisos_detalle.csv',\
    low_memory=False)

# Transacciones
d15_vistas = pd.read_csv(\
    './data/fiuba_desde_15_Abril/fiuba_3_vistas.csv',\
    low_memory=False)

### Detalle de avisos faltantes

In [5]:
# Avisos
m_avisos_detalle = pd.read_csv(\
    './data/fiuba_6_avisos_detalle_missing_nivel_laboral.csv',\
    low_memory=False)

## Merge de todos los datos

### Merge de los postulantes

Agregamos columna con ponderación del nivel de estudios alcanzado.

In [41]:
m_postulantes_educacion = pd.concat([postulantes_educacion, \
                                 h15_postulantes_educacion, \
                                 d15_postulantes_educacion])

In [42]:
m_postulantes_educacion.head()

Unnamed: 0,idpostulante,nombre,estado
0,NdJl,Posgrado,En Curso
1,8BkL,Universitario,En Curso
2,1d2B,Universitario,En Curso
3,NPBx,Universitario,En Curso
4,NPBx,Master,En Curso


In [43]:
m_postulantes_educacion.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1103193 entries, 0 to 397508
Data columns (total 3 columns):
idpostulante    1103193 non-null object
nombre          1103193 non-null object
estado          1103193 non-null object
dtypes: object(3)
memory usage: 33.7+ MB


In [44]:
# Verificamos que no haya filas repetidas
m_postulantes_educacion.drop_duplicates()
m_postulantes_educacion.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1103193 entries, 0 to 397508
Data columns (total 3 columns):
idpostulante    1103193 non-null object
nombre          1103193 non-null object
estado          1103193 non-null object
dtypes: object(3)
memory usage: 33.7+ MB


In [45]:
m_postulantes_educacion.nombre.value_counts()

Universitario        404619
Secundario           382927
Terciario/Técnico    180091
Otro                  84674
Posgrado              33484
Master                16436
Doctorado               962
Name: nombre, dtype: int64

In [46]:
m_postulantes_educacion['secundario'] = \
    m_postulantes_educacion['nombre'].apply(\
    lambda x: 1 if (x == 'Secundario') else 0)

m_postulantes_educacion['terciario'] = \
    m_postulantes_educacion['nombre'].apply(\
    lambda x: 1 if (x == 'Terciario/Técnico') else 0)

m_postulantes_educacion['universitario'] = \
    m_postulantes_educacion['nombre'].apply(\
    lambda x: 1 if (x == 'Universitario') else 0)

m_postulantes_educacion['Posgrado'] = \
    m_postulantes_educacion['nombre'].apply(\
    lambda x: 1 if ((x == 'Posgrado') | (x == 'Master')\
                    | (x == 'Doctorado')) else 0)

m_postulantes_educacion.head()

Unnamed: 0,idpostulante,nombre,estado,secundario,terciario,universitario,Posgrado
0,NdJl,Posgrado,En Curso,0,0,0,1
1,8BkL,Universitario,En Curso,0,0,1,0
2,1d2B,Universitario,En Curso,0,0,1,0
3,NPBx,Universitario,En Curso,0,0,1,0
4,NPBx,Master,En Curso,0,0,0,1


In [47]:
m_postulantes_educacion.sort_values('idpostulante').head()

Unnamed: 0,idpostulante,nombre,estado,secundario,terciario,universitario,Posgrado
86118,0z5Dmrd,Universitario,Graduado,0,0,1,0
344316,0z5JW1r,Terciario/Técnico,Graduado,0,1,0,0
344317,0z5JW1r,Otro,Graduado,0,0,0,0
291559,0z5JW1r,Universitario,Abandonado,0,0,1,0
291098,0z5JW1r,Otro,Graduado,0,0,0,0


In [48]:
m_postulantes_educacion.estado.value_counts()

Graduado      721794
En Curso      286282
Abandonado     95117
Name: estado, dtype: int64

In [49]:
m_postulantes_educacion['estado'] = \
    m_postulantes_educacion['estado'].apply(lambda x: \
    1 if (x == 'Graduado') else 0)

In [50]:
m_postulantes_educacion.estado.value_counts()

1    721794
0    381399
Name: estado, dtype: int64

In [51]:
m_postulantes_educacion['secundario'] = \
    m_postulantes_educacion['estado'] * \
    m_postulantes_educacion['secundario']

m_postulantes_educacion['terciario'] = \
    m_postulantes_educacion['estado'] * \
    m_postulantes_educacion['terciario']

m_postulantes_educacion['universitario'] = \
    m_postulantes_educacion['estado'] * \
    m_postulantes_educacion['universitario']

m_postulantes_educacion['Posgrado'] = \
    m_postulantes_educacion['estado'] * \
    m_postulantes_educacion['Posgrado']

m_postulantes_educacion.head()

Unnamed: 0,idpostulante,nombre,estado,secundario,terciario,universitario,Posgrado
0,NdJl,Posgrado,0,0,0,0,0
1,8BkL,Universitario,0,0,0,0,0
2,1d2B,Universitario,0,0,0,0,0
3,NPBx,Universitario,0,0,0,0,0
4,NPBx,Master,0,0,0,0,0


In [58]:
m_postulantes_educacion.sort_values('idpostulante').head()

Unnamed: 0,idpostulante,nombre,estado,secundario,terciario,universitario,Posgrado
86118,0z5Dmrd,Universitario,1,0,0,1,0
344316,0z5JW1r,Terciario/Técnico,1,0,1,0,0
344317,0z5JW1r,Otro,1,0,0,0,0
291559,0z5JW1r,Universitario,0,0,0,0,0
291098,0z5JW1r,Otro,1,0,0,0,0


In [62]:
graduados = m_postulantes_educacion.groupby('idpostulante')\
    .agg({'secundario':'max','terciario':'max',
        'universitario':'max','Posgrado':'max'})
graduados.head()

Unnamed: 0_level_0,secundario,terciario,universitario,Posgrado
idpostulante,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0z5Dmrd,0,0,1,0
0z5JW1r,1,1,0,0
0z5VvGv,1,0,0,0
0zB01pE,0,1,0,0
0zB026d,1,1,0,0


In [64]:
graduados.reset_index(inplace=True)
graduados.head()

Unnamed: 0,idpostulante,secundario,terciario,universitario,Posgrado
0,0z5Dmrd,0,0,1,0
1,0z5JW1r,1,1,0,0
2,0z5VvGv,1,0,0,0
3,0zB01pE,0,1,0,0
4,0zB026d,1,1,0,0


In [83]:
graduados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 447909 entries, 0 to 447908
Data columns (total 5 columns):
idpostulante     447909 non-null object
secundario       447909 non-null int64
terciario        447909 non-null int64
universitario    447909 non-null int64
Posgrado         447909 non-null int64
dtypes: int64(4), object(1)
memory usage: 17.1+ MB


Unimos (concat) todos los dataframes de sexo y edad de los postulantes y luego los unimos (outer join) con los dataframes de los niveles de educación de los postulantes previamente tratados.

In [65]:
m_postulantes_sexo_y_edad = pd.concat([postulantes_sexo_y_edad, \
                                      h15_postulantes_sexo_y_edad, \
                                      d15_postulantes_sexo_y_edad])

In [66]:
m_postulantes_sexo_y_edad.count()

idpostulante       780020
fechanacimiento    745747
sexo               780020
dtype: int64

In [67]:
m_postulantes_sexo_y_edad = m_postulantes_sexo_y_edad.drop_duplicates()
m_postulantes_sexo_y_edad.count()

idpostulante       505382
fechanacimiento    478699
sexo               505382
dtype: int64

In [12]:
#m_postulantes_sexo_y_edad = m_postulantes_sexo_y_edad.groupby(['idpostulante'])\
#    .apply(lambda x: x.loc[x.sexo != 'NO_DECLARA',:] if len(x)>1 else x)\
#    .reset_index(drop=True)

In [68]:
m_postulantes_sexo_y_edad.count()

idpostulante       505382
fechanacimiento    478699
sexo               505382
dtype: int64

In [69]:
m_postulantes_sexo_y_edad = m_postulantes_sexo_y_edad.drop_duplicates('idpostulante')
m_postulantes_sexo_y_edad.count()

idpostulante       504407
fechanacimiento    477724
sexo               504407
dtype: int64

In [70]:
m_postulantes_sexo_y_edad['fechanacimiento'] = \
    pd.to_datetime(postulantes_sexo_y_edad['fechanacimiento'], errors='coerce')
m_postulantes_sexo_y_edad.count()

idpostulante       504407
fechanacimiento    384151
sexo               504407
dtype: int64

In [76]:
def calcular_edad(fecha_nacimiento):
    hoy = datetime.date.today()
    edad = hoy.year - fecha_nacimiento.year - ((hoy.month, hoy.day)\
            < (fecha_nacimiento.month, fecha_nacimiento.day))
    return np.NaN if ((edad > 100) | (edad < 16)) else edad

m_postulantes_sexo_y_edad['edad'] = \
    m_postulantes_sexo_y_edad['fechanacimiento']\
    .apply(lambda x: calcular_edad(x))
m_postulantes_sexo_y_edad.head()

Unnamed: 0,idpostulante,fechanacimiento,sexo,edad
0,NM5M,1970-12-03,FEM,47.0
1,5awk,1962-12-04,FEM,55.0
2,ZaO5,1978-08-10,FEM,39.0
3,NdJl,1969-05-09,MASC,49.0
4,eo2p,1981-02-16,MASC,37.0


In [77]:
import random
edad_mediana = m_postulantes_sexo_y_edad['edad'].median()
m_postulantes_sexo_y_edad['edad'].fillna(random.expovariate(1/edad_mediana),\
                                         inplace = True)
m_postulantes_sexo_y_edad.drop(['fechanacimiento'], axis=1, inplace=True)
m_postulantes_sexo_y_edad.head(2)

Unnamed: 0,idpostulante,sexo,edad
0,NM5M,FEM,47.0
1,5awk,FEM,55.0


In [78]:
m_postulantes_sexo_y_edad.sexo.value_counts()

FEM           250875
MASC          227589
NO_DECLARA     25936
0.0                7
Name: sexo, dtype: int64

In [79]:
def categorizar_sexo(x):
    if (x == 'FEM'):
        return 0
    if (x == 'MASC'):
        return 1
    return random.getrandbits(1)

m_postulantes_sexo_y_edad['sexo'] = m_postulantes_sexo_y_edad['sexo']\
    .apply(lambda x: categorizar_sexo(x))

m_postulantes_sexo_y_edad.head()

Unnamed: 0,idpostulante,sexo,edad
0,NM5M,0,47.0
1,5awk,0,55.0
2,ZaO5,0,39.0
3,NdJl,1,49.0
4,eo2p,1,37.0


In [82]:
m_postulantes_sexo_y_edad.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 504407 entries, 0 to 281384
Data columns (total 3 columns):
idpostulante    504407 non-null object
sexo            504407 non-null int64
edad            504407 non-null float64
dtypes: float64(1), int64(1), object(1)
memory usage: 15.4+ MB


In [84]:
m_postulantes = pd.merge(m_postulantes_sexo_y_edad, graduados, \
                       on = 'idpostulante', how='left')
m_postulantes.count()

idpostulante     504407
sexo             504407
edad             504407
secundario       447909
terciario        447909
universitario    447909
Posgrado         447909
dtype: int64

In [86]:
m_postulantes['secundario'].fillna(1, inplace = True)
m_postulantes['terciario'].fillna(0, inplace = True)
m_postulantes['universitario'].fillna(0, inplace = True)
m_postulantes['Posgrado'].fillna(0, inplace = True)
m_postulantes.count()

idpostulante     504407
sexo             504407
edad             504407
secundario       504407
terciario        504407
universitario    504407
Posgrado         504407
dtype: int64

In [89]:
m_postulantes.edad = m_postulantes.edad.astype(int)
m_postulantes.secundario = m_postulantes.secundario.astype(int)
m_postulantes.terciario = m_postulantes.terciario.astype(int)
m_postulantes.universitario = m_postulantes.universitario.astype(int)
m_postulantes.Posgrado = m_postulantes.Posgrado.astype(int)
m_postulantes.head()

Unnamed: 0,idpostulante,sexo,edad,secundario,terciario,universitario,Posgrado
0,NM5M,0,47,1,0,0,0
1,5awk,0,55,0,1,1,0
2,ZaO5,0,39,0,1,0,0
3,NdJl,1,49,0,0,1,0
4,eo2p,1,37,1,0,1,1


### Merge de los avisos

In [90]:
avisos_detalle = avisos_detalle.loc[:,['idaviso', 'titulo', \
    'nombre_zona', 'tipo_de_trabajo', 'nivel_laboral', 'nombre_area',\
    'denominacion_empresa']]
h15_avisos_detalle = h15_avisos_detalle.loc[:,['idaviso', 'titulo', \
    'nombre_zona', 'tipo_de_trabajo', 'nivel_laboral', 'nombre_area',\
    'denominacion_empresa']]
d15_avisos_detalle = d15_avisos_detalle.loc[:,['idaviso', 'titulo', \
    'nombre_zona', 'tipo_de_trabajo', 'nivel_laboral', 'nombre_area',\
    'denominacion_empresa']]
m_avisos_detalle = m_avisos_detalle.loc[:,['idaviso', 'titulo', \
    'nombre_zona', 'tipo_de_trabajo', 'nivel_laboral', 'nombre_area',\
    'denominacion_empresa']]

In [91]:
m_avisos = pd.concat([avisos_detalle, h15_avisos_detalle, \
                      d15_avisos_detalle, m_avisos_detalle])

In [92]:
m_avisos.count()

idaviso                 45969
titulo                  45969
nombre_zona             45969
tipo_de_trabajo         45969
nivel_laboral           45634
nombre_area             45969
denominacion_empresa    45955
dtype: int64

In [93]:
m_avisos = m_avisos.drop_duplicates()
m_avisos.count()

idaviso                 25637
titulo                  25637
nombre_zona             25637
tipo_de_trabajo         25637
nivel_laboral           25302
nombre_area             25637
denominacion_empresa    25630
dtype: int64

In [94]:
m_avisos = m_avisos.drop_duplicates('idaviso', keep='last')
m_avisos.count()

idaviso                 25288
titulo                  25288
nombre_zona             25288
tipo_de_trabajo         25288
nivel_laboral           24953
nombre_area             25288
denominacion_empresa    25281
dtype: int64

In [95]:
m_avisos.head(2)

Unnamed: 0,idaviso,titulo,nombre_zona,tipo_de_trabajo,nivel_laboral,nombre_area,denominacion_empresa
0,8725750,VENDEDOR/A PROVINCIA DE SANTA FE,Gran Buenos Aires,Full-time,Senior / Semi-Senior,Comercial,VENTOR
2,1000150677,Chofer de taxi,Capital Federal,Full-time,Senior / Semi-Senior,Transporte,FAMITAX SRL


In [96]:
m_avisos.nivel_laboral.value_counts()

Senior / Semi-Senior                    16975
Junior                                   4152
Otro                                     1977
Jefe / Supervisor / Responsable          1527
Gerencia / Alta Gerencia / Dirección      322
Name: nivel_laboral, dtype: int64

In [97]:
# Completo los NaNs del nivel laboral con "Senior / Semi-Senior"
m_avisos['nivel_laboral'].fillna('Senior / Semi-Senior', inplace = True)
m_avisos.count()

idaviso                 25288
titulo                  25288
nombre_zona             25288
tipo_de_trabajo         25288
nivel_laboral           25288
nombre_area             25288
denominacion_empresa    25281
dtype: int64

In [98]:
def categorizar_nivel_laboral(x):
    if((x == 'Jefe / Supervisor / Responsable') |
      (x == 'Gerencia / Alta Gerencia / Dirección')):
        return 1
    return 0

m_avisos['nivel_laboral'] = m_avisos['nivel_laboral']\
    .apply(lambda x: categorizar_nivel_laboral(x))

In [99]:
# Completo los NaNs del nombre de la empresa con "No declara"
m_avisos['denominacion_empresa'].fillna('No declara', inplace = True)
m_avisos.count()

idaviso                 25288
titulo                  25288
nombre_zona             25288
tipo_de_trabajo         25288
nivel_laboral           25288
nombre_area             25288
denominacion_empresa    25288
dtype: int64

In [100]:
m_avisos.head(2)

Unnamed: 0,idaviso,titulo,nombre_zona,tipo_de_trabajo,nivel_laboral,nombre_area,denominacion_empresa
0,8725750,VENDEDOR/A PROVINCIA DE SANTA FE,Gran Buenos Aires,Full-time,0,Comercial,VENTOR
2,1000150677,Chofer de taxi,Capital Federal,Full-time,0,Transporte,FAMITAX SRL


In [101]:
m_avisos.tipo_de_trabajo.value_counts()

Full-time          22831
Part-time           1746
Teletrabajo          248
Por Horas            125
Pasantia             119
Temporario            96
Por Contrato          88
Fines de Semana       28
Primer empleo          6
Voluntario             1
Name: tipo_de_trabajo, dtype: int64

In [102]:
def categorizar_tipo_de_trabajo(x):
    if(x == 'Full-time'):
        return 1
    return 0

m_avisos['tipo_de_trabajo'] = m_avisos['tipo_de_trabajo']\
    .apply(lambda x: categorizar_tipo_de_trabajo(x))

In [37]:
type(m_avisos.nombre_area)

pandas.core.series.Series

In [103]:
def categorizar_area(x):
    if ((type(x) is str) == False):
        return 'Otros'
    if ((x == 'Programación') | (x == 'Soporte Técnico') |
        (x == 'Tecnologia / Sistemas') |
        (x == 'Sistemas') | (x == 'Redes') |
        (x == 'Business Intelligence') | (x == 'Telecomunicaciones') |
        (x == 'Tecnologías de la Información') |
        (x == 'Seguridad Informática') | (x == 'Análisis Funcional') |
        (x == 'Internet') | (x == 'Diseño Web') |
        (x == 'Diseño Multimedia') | (x == 'Testing / QA / QC') |
        (x == 'Data Warehousing') | (x == 'Multimedia') |
        (x == 'Administración de Base de Datos')):
        return 'Sistemas'
    if ((x == 'Ventas') | (x == 'Comercial') | (x == 'Compras') |
        (x == 'Administración') | (x == 'Contabilidad') |
        (x == 'Marketing') | (x == 'Finanzas') | (x == 'Tesorería') |
        (x == 'Créditos y Cobranzas') | (x == 'Legal') |
        (x == 'Desarrollo de Negocios') | (x == 'Impuestos') |
        (x == 'Auditoría') | (x == 'Control de Gestión') |
        (x == 'Planeamiento comercial') | (x == 'Facturación') |
        (x == 'Compras Internacionales/Importación') |
        (x == 'Consultorías Comercio Exterior') | (x == 'Consultoria') |
        (x == 'Análisis de Riesgos') | (x == 'E-commerce') |
        (x == 'Ventas Internacionales/Exportación') |
        (x == 'Comercio Exterior') | (x == 'Evaluación Económica') |
        (x == 'Mercadotecnia Internacional') | 
        (x == 'Relaciones Institucionales/Publicas') |
        (x == 'Planeamiento económico-financiero ') |
        (x == 'Corporate Finance / Banca Inversión') |
        (x == 'Cuentas Corrientes')):
        return 'Comercial / Negocios'
    if ((x == 'Salud') | (x == 'Medicina') | (x == 'Farmacéutica') |
        (x == 'Medicina Laboral') | (x == 'Otras áreas técnicas en salud') |
        (x == 'Fonoaudiología') | (x == 'Farmacia hospitalaria') |
        (x == 'Prácticas cardiológicas') | (x == 'Odontología') |
        (x == 'Otras Especialidades médicas') | (x == 'Clínica Médica') |
        (x == 'Kinesiología / terapia ocupacional') |
        (x == 'Auditoría Médica') | (x == 'Instrumentación quirúrgica') |
        (x == 'Enfermería (ver Enfermería)') | (x == 'Psicología')):
        return 'Salud'
    if ((x == 'Producción') | (x == 'Logística') | (x == 'Construcción') |
        (x == 'Ingeniería  Industrial') | (x == 'Ingeniería  Mecánica') |
        (x == 'Ingeniería  Eléctrica y Electrónica ') |
        (x == 'Distribución') | (x == 'Programación de producción') |
        (x == 'Producto') | (x == 'Otras Ingenierias') | 
        (x == 'Mineria/Petroleo/Gas') | (x == 'Ingeniería Civil') |
        (x == 'Ingeniería Oficina Técnica / Proyecto') |
        (x == 'Dirección de Obra') | (x == 'Ingeniería Química') |
        (x == 'Ingeniería Electromecánica') | (x == 'Seguridad e Higiene') |
        (x == 'Ingeniería de Procesos') | (x == 'Organización y Métodos') |
        (x == 'Ingeniería en Alimentos') | (x == 'Ingeniería  Automotriz') |
        (x == 'Ingeniería Agrónoma') | (x == 'Operaciones') |
        (x == 'Ingeniería de Producto ') | (x == 'Ingeniería  Metalurgica') |
        (x == 'Planeamiento') | (x == 'Farmacia industrial') |
        (x == 'Seguridad Industrial') | (x == 'Quimica') |
        (x == 'Química') | (x == 'Ingeniería en Petróleo y Petroquímica') |
        (x == 'Ingeniería Geológica') | (x == 'Instrumentación Minera') |
        (x == 'Exploración Minera y Petroquimica') | (x == 'Infraestructura') |
        (x == 'Ingeniería en Minas') | (x == 'Calidad') |
        (x == 'Abastecimiento') | (x == 'Ingeniería de Ventas ') |
        (x == 'Diseño Industrial')):
        return 'Produccion / Ingenieria'
    if ((x == 'Atención al Cliente') | (x == 'Mantenimiento') |
        (x == 'Mantenimiento y Limpieza') | (x == 'Call Center') |
        (x == 'Recepcionista') | (x == 'Oficios y Profesiones') |
        (x == 'Almacén / Depósito / Expedición') | (x == 'Telemarketing') |
        (x == 'Seguridad') | (x == 'Secretaria') | (x == 'Camareros') |
        (x == 'Cadetería') | (x == 'Asistente') | (x == 'Data Entry') |
        (x == 'Pasantía / Trainee') | (x == 'Caja') | (x == 'Back Office') |
        (x == 'Promotoras/es') | (x == 'Telefonista')):
        return 'No calificado'
    if ((x == 'Recursos Humanos') | (x == 'Selección') |
        (x == 'Administración de Personal') |
        (x == 'Compensación y Planilla')):
        return 'RRHH'
    if ((x == 'Turismo') | (x == 'Hotelería')):
        return 'Turismo'
    if ((x == 'Educación/ Docentes') | (x == 'Educación') |
        (x == 'Educación especial') | (x == 'Capacitación') |
        (x == 'Bienestar Estudiantil')):
        return 'Educacion'
    if ((x == 'Arquitectura') | (x == 'Diseño Gráfico') |
        (x == 'Diseño Textil e Indumentaria') | (x == 'Diseño') |
        (x == 'Diseño de Interiores / Decoración') | (x == 'Urbanismo') |
        (x == 'Diseño 3D')):
        return 'Disenio'
    return 'Otros'

m_avisos['nombre_area'] = m_avisos['nombre_area']\
    .apply(lambda x: categorizar_area(x))
m_avisos.nombre_area.value_counts()

Comercial / Negocios       10345
Produccion / Ingenieria     3940
No calificado               3932
Sistemas                    2941
Otros                       2095
RRHH                         945
Salud                        597
Disenio                      242
Educacion                    139
Turismo                      112
Name: nombre_area, dtype: int64

In [104]:
m_avisos.head()

Unnamed: 0,idaviso,titulo,nombre_zona,tipo_de_trabajo,nivel_laboral,nombre_area,denominacion_empresa
0,8725750,VENDEDOR/A PROVINCIA DE SANTA FE,Gran Buenos Aires,1,0,Comercial / Negocios,VENTOR
2,1000150677,Chofer de taxi,Capital Federal,1,0,Otros,FAMITAX SRL
3,1000610287,CHOFER DE CAMIONETA BAHIA BLANCA - PUNTA ALTA,Gran Buenos Aires,1,0,Otros,Wurth Argentina S.A
4,1000872556,Operarios de Planta - Rubro Electrodomésticos,Gran Buenos Aires,1,0,Produccion / Ingenieria,ELECTRO OUTLET SRL
5,1001135716,Vendedor Viajante TUCUMAN/SANTIAGO DEL ESTERO,Gran Buenos Aires,1,0,Comercial / Negocios,Wurth Argentina S.A


In [105]:
del m_avisos['titulo']

In [106]:
m_avisos.nombre_zona.value_counts()

Gran Buenos Aires              23017
Capital Federal                 2183
Buenos Aires (fuera de GBA)       57
GBA Oeste                         10
La Plata                           4
Ciudad de Mendoza                  3
Mendoza                            3
Cordoba                            2
Rosario                            2
Santa Cruz                         1
Santa Fe                           1
Corrientes                         1
San Juan                           1
Catamarca                          1
Tucuman                            1
Neuquen                            1
Name: nombre_zona, dtype: int64

In [107]:
def categorizar_zona(x):
    if ((x == 'Capital Federal')):
        return 1
    return 0

m_avisos['nombre_zona'] = m_avisos['nombre_zona']\
    .apply(lambda x: categorizar_zona(x))
m_avisos.nombre_zona.value_counts()

0    23105
1     2183
Name: nombre_zona, dtype: int64

### Label encoding

In [108]:
from sklearn.preprocessing import LabelEncoder
from sklearn.pipeline import Pipeline

class MultiColumnLabelEncoder:
    def __init__(self,columns = None):
        self.columns = columns # array of column names to encode

    def fit(self,X,y=None):
        return self # not relevant here

    def transform(self,X):
        '''
        Transforms columns of X specified in self.columns using
        LabelEncoder(). If no columns specified, transforms all
        columns in X.
        '''
        output = X.copy()
        if self.columns is not None:
            for col in self.columns:
                output[col] = LabelEncoder().fit_transform(output[col])
        else:
            for colname,col in output.iteritems():
                output[colname] = LabelEncoder().fit_transform(col)
        return output

    def fit_transform(self,X,y=None):
        return self.fit(X,y).transform(X)

In [None]:
#del m_avisos['denominacion_empresa']

In [109]:
avisos_encoding = MultiColumnLabelEncoder(columns = \
    ['nombre_area','denominacion_empresa']).fit_transform(m_avisos)
avisos_encoding.head()

Unnamed: 0,idaviso,nombre_zona,tipo_de_trabajo,nivel_laboral,nombre_area,denominacion_empresa
0,8725750,0,1,0,0,4000
2,1000150677,1,1,0,4,1560
3,1000610287,0,1,0,4,4113
4,1000872556,0,1,0,5,1266
5,1001135716,0,1,0,0,4113


### Merge de las postulaciones

In [110]:
m_postulaciones = pd.concat([postulaciones, h15_postulaciones])

In [111]:
m_postulaciones['fechapostulacion'] = \
    pd.to_datetime(m_postulaciones['fechapostulacion'], errors='coerce')
m_postulaciones.count()

idaviso             8311264
idpostulante        8311264
fechapostulacion    8311264
dtype: int64

In [112]:
del m_postulaciones['fechapostulacion']
m_postulaciones.head(2)

Unnamed: 0,idaviso,idpostulante
0,1112257047,NM5M
1,1111920714,NM5M


In [114]:
m_postulantes.count()

idpostulante     504407
sexo             504407
edad             504407
secundario       504407
terciario        504407
universitario    504407
Posgrado         504407
dtype: int64

In [115]:
merged = pd.merge(m_postulaciones, m_postulantes, \
                  on = 'idpostulante', how = 'inner')

In [116]:
merged.count()

idaviso          8311264
idpostulante     8311264
sexo             8311264
edad             8311264
secundario       8311264
terciario        8311264
universitario    8311264
Posgrado         8311264
dtype: int64

In [117]:
avisos_encoding.count()

idaviso                 25288
nombre_zona             25288
tipo_de_trabajo         25288
nivel_laboral           25288
nombre_area             25288
denominacion_empresa    25288
dtype: int64

In [118]:
merged2 = pd.merge(merged, avisos_encoding, on = 'idaviso', how = 'inner')
merged2.count()

idaviso                 7742942
idpostulante            7742942
sexo                    7742942
edad                    7742942
secundario              7742942
terciario               7742942
universitario           7742942
Posgrado                7742942
nombre_zona             7742942
tipo_de_trabajo         7742942
nivel_laboral           7742942
nombre_area             7742942
denominacion_empresa    7742942
dtype: int64

In [119]:
merged2.head()

Unnamed: 0,idaviso,idpostulante,sexo,edad,secundario,terciario,universitario,Posgrado,nombre_zona,tipo_de_trabajo,nivel_laboral,nombre_area,denominacion_empresa
0,1112257047,NM5M,0,47,1,0,0,0,0,0,0,3,1368
1,1112257047,1kJqGb,0,34,0,1,0,0,0,0,0,3,1368
2,1112257047,eOE9Rr,0,39,1,0,0,0,0,0,0,3,1368
3,1112257047,Zrx8Xz,0,39,0,1,0,0,0,0,0,3,1368
4,1112257047,ZrKNQY,0,33,0,0,1,0,0,0,0,3,1368


In [120]:
merged2.drop_duplicates()
merged2.count()

idaviso                 7742942
idpostulante            7742942
sexo                    7742942
edad                    7742942
secundario              7742942
terciario               7742942
universitario           7742942
Posgrado                7742942
nombre_zona             7742942
tipo_de_trabajo         7742942
nivel_laboral           7742942
nombre_area             7742942
denominacion_empresa    7742942
dtype: int64

In [None]:
merged2.to_csv('./data/merged_encoding_03.csv', encoding='utf-8')
avisos_encoding.to_csv('./data/avisos_encoding_03.csv', encoding='utf-8')
m_postulantes.to_csv('./data/postulantes_encoding_03.csv', encoding='utf-8')