In [1]:
import pandas as pd
from pandas.api.types import CategoricalDtype
import time
from datetime import datetime
import scipy.spatial
import numpy as np
from sklearn.preprocessing import LabelEncoder

In [2]:
# We're going to be calculating memory usage a lot,
# so we'll create a function to save us some time!

def mem_usage(pandas_obj):
    if isinstance(pandas_obj,pd.DataFrame):
        usage_b = pandas_obj.memory_usage(deep=True).sum()
    else: # we assume if not a df it's a series
        usage_b = pandas_obj.memory_usage(deep=True)
    usage_mb = usage_b / 1024 ** 2 # convert bytes to megabytes
    return "{:03.2f} MB".format(usage_mb)

In [20]:
dtypes = pd.Series({'idaviso': np.dtype('uint32'), 'idpostulante': np.dtype('object')})

dtypes_col = dtypes.index
dtypes_type = [i.name for i in dtypes.values]

column_types = dict(zip(dtypes_col, dtypes_type))
postulaciones = pd.read_csv('/home/lucio/Documentos/Datos/NaventDatosTP/Data/Postulaciones/Postulaciones-merge.csv',
                            dtype=column_types,parse_dates=['fechapostulacion'],infer_datetime_format=True)
postulaciones = postulaciones.drop(columns=['Unnamed: 0','fechapostulacion'])

In [21]:
postulaciones.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6603752 entries, 0 to 6603751
Data columns (total 2 columns):
idaviso         uint32
idpostulante    object
dtypes: object(1), uint32(1)
memory usage: 75.6+ MB


In [5]:
dtypes = pd.Series({'idpostulante': np.dtype('object'), 'sexo': CategoricalDtype(categories=['FEM', 'MASC', 'NO_DECLARA'], ordered=False)})

dtypes_col = dtypes.index
dtypes_type = [i.name for i in dtypes.values]

column_types = dict(zip(dtypes_col, dtypes_type))

postulantes_genero_edad = pd.read_csv('/home/lucio/Documentos/Datos/NaventDatosTP/Data/Postulantes-Genero-Edad/postulantes_genero_y_edad-merge.csv',
                                    dtype=column_types,parse_dates=['fechanacimiento'],
                                      infer_datetime_format=True)
postulantes_genero_edad = postulantes_genero_edad.drop(columns=['Unnamed: 0'])

In [6]:
dtypes = pd.Series({'estado': CategoricalDtype(categories=['Abandonado', 'En Curso', 'Graduado'], ordered=False), 'idpostulante': np.dtype('object'),
                    'nombre': CategoricalDtype(categories=['Doctorado', 'Master', 'Otro', 'Posgrado', 'Secundario',
                  'Terciario/Técnico', 'Universitario'],
                 ordered=False)})


dtypes_col = dtypes.index
dtypes_type = [i.name for i in dtypes.values]

column_types = dict(zip(dtypes_col, dtypes_type))

postulantes_educacion = pd.read_csv('/home/lucio/Documentos/Datos/NaventDatosTP/Data/Postulantes-Educacion/postulantes_educacion-merge.csv',
                                    dtype=column_types)
postulantes_educacion = postulantes_educacion.drop(columns=['Unnamed: 0','nombre_numerico'])

In [7]:
#Hago un merge de educacion y genero-edad
postulantes_merge = pd.merge(postulantes_genero_edad,postulantes_educacion,how='left',on='idpostulante')

In [8]:
postulantes_merge.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 504407 entries, 0 to 504406
Data columns (total 5 columns):
idpostulante       504407 non-null object
fechanacimiento    504407 non-null object
sexo               504407 non-null category
nombre             447909 non-null category
estado             447909 non-null category
dtypes: category(3), object(2)
memory usage: 13.0+ MB


In [9]:
postulantes_merge.head()

Unnamed: 0,idpostulante,fechanacimiento,sexo,nombre,estado
0,6MM,1985-01-01,MASC,,
1,Nzz,,NO_DECLARA,,
2,ZX1,,NO_DECLARA,,
3,Nq5,,NO_DECLARA,,
4,ebE,1952-07-07,MASC,Posgrado,Graduado


In [10]:
#Voy a agregar una columna con la edad ya calculada(estimando por 2017-año nacimiento) para cada registro
postulantes_merge["año"] = postulantes_merge[postulantes_merge["fechanacimiento"] != 'nan']\
        ["fechanacimiento"].apply(lambda x: x[0:4])
postulantes_merge["edad"] = postulantes_merge[postulantes_merge["año"].notna()] \
        ["año"].apply(lambda x: 2017 - int(x))

In [11]:
#Elimino columna fechanacimiento y año que ya no me sirven
postulantes_merge = postulantes_merge.drop(columns=['fechanacimiento','año'])

In [12]:
postulantes_merge.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 504407 entries, 0 to 504406
Data columns (total 5 columns):
idpostulante    504407 non-null object
sexo            504407 non-null category
nombre          447909 non-null category
estado          447909 non-null category
edad            477918 non-null float64
dtypes: category(3), float64(1), object(1)
memory usage: 13.0+ MB


# Agrego la informacion a postulaciones

In [22]:
merge_postulaciones = pd.merge(postulaciones,postulantes_merge,how='left',on='idpostulante')

In [23]:
#Creo columna con un 1 para indicar postulacion
merge_postulaciones['se_postulo'] = 1
merge_postulaciones['se_postulo'] = merge_postulaciones[['se_postulo']].apply(pd.to_numeric,downcast='unsigned')

In [24]:
merge_postulaciones.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6603752 entries, 0 to 6603751
Data columns (total 7 columns):
idaviso         uint32
idpostulante    object
sexo            category
nombre          category
estado          category
edad            float64
se_postulo      uint8
dtypes: category(3), float64(1), object(1), uint32(1), uint8(1)
memory usage: 201.5+ MB


In [25]:
merge_postulaciones[merge_postulaciones['edad'].isnull()]

Unnamed: 0,idaviso,idpostulante,sexo,nombre,estado,edad,se_postulo
570,1112281337,NM1J0z,MASC,Secundario,Graduado,,1
571,1112334640,NM1J0z,MASC,Secundario,Graduado,,1
572,1112289378,NM1J0z,MASC,Secundario,Graduado,,1
573,1112296073,NM1J0z,MASC,Secundario,Graduado,,1
574,1112310231,NM1J0z,MASC,Secundario,Graduado,,1
575,1112195462,NM1J0z,MASC,Secundario,Graduado,,1
576,1112288872,NM1J0z,MASC,Secundario,Graduado,,1
577,1112277388,NM1J0z,MASC,Secundario,Graduado,,1
578,1112334643,NM1J0z,MASC,Secundario,Graduado,,1
579,1112153209,NM1J0z,MASC,Secundario,Graduado,,1


In [26]:
#Me quedo con los registros con todos los datos (por ahora desp ver si se puede usar imputing)
merge_sin_nan = merge_postulaciones[merge_postulaciones['nombre'].notnull() &
                                    merge_postulaciones['estado'].notnull() & 
                                    merge_postulaciones['edad'].notnull()]
merge_sin_nan.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6327947 entries, 0 to 6603751
Data columns (total 7 columns):
idaviso         uint32
idpostulante    object
sexo            category
nombre          category
estado          category
edad            float64
se_postulo      uint8
dtypes: category(3), float64(1), object(1), uint32(1), uint8(1)
memory usage: 193.1+ MB


# Agrego datos de vistas que serian los postulantes que ven algo y no se postulan

In [18]:
dtypes = pd.Series({'idAviso': np.dtype('uint32'), 'idpostulante': np.dtype('object')})

dtypes_col = dtypes.index
dtypes_type = [i.name for i in dtypes.values]

column_types = dict(zip(dtypes_col, dtypes_type))

vistas = pd.read_csv('/home/lucio/Documentos/Datos/NaventDatosTP/Data/Vistas/Vistas-merge.csv',dtype=column_types,parse_dates=['timestamp'],
                     infer_datetime_format=True)
vistas = vistas.drop(columns=['Unnamed: 0'])
#Considero unica vista de aviso por postulante (no me importa ni horario ni cantidad solo que lo vea)
vistas.drop(columns=['timestamp'],inplace=True)
vistas.drop_duplicates(subset=['idAviso','idpostulante'],inplace=True)
vistas['se_postulo'] = 0
vistas['se_postulo'] = vistas[['se_postulo']].apply(pd.to_numeric,downcast='unsigned')

In [19]:
vistas.rename(index=str,columns={'idAviso':'idaviso'},inplace=True)
vistas.info()

<class 'pandas.core.frame.DataFrame'>
Index: 8597915 entries, 0 to 8597914
Data columns (total 3 columns):
idaviso         uint32
idpostulante    object
se_postulo      uint8
dtypes: object(1), uint32(1), uint8(1)
memory usage: 172.2+ MB


In [28]:
#Puede que haya vistas que enrealidad el postulante luego se postulo asi que verifico con el dataset merge
outer = pd.merge(merge_postulaciones,vistas,how='outer',on=['idaviso','idpostulante'])

In [1]:
#Dejo solo los que no aparecen ya en postulaciones
trainingSet = outer[outer['se_postulo_x'].isnull() & outer['se_postulo_y'] == 0]
trainingSet.drop('se_postulo_x',inplace=True)
trainingSet.rename(index=str,columns={'se_postulo_y':'se_postulo'},inplace=True)

NameError: name 'outer' is not defined

In [36]:
pd.concat([trainingSet,merge_postulaciones])

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=True'.


  """Entry point for launching an IPython kernel.


Unnamed: 0,edad,estado,idaviso,idpostulante,nombre,se_postulo,se_postulo_x,se_postulo_y,sexo
6,55.0,Graduado,1112302347,5awk,Universitario,,1.0,0.0,FEM
10,55.0,Graduado,1112303543,5awk,Universitario,,1.0,0.0,FEM
12,55.0,Graduado,1112315188,5awk,Universitario,,1.0,0.0,FEM
13,55.0,Graduado,1112346738,5awk,Universitario,,1.0,0.0,FEM
14,55.0,Graduado,1112330625,5awk,Universitario,,1.0,0.0,FEM
15,55.0,Graduado,1112306543,5awk,Universitario,,1.0,0.0,FEM
16,55.0,Graduado,1112315170,5awk,Universitario,,1.0,0.0,FEM
17,55.0,Graduado,1111799928,5awk,Universitario,,1.0,0.0,FEM
18,55.0,Graduado,1112323355,5awk,Universitario,,1.0,0.0,FEM
19,55.0,Graduado,1112305358,5awk,Universitario,,1.0,0.0,FEM


In [18]:
#Vamos a codificar cada columna que sea de strings
lb_make1 = LabelEncoder()
merge_sin_nan["estado_code"] = lb_make1.fit_transform(merge_sin_nan["estado"])

lb_make2 = LabelEncoder()
merge_sin_nan["sexo_code"] = lb_make2.fit_transform(merge_sin_nan["sexo"])

lb_make3 = LabelEncoder()
merge_sin_nan["nombre_code"] = lb_make3.fit_transform(merge_sin_nan["nombre"])


TypeError: '<' not supported between instances of 'str' and 'float'

In [None]:
#Dropeo las columnas que use para codificar
postulantes_merge = postulantes_merge.drop(columns=['sexo','nombre','estado'])
postulantes_merge.info()

In [None]:
postulantes_merge_int = postulantes_merge.select_dtypes(include=['int','float'])
converted_int = postulantes_merge_int.apply(pd.to_numeric,downcast='unsigned')

print(mem_usage(postulantes_merge_int))
print(mem_usage(converted_int))

compare_ints = pd.concat([postulantes_merge_int.dtypes,converted_int.dtypes],axis=1)
compare_ints.columns = ['before','after']
compare_ints.apply(pd.Series.value_counts)

In [None]:
optimized_postulantes_merge = postulantes_merge.copy()

optimized_postulantes_merge[converted_int.columns] = converted_int

print(mem_usage(postulantes_merge))
print(mem_usage(optimized_postulantes_merge))

In [None]:
optimized_postulantes_merge.info()

In [19]:
optimized_postulantes_merge.to_csv('Data/optimized_postulantes_merge.csv')

In [20]:
intereses_vistas = pd.read_csv('Data/unique_postulantes_con_intereses_vistas.csv')

In [22]:
intereses_vistas.head()

Unnamed: 0,idpostulante,nombre_zona_interes,nivel_laboral_interes,tipo_de_trabajo_interes,nombre_area_interes
0,YjVJQ6Z,-7.0,-4,-1.0,-175.0
1,BmVpYoR,,,,
2,wVkBzZd,-7.0,-2,-1.0,-120.0
3,OqmP9pv,-7.0,-4-2,-1.0,-175.0
4,DrpbXDP,,,,
