In [1]:
import numpy as np 
import pandas as pd
import datetime

# Limpieza de DataFrames

### Dataframe de educacion de postulantes (fiuba_1_postulantes_educacion)

In [5]:
postulantes_edu = pd.read_csv('data/fiuba_1_postulantes_educacion.csv')
postulantes_edu.head()

Unnamed: 0,idpostulante,nombre,estado
0,NdJl,Posgrado,En Curso
1,8BkL,Universitario,En Curso
2,1d2B,Universitario,En Curso
3,NPBx,Universitario,En Curso
4,NPBx,Master,En Curso


In [12]:
postulantes_edu.describe()

Unnamed: 0,idpostulante,nombre,estado
count,298231,298231,298231
unique,188752,7,3
top,YlMLGD,Secundario,Graduado
freq,9,110256,194474


In [24]:
postulantes_edu['nombre'].unique()

array(['Posgrado', 'Universitario', 'Master', 'Otro', 'Terciario/Técnico',
       'Doctorado', 'Secundario'], dtype=object)

Los valores de la columna 'idpostulante' corresponden a una foreign key a alguna tabla de postulantes, por lo tanto, algunos id's están duplicados

In [9]:
# Evaluo los valores nulos de cada columna
postulantes_edu.isnull().any()

idpostulante    False
nombre          False
estado          False
dtype: bool

El primer dataframe queda como está.

### Dataframe de género y edad de postulantes (fiuba_2_postulantes_genero_y_edad)

In [32]:
# Cargo y chequeo el DF de genero y edad
postulantes_genero_edad = pd.read_csv('data/fiuba_2_postulantes_genero_y_edad.csv')
postulantes_genero_edad.head()

Unnamed: 0,idpostulante,fechanacimiento,sexo
0,NM5M,1970-12-03,FEM
1,5awk,1962-12-04,FEM
2,ZaO5,1978-08-10,FEM
3,NdJl,1969-05-09,MASC
4,eo2p,1981-02-16,MASC


In [30]:
postulantes_genero_edad.describe()

Unnamed: 0,idpostulante,fechanacimiento,sexo
count,200888,196138,200888
unique,200888,15027,3
top,GNwDDEE,1994-05-24,FEM
freq,1,57,101981


In [33]:
postulantes_genero_edad.isnull().any()

idpostulante       False
fechanacimiento     True
sexo               False
dtype: bool

In [35]:
# Borramos las filas cuya fecha de nacimiento es nula.
postulantes_genero_edad.dropna(subset=['fechanacimiento'], inplace=True)

In [36]:
postulantes_genero_edad.describe()

Unnamed: 0,idpostulante,fechanacimiento,sexo
count,196138,196138,196138
unique,196138,15027,3
top,GNwDDEE,1994-05-24,FEM
freq,1,57,101677


In [37]:
postulantes_genero_edad.dtypes

idpostulante       object
fechanacimiento    object
sexo               object
dtype: object

In [39]:
postulantes_genero_edad['fechanacimiento'].head()

0    1970-12-03
1    1962-12-04
2    1978-08-10
3    1969-05-09
4    1981-02-16
Name: fechanacimiento, dtype: object

In [41]:
postulantes_genero_edad.sort_values('fechanacimiento', ascending=True)

Unnamed: 0,idpostulante,fechanacimiento,sexo
148638,GNZOvAv,0004-07-19,MASC
149653,1QPQ8QL,0011-03-08,MASC
145683,dYjV0rb,0012-11-04,NO_DECLARA
130846,8M2R6pz,0024-02-09,FEM
71458,LN85Y3b,0029-05-11,MASC
56206,xkPwXwY,0031-12-11,FEM
141832,A36Npjj,0033-09-14,FEM
154559,xkdvwm0,1775-07-09,MASC
164618,96X1loa,1917-07-08,MASC
156483,4rP8l0R,1921-08-18,FEM


In [42]:
# Convierto la columna de fecha a Datetime
postulantes_genero_edad['fechanacimiento'] = pd.to_datetime(postulantes_genero_edad['fechanacimiento'], errors='coerce')

In [81]:
len([x for x in np.isnat(postulantes_genero_edad['fechanacimiento']) if x == True])

7

In [86]:
# Borro los 7 registros con fecha NaT
postulantes_genero_edad.dropna(subset=['fechanacimiento'], inplace=True)

Este dataframe queda limpio. Lo guardo

In [88]:
postulantes_genero_edad.to_csv('data/postulantes_genero_edad_limpio.csv')

## Dataframe de Vistas (fiuba_3_vistas)    

In [89]:
# Cargo el dataframe 
vistas = pd.read_csv('data/fiuba_3_vistas.csv')
vistas.head()

Unnamed: 0,idAviso,timestamp,idpostulante
0,1111780242,2018-02-23T13:38:13.187-0500,YjVJQ6Z
1,1112263876,2018-02-23T13:38:14.296-0500,BmVpYoR
2,1112327963,2018-02-23T13:38:14.329-0500,wVkBzZd
3,1112318643,2018-02-23T13:38:17.921-0500,OqmP9pv
4,1111903673,2018-02-23T13:38:18.973-0500,DrpbXDP


In [90]:
vistas.dtypes

idAviso          int64
timestamp       object
idpostulante    object
dtype: object

In [93]:
vistas['timestamp'] = pd.to_datetime(vistas['timestamp'], errors='coerce')

In [98]:
vistas.dtypes

idAviso                  int64
timestamp       datetime64[ns]
idpostulante            object
dtype: object

In [97]:
# Chequeo los valores nulos
vistas.isnull().any()

idAviso         False
timestamp       False
idpostulante    False
dtype: bool

In [99]:
# Guardo el DF
vistas.to_csv('data/vistas_limpio.csv')

### Dataframe de postulaciones (fiuba_4_postulaciones)

In [101]:
postulaciones = pd.read_csv('data/fiuba_4_postulaciones.csv')
postulaciones.head()

Unnamed: 0,idaviso,idpostulante,fechapostulacion
0,1112257047,NM5M,2018-01-15 16:22:34
1,1111920714,NM5M,2018-02-06 09:04:50
2,1112346945,NM5M,2018-02-22 09:04:47
3,1112345547,NM5M,2018-02-22 09:04:59
4,1112237522,5awk,2018-01-25 18:55:03


In [102]:
# Convierto la columna de fecha a datetime
postulaciones['fechapostulacion'] = pd.to_datetime(postulaciones['fechapostulacion'])

In [103]:
len([x for x in np.isnat(postulaciones['fechapostulacion']) if x == True])

0

Como no hay valores nulos, no guardo el DF

### Dataframe de avisos online (fiuba_5_avisos_online)

In [104]:
avisos = pd.read_csv('data/fiuba_5_avisos_online.csv')

In [105]:
avisos.head()

Unnamed: 0,idaviso
0,1112355872
1,1112335374
2,1112374842
3,1111984070
4,1111822480


In [107]:
len(avisos)

5028

Este dataframe es inutil, no tiene datos.

### Dataframe de detalles de avisos (fiuba_6_avisos_detalle)

In [7]:
avisos_detalles = pd.read_csv('data/fiuba_6_avisos_detalle.csv')
avisos_detalles.head()

Unnamed: 0,idaviso,idpais,titulo,descripcion,nombre_zona,ciudad,mapacalle,tipo_de_trabajo,nivel_laboral,nombre_area,denominacion_empresa
0,8725750,1,VENDEDOR/A PROVINCIA DE SANTA FE,<p><strong><strong>Empresa:</strong></strong> ...,Gran Buenos Aires,,,Full-time,Senior / Semi-Senior,Comercial,VENTOR
1,17903700,1,Enfermeras,<p>Solicitamos para importante cadena de farma...,Gran Buenos Aires,,,Full-time,Senior / Semi-Senior,Salud,Farmacias Central Oeste
2,1000150677,1,Chofer de taxi,<p>TE GUSTA MANEJAR? QUERES GANAR PLATA HACIEN...,Capital Federal,,Empedrado 2336,Full-time,Senior / Semi-Senior,Transporte,FAMITAX SRL
3,1000610287,1,CHOFER DE CAMIONETA BAHIA BLANCA - PUNTA ALTA,<p><strong>Somos una empresa multinacional que...,Gran Buenos Aires,,,Full-time,Senior / Semi-Senior,Transporte,Wurth Argentina S.A
4,1000872556,1,Operarios de Planta - Rubro Electrodomésticos,<p><strong>OPERARIOS DE PLANTA</strong></p><p>...,Gran Buenos Aires,,,Full-time,Senior / Semi-Senior,Producción,ELECTRO OUTLET SRL


In [8]:
avisos_detalles['idpais'].unique()

array([1])

In [9]:
# Dado que la columna idpais siempre tiene valor 1, la descarto.
avisos_detalles.drop(columns=['idpais'], inplace=True)

In [11]:
avisos_detalles.head()

Unnamed: 0,idaviso,titulo,descripcion,nombre_zona,ciudad,mapacalle,tipo_de_trabajo,nivel_laboral,nombre_area,denominacion_empresa
0,8725750,VENDEDOR/A PROVINCIA DE SANTA FE,<p><strong><strong>Empresa:</strong></strong> ...,Gran Buenos Aires,,,Full-time,Senior / Semi-Senior,Comercial,VENTOR
1,17903700,Enfermeras,<p>Solicitamos para importante cadena de farma...,Gran Buenos Aires,,,Full-time,Senior / Semi-Senior,Salud,Farmacias Central Oeste
2,1000150677,Chofer de taxi,<p>TE GUSTA MANEJAR? QUERES GANAR PLATA HACIEN...,Capital Federal,,Empedrado 2336,Full-time,Senior / Semi-Senior,Transporte,FAMITAX SRL
3,1000610287,CHOFER DE CAMIONETA BAHIA BLANCA - PUNTA ALTA,<p><strong>Somos una empresa multinacional que...,Gran Buenos Aires,,,Full-time,Senior / Semi-Senior,Transporte,Wurth Argentina S.A
4,1000872556,Operarios de Planta - Rubro Electrodomésticos,<p><strong>OPERARIOS DE PLANTA</strong></p><p>...,Gran Buenos Aires,,,Full-time,Senior / Semi-Senior,Producción,ELECTRO OUTLET SRL


In [14]:
avisos_detalles.dtypes

idaviso                  int64
titulo                  object
descripcion             object
nombre_zona             object
ciudad                  object
mapacalle               object
tipo_de_trabajo         object
nivel_laboral           object
nombre_area             object
denominacion_empresa    object
dtype: object

In [19]:
avisos_detalles['nombre_zona'].value_counts()

Gran Buenos Aires              12654
Capital Federal                  876
Buenos Aires (fuera de GBA)        2
GBA Oeste                          2
Name: nombre_zona, dtype: int64

In [35]:
# Nos quedamos con los avisos de Gran Buenos Aires y Capital Federal
avisos_detalles = avisos_detalles.loc[avisos_detalles['nombre_zona'].isin(['Gran Buenos Aires', 'Capital Federal']), :]

In [45]:
avisos_detalles['nombre_area'].value_counts()

Ventas                                   1658
Comercial                                 983
Administración                            901
Producción                                821
Programación                              576
Contabilidad                              415
Tecnologia / Sistemas                     388
Atención al Cliente                       347
Mantenimiento                             324
Recursos Humanos                          235
Gastronomia                               234
Oficios y Profesiones                     209
Soporte Técnico                           203
Logística                                 200
Call Center                               191
Almacén / Depósito / Expedición           184
Compras                                   170
Marketing                                 153
Otros                                     153
Administración de Personal                152
Recepcionista                             151
Transporte                        

In [46]:
len(avisos_detalles)

13530

In [48]:
# Guardo el dataframe limpio.
avisos_detalles.to_csv('data/avisos_detalles.csv')