In [4]:
# importacion general de librerias y de visualizacion (matplotlib y seaborn)
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

plt.style.use('default') # haciendo los graficos un poco mas bonitos en matplotlib
#plt.rcParams['figure.figsize'] = (20, 10)

sns.set(style="whitegrid") # seteando tipo de grid en seaborn

## 1. Educacion de postulantes
### Inspeccion rapida: Forma y calidad

In [28]:
# %timeit sirve para evaluar el tiempo de ejecucion
df_temp = pd.read_csv('../csv/datos_navent_fiuba/fiuba_1_postulantes_educacion.csv')
df_temp.head()

Unnamed: 0,idpostulante,nombre,estado
0,NdJl,Posgrado,En Curso
1,8BkL,Universitario,En Curso
2,1d2B,Universitario,En Curso
3,NPBx,Universitario,En Curso
4,NPBx,Master,En Curso


In [12]:
df_temp['nombre'].value_counts()

Secundario           110256
Universitario        104295
Terciario/Técnico     47733
Otro                  24748
Posgrado               7387
Master                 3598
Doctorado               214
Name: nombre, dtype: int64

In [11]:
df_temp['estado'].value_counts()

Graduado      194474
En Curso       78531
Abandonado     25226
Name: estado, dtype: int64

In [29]:
df_temp.isnull().any()

idpostulante    False
nombre          False
estado          False
dtype: bool

---
#### **Bitacora:** Todos los datos sanos y bien categorizados
---

## 2. Genero y edad de postulantes
### Inspeccion rapida: Forma y calidad

In [162]:
df_temp = pd.read_csv('../csv/datos_navent_fiuba/fiuba_2_postulantes_genero_y_edad.csv')
df_temp.head()

Unnamed: 0,idpostulante,fechanacimiento,sexo
0,NM5M,1970-12-03,FEM
1,5awk,1962-12-04,FEM
2,ZaO5,1978-08-10,FEM
3,NdJl,1969-05-09,MASC
4,eo2p,1981-02-16,MASC


In [163]:
df_temp['sexo'].value_counts()

FEM           101981
MASC           94339
NO_DECLARA      4568
Name: sexo, dtype: int64

In [164]:
df_temp.isnull().any()

idpostulante       False
fechanacimiento     True
sexo               False
dtype: bool

In [165]:
df_temp.isnull().sum()

idpostulante          0
fechanacimiento    4750
sexo                  0
dtype: int64

In [26]:
# ok, miro cuales son las fechas malas no nulas

In [166]:
df_temp[
    df_temp['fechanacimiento'].notnull()][
    (pd.to_datetime(df_temp['fechanacimiento'].dropna(), errors='coerce').isnull())]

Unnamed: 0,idpostulante,fechanacimiento,sexo
56206,xkPwXwY,0031-12-11,FEM
71458,LN85Y3b,0029-05-11,MASC
130846,8M2R6pz,0024-02-09,FEM
141832,A36Npjj,0033-09-14,FEM
145683,dYjV0rb,0012-11-04,NO_DECLARA
148638,GNZOvAv,0004-07-19,MASC
149653,1QPQ8QL,0011-03-08,MASC


In [167]:
# Las fechas malas pueden descartarse
df_temp['fechanacimiento'] = pd.to_datetime(df_temp['fechanacimiento'], errors='coerce')

In [168]:
# Considero fechas anteriores al siglo XX como invalidas
df_temp.loc[df_temp['fechanacimiento'] < '1900-01-01', 'fechanacimiento'] = pd.NaT

In [169]:
df_temp.to_csv('../csv/datos_navent_fiuba/fiuba_2_postulantes_genero_y_edad_fix.csv')

---
#### **Bitacora:** Se encontraron fechas nulas. Tambien una pequena cantidad de fechas no validas, que fueron borradas. Una fecha de nacimiento era anterior a 1900 y tambien fue borrada. Se exporta el csv corregido
---

## 3. Vista de avisos online y offline
### Inspeccion rapida: Forma y calidad

In [201]:
df_temp = pd.read_csv('../csv/datos_navent_fiuba/fiuba_3_vistas.csv')
df_temp.head()

Unnamed: 0,idAviso,timestamp,idpostulante
0,1111780242,2018-02-23T13:38:13.187-0500,YjVJQ6Z
1,1112263876,2018-02-23T13:38:14.296-0500,BmVpYoR
2,1112327963,2018-02-23T13:38:14.329-0500,wVkBzZd
3,1112318643,2018-02-23T13:38:17.921-0500,OqmP9pv
4,1111903673,2018-02-23T13:38:18.973-0500,DrpbXDP


In [172]:
df_temp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 961897 entries, 0 to 961896
Data columns (total 3 columns):
idAviso         961897 non-null int64
timestamp       961897 non-null object
idpostulante    961897 non-null object
dtypes: int64(1), object(2)
memory usage: 22.0+ MB


In [206]:
pd.to_datetime(df_temp['timestamp']).sort_values().head(10)

2373   2018-02-23 18:38:10.808
1041   2018-02-23 18:38:12.173
1352   2018-02-23 18:38:12.581
1691   2018-02-23 18:38:12.790
1692   2018-02-23 18:38:12.945
0      2018-02-23 18:38:13.187
2029   2018-02-23 18:38:13.269
2030   2018-02-23 18:38:13.343
351    2018-02-23 18:38:13.849
1      2018-02-23 18:38:14.296
Name: timestamp, dtype: datetime64[ns]

---
#### **Bitacora:** Todos los datos conservados. No hay errores
---

## 4. Postulaciones hasta 1 de marzo
### Inspeccion rapida: Forma y calidad

In [208]:
df_temp = pd.read_csv('../csv/datos_navent_fiuba/fiuba_4_postulaciones.csv')
df_temp.head()

Unnamed: 0,idaviso,idpostulante,fechapostulacion
0,1112257047,NM5M,2018-01-15 16:22:34
1,1111920714,NM5M,2018-02-06 09:04:50
2,1112346945,NM5M,2018-02-22 09:04:47
3,1112345547,NM5M,2018-02-22 09:04:59
4,1112237522,5awk,2018-01-25 18:55:03


In [209]:
df_temp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3401623 entries, 0 to 3401622
Data columns (total 3 columns):
idaviso             int64
idpostulante        object
fechapostulacion    object
dtypes: int64(1), object(2)
memory usage: 77.9+ MB


In [212]:
pd.to_datetime(df_temp['fechapostulacion']).sort_values().head(10)

1525012   2018-01-15 00:00:01
1269880   2018-01-15 00:00:02
1842775   2018-01-15 00:00:09
1525013   2018-01-15 00:00:10
3348905   2018-01-15 00:00:11
222799    2018-01-15 00:00:16
1812230   2018-01-15 00:00:16
1558135   2018-01-15 00:00:16
2435961   2018-01-15 00:00:16
3159078   2018-01-15 00:00:18
Name: fechapostulacion, dtype: datetime64[ns]

In [199]:
df_temp['idpostulante'].apply(len).value_counts()

7    2763243
6     632698
5       5278
4        404
Name: idpostulante, dtype: int64