# Trabajo Practico N° 1 - Organizacion de Datos

# Analisis exploratorio de un dataset con informacion provista por Navent

Link al repositorio de GitHub: https://github.com/Andivisciglio/TP1-OrganizacionDeDatos-Grupo28

In [1]:
import datetime as datetime
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

plt.style.use('default') # haciendo los graficos un poco mas bonitos en matplotlib
#plt.rcParams['figure.figsize'] = (20, 10)

sns.set(style="whitegrid") # seteando tipo de grid en seaborn

In [2]:
postulantes_edu_df = pd.read_csv('fiuba_1_postulantes_educacion.csv')
postulantes_gye_df = pd.read_csv('fiuba_2_postulantes_genero_y_edad.csv')
vistas_df = pd.read_csv('fiuba_3_vistas.csv')
postulaciones_df = pd.read_csv('fiuba_4_postulaciones.csv')
avisos_online_df = pd.read_csv('fiuba_5_avisos_online.csv')
avisos_detalle_df = pd.read_csv('fiuba_6_avisos_detalle.csv')

FileNotFoundError: File b'fiuba_1_postulantes_educacion.csv' does not exist

# Analizamos la informacion disponible

In [None]:
postulaciones_df.columns

In [None]:
#Verificamos que no haya nulos en las columnas del dataframe
print(postulaciones_df['idaviso'].isnull().any())
print(postulaciones_df['fechapostulacion'].isnull().any())
print(postulaciones_df['idpostulante'].isnull().any())


In [None]:
avisos_detalle_df.columns

In [None]:
print(avisos_detalle_df['idaviso'].isnull().any())
print(avisos_detalle_df['idpais'].isnull().any())
print(avisos_detalle_df['titulo'].isnull().any())
print(avisos_detalle_df['mapacalle'].isnull().any())
print(avisos_detalle_df['tipo_de_trabajo'].isnull().any())
print(avisos_detalle_df['nivel_laboral'].isnull().any())
print(avisos_detalle_df['nombre_area'].isnull().any())
print(avisos_detalle_df['descripcion'].isnull().any())
print(avisos_detalle_df['titulo'].isnull().any())
print(avisos_detalle_df['idaviso'].isnull().any())
print(avisos_detalle_df['ciudad'].isnull().any())
print(avisos_detalle_df['nombre_zona'].isnull().any())

In [None]:
#Observo que solo 47 avisos de 13mil tienen ciudad especificada.
#No es suficiente como para generalizar conclusiones.
#Eliminamos la columna "ciudad"
print(avisos_detalle_df['ciudad'].shape)
print(avisos_detalle_df['ciudad'].count())
avisos_detalle_df = avisos_detalle_df.drop('ciudad', 1)


In [None]:
#Observamos que la columna "idpais" siempre tiene el mismo valor.
print(avisos_detalle_df['idpais'].value_counts())


In [None]:
#Como no brinda informacion relevante, la eliminamos.
avisos_detalle_df = avisos_detalle_df.drop('idpais',1)

In [None]:
#Observamos que la informacion utilizable hace referencia a CABA vs GBA, 
#por lo tanto descartamos los demas.
print(avisos_detalle_df['nombre_zona'].value_counts())
avisos_detalle_df = avisos_detalle_df[ (avisos_detalle_df['nombre_zona'] 
                                        == 'GBA Oeste') == False]
avisos_detalle_df = avisos_detalle_df[ (avisos_detalle_df['nombre_zona'] 
                                        == 'Buenos Aires (fuera de GBA)') == False]
print()
print(avisos_detalle_df['nombre_zona'].value_counts())



In [None]:
#Vemos que los datos del archivo de vistas son limitados a unos pocos dias
#del mes de febrero y solo un dia de marzo.
vistas_df['timestamp'] = pd.to_datetime(vistas_df['timestamp'])
print(vistas_df['timestamp'].dt.day.value_counts())
print(vistas_df['timestamp'].dt.month.value_counts())

In [None]:
#Observamos que tanto para el dia 23 como para el dia 1, hay muy poca 
#informacion.
df = vistas_df[vistas_df['timestamp'].dt.day == 1 ]
print(df['timestamp'].dt.hour.value_counts())
df = vistas_df[vistas_df['timestamp'].dt.day == 23 ]
print(df['timestamp'].dt.hour.value_counts())

In [None]:
#Al trabajar con los datos de los postulantes, se ve que hay fechas nulas.
print(postulantes_gye_df.isnull().any())
print()
print(postulantes_gye_df['fechanacimiento'].isnull().value_counts())
print()
print('True indica la cantidad de fechas nulas.')


In [None]:
postulantes_gye_df['sexo'].value_counts()

In [None]:
#Se ve que la mayoria de entradas con fecha nula, estan asociadas a 
#sexo no declarado.
postulantes_gye_df = postulantes_gye_df.dropna()
postulantes_gye_df['sexo'].value_counts()

In [None]:
#Como la cantidad de entradas con sexo no declarado bajo considerablemente, 
#no es suficiente como para generalizar.
#Eliminamos esas entradas
postulantes_gye_df = postulantes_gye_df[ (postulantes_gye_df['sexo'] == 
                                          'NO_DECLARA') == False]


In [None]:
postulantes_gye_df['sexo'].value_counts()

In [None]:
#Tambien en este archivo se puede ver que hay fechas anormales, que seran 
#filtradas luego dependiendo de que se busca averiguar.
print('Entradas con fechas incorrectas :')
print(postulantes_gye_df[postulantes_gye_df['fechanacimiento'].str.
                         startswith('00')])

In [None]:
#Analizando la cantidad de postulaciones por usuario, nos encontramos con 
#tres casos atipicos donde se supera holgadamente el promedio
#de postulaciones por usuario.
#Sin embargo los datos son irrelevantes a la hora de analizar el archivo en 
#su totalidad.
print(postulaciones_df['idpostulante'].value_counts().head(5))
print()
print('El promedio de postulaciones por usuario es: ', 
      postulaciones_df['idpostulante'].value_counts().mean() )

In [None]:
#A la hora de analizar la descripcion de los avisos, se puede ver que varios 
#de ellos son de otras provincias.
#Esta informacion relevante no figura en ninguna columna del set de datos.


df = avisos_detalle_df[avisos_detalle_df['descripcion'].str.contains('Cordoba')]
df = df['descripcion'].value_counts().to_frame().reset_index()
df.iloc[2,0]


In [None]:
#Otro ejemplo con mendoza.
df = avisos_detalle_df[avisos_detalle_df['descripcion'].str.contains('Mendoza')]
df = df['descripcion'].value_counts().to_frame().reset_index()
df.iloc[5,0]

# ¿Que nivel laboral tiene mayor oferta y demanda?

In [None]:
#Comenzamos uniendo los datos de los archivos de avisos y postulaciones.
merge_detalle_postulaciones_df = postulaciones_df.merge(avisos_detalle_df, 
                                                        on = 'idaviso')

In [None]:
#Confirmamos que la union se hizo correctamente
print(merge_detalle_postulaciones_df.count())
merge_detalle_postulaciones_df.head()

In [None]:
#Se identifican las variables categoricas de la columna "nivel Laboral"
avisos_detalle_df['nivel_laboral'].unique()

In [None]:
avisos_detalle_df['nivel_laboral'].value_counts()

In [None]:
#Ahora graficamos la cantidad de avisos para cada nivel laboral, usando 
#solo el archivo de avisos.
g = avisos_detalle_df['nivel_laboral'].value_counts(ascending =
        True).plot(kind = 'barh', color = ['lightblue','lightblue','lightblue',
                                           'lightblue','blue'])
g.set_title("Avisos por nivel laboral", fontsize = 20)
g.set_xlabel("Cantidad", fontsize = 15, weight = 'bold')
g.set_ylabel("Nivel laboral", fontsize = 15, weight = 'bold')

In [None]:
#Ahora lo mismo que antes, pero con el data frame que une los datos.
g = merge_detalle_postulaciones_df['nivel_laboral'].value_counts(ascending=
    True).plot(kind = 'barh',color = ['lightblue','lightblue','lightblue','lightblue','blue'])
g.set_title("Postulaciones por nivel laboral", 
                                  fontsize = 20)
g.set_xlabel("Cantidad", fontsize = 15, 
                                   weight = 'bold')
g.set_ylabel("Nivel laboral", fontsize = 15,
                                   weight = 'bold')

Como se puede ver, ambos gráficos son de aspecto similar, por lo que se mantiene la relación de oferta y demanda para los diferentes niveles laborales. Claramente el nivel mas apuntado por las empresas a la hora de buscar postulantes es Senior / Semi-Senior, y a su vez es el nivel con mayor demanda, lo que puede indicar que es el sector mas activo del mundo laboral.

#  ¿Como es la relacion entre oferta y demanda en las diferentes areas laborales?

In [None]:
#Comenzamos con un grafico que muestra el Top 10 de areas con mas avisos.
g = avisos_detalle_df['nombre_area'].value_counts().head(10).sort_values().plot(kind =
'barh',color = ['lightblue','lightblue','lightblue','lightblue','lightblue',
'lightblue','lightblue','lightblue','lightblue','blue'])
g.set_title("Top 10 areas con mas avisos", fontsize = 20)
g.set_xlabel("Cantidad",fontsize = 15, weight = 'bold')
g.set_ylabel("Area", fontsize = 15, weight = 'bold')

In [None]:
#Ahora lo mismo pero para las potulaciones.
g = merge_detalle_postulaciones_df['nombre_area'].value_counts().head(10).sort_values().plot(kind =
'barh',color = ['lightblue','lightblue','lightblue','lightblue','lightblue','lightblue','lightblue',
'lightblue','lightblue','blue'])
g.set_title("Top 10 areas con mas postulaciones", fontsize = 20)
g.set_xlabel("Cantidad",fontsize = 15, weight = 'bold')
g.set_ylabel("Area", fontsize = 15, weight = 'bold')

Empezamos a relacionar la cantidad de postulaciones con la cantidad de avisos. La condicion esta dada por el 25% del promedio de avisos aproximadamente.

In [None]:
merge = avisos_detalle_df['nombre_area'].value_counts().to_frame().reset_index()
columnas = ['nombre_area','cantidad_avisos']
merge.columns = columnas
merge = merge[(merge['cantidad_avisos']) > 30]
merge.head()

In [None]:
df = merge_detalle_postulaciones_df['nombre_area'].value_counts().to_frame().reset_index()
columnas = ['nombre_area','cantidad_postulaciones']
df.columns = columnas

df.head()

In [None]:
merge = merge.merge(df, on = 'nombre_area')
merge.head()

In [None]:
#Obtenemos la relacion postulaciones/avisos.
merge['postulaciones/avisos'] = ( merge['cantidad_postulaciones'] ) / (merge['cantidad_avisos'] )

merge.head()

In [None]:
#Grafico de relacion entre cantidad de postulaciones y cantidad de avisos por nombre de area.
g = merge.groupby('nombre_area').agg({'postulaciones/avisos'
: 'sum'}).sort_values(by = 'postulaciones/avisos',
ascending = False).head(10).sort_values(by='postulaciones/avisos').plot(kind =
'barh',figsize = (12,8),legend = False)
g.set_title('Top 10 areas con mas postulaciones por aviso', fontsize=20)
g.set_xlabel("Postulaciones/avisos", fontsize = 15, weight = 'bold')
g.set_ylabel("Area", fontsize = 15, weight = 'bold')

In [None]:
g = merge.groupby('nombre_area').agg({'postulaciones/avisos' : 'sum'}).sort_values(by = 'postulaciones/avisos',
ascending = False).tail(10).plot(kind = 'barh',figsize = (12,8),legend = False)
g.set_title('Top 10 areas con menor postulaciones por aviso', fontsize=20)
g.set_xlabel("Postulaciones/avisos", fontsize = 15, weight = 'bold')
g.set_ylabel("Area", fontsize = 15, weight = 'bold')

Conclusión: Programacion es el area que menor demanda tiene en relacion a su oferta, siendo que por cada aviso relacionado a programacion en promedio se postulan menos de 20 personas, en contraste con Recepcionista, a la cual por cada aviso se postulan en promedio mas de 800 personas.
Tambien se observa que el mayor volumen de postulaciones se obtienen por trabajos no calificados, mientras que los que menos postulaciones tienen lo son (en mayor medida relacionados al rubro de la informatica).

# ¿Alguna empresa esta acaparando mas postulaciones que las demás en relacion con su cantidad de avisos?

In [None]:
g = avisos_detalle_df['denominacion_empresa'].value_counts().head(10).sort_values().plot(kind =
'barh', color = ['lightblue','lightblue','lightblue','lightblue','lightblue','lightblue',
'lightblue','lightblue','lightblue','blue'])
g.set_title("Top 10 Empresas Con Mas Avisos", fontsize = 20)
g.set_xlabel('Cantidad', fontsize = 15, weight = 'bold')
g.set_ylabel('Empresas', fontsize = 15, weight = 'bold')

In [None]:
g = merge_detalle_postulaciones_df['denominacion_empresa'].value_counts().head(10).sort_values().plot(kind =
'barh', color = ['lightblue','lightblue','lightblue','lightblue','lightblue','lightblue','lightblue',
'lightblue','lightblue','blue'])
g.set_title("Top 10 Empresas Con Mas Postulaciones", fontsize = 20)
g.set_xlabel('Cantidad', fontsize = 15, weight = 'bold')
g.set_ylabel('Empresas', fontsize = 15, weight = 'bold')

Ahora vemos la relacion entre postulaciones y avisos pero con las empresas.

In [None]:
#Teniendo en cuenta la ecuacion de Moivre, la desviacion estandard y el promedio de avisos
#por empresas, decidmos filtrar por empresas con mas de 20 avisos.
merge = avisos_detalle_df['denominacion_empresa'].value_counts().reset_index()
columnas = ['denominacion_empresa','cantidad_avisos']
merge.columns = columnas
print(merge['cantidad_avisos'].describe())
merge = merge[ (merge['cantidad_avisos'] > 20 ) ]
merge.head()

In [None]:
df = merge_detalle_postulaciones_df['denominacion_empresa'].value_counts().reset_index()
columnas = ['denominacion_empresa','cantidad_postulaciones']
df.columns = columnas
df.head()

In [None]:
merge = merge.merge(df, on = 'denominacion_empresa')
merge.head()

In [None]:
#Obtenemos la relacion.
merge['postulaciones/avisos'] = ( merge['cantidad_postulaciones'] / merge['cantidad_avisos'])
merge.head()

In [None]:
#Grafico de relacion entre postulaciones y avisos.
g = merge.groupby('denominacion_empresa').agg({'postulaciones/avisos' : 'sum'}).sort_values(by =
'postulaciones/avisos', ascending = False).head(10).sort_values(by =
'postulaciones/avisos').plot(kind = 'barh',legend = False)
g.set_title('Top 10 empresas con mas postulaciones por aviso', fontsize = 20)
g.set_xlabel('Cantidad', fontsize = 15, weight = 'bold')
g.set_ylabel('Empresas', fontsize = 15, weight = 'bold')
#Grafico de relacion entre postulaciones y avisos (por empresa)

In [None]:
g = merge.groupby('denominacion_empresa').agg({'postulaciones/avisos' : 'sum'}).sort_values(by =
'postulaciones/avisos', ascending = False).tail(10).plot(kind = 'barh', legend = False)
g.set_title('Top 10 empresas con menos postulaciones por aviso', fontsize = 20)
g.set_xlabel('Cantidad', fontsize = 15, weight = 'bold')
g.set_ylabel('Empresas', fontsize = 15, weight = 'bold')
#Grafico de relacion entre postulaciones y avisos (por empresa)

Nuevamente, las empresas relacionadas a informatica son las que menor cantidad de postulantes tienen.

# ¿Cual es el rango de edad con mas postulaciones? ¿Cual es el promedio de edad de los postulantes para cada nivel laboral?

Para hallar la relacion entre nivel laboral y edad media de los postulantes se descartan los usuarios con fechas nulas o incorrectas.

In [None]:
print('Cantidad original: 196138')
print('')
print('Fechas incorrectas :')
print(postulantes_gye_df[postulantes_gye_df['fechanacimiento'].str.startswith('00')])
print('')
print('Cantidad de fechas incorrectas: ' 
, postulantes_gye_df[postulantes_gye_df['fechanacimiento'].str.startswith('00')].shape)
df = postulantes_gye_df[ (postulantes_gye_df['fechanacimiento'].str.startswith('00')) == False]
print('')
print('Cantidad sin fechas incorrectas : ', df.shape)


In [None]:
#Ahora, sin las fechas incorrectas, puedo calcular la edad promedio. 
df.loc[:,'fechanacimiento'] = pd.to_datetime(df['fechanacimiento']) 
df.info()

In [None]:
#Calculo la edad de los postulantes y agrego la columna.
df.loc[:,'edad'] = (2018 - df.fechanacimiento.dt.year)
df.head()

In [None]:
#Hay postulantes con edades anormales, tambien los saco
print('Postualantes con edad incorrecta: ')
print(df[ ( df['edad'] > 70) | (df['edad'] < 18) ])

df = df[ ( (df['edad'] > 70) | (df['edad'] < 18) ) == False ]



In [None]:
#Visualizacion de las postulaciones segun la edad del postulante.
g = df.edad.value_counts().sort_index().plot()
g.set_title('Postulantes por edad', fontsize=18)
g.set_xlabel('Edad', fontsize = 15, weight = 'bold')
g.set_ylabel('Cantidad', fontsize = 15, weight = 'bold')

In [None]:
#Ahora junto la informacion de las edades con el data frame de postulaciones-avisos.
merge = merge_detalle_postulaciones_df.merge(df, on = 'idpostulante')
merge.head()
print(merge.shape)

In [None]:
#Relaizamos un grafico de barras para mostrar la edad promedio de cada nivel laboral.
g = merge.groupby('nivel_laboral').agg({'edad':'mean'}).sort_values(by
= 'edad').plot(kind = 'barh', legend = False)
g.set_title('Promedio de edades en cada nivel laboral', fontsize = 20)
g.set_xlabel('Edad', fontsize = 15, weight = 'bold')
g.set_ylabel('Nivel laboral', fontsize = 15, weight = 'bold')

In [None]:
#ANUNCIOS POR EMPRESA
df = avisos_detalle_df['denominacion_empresa'].value_counts().to_frame().reset_index()

menos_de_20 = df[df['denominacion_empresa']<= 20]
menos_de_20 = menos_de_20['denominacion_empresa'].sum()

mas_de_100 = df[df['denominacion_empresa'] >= 100]
mas_de_100 = mas_de_100['denominacion_empresa'].sum()

otros = df[(df['denominacion_empresa'] > 20)
&(df['denominacion_empresa'] < 100) ]
otros = otros['denominacion_empresa'].sum()



# Anuncios por empresa

In [None]:
pie_chart = plt.pie([otros,mas_de_100,menos_de_20],
labels = ['Entre 20 y 100 anuncios','Mas de 100 Anuncios','Menos de 20 Anuncios'],
shadow=True,startangle=90,radius=1.3,explode=(0.1,0.1,0.1),autopct='%1.0f%%')

In [None]:
#Trabajar con las postulaciones unicamente.

In [None]:
postulaciones_df['fechapostulacion'] = pd.to_datetime(postulaciones_df['fechapostulacion'])
g = postulaciones_df['fechapostulacion'].dt.hour.value_counts().sort_index().plot(xticks=range(24))
g.set_title('Postulaciones segun hora del dia', fontsize = 20)
g.set_xlabel('Hora del dia', fontsize = 15, weight = 'bold')
g.set_ylabel('Cantidad', fontsize = 15, weight = 'bold')

Viendo el grafico se puede notar que el rango horario mas activo en cuanto a postulaciones es la media mañana. El flujo de gente que ingresa en este horario al sitio es considerable.

In [None]:
df = postulantes_edu_df.merge(postulaciones_df, on='idpostulante')
df['cantidad'] = 1
df.groupby('nombre').agg({'cantidad':'count'}).sort_values(by = 'cantidad')

In [None]:
g = df.groupby('nombre').agg({'cantidad':'count'}).sort_values(by =
'cantidad').plot(kind = 'barh', legend = False)
g.set_title('Postulaciones segun el nivel academico', fontsize = 18)
g.set_xlabel('Cantidad de postulaciones', fontsize = 15, weight = 'bold')
g.set_ylabel('Nivel academico', fontsize = 15, weight = 'bold')

In [None]:
g = df.groupby('estado').agg({'cantidad':'count'}).plot(kind =
'bar', legend = False)
g.set_title('Postulaciones segun estado academico actual',
fontsize = 20)
g.set_xlabel('Estado', fontsize = 15, weight = 'bold')
g.set_ylabel('Cantidad', fontsize = 15, weight = 'bold')

El mayor flujo de postulaciones lo dan los postulantes graduados.

In [None]:
df = postulantes_gye_df.merge(postulaciones_df, on='idpostulante')
g = df['sexo'].value_counts().sort_values().plot('bar', color = 
            ['darkblue','pink'], rot = 0)
g.set_title('Postulaciones segun el genero', fontsize = 20)
g.set_ylabel('Cantidad', fontsize = 15, weight = 'bold')

# Ahora queremos ver la relaciones entre las vistas y las postulaciones.

In [None]:
postulaciones_df['fechapostulacion'] = pd.to_datetime(postulaciones_df['fechapostulacion'] )

In [None]:
postulaciones_df['fechapostulacion'].dt.month.value_counts()

In [None]:
vistas_df['timestamp'].dt.month.value_counts()

Observamos que solo hay datos en comun en el mes de febrero.

In [None]:
#Observamos que la informacion disponible es de solo la ultima semana de febrero,
#por lo tanto filtramos las postulaciones para esa fecha.
#Filtramos los dias que tienen datos incompletos 
#(viernes 23 de febrero y jueves 1 de marzo).
postulaciones_filtradas = postulaciones_df[(postulaciones_df['fechapostulacion'].dt.month == 2 )
& ((postulaciones_df['fechapostulacion'].dt.day > 23) 
& ( postulaciones_df['fechapostulacion'].dt.day < 29)) ]
vistas = vistas_df[(vistas_df['timestamp'].dt.month == 2 ) 
& ((vistas_df['timestamp'].dt.day > 23) 
& ( vistas_df['timestamp'].dt.day < 29)) ]
postulaciones_filtradas.head()

In [None]:
fig = plt.figure() #Creates a figure for the next plot, then disapears

ax = fig.add_subplot(111)#Form and background

plt.title('Tendencia de postulaciones y vistas segun la hora',
    fontsize=16,fontweight='bold')

ax.set_xlabel('Horas del dia',fontsize=16)


vistas['timestamp'].dt.hour.value_counts().sort_index().plot(color='red',
            label = 'Vistas', legend= True,xticks=range(24))
postulaciones_filtradas['fechapostulacion'].dt.hour.value_counts().sort_index().plot(color=
'blue',figsize=(14,10), legend = True, label = 'Postulaciones')#Density plot
ax.set_ylabel('Cantidad',fontsize=16,)

En este grafico notamos una irregularidad entre las 5 y las 10 horas. Suponemos que la gran diferencia de vistas y postulaciones se debe a la forma en la que se recopilan los datos. Por ejemplo, puede ser que a la hora de postularse en un aviso, no se cuente la vista al mismo.

In [None]:
#Ahora empezamos a trabajar con los datos para analizar por día.
vistas  = vistas['timestamp'].dt.weekday_name.to_frame()
vistas['timestamp'] = pd.Categorical(vistas['timestamp'],
categories=['Monday','Tuesday','Wednesday','Saturday', 'Sunday'], ordered=True)
postulaciones_filtradas = postulaciones_filtradas['fechapostulacion'].dt.weekday_name.to_frame()
postulaciones_filtradas['fechapostulacion'] =pd.Categorical(postulaciones_filtradas['fechapostulacion'], categories=['Monday','Tuesday','Wednesday','Saturday', 'Sunday'], ordered=True)

In [None]:
print(postulaciones_filtradas['fechapostulacion'].value_counts().sort_index())
print()
print(vistas['timestamp'].value_counts().sort_index())

In [None]:

df = vistas['timestamp'].value_counts().to_frame()
df['postulaciones'] = postulaciones_filtradas['fechapostulacion'].value_counts()
df.columns = ['vistas','postulaciones']

df.sort_index(inplace=True)
df.head()


In [None]:
g = df.plot(kind='bar', rot = 45)
g.set_title('Cantidad de vistas y postulaciones por dia', fontsize = 20)
g.set_ylabel('Cantidad', fontsize = 15, weight = 'bold')




Viendo solo una cantidad muy limitada de datos de algunos dias de febrero, podemos observar que la cantidad tanto de vistas como postulaciones disminuye considerablemente el fin de semana.

In [None]:
#vistas promedio por persona en el rango dado

vistas_df['cantidad'] = 1
vistas_per_capita = vistas_df.groupby('idpostulante').agg({'cantidad':'count'})
vistas_per_capita['cantidad'].mean()

# ¿Las palabras en los títulos de los avisos pueden predecir o atraer postulaciones?

In [None]:
from collections import Counter
#Hacemos una lista con todas las palabras que aparecen en los titulos 
#y sus apariciones, sacando los chars "( ) ,"
contador_palabras_avisos = Counter(" ".join(avisos_detalle_df['titulo'].\
values.tolist()).lower().replace("(",'').replace(")",'').replace(",",' ').split(" ")).items()

#Formo un DF con esa lista

contador_palabras_avisos = list(contador_palabras_avisos)


contador_palabras_avisos_df = pd.DataFrame(contador_palabras_avisos)
contador_palabras_avisos_df.head()

contador_palabras_avisos_df.columns=['palabra','apariciones']
contador_palabras_avisos_df=contador_palabras_avisos_df.set_index('palabra')

#Saco los adverbios del df
adverbios=['','-','de','con','en','y','a','para','la','al','los','/']
contador_palabras_avisos_df=contador_palabras_avisos_df.drop(adverbios)

In [None]:
plot = contador_palabras_avisos_df.sort_values(by='apariciones',ascending=False).\
head(20).sort_values(by='apariciones').plot(kind='barh', legend = False, figsize = (12,8))
plot.set_title('Palabras mas frecuentes en titulos de avisos', fontsize = 20)
plot.set_xlabel('Apariciones', fontsize = 15, weight = 'bold')
plot.set_ylabel('Palabras', fontsize = 15, weight = 'bold')

In [None]:
#Por cada postulacion contamos las palabras que aparecen en el titulo 
#del aviso al que se postularon
contador_palabras_postulaciones = Counter(" ".join(merge_detalle_postulaciones_df['titulo']\
.values.tolist()).lower().replace("(",'').replace(")",'').strip(")").replace(")",'')\
.replace(",",' ').split(" ")).items()

contador_palabras_postulaciones = list(contador_palabras_postulaciones)


contador_palabras_postulaciones_df=pd.DataFrame(contador_palabras_postulaciones)

contador_palabras_postulaciones_df.columns=['palabra','apariciones']
contador_palabras_postulaciones_df=contador_palabras_postulaciones_df.set_index('palabra')

contador_palabras_postulaciones_df=contador_palabras_postulaciones_df.drop(adverbios)


In [None]:
plot = contador_palabras_postulaciones_df.sort_values(by='apariciones',ascending=False)\
.head(20).sort_values(by='apariciones').plot(kind='barh', legend = False, figsize = (12,8))
plot.set_title('Palabras mas frecuentes en titulos de avisos a los que se postularon',
fontsize = 20)
plot.set_xlabel('Apariciones', fontsize = 15, weight = 'bold')
plot.set_ylabel('Palabras', fontsize = 15, weight = 'bold')

In [None]:
# Nos quedamos con las palabras que figuran en al menos 20 avisos
contador_palabras_avisos_df_filtrado=contador_palabras_avisos_df\
.loc[contador_palabras_avisos_df['apariciones']>=20]

efectividad_palabras_df = contador_palabras_postulaciones_df.sort_values(by='apariciones',ascending=False) / contador_palabras_avisos_df_filtrado.sort_values(by='apariciones',ascending=False)
efectividad_palabras_df = efectividad_palabras_df.dropna()
efectividad_palabras_df.columns=['postulaciones/avisos']

In [None]:
plot = efectividad_palabras_df.sort_values(by='postulaciones/avisos',ascending= False)\
.tail(20).plot(kind='barh', figsize = (12,8),legend = False)
plot.set_title('Palabras que menos postulaciones atraen', fontsize = 20)
plot.set_xlabel('Postulaciones/avisos', fontsize = 15, weight = 'bold')
plot.set_ylabel('Palabras', fontsize = 15, weight = 'bold')


In [None]:
plot = efectividad_palabras_df.sort_values(by='postulaciones/avisos',ascending= False)\
.head(20).sort_values(by='postulaciones/avisos').plot(kind='barh', figsize = (12,8))
plot.set_title('Palabras que mas postulaciones atraen', fontsize = 20)
plot.set_xlabel('Postulaciones/avisos', fontsize = 15, weight = 'bold')
plot.set_ylabel('Palabras', fontsize = 15, weight = 'bold')


Algunas conclusiones: Puede verse que el empleo de cajero tiene significativamente más postulaciones por aviso que los demás, lo que explica el por qué el area de ventas figura en la primer posicion del top de areas con mas postulaciones. Tambien puede verse que los anuncios con palabras relacionadas a programación tienen relativamente muy pocas postulaciones (¿Algo bueno para nosotros?). Ademas, si bien analista es la palabra que mas aparece en los titulos de las postulaciones, esto seguramente se deba a que es la que mas figura en todos los avisos en general.

# Mas graficos con informacion de postulaciones y vistas.

 Comenzamos a trabajar los datos para generar un heatmap.
 Primero mostrando las vistas segun el horario y el dia de la semana.
 Luego las postulaciones segun el horario y dia de la semana.

In [None]:
vistas_df.rename(columns={'idAviso': 'idaviso'}, inplace= True)
df= avisos_detalle_df.merge(vistas_df, on= 'idaviso')
df['timestamp'] =pd.to_datetime(df['timestamp'])
df['Weekday'] = df['timestamp'].map(lambda x:x.weekday_name)
df['Hour']=df['timestamp'].dt.hour
df['count']= 1

In [None]:
for_heatmap = df.pivot_table(index='Hour', columns='Weekday',
                    values='count', aggfunc='sum')
for_heatmap = for_heatmap.reindex(['Monday','Tuesday','Wednesday','Saturday','Sunday'], axis=1)

In [None]:
g = sns.heatmap(for_heatmap,linewidths=.5,  cmap="YlGnBu")
g.set_title("Cantidad de vistas por hora y dia de la semana", fontsize=22)
g.set_xlabel("Dia de la Semana ",fontsize=18)
g.set_ylabel(" Hora de vista", fontsize=18)

In [None]:
df = postulaciones_df['fechapostulacion'].to_frame()

df['fechapostulacion'] =pd.to_datetime(df['fechapostulacion'])
df['Weekday'] = df['fechapostulacion'].map(lambda x:x.weekday_name)
df['Hour']=df['fechapostulacion'].dt.hour
df['count']= 1


In [None]:
for_heatmap = df.pivot_table(index='Hour', columns='Weekday',
        values='count', aggfunc='sum')
for_heatmap = for_heatmap.reindex(['Monday','Tuesday','Wednesday'
        ,'Thursday','Friday','Saturday','Sunday'], axis=1)
g = sns.heatmap(for_heatmap,linewidths=.5,  cmap="YlGnBu")
g.set_title("Cantidad de postulaciones efectivas por hora y dia de la semana"
    , fontsize=22)
g.set_xlabel("Dia de la Semana ",fontsize=18)
g.set_ylabel(" Hora de vista", fontsize=18)

In [None]:
df = vistas_df.merge(postulantes_gye_df, on='idpostulante')
df['timestamp'] = pd.to_datetime(df['timestamp'] )
df['timestamp'] = df['timestamp'].dt.hour
plot = pd.crosstab(df.timestamp,df.sexo).plot(kind='bar',
            figsize=(14,10),fontsize=20)
plot.set_title('Vistas por Genero',fontsize=20)
plot.set_xlabel('Hora', fontsize = 15, weight = 'bold')
plot.set_ylabel('Cantidad', fontsize = 15, weight = 'bold')


In [None]:
df = postulaciones_df.merge(postulantes_gye_df, on='idpostulante')
df['fechapostulacion'] = pd.to_datetime(df['fechapostulacion'] )
df['fechapostulacion'] = df['fechapostulacion'].dt.weekday_name
plot = pd.crosstab(df['fechapostulacion'],df['sexo'])\
.plot(kind='bar',figsize=(14,10),fontsize=20)
plot.set_title('Genero vs Postulaciones',fontsize=20)
plot.set_xlabel('Dia', fontsize = 15, weight = 'bold')
plot.set_ylabel('Cantidad', fontsize = 15, weight = 'bold')

In [None]:
df = postulaciones_df.merge(avisos_detalle_df, on='idaviso')
df['fechapostulacion'] =pd.to_datetime(df['fechapostulacion'])
df['fechapostulacion'] =df['fechapostulacion'].dt.hour
plot = pd.crosstab(df['fechapostulacion'],df['nivel_laboral'])\
.plot(kind='line',figsize=(10,8),xticks=range(24))
plot.set_title('Vistas segun el nivel laboral por hora', fontsize = 20)
plot.set_xlabel('Hora del dia', fontsize = 15, weight = 'bold')
plot.set_ylabel('Cantidad', fontsize = 15, weight = 'bold')