# Trabajo Practico 1
## Objetivo

El objetivo del primer TP es realizar un análisis exploratorio del set de datos del TP. Queremos
ver qué cosas podemos descubrir sobre los datos que puedan resultar interesantes. Los
requisitos de la primera entrega son los siguientes:
- El análisis debe estar hecho en Python Pandas o R.
- El análisis debe entregarse en formato papel en una carpeta en donde se incluya el
reporte completo y todas las visualizaciones generadas. Es altamente recomendable
que las visualizaciones se impriman en color.
- Informar el link a un repositorio Github en donde pueda bajarse el código completo para
generar el análisis.
- Agregar en Kaggle un kernel con el análisis exploratorio realizado

## Evaluación
La evaluación del TP se realizará en base al siguiente criterio:
- Originalidad del análisis exploratorio.
- Calidad del reporte. ¿Está bien escrito? ¿Es claro y preciso?
- Calidad del análisis exploratorio: qué tipo de preguntas se hacen y de qué forma se
responden, ¿es la respuesta clara y concisa con respecto a la pregunta formulada?
- Calidad de las visualizaciones presentadas.
- ¿Tienen todos los ejes su rótulo?
- ¿Tiene cada visualización un título?
- ¿Es entendible la visualización sin tener que leer la explicación?
- ¿El tipo de plot elegido es adecuado para lo que se quiere visualizar?
- ¿Es una visualización interesante?
- ¿El uso del color es adecuado?
- ¿Hay un exceso o falta de elementos visuales en la visualización elegida?
- ¿La visualización es consistente con los datos?
- Conclusiones presentadas.
- ¿Presenta el grupo un listado de "insights" aprendidos sobre los datos en base al
análisis realizado? ¿Es interesante?
- ¿Descubrieron cosas que pueden ser de interés para las empresas en busca de
nuevos recursos?
- ¿Descubrieron cosas que pueden ser de interés a las personas en busca de
trabajo?
- ¿El análisis realiza un aporte a Navent?
El grupo que realice el mejor análisis exploratorio obtendrá 10 puntos para cada uno de sus
integrantes que podrán ser usados en el parcial además de ser publicado en el repositorio de la
materia como ejemplo para los siguientes cuatrimestres.

In [1]:
##-----------------------------------------------------------------------------------##
## importacion general de librerias y de visualizacion (matplotlib y seaborn)        ##
##-----------------------------------------------------------------------------------##
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

plt.style.use('default') # haciendo los graficos un poco mas bonitos en matplotlib
plt.rcParams['figure.figsize'] = (15, 5)

sns.set(style="whitegrid") # seteando tipo de grid en seaborn

##-----------------------------------------------------------------------------------##
## Libs agregadas por Julian Matias                                                  ##
##-----------------------------------------------------------------------------------##
from bokeh.plotting import figure, show
import string as string
import datetime as datetime
from geopy.geocoders import Nominatim
from geopy.exc import GeocoderTimedOut
geolocator = Nominatim()
from bokeh.io import output_file, output_notebook, show
from bokeh.models import (
  GMapPlot, GMapOptions, ColumnDataSource, Circle, LogColorMapper, BasicTicker, ColorBar,
    DataRange1d, Range1d, PanTool, WheelZoomTool, BoxSelectTool
)
from bokeh.models.mappers import ColorMapper, LinearColorMapper
from bokeh.palettes import Viridis5

In [2]:
##-----------------------------------------------------------------------------------##
## Para verificar que sys path está usando                                           ##
##-----------------------------------------------------------------------------------##
import sys
print(sys.executable)
print(sys.path)


/anaconda3/bin/python
['', '/Library/Frameworks/Python.framework/Versions/3.6/bin/python3.6', '/anaconda3/lib/python36.zip', '/anaconda3/lib/python3.6', '/anaconda3/lib/python3.6/lib-dynload', '/anaconda3/lib/python3.6/site-packages', '/anaconda3/lib/python3.6/site-packages/aeosa', '/anaconda3/lib/python3.6/site-packages/IPython/extensions', '/Users/ignacio.iglesias/.ipython']


In [3]:
##-----------------------------------------------------------------------------------##
## Cargo los archivos                                                                ##
##-----------------------------------------------------------------------------------##

path_to_datos_navent = '/Users/ignacio.iglesias/Dev/datos/finger-data/datos_navent_fiuba/'

postulantes_educacion = pd.read_csv(path_to_datos_navent + 'fiuba_1_postulantes_educacion.csv', sep=',', encoding='utf-8', low_memory=False)
postulantes_genero_edad = pd.read_csv(path_to_datos_navent + 'fiuba_2_postulantes_genero_y_edad.csv', sep=',', encoding='utf-8', low_memory=False)
postulaciones = pd.read_csv(path_to_datos_navent + 'fiuba_4_postulaciones.csv', sep=',', encoding='utf-8', low_memory=False)
vistas = pd.read_csv(path_to_datos_navent + 'fiuba_3_vistas.csv', sep=',', encoding='utf-8', low_memory=False)
avisos_online = pd.read_csv(path_to_datos_navent + 'fiuba_5_avisos_online.csv', sep=',', encoding='utf-8', low_memory=False)
avisos_detalles = pd.read_csv(path_to_datos_navent + 'fiuba_6_avisos_detalle.csv', sep=',', encoding='utf-8', low_memory=False)



In [4]:
##-----------------------------------------------------------------------------------##
## hago un join usando como indice el idpostulante                                   ##
## https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.join.html ##
##-----------------------------------------------------------------------------------##

postulantes = postulantes_educacion.join(postulantes_genero_edad.set_index('idpostulante'), on='idpostulante')


In [5]:
##-----------------------------------------------------------------------------------##
## Acoto la descripcion del sexo de los postulantes a "M" o "F"                      ##
##-----------------------------------------------------------------------------------##
postulantes.loc[postulantes['sexo'] == 'MASC', 'sexo'] = 'M'
postulantes.loc[postulantes['sexo'] == 'FEM', 'sexo'] = 'F'


In [6]:
##-----------------------------------------------------------------------------------##
## Exporto a un csv                                                                  ##
##-----------------------------------------------------------------------------------##
postulantes.to_csv(path_to_datos_navent + 'postulantes.csv',  index=False)


In [7]:
##-----------------------------------------------------------------------------------##
## creo un estado para los avisos (online o offline)                                 ##
##-----------------------------------------------------------------------------------##
avisos_online['estado'] = 'online'


In [8]:
##-----------------------------------------------------------------------------------##
## El csv de avisos online lo uno al csv de avisos detalle                           ##
##-----------------------------------------------------------------------------------##
avisos = avisos_detalles.join(avisos_online.set_index('idaviso'), on='idaviso')


In [9]:
##-----------------------------------------------------------------------------------##
## Agrego una columna con el estado del aviso, "online" o "offline"                  ##
##-----------------------------------------------------------------------------------##
avisos['estado'].fillna('offline',inplace=True)


In [10]:
##-----------------------------------------------------------------------------------##
## El id pais no tiene sentido usarlo porque hay uno solo                            ##
##-----------------------------------------------------------------------------------##
avisos[avisos['idpais'] != 1]


Unnamed: 0,idaviso,idpais,titulo,descripcion,nombre_zona,ciudad,mapacalle,tipo_de_trabajo,nivel_laboral,nombre_area,denominacion_empresa,estado


In [11]:
##-----------------------------------------------------------------------------------##
## La informacion de la ciudad esta contenida en la zona                             ##
## y la columna no aporta nada, tiene muchos datos erroneos                          ##
##-----------------------------------------------------------------------------------##
avisos_detalles.groupby('ciudad')['ciudad'].count()


ciudad
Argentina                   13
Barracas                     1
Buenos Aires                14
Buenos Aires Province        1
CABA                         3
Capital Federal              2
La Plata                     1
Mendoza                      1
Microcentro                  1
Parque Patricios             1
República Argentina          1
San Isidro                   2
Santa Rosa                   1
Tortuguitas                  1
Vicente Lopez                1
Zárate, Campana, Escobar     1
caba                         1
paternal                     1
Name: ciudad, dtype: int64

In [12]:
##-----------------------------------------------------------------------------------##
## concateno el mapa de la calle con el nombre de la zona para                       ##
## tenerlo en una sola variable para buscar la localizacion                          ##
##-----------------------------------------------------------------------------------##
avisos['loc'] = avisos['mapacalle'] + ', ' + avisos['nombre_zona']


In [13]:
##-----------------------------------------------------------------------------------##
## hay muchas localizaciones las cuales son simplemente barrios en CABA              ##
## y otras que son confusas                                                          ##
##-----------------------------------------------------------------------------------##
avisos_detalles.groupby('mapacalle')['mapacalle'].count().sort_values(ascending=False)


mapacalle
SARMIENTO 1937                              43
Microcentro                                 30
Buenos Aires                                24
Palermo                                     23
Barracas                                    18
Puerto Madero                               15
Belgrano                                    14
Reconquista 865                             13
retiro                                      12
Recoleta                                    10
Parque Patricios                            10
saavedra                                     8
nuñez                                        8
Peron 955                                    7
25 de Mayo 457 7º piso                       6
San Telmo                                    6
Pasaje Aguado 628                            6
Mataderos                                    6
Monserrat                                    6
Av. Libertador 6810 4º A                     5
Amenábar 1074                                5
cal

In [14]:
import datetime 
def printNow():
    print(datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S'))
    
printNow()
##-----------------------------------------------------------------------------------##
## OJO tarda mucho ~20 mins                                                          ##
## matchea todas las direcciones con coordenadas                                     ##
##-----------------------------------------------------------------------------------##

avisos['coord'] = avisos['loc'].dropna().apply(lambda x: geolocator.geocode(x, timeout = 20))
printNow()

2018-04-14 08:02:53
2018-04-14 08:19:49


In [15]:
# separator = ","
# output = separator.join(str(coor) for coor in (-34.5996119208333, -58.4811478375))
# output
location = geolocator.geocode("Rivadavia 4543, Buenos Aires", timeout = 20)
print(location.latitude, location.longitude)

-37.9902667142857 -57.5671108571429


In [46]:
##-----------------------------------------------------------------------------------##
## Armo dos columnas con la latitud y la longitud respectivamente                    ##
##-----------------------------------------------------------------------------------##
avisos['coord2'] = avisos['coord'].dropna().apply(lambda x: (x.latitude, x.longitude))
avisos['coord2'] = avisos['coord2'].dropna().apply(lambda x: (",".join(str(coor) for coor in x)))
avisos['lat'] = avisos['coord2'].dropna().apply(lambda c: c.split(',')[0])
avisos['long'] = avisos['coord2'].dropna().apply(lambda c: c.split(',')[1])

In [48]:
##-----------------------------------------------------------------------------------##
## El id pais no tiene sentido usarlo porque hay uno solo                            ##
##-----------------------------------------------------------------------------------##
avisos = avisos.drop(['idpais','ciudad','mapacalle','loc','coord'], axis=1)


In [49]:
##-----------------------------------------------------------------------------------##
## Exporto a un csv "avisos.csv"                                                     ##
##-----------------------------------------------------------------------------------##
avisos.to_csv(path_to_datos_navent + 'avisos.csv',  index=False) 


In [50]:
##-----------------------------------------------------------------------------------##
## Cargo el csv "avisos.csv"                                                         ##
##-----------------------------------------------------------------------------------##
avisos = pd.read_csv(path_to_datos_navent + 'avisos.csv', sep=',', encoding='utf-8', low_memory=False)

##-----------------------------------------------------------------------------------##
## lo centro el mapa en Parque Centenario                                            ##
##-----------------------------------------------------------------------------------##
map_options = GMapOptions(lat=-34.606719800, lng=-58.435779700, map_type="roadmap", zoom=12)

plot = GMapPlot(
    x_range=Range1d(), y_range=Range1d(), map_options=map_options
)

plot.title.text = "Mapa de los avisos"

##-----------------------------------------------------------------------------------##
##  For GMaps to function, Google requires you obtain and enable an API key:         ##
##                                                                                   ##
##     https://developers.google.com/maps/documentation/javascript/get-api-key       ##
##                                                                                   ##
## Replace the value below with your personal API key                                ##
##-----------------------------------------------------------------------------------##
plot.api_key = "AIzaSyBejhbN4aI3s376JNh_yNMO_VC0uGs5Nk4"

source = ColumnDataSource(
    data=dict(
        lat=avisos.lat.tolist(),
        lon=avisos.long.tolist(),
        #size=housing.median_income.tolist(),
        #color=housing.median_house_value.tolist()
    )
)
#max_median_house_value = housing.loc[housing['median_house_value'].idxmax()]['median_house_value']
#min_median_house_value = housing.loc[housing['median_house_value'].idxmin()]['median_house_value']

#color_mapper = CategoricalColorMapper(factors=['hi', 'lo'], palette=[RdBu3[2], RdBu3[0]])
#color_mapper = LogColorMapper(palette="Viridis5", low=min_median_house_value, high=max_median_house_value)

circle = Circle(x="lon", y="lat")
plot.add_glyph(source, circle)

plot.add_tools(PanTool(), WheelZoomTool(), BoxSelectTool())
output_file("gmap_plot.html")
output_notebook()

show(plot)
