# Laboratorio: Aprendizaje Supervisado

## ¿A dónde realizan su primera reserva los nuevos usuarios de Airbnb?

Durante este práctico vamos a trabajar con todos los datos provistos por [Airbnb New User Bookings](https://www.kaggle.com/c/airbnb-recruiting-new-user-bookings/data) en Kaggle.

## Objetivo y alcance:

En este laboratorio vamos a aplicar todo lo aprendido en las materias previas y lo vamos a complementar con lo aprendido en la materia de __Aprendizaje Supervisado__. La idea principal es poder armar una notebook completa, partiendo desde el preprocesamiento y curación de los datos, hasta la elección final de un modelo y su posterior testeo.

Tal vez este laboratorio sea un poco más extenso que los anteriores, pero eso se debe a que estamos uniendo las diferentes *piezas* de un proyecto de aprendizaje supervisado.

## Estructura del informe:

  * Jupyter Notebook con el análisis realizado.
  
---

## Introducción:

En el presente laboratorio, vamos a tomar como referencia el siguiente [Notebook Ejemplo](https://www.kaggle.com/malgoro39/predicci-n-de-destinos-airbnb). En dicho notebook, el autor realiza un análisis exhaustivo y además explica de una manera muy didáctica las decisiónes tomadas y los conceptos teóricos involucrados. 

Tratemos de imitar y mejorar el trabajo realizado :)

En este caso, vamos a trabajar con todos los datos originales de __Airbnb__:
* __ager_gender_bkts.csv__
* __countries.csv__
* __sessions.csv__
* __test_users.csv__ / __test_users_2.csv__

Por una cuestión de tamaño de los datasets, éstos se encuentran comprimidos en el archivo __/Datos/original_data.zip__. Además la notebook de ejemplo se encuentra en __/Notebooks/Ejemplos/Ejemplo_Laboratorio_Supervisado.ipynb__.

## Tareas:

1. __Análisis y Visualización de datos__: Realizar un breve análisis de los datasets antes mencionados.
2. __Curación de datos__: Realizar la correspondiente curación de los mismos.
3. __Feature Engineering__: Tomando como ejemplo la notebook antes mencionada aplicar un poco de ingeniería de features, por ejemplo: generar nuevos features, mergear datasets, etc.
4. __Selección de un modelo de Aprendizaje Supervisado__: Aplicar distintos modelos de aprendizaje supervisado al dataset generado en el punto anterior.
5. __Ajuste de hiperparámetros__: Realizar una búsqueda de hiperparámetros que permitan mejorar la clasificación de los modelos escogidos.
6. __Testing de precisión__: Medir la precisión de cada uno de tus modelos (con datos no conocidos).
7. __¿Qué modelo generó los mejores resultados?__

## 1. Análisis y Visualización de datos

In [1]:
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

In [6]:
dataset_path = "..//datos//"

### Countries

In [7]:
countries_df = pd.read_csv(dataset_path+"countries.csv") 
countries_df.describe()

Unnamed: 0,lat_destination,lng_destination,distance_km,destination_km2,language_levenshtein_distance
count,10.0,10.0,10.0,10.0,10.0
mean,39.799398,-4.262446,7181.8978,2973734.0,50.499
std,24.739112,63.700585,3941.141734,4329619.0,44.54169
min,-26.853388,-96.818146,0.0,41543.0,0.0
25%,39.63909,-6.737559,7001.5576,258042.5,0.0
50%,44.053092,-0.139014,7603.63265,431196.0,67.915
75%,51.891219,9.163386,7842.357,5966865.0,91.395
max,62.393303,133.27516,15297.744,9984670.0,95.45


In [10]:
countries_df

Unnamed: 0,country_destination,lat_destination,lng_destination,distance_km,destination_km2,destination_language,language_levenshtein_distance
0,AU,-26.853388,133.27516,15297.744,7741220.0,eng,0.0
1,CA,62.393303,-96.818146,2828.1333,9984670.0,eng,0.0
2,DE,51.165707,10.452764,7879.568,357022.0,deu,72.61
3,ES,39.896027,-2.487694,7730.724,505370.0,spa,92.25
4,FR,46.232193,2.209667,7682.945,643801.0,fra,92.06
5,GB,54.63322,-3.432277,6883.659,243610.0,eng,0.0
6,IT,41.87399,12.564167,8636.631,301340.0,ita,89.4
7,NL,52.133057,5.29525,7524.3203,41543.0,nld,63.22
8,PT,39.553444,-7.839319,7355.2534,92090.0,por,95.45
9,US,36.966427,-95.84403,0.0,9826675.0,eng,0.0


### Sessions

In [11]:
sessions_df = pd.read_csv(dataset_path+"sessions.csv") 
sessions_df.describe()

Unnamed: 0,secs_elapsed
count,10431710.0
mean,19405.81
std,88884.24
min,0.0
25%,229.0
50%,1147.0
75%,8444.0
max,1799977.0


In [13]:
sessions_df.head(10)

Unnamed: 0,user_id,action,action_type,action_detail,device_type,secs_elapsed
0,d1mm9tcy42,lookup,,,Windows Desktop,319.0
1,d1mm9tcy42,search_results,click,view_search_results,Windows Desktop,67753.0
2,d1mm9tcy42,lookup,,,Windows Desktop,301.0
3,d1mm9tcy42,search_results,click,view_search_results,Windows Desktop,22141.0
4,d1mm9tcy42,lookup,,,Windows Desktop,435.0
5,d1mm9tcy42,search_results,click,view_search_results,Windows Desktop,7703.0
6,d1mm9tcy42,lookup,,,Windows Desktop,115.0
7,d1mm9tcy42,personalize,data,wishlist_content_update,Windows Desktop,831.0
8,d1mm9tcy42,index,view,view_search_results,Windows Desktop,20842.0
9,d1mm9tcy42,lookup,,,Windows Desktop,683.0


In [16]:
len(sessions_df)

10567737

### Age_Gender_Bkts

In [12]:
age_gender_df = pd.read_csv(dataset_path+"age_gender_bkts.csv") 
age_gender_df.describe()

Unnamed: 0,population_in_thousands,year
count,420.0,420.0
mean,1743.133333,2015.0
std,2509.843202,0.0
min,0.0,2015.0
25%,396.5,2015.0
50%,1090.5,2015.0
75%,1968.0,2015.0
max,11601.0,2015.0


In [14]:
age_gender_df.head(10)

Unnamed: 0,age_bucket,country_destination,gender,population_in_thousands,year
0,100+,AU,male,1.0,2015.0
1,95-99,AU,male,9.0,2015.0
2,90-94,AU,male,47.0,2015.0
3,85-89,AU,male,118.0,2015.0
4,80-84,AU,male,199.0,2015.0
5,75-79,AU,male,298.0,2015.0
6,70-74,AU,male,415.0,2015.0
7,65-69,AU,male,574.0,2015.0
8,60-64,AU,male,636.0,2015.0
9,55-59,AU,male,714.0,2015.0


In [15]:
len(age_gender_df)

420

### Test_users

In [23]:
train_users_df = pd.read_csv(dataset_path+"test_users.csv") 
train_users_df.describe()

Unnamed: 0,timestamp_first_active,date_first_booking,age,signup_flow
count,62096.0,0.0,33220.0,62096.0
mean,20140810000000.0,,37.616677,7.813885
std,80245850.0,,74.440647,11.254291
min,20140700000000.0,,1.0,0.0
25%,20140720000000.0,,26.0,0.0
50%,20140810000000.0,,31.0,0.0
75%,20140910000000.0,,40.0,23.0
max,20140930000000.0,,2002.0,25.0


In [24]:
len(train_users_df)

62096

In [25]:
train_users_df.head()

Unnamed: 0,id,date_account_created,timestamp_first_active,date_first_booking,gender,age,signup_method,signup_flow,language,affiliate_channel,affiliate_provider,first_affiliate_tracked,signup_app,first_device_type,first_browser
0,5uwns89zht,2014-07-01,20140701000006,,FEMALE,35.0,facebook,0,en,direct,direct,untracked,Moweb,iPhone,Mobile Safari
1,jtl0dijy2j,2014-07-01,20140701000051,,-unknown-,,basic,0,en,direct,direct,untracked,Moweb,iPhone,Mobile Safari
2,xx0ulgorjt,2014-07-01,20140701000148,,-unknown-,,basic,0,en,direct,direct,linked,Web,Windows Desktop,Chrome
3,6c6puo6ix0,2014-07-01,20140701000215,,-unknown-,,basic,0,en,direct,direct,linked,Web,Windows Desktop,IE
4,czqhjk3yfe,2014-07-01,20140701000305,,-unknown-,,basic,0,en,direct,direct,untracked,Web,Mac Desktop,Safari
