# ¿A dónde realizan su primera reserva los nuevos usuarios de Airbnb?

Durante este práctico vamos a trabajar sobre el dataset [Airbnb New User Bookings](https://www.kaggle.com/c/airbnb-recruiting-new-user-bookings/data) de Kaggle.

Airbnb nos ofrece una lista de usuarios (todos de EEUU) junto con sus datos demográficos, registros de sesiones web y algunas estadísticas extras. Hay 12 posibles resultados del país de destino:  __US__, __FR__, __CA__, __GB__, __ES__, __IT__, __PT__, __NL__, __DE__, __AU__, __NDF__ (no se ha encontrado ningún destino), y __other__. 

Las variables con las que trabaja el dataset son:
 * __id__: identificación de usuario.
 * __date_account_created__: fecha de la creación de la cuenta.
 * __timestamp_first_active__: timestamp de primera actividad.
 * __date_first_booking__: fecha de primer viaje.
 * __gender__: género.
 * __age__: edad.
 * __signup_method__: método de registración.
 * __signup_flow__: la página desde la cual un usuario vino a registrarse.
 * __language__: preferencia de idioma internacional.
 * __affiliate_channel__: tipo de marketing pagado.
 * __affiliate_provider__: de donde es el marketing.
 * __first_affiliate_tracked__: seguimiento previo a la registración.
 * __signup_app__: aplicación de registración.
 * __first_device_type__: tipo de dispositivo.
 * __first_browser__: búscador.
 * __country_destination__: país escogido para realizar un viaje.

## Objetivo y alcance:

En este laboratorio realizaremos un trabajo de exploración sobre el dataset de Airbnb y luego una posterior comunicación de dichos resultados, pensando que nuestro análisis será utilizado por el __área de marketing de la empresa__, para el diseño de nuevas estrategias comerciales.

  * Realizar análisis de estadística descriptiva sobre los datos, tanto en una como en múltiples variables.
  * Comunicar aspectos de los datos a través de visualizaciones.
  * Resolver y proponer preguntas de interpretación no triviales.

## Estructura del informe:

  * Jupyter Notebook con el análisis realizado.
  * Reporte para el área de marketing, el formato queda a libre consideración del alumno, por ejemplo: página web, whitepaper, presentación, etc.  

---

In [1]:
import numpy as np
import pandas as pd 
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib as mpl
import warnings
warnings.filterwarnings("ignore")
%matplotlib inline

In [2]:
#data from csv files is imported to pandas data frames
data= pd.read_csv("../Datos/data.csv") #Path a los datos
data.head(10)

Unnamed: 0,id,date_account_created,timestamp_first_active,date_first_booking,gender,age,signup_method,signup_flow,language,affiliate_channel,affiliate_provider,first_affiliate_tracked,signup_app,first_device_type,first_browser,country_destination
0,gxn3p5htnn,2010-06-28,20090319043255,,-unknown-,,facebook,0,en,direct,direct,untracked,Web,Mac Desktop,Chrome,NDF
1,820tgsjxq7,2011-05-25,20090523174809,,MALE,38.0,facebook,0,en,seo,google,untracked,Web,Mac Desktop,Chrome,NDF
2,4ft3gnwmtx,2010-09-28,20090609231247,2010-08-02,FEMALE,56.0,basic,3,en,direct,direct,untracked,Web,Windows Desktop,IE,US
3,bjjt8pjhuk,2011-12-05,20091031060129,2012-09-08,FEMALE,42.0,facebook,0,en,direct,direct,untracked,Web,Mac Desktop,Firefox,other
4,87mebub9p4,2010-09-14,20091208061105,2010-02-18,-unknown-,41.0,basic,0,en,direct,direct,untracked,Web,Mac Desktop,Chrome,US
5,osr2jwljor,2010-01-01,20100101215619,2010-01-02,-unknown-,,basic,0,en,other,other,omg,Web,Mac Desktop,Chrome,US
6,lsw9q7uk0j,2010-01-02,20100102012558,2010-01-05,FEMALE,46.0,basic,0,en,other,craigslist,untracked,Web,Mac Desktop,Safari,US
7,0d01nltbrs,2010-01-03,20100103191905,2010-01-13,FEMALE,47.0,basic,0,en,direct,direct,omg,Web,Mac Desktop,Safari,US
8,a1vcnhxeij,2010-01-04,20100104004211,2010-07-29,FEMALE,50.0,basic,0,en,other,craigslist,untracked,Web,Mac Desktop,Safari,US
9,6uh8zyj2gn,2010-01-04,20100104023758,2010-01-04,-unknown-,46.0,basic,0,en,other,craigslist,omg,Web,Mac Desktop,Firefox,US


In [3]:
data.isnull().sum()

id                              0
date_account_created            0
timestamp_first_active          0
date_first_booking         124543
gender                          0
age                         87990
signup_method                   0
signup_flow                     0
language                        0
affiliate_channel               0
affiliate_provider              0
first_affiliate_tracked      6065
signup_app                      0
first_device_type               0
first_browser                   0
country_destination             0
dtype: int64

Podemos ver que el dataset no se encuentra completo, ya que __date_first_booking__, __age__ y __first_affiliate_tracked__ tienen valores NaN. Sin embargo, siempre debemos examinar con cierta cautela nuestros datos, por que por ejemplo en la categoría __gender__ tenemos valores _unknown_, que para el caso serían lo mismo que un NaN.

___

## Laboratorio:

Este laboratorio tiene como objetivo principal el de emular el trabajo de un __Data Scientist__ de Airbnb, al cual le han encomendado la tarea de analizar a fondo los datos y generar recomendaciones para el área de marketing. Nuestra tarea entonces será la de explotar los conocimientos adquiridos y las herramientas a nuestra disposición para transformar los _datos_ en _conocimiento_.

A continuación les presento una serie de preguntas obligatorias que se deben responder, sin embargo los invito a que cada uno se tome las libertades que crean convenientes para enriquecer aún más el análisis y por consiguiente los resultados.

**1.** ¿Cuáles son los destinos escogidos, segmentados por género y edad?

**2.** ¿Cuántas cuentas han sido creadas por año?

**3.** ¿Cuántos viajes se han realizados por año?

**4.** Corregir el formato de __timestamp_first_active__ para poder leerlo como una fecha.

**5.** ¿Qué porcentaje de los usuarios realizaron una búsqueda en Airbnb, previo a proceder con la creación de su cuenta? (Ayuda: ver __timestamp_first_active__).

**6.** ¿Cuál es el tiempo promedio entre __timestamp_first_active__ y __date_account_created__?

**7.** ¿Cuál es el tiempo promedio entre __date_account_created__ y __date_first_booking__?

**8.** ¿Qué podemos extraer como conclusión de las preguntas 7 y 8?

**9.** ¿Hay un __signup_method__ preferido?, ¿Y segmentado por sexo?, ¿Y por edad?

**10.** ¿Hay un __signup_app__ preferido?, ¿Y por sexo?, ¿Y por edad?

**11.** ¿Cuál es el dispositivo más usado, según el sexo y la edad de los usuarios?

**12.** Si bien los usuarios son de EEUU, ¿Existen usuarios con otras preferencias idiomáticas?

**13.** ¿Existe alguna correlación entre el lugar elegido y la edad de los usuarios?

**14.** Graficar la cantidad de viajes por fecha. ¿Existe alguna tendencia?

**15.** Graficar la actividad de los usuarios por día de la semana. ¿Cómo afecta esto a las campañas de marketing?

Finalmente, con todas las respuestas obligatorias más las que ustedes mismos se hayan formulado, los invito a realizar un informe, en el formato que más les guste, el cual será presentado al "área de marketing de Airbnb". Como premisa principal, la comunicación tiene que ser entendible y concreta.