# Ejercicio - Busqueda de Alojamiento en Airbnb.

Supongamos que somos un agente de [Airbnb](http://www.airbnb.com) localizado en Lisboa, y tenemos que atender peticiones de varios clientes. Tenemos un archivo llamado `airbnb.csv` (en la carpeta data) donde tenemos información de todos los alojamientos de Airbnb en Lisboa.

En concreto el dataset tiene las siguientes variables:
- room_id: el identificador de la propiedad
- host_id: el identificador del dueño de la propiedad
- room_type: tipo de propiedad (vivienda completa/(habitacion para compartir/habitación privada)
- neighborhood: el barrio de Lisboa
- reviews: El numero de opiniones
- overall_satisfaction: Puntuacion media del apartamento
- accommodates: El numero de personas que se pueden alojar en la propiedad
- bedrooms: El número de habitaciones
- price: El precio (en euros) por noche

In [19]:
import pandas as pd
import numpy as np

In [20]:
df = pd.read_csv("data/airbnb.csv")
df

Unnamed: 0,room_id,host_id,room_type,neighborhood,reviews,overall_satisfaction,accommodates,bedrooms,price
0,6499,14455,Entire home/apt,Belém,8,5.0,2,1.0,57.0
1,17031,66015,Entire home/apt,Alvalade,0,0.0,2,1.0,46.0
2,25659,107347,Entire home/apt,Santa Maria Maior,63,5.0,3,1.0,69.0
3,29248,125768,Entire home/apt,Santa Maria Maior,225,4.5,4,1.0,58.0
4,29396,126415,Entire home/apt,Santa Maria Maior,132,5.0,4,1.0,67.0
...,...,...,...,...,...,...,...,...,...
13227,19388006,135915593,Entire home/apt,São Vicente,0,0.0,6,3.0,415.0
13228,19393935,5376796,Entire home/apt,Santa Maria Maior,0,0.0,3,1.0,50.0
13229,19396300,6115933,Entire home/apt,Santo António,0,0.0,6,4.0,138.0
13230,19397373,97139334,Entire home/apt,São Vicente,0,0.0,4,1.0,56.0


### Caso 1.

Alicia va a ir a Lisboa durante una semana con su marido y sus 2 hijos. Están buscando un apartamento con habitaciones separadas para los padres y los hijos. No les importa donde alojarse o el precio, simplemente quieren tener una experiencia agradable. Esto significa que solo aceptan lugares con más de 10 críticas (reviews) con una puntuación (overall_satisfaction) mayor de 4. Cuando seleccionemos habitaciones para Alicia, tenemos que asegurarnos de ordenar las habitaciones de mejor a peor puntuación. Para aquellas habitaciones que tienen la misma puntuación, debemos mostrar antes aquellas con más críticas. Debemos darle 3 alternativas.

seleccion para alicia = df [filtart con lo que sea] 
reviews, satisfaccion, bedrooms

Finalmente devolvemos la selección, ordenando primero por satisfaccion, y luego por numero de reviews:

sort_values(by ...)

In [21]:
selc_alicia=df[
    (df["reviews"]>=10)
    &
    (df["overall_satisfaction"]>=4)
    &
    (df["bedrooms"]==2)
    ]
selc_alicia

Unnamed: 0,room_id,host_id,room_type,neighborhood,reviews,overall_satisfaction,accommodates,bedrooms,price
12,34977,146695,Entire home/apt,Santa Maria Maior,54,4.5,6,2.0,60.0
14,42172,184400,Entire home/apt,Santa Maria Maior,45,4.5,6,2.0,138.0
22,57850,276092,Entire home/apt,Estrela,52,4.5,3,2.0,70.0
28,75171,184400,Entire home/apt,Estrela,19,4.5,5,2.0,115.0
30,77466,415066,Entire home/apt,Misericórdia,255,5.0,5,2.0,80.0
...,...,...,...,...,...,...,...,...,...
11927,18266885,126272024,Entire home/apt,Misericórdia,11,5.0,5,2.0,156.0
12012,18322425,106306229,Private room,Penha de França,14,4.5,2,2.0,31.0
12051,18355475,74171605,Entire home/apt,Misericórdia,14,5.0,6,2.0,79.0
12129,18413890,27998030,Entire home/apt,Santa Maria Maior,10,4.5,6,2.0,103.0


In [None]:
alicia_top=selc_alicia.sort_values(by=[ 'overall_satisfaction','reviews' ], ascending=[False, False])
alicia_top.head()

#selc_alicia.sort_values(by=[ 'overall_satisfaction','reviews' ], ascending=False).head(3)

#selc_alicia.sort_values(by=[ 'overall_satisfaction','reviews']).tail(3)

Unnamed: 0,room_id,host_id,room_type,neighborhood,reviews,overall_satisfaction,accommodates,bedrooms,price
388,496195,647439,Entire home/apt,Santa Maria Maior,259,5.0,4,2.0,52.0
140,202150,989393,Entire home/apt,Santa Maria Maior,274,5.0,4,2.0,62.0
120,176153,842219,Entire home/apt,Misericórdia,438,5.0,4,2.0,102.0


### Caso 2

Roberto es un casero que tiene una casa en Airbnb. De vez en cuando nos llama preguntando sobre cuales son las críticas de su alojamiento. Hoy está particularmente enfadado, ya que su hermana Clara ha puesto una casa en Airbnb y Roberto quiere asegurarse de que su casa tiene más críticas que las de Clara. Tenemos que crear un dataframe con las propiedades de ambos. Las id de las propiedades (room_id) de Roberto y Clara son 97503 y 90387  respectivamente. Finalmente guardamos este dataframe como excel llamado "roberto.xls"

Tenemos otro tipo de sintaxis para poder hacer filtros:
Existe un método llamado query() donde podemos poner directamente el nombre de las columnas y ya incluir & o | con cada consulta

selc_alicia.sort_values(by=[ 'overall_satisfaction','reviews' ], ascending=False).head(3)

In [31]:
selc_alicia=df.query("reviews > 10 & overall_satisfaction >4 & bedrooms==2" )
selc_alicia

Unnamed: 0,room_id,host_id,room_type,neighborhood,reviews,overall_satisfaction,accommodates,bedrooms,price
12,34977,146695,Entire home/apt,Santa Maria Maior,54,4.5,6,2.0,60.0
14,42172,184400,Entire home/apt,Santa Maria Maior,45,4.5,6,2.0,138.0
22,57850,276092,Entire home/apt,Estrela,52,4.5,3,2.0,70.0
28,75171,184400,Entire home/apt,Estrela,19,4.5,5,2.0,115.0
30,77466,415066,Entire home/apt,Misericórdia,255,5.0,5,2.0,80.0
...,...,...,...,...,...,...,...,...,...
11661,18039278,29954916,Entire home/apt,Misericórdia,12,5.0,7,2.0,119.0
11776,18139754,19643041,Entire home/apt,Santa Maria Maior,16,5.0,4,2.0,105.0
11927,18266885,126272024,Entire home/apt,Misericórdia,11,5.0,5,2.0,156.0
12012,18322425,106306229,Private room,Penha de França,14,4.5,2,2.0,31.0


Por úlyimo, existe otra síntaxis donde NO se utilizan los corchetes para acceder a los nombres de las columnas, directamente se ponen los nombres mediante un df.columna

In [33]:
selc_alicia= df [
    (df.reviews >10)
    &
    (df.overall_satisfaction > 4)
    &
    (df.bedrooms ==2)
    ]
selc_alicia

Unnamed: 0,room_id,host_id,room_type,neighborhood,reviews,overall_satisfaction,accommodates,bedrooms,price
12,34977,146695,Entire home/apt,Santa Maria Maior,54,4.5,6,2.0,60.0
14,42172,184400,Entire home/apt,Santa Maria Maior,45,4.5,6,2.0,138.0
22,57850,276092,Entire home/apt,Estrela,52,4.5,3,2.0,70.0
28,75171,184400,Entire home/apt,Estrela,19,4.5,5,2.0,115.0
30,77466,415066,Entire home/apt,Misericórdia,255,5.0,5,2.0,80.0
...,...,...,...,...,...,...,...,...,...
11661,18039278,29954916,Entire home/apt,Misericórdia,12,5.0,7,2.0,119.0
11776,18139754,19643041,Entire home/apt,Santa Maria Maior,16,5.0,4,2.0,105.0
11927,18266885,126272024,Entire home/apt,Misericórdia,11,5.0,5,2.0,156.0
12012,18322425,106306229,Private room,Penha de França,14,4.5,2,2.0,31.0


In [38]:
#selc_roberto=df[ (df.room_id == 97503) | (df.room_id == 90387) ]
selc_roberto=df.query("room_id == 97503 | room_id == 90387" )
selc_roberto.to_html('data/selc_roberto.html')
selc_roberto.to_json('data/selc_roberto.json')
selc_roberto

Unnamed: 0,room_id,host_id,room_type,neighborhood,reviews,overall_satisfaction,accommodates,bedrooms,price
41,90387,490050,Private room,Santo António,204,5.0,2,1.0,46.0
48,97503,515924,Private room,Santo António,39,4.0,2,1.0,26.0


Tebemos un tercer operador para cuando buscamos distintos valores sobre un mismo campo (columna). 
Es equivalente a IN de SQL : select * from tabla campo in (valor1, valor2, valor3,...)
El operador se llama isin() y se separan lo valores por comas. NO se puede hacer con query

In [39]:
selc_roberto= df [
    df.room_id.isin([90387,97503])
]
selc_roberto

Unnamed: 0,room_id,host_id,room_type,neighborhood,reviews,overall_satisfaction,accommodates,bedrooms,price
41,90387,490050,Private room,Santo António,204,5.0,2,1.0,46.0
48,97503,515924,Private room,Santo António,39,4.0,2,1.0,26.0


Tenemos otro operador para user SOLAMENTE en consultas query(). Es el operador in(valor1, valor2...). Funciona igual que el isni()
df.query("room_id in (90387, 97503)")


### Caso 3

Diana va a Lisboa a pasar 3 noches y quiere conocer a gente nueva. Tiene un presupuesto de 50€ para su alojamiento. Debemos buscarle las 10 propiedades más baratas, dandole preferencia a aquellas que sean habitaciones compartidas *(room_type == Shared room)*, y para aquellas viviendas compartidas debemos elegir aquellas con mejor puntuación.

In [47]:
selc_diana=df.query("price<=50/3 & room_type=='Shared room'")
diana_top= selc_diana.sort_values(by=['overall_satisfaction','price'], ascending=[False,True ]).head(10)
diana_top

Unnamed: 0,room_id,host_id,room_type,neighborhood,reviews,overall_satisfaction,accommodates,bedrooms,price
9065,14933182,91501272,Shared room,Santo António,5,5.0,8,1.0,11.0
6056,10397682,32344156,Shared room,Misericórdia,15,5.0,8,1.0,13.0
7060,12299998,66077974,Shared room,Arroios,49,5.0,1,1.0,13.0
7066,12305540,66077974,Shared room,Arroios,40,5.0,1,1.0,13.0
8918,14719962,40574313,Shared room,Avenidas Novas,4,5.0,4,1.0,13.0
7034,12268067,66077974,Shared room,Arroios,96,5.0,1,1.0,16.0
9964,16150682,58899339,Shared room,Avenidas Novas,4,5.0,9,1.0,16.0
10723,17096560,107813252,Shared room,Areeiro,5,5.0,1,1.0,16.0
4353,6728244,28812904,Shared room,Santa Maria Maior,8,4.5,1,1.0,11.0
5616,9317561,48360716,Shared room,Arroios,13,4.5,4,1.0,11.0
