# Ejercicio1 - Busqueda de Alojamiento en Airbnb (Jupyter).

Supongamos que somos un agente de [Airbnb](http://www.airbnb.com) localizado en Lisboa, y tenemos que atender peticiones de varios clientes. Tenemos un archivo llamado `airbnb.csv` (en la carpeta data) donde tenemos información de todos los alojamientos de Airbnb en Lisboa.

In [2]:
import pandas as pd
df_airbnb = pd.read_csv("./data/airbnb.csv")

In [2]:
df_airbnb.head()

Unnamed: 0,room_id,host_id,room_type,neighborhood,reviews,overall_satisfaction,accommodates,bedrooms,price
0,6499,14455,Entire home/apt,Belém,8,5.0,2,1.0,57.0
1,17031,66015,Entire home/apt,Alvalade,0,0.0,2,1.0,46.0
2,25659,107347,Entire home/apt,Santa Maria Maior,63,5.0,3,1.0,69.0
3,29248,125768,Entire home/apt,Santa Maria Maior,225,4.5,4,1.0,58.0
4,29396,126415,Entire home/apt,Santa Maria Maior,132,5.0,4,1.0,67.0


En concreto el dataset tiene las siguientes variables:
- room_id: el identificador de la propiedad
- host_id: el identificador del dueño de la propiedad
- room_type: tipo de propiedad (vivienda completa/(habitacion para compartir/habitación privada)
- neighborhood: el barrio de Lisboa
- reviews: El numero de opiniones
- overall_satisfaction: Puntuacion media del apartamento
- accommodates: El numero de personas que se pueden alojar en la propiedad
- bedrooms: El número de habitaciones
- price: El precio (en euros) por noche

## Ejercicios

### 1. Realizar Análisis Exploratorio de los datos

Sobre este apartado deberá explorar los datos como se vio en clase .. aplicar métodos shape, columns, etc

In [9]:
#para conocer los datos estadisticos mas relevantes de la data
df_airbnb.describe()

Unnamed: 0,room_id,host_id,reviews,overall_satisfaction,accommodates,bedrooms,price
count,13232.0,13232.0,13232.0,13222.0,13232.0,13232.0,13232.0
mean,10550810.0,36164440.0,29.130063,3.284677,3.917775,1.549501,86.592352
std,6069884.0,37069750.0,42.802762,2.123236,2.293757,1.062821,135.208926
min,6499.0,14455.0,0.0,0.0,1.0,0.0,10.0
25%,5054848.0,6197930.0,2.0,0.0,2.0,1.0,45.0
50%,11662260.0,22075710.0,11.0,4.5,4.0,1.0,64.0
75%,16096310.0,55466970.0,39.0,5.0,5.0,2.0,93.0
max,19400720.0,135915600.0,438.0,5.0,16.0,10.0,7496.0


In [6]:
# para conocer el numero filas y columnas
df_airbnb.shape


(13232, 9)

In [7]:
# para conocer el numero de columnas que tiene la data
df_airbnb.columns


Index(['room_id', 'host_id', 'room_type', 'neighborhood', 'reviews',
       'overall_satisfaction', 'accommodates', 'bedrooms', 'price'],
      dtype='object')

In [8]:
# para conocer el tipo de datos conforma la data
df_airbnb.dtypes

room_id                   int64
host_id                   int64
room_type                object
neighborhood             object
reviews                   int64
overall_satisfaction    float64
accommodates              int64
bedrooms                float64
price                   float64
dtype: object

### 2. Realizar Filtrados a Datos

- Realizar filtrados, según sea el caso. 


Nota: 
Para obtener el top de un conjunto de datos debemos aplicar un head(n) además de ordenar los datos

#### Caso 1.

Alicia va a ir a Lisboa durante una semana con su marido y sus 2 hijos. Están buscando un apartamento con habitaciones separadas para los padres y los hijos. No les importa donde alojarse o el precio, simplemente quieren tener una experiencia agradable. Esto significa que solo aceptan lugares con más de 10 críticas con una puntuación mayor de 4. Cuando seleccionemos habitaciones para Alicia, tenemos que asegurarnos de ordenar las habitaciones de mejor a peor puntuación. Para aquellas habitaciones que tienen la misma puntuación, debemos mostrar antes aquellas con más críticas. Debemos darle 3 alternativas.

In [36]:
"""
condiciones:
-2 habitaciones
-4 personas en total
-mas de 10 criticas
-satisfaccion mayor 4
* ordenar de mejor a peor, y si tienen la misma puntuacion buscar la que tiene mas reviews
* el objetivo brindar 3 opciones
"""
columnas=['room_id', 'reviews',
       'overall_satisfaction', 'accommodates', 'bedrooms']
data_mod=df_airbnb[columnas]
condiciones=(data_mod.bedrooms==2) & (data_mod.accommodates==4) & (data_mod.reviews>10) & (data_mod.overall_satisfaction>4) 
data_mod=data_mod[condiciones]
data_mod.groupby(['overall_satisfaction'])
# Ordenar de mejor a peor según 'overall_satisfaction' y en caso de empate, por 'reviews'
data_mod = data_mod.sort_values(by=['overall_satisfaction', 'reviews'], ascending=[False, False])
# Seleccionar las 3 mejores opciones
data_final = data_mod.head(3)
# Crear una nueva columna 'MejoresOpcionesIndice' con valores [1, 2, 3]
data_final['MejoresOpcionesIndice'] = range(1, 4)
data_final


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_final['MejoresOpcionesIndice'] = range(1, 4)


Unnamed: 0,room_id,reviews,overall_satisfaction,accommodates,bedrooms,MejoresOpcionesIndice
120,176153,438,5.0,4,2.0,1
140,202150,274,5.0,4,2.0,2
388,496195,259,5.0,4,2.0,3


#### Caso 2

Roberto es un casero que tiene una casa en Airbnb. De vez en cuando nos llama preguntando sobre cuales son las críticas de su alojamiento. Hoy está particularmente enfadado, ya que su hermana Clara ha puesto una casa en Airbnb y Roberto quiere asegurarse de que su casa tiene más críticas que las de Clara. Tenemos que crear un dataframe con las propiedades de ambos. Las id de las casas de Roberto y Clara son 97503 y 90387  respectivamente. Finalmente guardamos este dataframe como excel llamado "roberto.xls

In [7]:
# Filtrar filas donde 'room_id' sea 97503 o 90387
condicion = (df_airbnb.room_id == 97503) | (df_airbnb.room_id == 90387)
data_2 = df_airbnb[condicion].copy()  
data_2['propietario'] = ['Roberto', 'Carlos']

# Guardar el DataFrame 'data_2' en un archivo CSV llamado 'data_2.csv'
data_2.to_csv('data_2.csv', index=False)


#### Caso 3

Diana va a Lisboa a pasar 3 noches y quiere conocer a gente nueva. Tiene un presupuesto de 50€ para su alojamiento. Debemos buscarle las 10 propiedades más baratas, dandole preferencia a aquellas que sean habitaciones compartidas *(room_type == Shared room)*, y para aquellas viviendas compartidas debemos elegir aquellas con mejor puntuación.

In [11]:
"""
presupuesto<= 50 euros
* deben ser habitaciones compartidas
*buscar 10 mas baratos
* mayor puntuaciones
"""
condicion3=(df_airbnb.price<=50) & (df_airbnb.room_type=='Shared room')
data_3=df_airbnb[condicion3]
data_3=data_3.sort_values(by=['price','overall_satisfaction'], ascending=[True, False])
#data con las 10 mejores opciones
data_3.head(10)

Unnamed: 0,room_id,host_id,room_type,neighborhood,reviews,overall_satisfaction,accommodates,bedrooms,price
1010,1179457,5799522,Shared room,Santo António,42,4.0,16,1.0,10.0
3562,5557699,28812904,Shared room,Santa Maria Maior,22,4.0,1,1.0,10.0
7584,13116032,72951043,Shared room,Arroios,1,0.0,8,1.0,10.0
13148,19314160,135270245,Shared room,Santa Clara,0,0.0,1,1.0,10.0
9065,14933182,91501272,Shared room,Santo António,5,5.0,8,1.0,11.0
4353,6728244,28812904,Shared room,Santa Maria Maior,8,4.5,1,1.0,11.0
5616,9317561,48360716,Shared room,Arroios,13,4.5,4,1.0,11.0
6640,11693356,28812904,Shared room,Santa Maria Maior,3,4.5,1,1.0,11.0
6641,11693442,28812904,Shared room,Santa Maria Maior,16,4.5,1,1.0,11.0
8908,14708916,91501272,Shared room,Santo António,18,4.5,4,1.0,11.0


### 3. Realizar Agrupamientos de Datos


- Según su criterio, aplicar 2 tipos de agrupamientos a los datos brindados. 
- **Opcional**, averiguar como realizar el gráfico de los 2 agrupamientos de los datos realizados. Se podría emplear librerias como mathplot y searbon ... ayudarse de chatgtp, etc


In [22]:
# Agrupar por 'room_type' y contar el número de filas en cada grupo
data_3_room = df_airbnb.groupby(by=['room_type']).size().reset_index(name='count')
data_3_room

Unnamed: 0,room_type,count
0,Entire home/apt,9764
1,Private room,3297
2,Shared room,171


In [24]:
# Agrupar por 'room_type' y contar el número de filas en cada grupo
data_3_neibor = df_airbnb.groupby(by=['neighborhood']).size().reset_index(name='Total')
data_3_neibor

Unnamed: 0,neighborhood,contar
0,Ajuda,108
1,Alcântara,213
2,Alvalade,253
3,Areeiro,280
4,Arroios,1664
5,Avenidas Novas,566
6,Beato,84
7,Belém,254
8,Benfica,71
9,Campo de Ourique,319
