# Ejercicio1 - Busqueda de Alojamiento en Airbnb (Jupyter).

Supongamos que somos un agente de [Airbnb](http://www.airbnb.com) localizado en Lisboa, y tenemos que atender peticiones de varios clientes. Tenemos un archivo llamado `airbnb.csv` (en la carpeta data) donde tenemos información de todos los alojamientos de Airbnb en Lisboa.

In [2]:
import pandas as pd 
df_airbnb = pd.read_csv("./data/airbnb.csv")

In [3]:
df_airbnb.head()

Unnamed: 0,room_id,host_id,room_type,neighborhood,reviews,overall_satisfaction,accommodates,bedrooms,price
0,6499,14455,Entire home/apt,Belém,8,5.0,2,1.0,57.0
1,17031,66015,Entire home/apt,Alvalade,0,0.0,2,1.0,46.0
2,25659,107347,Entire home/apt,Santa Maria Maior,63,5.0,3,1.0,69.0
3,29248,125768,Entire home/apt,Santa Maria Maior,225,4.5,4,1.0,58.0
4,29396,126415,Entire home/apt,Santa Maria Maior,132,5.0,4,1.0,67.0


En concreto el dataset tiene las siguientes variables:
- room_id: el identificador de la propiedad
- host_id: el identificador del dueño de la propiedad
- room_type: tipo de propiedad (vivienda completa/(habitacion para compartir/habitación privada)
- neighborhood: el barrio de Lisboa
- reviews: El numero de opiniones
- overall_satisfaction: Puntuacion media del apartamento
- accommodates: El numero de personas que se pueden alojar en la propiedad
- bedrooms: El número de habitaciones
- price: El precio (en euros) por noche

## Ejercicios

### 1. Realizar Análisis Exploratorio de los datos

Sobre este apartado deberá explorar los datos como se vio en clase .. aplicar métodos shape, columns, etc

In [4]:

print(f"Cantidad de Filas y Colummnas: { df_airbnb.shape }")
print(f"Nombre de las columnas: \n{df_airbnb.columns}")
print(f"Tipos de datos de cada columna: \n{df_airbnb.dtypes}")
print(f"Información general: \n{df_airbnb.info()}")
print(f"Descripción: \n{df_airbnb.describe()}")


Cantidad de Filas y Colummnas: (13232, 9)
Nombre de las columnas: 
Index(['room_id', 'host_id', 'room_type', 'neighborhood', 'reviews',
       'overall_satisfaction', 'accommodates', 'bedrooms', 'price'],
      dtype='object')
Tipos de datos de cada columna: 
room_id                   int64
host_id                   int64
room_type                object
neighborhood             object
reviews                   int64
overall_satisfaction    float64
accommodates              int64
bedrooms                float64
price                   float64
dtype: object
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13232 entries, 0 to 13231
Data columns (total 9 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   room_id               13232 non-null  int64  
 1   host_id               13232 non-null  int64  
 2   room_type             13232 non-null  object 
 3   neighborhood          13232 non-null  object 
 4   reviews            

### 2. Realizar Filtrados a Datos

- Realizar filtrados, según sea el caso. 


Nota: 
Para obtener el top de un conjunto de datos debemos aplicar un head(n) además de ordenar los datos

#### Caso 1.

Alicia va a ir a Lisboa durante una semana con su marido y sus 2 hijos. Están buscando un apartamento con habitaciones separadas para los padres y los hijos. No les importa donde alojarse o el precio, simplemente quieren tener una experiencia agradable. Esto significa que solo aceptan lugares con más de 10 críticas con una puntuación mayor de 4. Cuando seleccionemos habitaciones para Alicia, tenemos que asegurarnos de ordenar las habitaciones de mejor a peor puntuación. Para aquellas habitaciones que tienen la misma puntuación, debemos mostrar antes aquellas con más críticas. Debemos darle 3 alternativas.

In [10]:
df_filter = df_airbnb[(df_airbnb['reviews'] > 10) & (df_airbnb['overall_satisfaction'] > 4)]
df_filter = df_filter.sort_values(by=['overall_satisfaction', 'reviews'], ascending=[False, False])
opciones_para_alicia = df_filter.head(3)
opciones_para_alicia

Unnamed: 0,room_id,host_id,room_type,neighborhood,reviews,overall_satisfaction,accommodates,bedrooms,price
120,176153,842219,Entire home/apt,Misericórdia,438,5.0,4,2.0,102.0
931,1085634,5968047,Entire home/apt,Misericórdia,379,5.0,2,1.0,52.0
212,299321,199452,Entire home/apt,Santo António,337,5.0,2,1.0,87.0


#### Caso 2

Roberto es un casero que tiene una casa en Airbnb. De vez en cuando nos llama preguntando sobre cuales son las críticas de su alojamiento. Hoy está particularmente enfadado, ya que su hermana Clara ha puesto una casa en Airbnb y Roberto quiere asegurarse de que su casa tiene más críticas que las de Clara. Tenemos que crear un dataframe con las propiedades de ambos. Las id de las casas de Roberto y Clara son 97503 y 90387  respectivamente. Finalmente guardamos este dataframe como excel llamado "roberto.xls

In [23]:
df_propiedad_roberto_clara = df_airbnb[df_airbnb['room_id'].isin([97503, 90387])]
df_propiedad_roberto_clara.to_excel("roberto.xlsx")
df_propiedad_roberto_clara = pd.read_excel('/workspaces/PythonPC5/roberto.xlsx')
df_propiedad_roberto_clara 



Unnamed: 0.1,Unnamed: 0,room_id,host_id,room_type,neighborhood,reviews,overall_satisfaction,accommodates,bedrooms,price
0,41,90387,490050,Private room,Santo António,204,5,2,1,46
1,48,97503,515924,Private room,Santo António,39,4,2,1,26



#### Caso 3

Diana va a Lisboa a pasar 3 noches y quiere conocer a gente nueva. Tiene un presupuesto de 50€ para su alojamiento. Debemos buscarle las 10 propiedades más baratas, dandole preferencia a aquellas que sean habitaciones compartidas *(room_type == Shared room)*, y para aquellas viviendas compartidas debemos elegir aquellas con mejor puntuación.

In [32]:

df_filter = df_airbnb[df_airbnb['price'] <= 50]

df_habitacion_compartida = df_filter[df_filter['room_type'] == 'Shared room']

if not df_habitacion_compartida.empty:
    df_habitacion_compartida = df_habitacion_compartida.sort_values(by=['overall_satisfaction', 'price'], ascending=[False, True])
    top_habitaciones_compartidas = df_habitacion_compartida.head(10)
else:
    top_habitaciones_compartidas = pd.DataFrame()

print(f"Top 10 Propiedades compartidas:\n{top_habitaciones_compartidas}")


Top 10 Propiedades compartidas:
        room_id    host_id    room_type    neighborhood  reviews  \
9065   14933182   91501272  Shared room   Santo António        5   
6056   10397682   32344156  Shared room    Misericórdia       15   
7060   12299998   66077974  Shared room         Arroios       49   
7066   12305540   66077974  Shared room         Arroios       40   
8918   14719962   40574313  Shared room  Avenidas Novas        4   
7034   12268067   66077974  Shared room         Arroios       96   
9964   16150682   58899339  Shared room  Avenidas Novas        4   
10723  17096560  107813252  Shared room         Areeiro        5   
6459   11427995   32344156  Shared room    Misericórdia       21   
11058  17497074   25913998  Shared room         Arroios        7   

       overall_satisfaction  accommodates  bedrooms  price  
9065                    5.0             8       1.0   11.0  
6056                    5.0             8       1.0   13.0  
7060                    5.0         

### 3. Realizar Agrupamientos de Datos


- Según su criterio, aplicar 2 tipos de agrupamientos a los datos brindados. 
- **Opcional**, averiguar como realizar el gráfico de los 2 agrupamientos de los datos realizados. Se podría emplear librerias como mathplot y searbon ... ayudarse de chatgtp, etc


In [46]:
#Agrupación de datos por satisfacion, precio y cantidad de propiedades
agrupamiento_satisfaccion_clientes = df_airbnb.groupby('overall_satisfaction').agg({
    'room_id': 'count',        
    'price': 'mean',           
    'reviews': 'sum'          
})

agrupamiento_satisfaccion_clientes = agrupamiento_satisfaccion_clientes.sort_values(by='overall_satisfaction')

print("Agrupación de datos por satisfación")
print(agrupamiento_satisfaccion_clientes)


Agrupación de datos por satisfación
                      room_id       price  reviews
overall_satisfaction                              
0.0                      3835  115.361669     2167
1.5                         1   93.000000        3
2.0                         3   44.333333       12
2.5                        14   50.928571       66
3.0                        41   55.341463      262
3.5                       154   54.318182     1763
4.0                       842   62.034442    22860
4.5                      4605   70.248643   209430
5.0                      3727   84.638315   148496


In [58]:
# Agrupación de datos por propiedades del anfitrion
propiedades_por_anfitrion = df_airbnb.groupby('host_id')['room_id'].count().reset_index()
propiedades_por_anfitrion.columns = ['ID_Anfitrion', 'Cantidad_propiedades']

print("Cantidad propiedades de cada anfitrión:")
print(propiedades_por_anfitrion.sort_values(by='Cantidad_propiedades', ascending=False).head(9))


Cantidad propiedades de cada anfitrión:
      ID_Anfitrion  Cantidad_propiedades
826        3953109                   171
370        1756107                    98
5718     106149355                    86
450        2174752                    68
420        2010790                    63
327        1549585                    56
2802      22192546                    51
475        2372087                    50
1811      11707167                    44
