# Ejercicio1 - Busqueda de Alojamiento en Airbnb (Jupyter).

Supongamos que somos un agente de [Airbnb](http://www.airbnb.com) localizado en Lisboa, y tenemos que atender peticiones de varios clientes. Tenemos un archivo llamado `airbnb.csv` (en la carpeta data) donde tenemos información de todos los alojamientos de Airbnb en Lisboa.

In [1]:
import pandas as pd
df_airbnb = pd.read_csv("./data/airbnb.csv")

In [2]:
df_airbnb.head()

Unnamed: 0,room_id,host_id,room_type,neighborhood,reviews,overall_satisfaction,accommodates,bedrooms,price
0,6499,14455,Entire home/apt,Belém,8,5.0,2,1.0,57.0
1,17031,66015,Entire home/apt,Alvalade,0,0.0,2,1.0,46.0
2,25659,107347,Entire home/apt,Santa Maria Maior,63,5.0,3,1.0,69.0
3,29248,125768,Entire home/apt,Santa Maria Maior,225,4.5,4,1.0,58.0
4,29396,126415,Entire home/apt,Santa Maria Maior,132,5.0,4,1.0,67.0


En concreto el dataset tiene las siguientes variables:
- room_id: el identificador de la propiedad
- host_id: el identificador del dueño de la propiedad
- room_type: tipo de propiedad (vivienda completa/(habitacion para compartir/habitación privada)
- neighborhood: el barrio de Lisboa
- reviews: El numero de opiniones
- overall_satisfaction: Puntuacion media del apartamento
- accommodates: El numero de personas que se pueden alojar en la propiedad
- bedrooms: El número de habitaciones
- price: El precio (en euros) por noche

## Ejercicios

### 1. Realizar Análisis Exploratorio de los datos

Sobre este apartado deberá explorar los datos como se vio en clase .. aplicar métodos shape, columns, etc

In [9]:
#Muestra las 10 primeras filas
df_airbnb.head(10)
#Muestra el tamaño del dataframe
df_airbnb.shape
# Muestra los data types del dataframe
df_airbnb.dtypes
#Muestra la ultimas filas
df_airbnb.tail(10)
#Muestra columnas
df_airbnb.columns

Index(['room_id', 'host_id', 'room_type', 'neighborhood', 'reviews',
       'overall_satisfaction', 'accommodates', 'bedrooms', 'price'],
      dtype='object')

### 2. Realizar Filtrados a Datos

- Realizar filtrados, según sea el caso. 


Nota: 
Para obtener el top de un conjunto de datos debemos aplicar un head(n) además de ordenar los datos

#### Caso 1.

Alicia va a ir a Lisboa durante una semana con su marido y sus 2 hijos. Están buscando un apartamento con habitaciones separadas para los padres y los hijos. No les importa donde alojarse o el precio, simplemente quieren tener una experiencia agradable. Esto significa que solo aceptan lugares con más de 10 críticas con una puntuación mayor de 4. Cuando seleccionemos habitaciones para Alicia, tenemos que asegurarnos de ordenar las habitaciones de mejor a peor puntuación. Para aquellas habitaciones que tienen la misma puntuación, debemos mostrar antes aquellas con más críticas. Debemos darle 3 alternativas.

In [18]:
import pandas as pd

df_airbnb = pd.read_csv("./data/airbnb.csv")
    
# Filtrar crtierio
filtros_criterios = df_airbnb[
        (df_airbnb['reviews'] > 10) & 
        (df_airbnb['overall_satisfaction'] > 4) &
        (df_airbnb['bedrooms'] > 1)
    ]
    
# Ordenar los datos filtrados primero por satisfacción general y luego por reseñas
sorted_data = filtros_criterios.sort_values(by=['overall_satisfaction', 'reviews'], ascending=[False, False])
    
# Seleccionar las tres mejores opciones
opciones = sorted_data.head(3)
    
print(opciones)


     room_id  host_id        room_type       neighborhood  reviews  \
120   176153   842219  Entire home/apt       Misericórdia      438   
16     44043   192830  Entire home/apt  Santa Maria Maior      316   
140   202150   989393  Entire home/apt  Santa Maria Maior      274   

     overall_satisfaction  accommodates  bedrooms  price  
120                   5.0             4       2.0  102.0  
16                    5.0             7       3.0   80.0  
140                   5.0             4       2.0   62.0  


#### Caso 2

Roberto es un casero que tiene una casa en Airbnb. De vez en cuando nos llama preguntando sobre cuales son las críticas de su alojamiento. Hoy está particularmente enfadado, ya que su hermana Clara ha puesto una casa en Airbnb y Roberto quiere asegurarse de que su casa tiene más críticas que las de Clara. Tenemos que crear un dataframe con las propiedades de ambos. Las id de las casas de Roberto y Clara son 97503 y 90387  respectivamente. Finalmente guardamos este dataframe como excel llamado "roberto.xls

In [33]:
import pandas as pd

# Cargar el conjunto de datos desde el archivo CSV
df_airbnb = pd.read_csv("./data/airbnb.csv")

# IDs de las propiedades de Roberto y Clara
roberto_id = 97503
clara_id = 90387

# Filtrar los datos para obtener las propiedades de Roberto y Clara
resultados= df_airbnb[df_airbnb['room_id'].isin([roberto_id, clara_id])]

# Guardar el DataFrame en un archivo Excel

guardar_xlsx = 'C:/roberto.xlsx'
resultados.to_excel(guardar_xlsx, index=False, engine='openpyxl')
# Mostrar el DataFrame
print(resultados)


ModuleNotFoundError: No module named 'openpyxl'


#### Caso 3

Diana va a Lisboa a pasar 3 noches y quiere conocer a gente nueva. Tiene un presupuesto de 50€ para su alojamiento. Debemos buscarle las 10 propiedades más baratas, dandole preferencia a aquellas que sean habitaciones compartidas *(room_type == Shared room)*, y para aquellas viviendas compartidas debemos elegir aquellas con mejor puntuación.

In [34]:
import pandas as pd

airbnb_data = pd.read_csv("./data/airbnb.csv")


filtro_precio= airbnb_data[airbnb_data['price'] <= 50]
filtro_compartido = filtro_precio[filtro_precio['room_type'] == 'Shared room']
filtro_otros = filtro_precio[filtro_precio['room_type'] != 'Shared room']

# Ordenar las habitaciones compartidas por puntuacion
puntuacion_compartida = filtro_compartido.sort_values(by='overall_satisfaction', ascending=False)

# Ordenar las otras habitaciones por precio 
precio = filtro_otros.sort_values(by='price', ascending=True)

# Combinar las dos listas dando preferencia a las habitaciones compartidas
opciones_combinadas = pd.concat([puntuacion_compartida, precio])

# Seleccionar las 10 propiedades más baratas
diez_opciones = opciones_combinadas.head(10)

# Mostrar las 10 mejores opciones para Diana
print(diez_opciones)


        room_id    host_id    room_type    neighborhood  reviews  \
3663    5725814   29676067  Shared room    Misericórdia       23   
3727    5803348   29676067  Shared room    Misericórdia       19   
1656    2382263   11481927  Shared room     São Vicente        4   
6459   11427995   32344156  Shared room    Misericórdia       21   
6527   11523225   58899339  Shared room  Avenidas Novas        4   
11058  17497074   25913998  Shared room         Arroios        7   
10722  17096373  107813252  Shared room         Areeiro       13   
10723  17096560  107813252  Shared room         Areeiro        5   
8918   14719962   40574313  Shared room  Avenidas Novas        4   
9065   14933182   91501272  Shared room   Santo António        5   

       overall_satisfaction  accommodates  bedrooms  price  
3663                    5.0             6       1.0   21.0  
3727                    5.0             9       1.0   20.0  
1656                    5.0             6       1.0   31.0  
6459   

### 3. Realizar Agrupamientos de Datos


- Según su criterio, aplicar 2 tipos de agrupamientos a los datos brindados. 
- **Opcional**, averiguar como realizar el gráfico de los 2 agrupamientos de los datos realizados. Se podría emplear librerias como mathplot y searbon ... ayudarse de chatgtp, etc
