# Explorando tendencias de mercado de Airbnb

La ciudad de Nueva York tiene una variedad de anuncios de Airbnb para satisfacer la alta demanda de alojamiento temporal para viajeros, con diferentes niveles de precios, tipos de habitaciones y ubicaciones.

La ciudad de Nueva York, es una de las ciudades más visitadas del mundo. Hay muchos anuncios de Airbnb en la ciudad de Nueva York para satisfacer la alta demanda de alojamiento temporal para viajeros, que puede durar desde unas pocas noches hasta muchos meses. En este proyecto, analizaremos más de cerca el mercado de Airbnb de Nueva York combinando datos de varios tipos de archivos como .csv, .tsv y .xlsx.

Recuerde que los archivos CSV, TSV y Excel son tres formatos comunes para almacenar datos. Tiene a su disposición [tres archivos](https://tajamar365.sharepoint.com/:f:/s/3405-MasterIA2024-2025/EoXMgjAJLLNJqWDyKDig8kABSUkpWj_HGQjl267qNnHS9g?e=foxjFc) que contienen datos sobre los anuncios de Airbnb de 2019:  

- `airbnb_price.csv `: Este es un archivo CSV que contiene datos sobre precios y ubicaciones de anuncios de Airbnb.  
  1. `listing_id`: identificador único del anuncio  
  2. `price`: precio del anuncio por noche en USD  
  3. `nbhood_full`: nombre del distrito y del barrio donde se encuentra el anuncio  
    

- `airbnb_room_type.xlsx`: Este es un archivo Excel que contiene datos sobre las descripciones de los anuncios de Airbnb y los tipos de habitaciones.  
  1. `listing_id`: identificador único del anuncio  
  2. `description`: descripción del anuncio     
  3. `room_type`: Airbnb tiene tres tipos de habitaciones: habitaciones compartidas, habitaciones privadas y casas o apartamentos completos 


- `airbnb_last_review.tsv`: Este es un archivo TSV que contiene datos sobre los nombres de los anfitriones de Airbnb y las fechas de revisión.  
  1. `listing_id`: identificador único del anuncio  
  2. `host_name`:  nombre del anfitrión del anuncio  
  3. `last_review`: echa en la que se revisó el anuncio por última vez   

Como consultor que trabaja para una empresa inmobiliaria emergente, ha recopilado datos de anuncios de Airbnb de varias fuentes para investigar el mercado de alquileres a corto plazo en Nueva York. Analizará estos datos para brindar información sobre habitaciones privadas a la empresa inmobiliaria.

- ¿Cuáles son las fechas de las primeras y las últimas reseñas? Almacene estos valores como dos variables independientes con los nombres que prefiera.
- ¿Cuántos de los anuncios son habitaciones privadas? Guárdelo en cualquier variable.
- ¿Cuál es el precio promedio de los anuncios? Redondee a los dos decimales más cercanos y guárdelo en una variable.
- Combine las nuevas variables en un DataFrame llamado review_dates con cuatro columnas en el siguiente orden: first_reviewed, last_reviewed, nb_private_rooms y avg_price. El DataFrame solo debe contener una fila de valores.

### **¿Cuáles son las fechas de las primeras y las últimas reseñas? Almacene estos valores como dos variables independientes con los nombres que prefiera.**

##### Cargamos el TSV que contiene las reviews

In [0]:
from pyspark.sql import SparkSession

# Crear una sesión Spark
spark = SparkSession.builder.appName("Airbnb Analysis").getOrCreate()

# Ruta al archivo TSV
file_last_review = "dbfs:/FileStore/EP_3/Caso_3/airbnb_last_review.tsv"

# Cargar el archivo TSV
df_last_review = spark.read.options(header=True, sep="\t").csv(file_last_review)

# Mostrar las primeras filas del DataFrame
df_last_review.display()

listing_id,host_name,last_review
2595,Jennifer,May 21 2019
3831,LisaRoxanne,July 05 2019
5099,Chris,June 22 2019
5178,Shunichi,June 24 2019
5238,Ben,June 09 2019
5295,Lena,June 22 2019
5441,Kate,June 23 2019
5803,Laurie,June 24 2019
6021,Claudio,July 05 2019
6848,Allen & Irina,June 29 2019


**Convertimos la fecha de `last_review` a tipo `Date`**

In [0]:
from pyspark.sql.functions import to_date

# Convertir 'last_review' al formato estándar yyyy-MM-dd
df_last_review = df_last_review.withColumn(
    "last_review", to_date("last_review", "MMMM dd yyyy")
)

df_last_review.show()

+----------+----------------+-----------+
|listing_id|       host_name|last_review|
+----------+----------------+-----------+
|      2595|        Jennifer| 2019-05-21|
|      3831|     LisaRoxanne| 2019-07-05|
|      5099|           Chris| 2019-06-22|
|      5178|        Shunichi| 2019-06-24|
|      5238|             Ben| 2019-06-09|
|      5295|            Lena| 2019-06-22|
|      5441|            Kate| 2019-06-23|
|      5803|          Laurie| 2019-06-24|
|      6021|         Claudio| 2019-07-05|
|      6848|   Allen & Irina| 2019-06-29|
|      7097|            Jane| 2019-06-28|
|      7322|            Doti| 2019-07-01|
|      7726|Adam And Charity| 2019-06-22|
|      8024|           Lisel| 2019-07-01|
|      8025|           Lisel| 2019-01-01|
|      8110|           Lisel| 2019-07-02|
|      8490|        Nathalie| 2019-06-19|
|      8505|         Gregory| 2019-06-23|
|      9518|            Shon| 2019-06-15|
|      9657|            Dana| 2019-04-19|
+----------+----------------+-----

##### Mostramos resultados

Usamos agregacion `agg()` para poder sacar el minimo `min()` y el maximo `max()`

In [0]:
from pyspark.sql.functions import min, max

# Usar agg para obtener ambas fechas mínima y máxima
result = df_last_review.agg(min("last_review").alias("min_date"), max("last_review").alias("max_date")).collect()[0]

# Extraer las fechas desde el resultado
min_date = result["min_date"]
max_date = result["max_date"]

# Imprimir los resultados
print(f"Primera reseña: {min_date}")
print(f"Última reseña: {max_date}")


Primera reseña: 2019-01-01
Última reseña: 2019-07-09


### ¿Cuántos de los anuncios son habitaciones privadas? Guárdelo en cualquier variable.

##### Cargamos el archivo XLSX

Para cargar el archivo `airbnb_room_type.xls` en PySpark, se necesita un enfoque específico, ya que PySpark no tiene un soporte directo para archivos Excel. Sin embargo, podemos usar una combinación de PySpark con pandas para cargar archivos Excel, y luego convertir ese DataFrame de pandas a un DataFrame de PySpark.

In [0]:
# Instalamos dependencia openpyxl
%pip install openpyxl
 
# Copiar el archivo desde DBFS a una carpeta temporal accesible
dbutils.fs.cp("dbfs:/FileStore/EP_3/Caso_3/airbnb_room_type.xlsx", "file:/tmp/airbnb_room_type.xlsx")

Python interpreter will be restarted.
Python interpreter will be restarted.
Out[25]: True

In [0]:

import pandas as pd
 
# Ruta al archivo copiado en la carpeta temporal
file_path = "/tmp/airbnb_room_type.xlsx"
 
# Leer el archivo Excel usando pandas
airbnb_room_type_pandas_df = pd.read_excel(file_path)
 
# Mostrar algunas filas para verificar la carga
print(airbnb_room_type_pandas_df.head())

airbnb_room_type_pandas_df.display()



   listing_id                                description        room_type
0        2595                      Skylit Midtown Castle  Entire home/apt
1        3831            Cozy Entire Floor of Brownstone  Entire home/apt
2        5099  Large Cozy 1 BR Apartment In Midtown East  Entire home/apt
3        5178            Large Furnished Room Near B'way     private room
4        5238         Cute & Cozy Lower East Side 1 bdrm  Entire home/apt


  Expected bytes, got a 'int' object
Attempting non-optimization as 'spark.sql.execution.arrow.pyspark.fallback.enabled' is set to true.
  warn(msg)


listing_id,description,room_type
2595,Skylit Midtown Castle,Entire home/apt
3831,Cozy Entire Floor of Brownstone,Entire home/apt
5099,Large Cozy 1 BR Apartment In Midtown East,Entire home/apt
5178,Large Furnished Room Near B'way,private room
5238,Cute & Cozy Lower East Side 1 bdrm,Entire home/apt
5295,Beautiful 1br on Upper West Side,Entire home/apt
5441,Central Manhattan/near Broadway,Private room
5803,"Lovely Room 1, Garden, Best Area, Legal rental",Private room
6021,Wonderful Guest Bedroom in Manhattan for SINGLES,Private room
6848,Only 2 stops to Manhattan studio,entire home/apt


Convertir el DataFrame de pandas a un DataFrame de PySpark

- Contar habitaciones privadas: Utilizamos `filter()` para seleccionar los registros de tipo private room y luego contamos con `.count()`

- Mostrar resultado: `print("Numero de habitaciones privadas:", private_rooms_count)` imprimirá el resultado

In [0]:
from pyspark.sql.functions import lower

# Convertir el DataFrame de pandas a un DataFrame de PySpark
df_spark_airbnb = spark.createDataFrame(airbnb_room_type_pandas_df)

# Normalizar registros, convertir en minusculas
df_spark_airbnb = df_spark_airbnb.withColumn("room_type", lower(df_spark_airbnb.room_type))

# Filtrar los anuncios donde 'room_type' es 'private room'
private_rooms_count = df_spark_airbnb.filter(df_spark_airbnb.room_type == "private room").count()

# Guardar el resultado en una variable
print("Numero de habitaciones privadas:", private_rooms_count)

Numero de habitaciones privadas: 11356


### ¿Cuál es el precio promedio de los anuncios? Redondee a los dos decimales más cercanos y guárdelo en una variable.

##### Cargamos el CSV

In [0]:
from pyspark.sql import SparkSession 

df = spark.read.csv("dbfs:/FileStore/EP_3/Caso_3/airbnb_price.csv", header=True, inferSchema=True) 

df.show()

+----------+-----------+--------------------+
|listing_id|      price|         nbhood_full|
+----------+-----------+--------------------+
|      2595|225 dollars|  Manhattan, Midtown|
|      3831| 89 dollars|Brooklyn, Clinton...|
|      5099|200 dollars|Manhattan, Murray...|
|      5178| 79 dollars|Manhattan, Hell's...|
|      5238|150 dollars|Manhattan, Chinatown|
|      5295|135 dollars|Manhattan, Upper ...|
|      5441| 85 dollars|Manhattan, Hell's...|
|      5803| 89 dollars|Brooklyn, South S...|
|      6021| 85 dollars|Manhattan, Upper ...|
|      6848|140 dollars|Brooklyn, William...|
|      7097|215 dollars|Brooklyn, Fort Gr...|
|      7322|140 dollars|  Manhattan, Chelsea|
|      7726| 99 dollars|Brooklyn, Crown H...|
|      8024|130 dollars|Brooklyn, Park Slope|
|      8025| 80 dollars|Brooklyn, Park Slope|
|      8110|110 dollars|Brooklyn, Park Slope|
|      8490|120 dollars|Brooklyn, Bedford...|
|      8505| 60 dollars|Brooklyn, Windsor...|
|      9518| 44 dollars|   Manhatt

Para calcular el precio promedio de los anuncios en PySpark, es necesario realizar algunos pasos de preprocesamiento y luego calcular el promedio de los precios. Como los precios están en formato de texto (por ejemplo, "225 dollars"), necesitamos extraer solo el valor numérico, convertirlo a un tipo numérico y luego calcular el promedio.

Procedimiento:
- Eliminar la palabra `"dollars"` de la columna `price` para extraer el valor numérico.
- Convertir la columna `price` a tipo numérico decimal `.cast("float")`
- Agregación con `agg()` para poder aplicar funciones de agregación con `avg()` 
- Calcular el precio promedio usando la función `avg()`
- Redondear el resultado a dos decimales usando `round(avg_price, 2)`


In [0]:
from pyspark.sql import functions as F

# Asumiendo que df_spark es el DataFrame que contiene la columna 'price'

# Eliminar la palabra 'dollars' y convertir a tipo numérico
df = df.withColumn("price_numeric", F.regexp_replace(df["price"], " dollars", "").cast("float"))

# Mostrar las columnas y ver si se han creado bien los precios
df.display()

# Calcular el precio promedio
avg_price = df.agg(F.avg("price_numeric")).collect()[0][0]

# Redondear a dos decimales
avg_price_rounded = round(avg_price, 2)

# Guardar el resultado en una variable
print("Precio promedio:", avg_price_rounded)

listing_id,price,nbhood_full,price_numeric
2595,225 dollars,"Manhattan, Midtown",225.0
3831,89 dollars,"Brooklyn, Clinton Hill",89.0
5099,200 dollars,"Manhattan, Murray Hill",200.0
5178,79 dollars,"Manhattan, Hell's Kitchen",79.0
5238,150 dollars,"Manhattan, Chinatown",150.0
5295,135 dollars,"Manhattan, Upper West Side",135.0
5441,85 dollars,"Manhattan, Hell's Kitchen",85.0
5803,89 dollars,"Brooklyn, South Slope",89.0
6021,85 dollars,"Manhattan, Upper West Side",85.0
6848,140 dollars,"Brooklyn, Williamsburg",140.0


Precio promedio: 141.78


### Data Frame Final 

Combine las nuevas variables en un DataFrame llamado review_dates con cuatro columnas en el siguiente orden: `first_reviewed`, `last_reviewed`, `nb_private_rooms` y `avg_price`. El DataFrame solo debe contener una fila de valores.

In [0]:
from pyspark.sql import Row

# Imprimir los resultados de las variables
print(f"Primera reseña: {min_date}")
print(f"Última reseña: {max_date}")
print("Número de habitaciones privadas:", private_rooms_count)
print("Precio promedio:", avg_price_rounded)

# Crear una fila con las variables calculadas
review_data = Row(
    first_reviewed=min_date,
    last_reviewed=max_date,
    nb_private_rooms=private_rooms_count,
    avg_price=avg_price_rounded
)

# Crear el DataFrame review_dates con una fila de valores
review_dates = spark.createDataFrame([review_data])

# Mostrar el DataFrame resultante
review_dates.show()


Primera reseña: 2019-01-01
Última reseña: 2019-07-09
Número de habitaciones privadas: 11356
Precio promedio: 141.78
+--------------+-------------+----------------+---------+
|first_reviewed|last_reviewed|nb_private_rooms|avg_price|
+--------------+-------------+----------------+---------+
|    2019-01-01|   2019-07-09|           11356|   141.78|
+--------------+-------------+----------------+---------+

