# Explorando tendencias de mercado de Airbnb

La ciudad de Nueva York tiene una variedad de anuncios de Airbnb para satisfacer la alta demanda de alojamiento temporal para viajeros, con diferentes niveles de precios, tipos de habitaciones y ubicaciones.

La ciudad de Nueva York, es una de las ciudades más visitadas del mundo. Hay muchos anuncios de Airbnb en la ciudad de Nueva York para satisfacer la alta demanda de alojamiento temporal para viajeros, que puede durar desde unas pocas noches hasta muchos meses. En este proyecto, analizaremos más de cerca el mercado de Airbnb de Nueva York combinando datos de varios tipos de archivos como .csv, .tsv y .xlsx.

Recuerde que los archivos CSV, TSV y Excel son tres formatos comunes para almacenar datos. Tiene a su disposición [tres archivos](https://tajamar365.sharepoint.com/:f:/s/3405-MasterIA2024-2025/EoXMgjAJLLNJqWDyKDig8kABSUkpWj_HGQjl267qNnHS9g?e=foxjFc) que contienen datos sobre los anuncios de Airbnb de 2019:  

- `airbnb_price.csv `: Este es un archivo CSV que contiene datos sobre precios y ubicaciones de anuncios de Airbnb.  
  1. `listing_id`: identificador único del anuncio  
  2. `price`: precio del anuncio por noche en USD  
  3. `nbhood_full`: nombre del distrito y del barrio donde se encuentra el anuncio  
    

- `airbnb_room_type.xlsx`: Este es un archivo Excel que contiene datos sobre las descripciones de los anuncios de Airbnb y los tipos de habitaciones.  
  1. `listing_id`: identificador único del anuncio  
  2. `description`: descripción del anuncio     
  3. `room_type`: Airbnb tiene tres tipos de habitaciones: habitaciones compartidas, habitaciones privadas y casas o apartamentos completos 


- `airbnb_last_review.tsv`: Este es un archivo TSV que contiene datos sobre los nombres de los anfitriones de Airbnb y las fechas de revisión.  
  1. `listing_id`: identificador único del anuncio  
  2. `host_name`:  nombre del anfitrión del anuncio  
  3. `last_review`: echa en la que se revisó el anuncio por última vez   

Como consultor que trabaja para una empresa inmobiliaria emergente, ha recopilado datos de anuncios de Airbnb de varias fuentes para investigar el mercado de alquileres a corto plazo en Nueva York. Analizará estos datos para brindar información sobre habitaciones privadas a la empresa inmobiliaria.

- ¿Cuáles son las fechas de las primeras y las últimas reseñas? Almacene estos valores como dos variables independientes con los nombres que prefiera.
- ¿Cuántos de los anuncios son habitaciones privadas? Guárdelo en cualquier variable.
- ¿Cuál es el precio promedio de los anuncios? Redondee a los dos decimales más cercanos y guárdelo en una variable.
- Combine las nuevas variables en un DataFrame llamado review_dates con cuatro columnas en el siguiente orden: first_reviewed, last_reviewed, nb_private_rooms y avg_price. El DataFrame solo debe contener una fila de valores.

In [0]:
from pyspark.sql import (
    SparkSession,
    types,
    functions as F,
)

spark = (
    SparkSession
    .builder
    .appName('cleaning_orders_dataset_with_pyspark')
    .getOrCreate()
)


In [0]:
df_price = spark.read.csv("/FileStore/caso_3/airbnb_price.csv", header=True)
df_room = spark.read.csv ("/FileStore/caso_3/airbnb_room_type_airbnb_room_type_.csv", header =True)
df_review = spark.read.option("delimiter", "\t").csv("/FileStore/caso_3/airbnb_last_review.tsv", header=True, inferSchema=True)


In [0]:
df_price.display()

listing_id,price,nbhood_full
2595,225 dollars,"Manhattan, Midtown"
3831,89 dollars,"Brooklyn, Clinton Hill"
5099,200 dollars,"Manhattan, Murray Hill"
5178,79 dollars,"Manhattan, Hell's Kitchen"
5238,150 dollars,"Manhattan, Chinatown"
5295,135 dollars,"Manhattan, Upper West Side"
5441,85 dollars,"Manhattan, Hell's Kitchen"
5803,89 dollars,"Brooklyn, South Slope"
6021,85 dollars,"Manhattan, Upper West Side"
6848,140 dollars,"Brooklyn, Williamsburg"


In [0]:
df_review.show()

+----------+----------------+---------------+
|listing_id|       host_name|    last_review|
+----------+----------------+---------------+
|      2595|        Jennifer|    May 21 2019|
|      3831|     LisaRoxanne|   July 05 2019|
|      5099|           Chris|   June 22 2019|
|      5178|        Shunichi|   June 24 2019|
|      5238|             Ben|   June 09 2019|
|      5295|            Lena|   June 22 2019|
|      5441|            Kate|   June 23 2019|
|      5803|          Laurie|   June 24 2019|
|      6021|         Claudio|   July 05 2019|
|      6848|   Allen & Irina|   June 29 2019|
|      7097|            Jane|   June 28 2019|
|      7322|            Doti|   July 01 2019|
|      7726|Adam And Charity|   June 22 2019|
|      8024|           Lisel|   July 01 2019|
|      8025|           Lisel|January 01 2019|
|      8110|           Lisel|   July 02 2019|
|      8490|        Nathalie|   June 19 2019|
|      8505|         Gregory|   June 23 2019|
|      9518|            Shon|   Ju

In [0]:
df_room.show()

+--------------------------------+
|listing_id;description;room_type|
+--------------------------------+
|            2595;Skylit Midto...|
|            3831;Cozy Entire ...|
|            5099;Large Cozy 1...|
|            5178;Large Furnis...|
|            5238;Cute & Cozy ...|
|            5295;Beautiful 1b...|
|            5441;Central Manh...|
|              5803;Lovely Room 1|
|            6021;Wonderful Gu...|
|            6848;Only 2 stops...|
|            7097;Perfect for ...|
|            7322;Chelsea Perf...|
|            7726;Hip Historic...|
|            8024;CBG CtyBGd H...|
|            8025;CBG Helps Ha...|
|            8110;CBG Helps Ha...|
|            8490;MAISON DES S...|
|            8505;Sunny Bedroo...|
|                   9518;SPACIOUS|
|            9657;Modern 1 BR ...|
+--------------------------------+
only showing top 20 rows



In [0]:
from pyspark.sql.functions import min, max, to_date
spark.conf.set("spark.sql.legacy.timeParserPolicy", "LEGACY")

df_review = df_review.withColumn("last_review", to_date(df_review["last_review"], "MMM dd yyyy"))

# Handle null dates gracefully (e.g., if conversion fails)
df_review = df_review.na.drop(subset=["last_review"])

# Find the earliest and most recent review dates
review = df_review.select(
    min("last_review").alias("last"),
    max("last_review").alias("soon")
)

# Show results
review.show()



+----------+----------+
|      last|      soon|
+----------+----------+
|2019-01-01|2019-07-09|
+----------+----------+



In [0]:
#¿Cuántos de los anuncios son habitaciones privadas? Guárdelo en cualquier variable.

from pyspark.sql.functions import split, col

print(type(df_room)) # para saber si es un dataframe 
df_room = df_room.withColumn("listing_id", split(col("listing_id;description;room_type"), ";")[0]) \
                 .withColumn("description", split(col("listing_id;description;room_type"), ";")[1]) \
                 .withColumn("room_type", split(col("listing_id;description;room_type"), ";")[2])

df_room = df_room.drop("listing_id;description;room_type")

df_room.display()

 

<class 'pyspark.sql.dataframe.DataFrame'>


listing_id,description,room_type
2595,Skylit Midtown Castle,Entire home/apt
3831,Cozy Entire Floor of Brownstone,Entire home/apt
5099,Large Cozy 1 BR Apartment In Midtown East,Entire home/apt
5178,Large Furnished Room Near B'way,private room
5238,Cute & Cozy Lower East Side 1 bdrm,Entire home/apt
5295,Beautiful 1br on Upper West Side,Entire home/apt
5441,Central Manhattan/near Broadway,Private room
5803,Lovely Room 1,
6021,Wonderful Guest Bedroom in Manhattan for SINGLES,Private room
6848,Only 2 stops to Manhattan studio,entire home/apt


In [0]:
#segunda limpieza quietar null

df_room = df_room.dropna(subset=["listing_id", "description", "room_type"])

df_room.display()

listing_id,description,room_type
2595,Skylit Midtown Castle,Entire home/apt
3831,Cozy Entire Floor of Brownstone,Entire home/apt
5099,Large Cozy 1 BR Apartment In Midtown East,Entire home/apt
5178,Large Furnished Room Near B'way,private room
5238,Cute & Cozy Lower East Side 1 bdrm,Entire home/apt
5295,Beautiful 1br on Upper West Side,Entire home/apt
5441,Central Manhattan/near Broadway,Private room
6021,Wonderful Guest Bedroom in Manhattan for SINGLES,Private room
6848,Only 2 stops to Manhattan studio,entire home/apt
7097,Perfect for Your Parents + Garden,Entire home/apt


In [0]:

#hago el calculo aparte porque si ejecuto todo la transformacion usando split da error AttributeError: 'int' object has no attribute 'withColumn'


private_room = df_room.filter(df_room["room_type"] == "Private room").count()

print(private_room)

6153


In [0]:
#¿Cuál es el precio promedio de los anuncios? Redondee a los dos decimales más cercanos y guárdelo en una variable.

df_price = df_price.withColumn("price_number", split("price", " ")[0])

df_price.show()

+----------+-----------+--------------------+------------+
|listing_id|      price|         nbhood_full|price_number|
+----------+-----------+--------------------+------------+
|      2595|225 dollars|  Manhattan, Midtown|         225|
|      3831| 89 dollars|Brooklyn, Clinton...|          89|
|      5099|200 dollars|Manhattan, Murray...|         200|
|      5178| 79 dollars|Manhattan, Hell's...|          79|
|      5238|150 dollars|Manhattan, Chinatown|         150|
|      5295|135 dollars|Manhattan, Upper ...|         135|
|      5441| 85 dollars|Manhattan, Hell's...|          85|
|      5803| 89 dollars|Brooklyn, South S...|          89|
|      6021| 85 dollars|Manhattan, Upper ...|          85|
|      6848|140 dollars|Brooklyn, William...|         140|
|      7097|215 dollars|Brooklyn, Fort Gr...|         215|
|      7322|140 dollars|  Manhattan, Chelsea|         140|
|      7726| 99 dollars|Brooklyn, Crown H...|          99|
|      8024|130 dollars|Brooklyn, Park Slope|         13

In [0]:

from pyspark.sql.functions import round, avg

average_price = df_price.select(round(avg("price_number"), 2)).collect()[0][0]

print(f"The average listing price is: {average_price}")

The average listing price is: 141.78


In [0]:
#Combine las nuevas variables en un DataFrame llamado review_dates con cuatro columnas en el siguiente orden: first_reviewed, last_reviewed, nb_private_rooms y avg_price. El DataFrame solo debe contener una fila de valores.


from pyspark.sql import Row
from pyspark.sql.functions import min, max, round, avg

# el primer datframe que se hizo de maximo y minimo, se hace lo mismo pero se pone un alias
review_dates = df_review.select(
    min("last_review").alias("first_reviewed"),
    max("last_review").alias("last_reviewed")
).collect()[0]

first_reviewed = review_dates['first_reviewed']
last_reviewed = review_dates['last_reviewed']

# el segundo dataframe donde se separo en columnas independientes 
nb_private_rooms = df_room.filter(df_room.room_type == "Private room").count()

# calcular 
avg_price = df_price.select(round(avg("price_number"), 2)).collect()[0][0]

# Step 4: Create a new row with all values
review_dates_df = spark.createDataFrame([Row(first_reviewed=first_reviewed, last_reviewed=last_reviewed, nb_private_rooms=nb_private_rooms, avg_price=avg_price)])

# Show the result
review_dates_df.show()

+--------------+-------------+----------------+---------+
|first_reviewed|last_reviewed|nb_private_rooms|avg_price|
+--------------+-------------+----------------+---------+
| April 01 2019|  May 31 2019|            6153|   141.78|
+--------------+-------------+----------------+---------+

