# Explorando tendencias de mercado de Airbnb

La ciudad de Nueva York tiene una variedad de anuncios de Airbnb para satisfacer la alta demanda de alojamiento temporal para viajeros, con diferentes niveles de precios, tipos de habitaciones y ubicaciones.

La ciudad de Nueva York, es una de las ciudades más visitadas del mundo. Hay muchos anuncios de Airbnb en la ciudad de Nueva York para satisfacer la alta demanda de alojamiento temporal para viajeros, que puede durar desde unas pocas noches hasta muchos meses. En este proyecto, analizaremos más de cerca el mercado de Airbnb de Nueva York combinando datos de varios tipos de archivos como .csv, .tsv y .xlsx.

Recuerde que los archivos CSV, TSV y Excel son tres formatos comunes para almacenar datos. Tiene a su disposición [tres archivos](https://tajamar365.sharepoint.com/:f:/s/3405-MasterIA2024-2025/EoXMgjAJLLNJqWDyKDig8kABSUkpWj_HGQjl267qNnHS9g?e=foxjFc) que contienen datos sobre los anuncios de Airbnb de 2019:  

- `airbnb_price.csv `: Este es un archivo CSV que contiene datos sobre precios y ubicaciones de anuncios de Airbnb.  
  1. `listing_id`: identificador único del anuncio  
  2. `price`: precio del anuncio por noche en USD  
  3. `nbhood_full`: nombre del distrito y del barrio donde se encuentra el anuncio  
    

- `airbnb_room_type.xlsx`: Este es un archivo Excel que contiene datos sobre las descripciones de los anuncios de Airbnb y los tipos de habitaciones.  
  1. `listing_id`: identificador único del anuncio  
  2. `description`: descripción del anuncio     
  3. `room_type`: Airbnb tiene tres tipos de habitaciones: habitaciones compartidas, habitaciones privadas y casas o apartamentos completos 


- `airbnb_last_review.tsv`: Este es un archivo TSV que contiene datos sobre los nombres de los anfitriones de Airbnb y las fechas de revisión.  
  1. `listing_id`: identificador único del anuncio  
  2. `host_name`:  nombre del anfitrión del anuncio  
  3. `last_review`: echa en la que se revisó el anuncio por última vez   

Como consultor que trabaja para una empresa inmobiliaria emergente, ha recopilado datos de anuncios de Airbnb de varias fuentes para investigar el mercado de alquileres a corto plazo en Nueva York. Analizará estos datos para brindar información sobre habitaciones privadas a la empresa inmobiliaria.

- ¿Cuáles son las fechas de las primeras y las últimas reseñas? Almacene estos valores como dos variables independientes con los nombres que prefiera.
- ¿Cuántos de los anuncios son habitaciones privadas? Guárdelo en cualquier variable.
- ¿Cuál es el precio promedio de los anuncios? Redondee a los dos decimales más cercanos y guárdelo en una variable.
- Combine las nuevas variables en un DataFrame llamado review_dates con cuatro columnas en el siguiente orden: first_reviewed, last_reviewed, nb_private_rooms y avg_price. El DataFrame solo debe contener una fila de valores.

In [0]:
dbfs:/FileStore/airbnb_last_review.tsv
dbfs:/FileStore/airbnb_price.csv
dbfs:/FileStore/Caso_3.ipynb
dbfs:/FileStore/airbnb_room_type.xlsx

In [0]:
!pip install openpyxl
!pip install --upgrade pip


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip available: [0m[31;49m22.2.2[0m[39;49m -> [0m[32;49m24.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m
Collecting pip
  Downloading pip-24.3.1-py3-none-any.whl (1.8 MB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/1.8 MB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.1/1.8 MB[0m [31m4.2 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.6/1.8 MB[0m [31m7.8 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━[0m [32m1.0/1.8 MB[0m [31m9.7 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━━━━[0m [32m1.6/1.8 MB[0m [31m11.3 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━

In [0]:
# Leer los DataFrames
df = spark.read.option("header", "true").option("inferSchema", "true").csv('dbfs:/FileStore/airbnb_price.csv')
# Leer el DataFrame df2 desde un archivo TSV
df2 = spark.read.option("header", "true").option("inferSchema", "true").option("delimiter", "\t").csv('dbfs:/FileStore/airbnb_last_review.tsv')
# Leer el excel
df_xlsx = spark.read.format("com.crealytics.spark.excel").option("dataAddress", "Sheet1").option("header", "true").option("inferSchema", "true").load("dbfs:/FileStore/airbnb_room_type.xlsx")

df.printSchema()
df2.printSchema()
df_xlsx.printSchema()


# Unir df y df2 por listing_id
combined_df = df.join(df2, on="listing_id", how="inner")  # Cambia "inner" a "left", "right" o "outer" según necesites

# Unir el resultado con df3
combined_df = combined_df.join(df3, on="listing_id", how="inner")  # Cambia el tipo de unión si es necesario

# Mostrar el DataFrame combinado
combined_df.display()





root
 |-- listing_id: integer (nullable = true)
 |-- price: string (nullable = true)
 |-- nbhood_full: string (nullable = true)

root
 |-- listing_id: integer (nullable = true)
 |-- host_name: string (nullable = true)
 |-- last_review: string (nullable = true)

root
 |-- listing_id: double (nullable = true)
 |-- description: string (nullable = true)
 |-- room_type: string (nullable = true)



listing_id,price,nbhood_full,host_name,last_review,description,room_type
2595,225 dollars,"Manhattan, Midtown",Jennifer,May 21 2019,Skylit Midtown Castle,Entire home/apt
3831,89 dollars,"Brooklyn, Clinton Hill",LisaRoxanne,July 05 2019,Cozy Entire Floor of Brownstone,Entire home/apt
5099,200 dollars,"Manhattan, Murray Hill",Chris,June 22 2019,Large Cozy 1 BR Apartment In Midtown East,Entire home/apt
5178,79 dollars,"Manhattan, Hell's Kitchen",Shunichi,June 24 2019,Large Furnished Room Near B'way,private room
5238,150 dollars,"Manhattan, Chinatown",Ben,June 09 2019,Cute & Cozy Lower East Side 1 bdrm,Entire home/apt
5295,135 dollars,"Manhattan, Upper West Side",Lena,June 22 2019,Beautiful 1br on Upper West Side,Entire home/apt
5441,85 dollars,"Manhattan, Hell's Kitchen",Kate,June 23 2019,Central Manhattan/near Broadway,Private room
5803,89 dollars,"Brooklyn, South Slope",Laurie,June 24 2019,"Lovely Room 1, Garden, Best Area, Legal rental",Private room
6021,85 dollars,"Manhattan, Upper West Side",Claudio,July 05 2019,Wonderful Guest Bedroom in Manhattan for SINGLES,Private room
6848,140 dollars,"Brooklyn, Williamsburg",Allen & Irina,June 29 2019,Only 2 stops to Manhattan studio,entire home/apt


In [0]:
from pyspark.sql.functions import min, max, col

# Establecemos la columna last review
df2 = combined_df.withColumn("last_review", col("last_review").cast("date"))
df2.printSchema()

# Obtener la fecha de la primera y la última reseña
primera_reseña = combined_df.agg(min("last_review")).collect()[0][0]
última_reseña = combined_df.agg(max("last_review")).collect()[0][0]

# Guardamos los datos en las variables
fecha_primera_reseña = primera_reseña
fecha_última_reseña = última_reseña

# Mostramos las fechas
print("Fecha de la primera reseña:", fecha_primera_reseña)
print("Fecha de la última reseña:", fecha_última_reseña)


root
 |-- listing_id: integer (nullable = true)
 |-- price: string (nullable = true)
 |-- nbhood_full: string (nullable = true)
 |-- host_name: string (nullable = true)
 |-- last_review: date (nullable = true)
 |-- description: string (nullable = true)
 |-- room_type: string (nullable = true)

Fecha de la primera reseña: April 01 2019
Fecha de la última reseña: May 31 2019


In [0]:
# Hacemos un filtro para contar las habitqaciones privadas
num_habitaciones_privadas = combined_df.filter(col("room_type") == "Private room").count()

#Lo guardamos en una variable 
habitaciones_privadas= num_habitaciones_privadas

# Mostramos el resultado
print("Número de anuncios que son habitaciones privadas:",habitaciones_privadas)


Número de anuncios que son habitaciones privadas: 7241


In [0]:
from pyspark.sql.functions import avg, round, col, regexp_replace

#  Creamos una nueva columna donde eliminamos la palabra "dollars" y convertipos el precio a double
combined_df = combined_df.withColumn("price_numeric", regexp_replace(col("price"), " dollars", "").cast("double"))

# Mostrar el esquema después de la transformación para comprobar que se a cambiado a double
combined_df.printSchema()
combined_df.display()

# Calculamos el precio promedio y redondeamos a dos decimales
precio_promedio = combined_df.agg(round(avg("price_numeric"), 2)).collect()[0][0]

#Lo guardamos en una variable
media_precios = precio_promedio

# Mostramos el precio promedio
print("Precio promedio de los anuncios:", media_precios)


root
 |-- listing_id: integer (nullable = true)
 |-- price: string (nullable = true)
 |-- nbhood_full: string (nullable = true)
 |-- host_name: string (nullable = true)
 |-- last_review: string (nullable = true)
 |-- description: string (nullable = true)
 |-- room_type: string (nullable = true)
 |-- price_numeric: double (nullable = true)



listing_id,price,nbhood_full,host_name,last_review,description,room_type,price_numeric
2595,225 dollars,"Manhattan, Midtown",Jennifer,May 21 2019,Skylit Midtown Castle,Entire home/apt,225.0
3831,89 dollars,"Brooklyn, Clinton Hill",LisaRoxanne,July 05 2019,Cozy Entire Floor of Brownstone,Entire home/apt,89.0
5099,200 dollars,"Manhattan, Murray Hill",Chris,June 22 2019,Large Cozy 1 BR Apartment In Midtown East,Entire home/apt,200.0
5178,79 dollars,"Manhattan, Hell's Kitchen",Shunichi,June 24 2019,Large Furnished Room Near B'way,private room,79.0
5238,150 dollars,"Manhattan, Chinatown",Ben,June 09 2019,Cute & Cozy Lower East Side 1 bdrm,Entire home/apt,150.0
5295,135 dollars,"Manhattan, Upper West Side",Lena,June 22 2019,Beautiful 1br on Upper West Side,Entire home/apt,135.0
5441,85 dollars,"Manhattan, Hell's Kitchen",Kate,June 23 2019,Central Manhattan/near Broadway,Private room,85.0
5803,89 dollars,"Brooklyn, South Slope",Laurie,June 24 2019,"Lovely Room 1, Garden, Best Area, Legal rental",Private room,89.0
6021,85 dollars,"Manhattan, Upper West Side",Claudio,July 05 2019,Wonderful Guest Bedroom in Manhattan for SINGLES,Private room,85.0
6848,140 dollars,"Brooklyn, Williamsburg",Allen & Irina,June 29 2019,Only 2 stops to Manhattan studio,entire home/apt,140.0


Precio promedio de los anuncios: 141.78


In [0]:
from pyspark.sql import Row
from pyspark.sql.functions import count

# Creamos una fila con las variables de los ej anteriores
data = Row(first_reviewed=fecha_primera_reseña, 
            last_reviewed=fecha_última_reseña, 
            nb_private_rooms=habitaciones_privadas, 
            avg_price=media_precios)

# Crear el DataFrame review_dates con una unica fila
df_final = spark.createDataFrame([data])

# Mostrar el DataFrame
df_final.show()

+--------------+-------------+----------------+---------+
|first_reviewed|last_reviewed|nb_private_rooms|avg_price|
+--------------+-------------+----------------+---------+
| April 01 2019|  May 31 2019|            7241|   141.78|
+--------------+-------------+----------------+---------+

