# Explorando tendencias de mercado de Airbnb

La ciudad de Nueva York tiene una variedad de anuncios de Airbnb para satisfacer la alta demanda de alojamiento temporal para viajeros, con diferentes niveles de precios, tipos de habitaciones y ubicaciones.

La ciudad de Nueva York, es una de las ciudades más visitadas del mundo. Hay muchos anuncios de Airbnb en la ciudad de Nueva York para satisfacer la alta demanda de alojamiento temporal para viajeros, que puede durar desde unas pocas noches hasta muchos meses. En este proyecto, analizaremos más de cerca el mercado de Airbnb de Nueva York combinando datos de varios tipos de archivos como .csv, .tsv y .xlsx.

Recuerde que los archivos CSV, TSV y Excel son tres formatos comunes para almacenar datos. Tiene a su disposición [tres archivos](https://tajamar365.sharepoint.com/:f:/s/3405-MasterIA2024-2025/EoXMgjAJLLNJqWDyKDig8kABSUkpWj_HGQjl267qNnHS9g?e=foxjFc) que contienen datos sobre los anuncios de Airbnb de 2019:  

- `airbnb_price.csv `: Este es un archivo CSV que contiene datos sobre precios y ubicaciones de anuncios de Airbnb.  
  1. `listing_id`: identificador único del anuncio  
  2. `price`: precio del anuncio por noche en USD  
  3. `nbhood_full`: nombre del distrito y del barrio donde se encuentra el anuncio  
    

- `airbnb_room_type.xlsx`: Este es un archivo Excel que contiene datos sobre las descripciones de los anuncios de Airbnb y los tipos de habitaciones.  
  1. `listing_id`: identificador único del anuncio  
  2. `description`: descripción del anuncio     
  3. `room_type`: Airbnb tiene tres tipos de habitaciones: habitaciones compartidas, habitaciones privadas y casas o apartamentos completos 


- `airbnb_last_review.tsv`: Este es un archivo TSV que contiene datos sobre los nombres de los anfitriones de Airbnb y las fechas de revisión.  
  1. `listing_id`: identificador único del anuncio  
  2. `host_name`:  nombre del anfitrión del anuncio  
  3. `last_review`: echa en la que se revisó el anuncio por última vez   

Como consultor que trabaja para una empresa inmobiliaria emergente, ha recopilado datos de anuncios de Airbnb de varias fuentes para investigar el mercado de alquileres a corto plazo en Nueva York. Analizará estos datos para brindar información sobre habitaciones privadas a la empresa inmobiliaria.

- ¿Cuáles son las fechas de las primeras y las últimas reseñas? Almacene estos valores como dos variables independientes con los nombres que prefiera.


In [0]:
from pyspark.sql import SparkSession
from pyspark.sql import functions as F

# Crear la SparkSession
spark = SparkSession.builder.appName("Airbnb_Reviews_Analysis").getOrCreate()

# Cargar el archivo TSV (separado por tabulaciones)
airbnb_last_review_df = spark.read.option("header", True).option("sep", "\t").csv("dbfs:/FileStore/Examen/airbnb_last_review.tsv")

In [0]:
# Convertir la columna 'last_review' al formato de fecha
airbnb_last_review_df = airbnb_last_review_df.withColumn(
    "last_review",
    F.to_date(F.col("last_review"), "MMMM dd yyyy")
)
# Mostrar algunos datos para verificar la conversión
display(airbnb_last_review_df)

listing_id,host_name,last_review
2595,Jennifer,2019-05-21
3831,LisaRoxanne,2019-07-05
5099,Chris,2019-06-22
5178,Shunichi,2019-06-24
5238,Ben,2019-06-09
5295,Lena,2019-06-22
5441,Kate,2019-06-23
5803,Laurie,2019-06-24
6021,Claudio,2019-07-05
6848,Allen & Irina,2019-06-29


In [0]:
# Obtener la fecha de la primera reseña
first_review_date = airbnb_last_review_df.agg(F.min("last_review")).collect()[0][0]

# Obtener la fecha de la última reseña
last_review_date = airbnb_last_review_df.agg(F.max("last_review")).collect()[0][0]

# Almacenar los resultados en variables
fecha_primera_resena = first_review_date
fecha_ultima_resena = last_review_date

# Mostrar las fechas obtenidas
print(f"Fecha de la primera reseña: {fecha_primera_resena}")
print(f"Fecha de la última reseña: {fecha_ultima_resena}")

Fecha de la primera reseña: 2019-01-01
Fecha de la última reseña: 2019-07-09


- ¿Cuántos de los anuncios son habitaciones privadas? Guárdelo en cualquier variable.


Dejo los intentos usando pandas sin instalar openpyxl ya que no leia el archivo que estaba en dbfs

In [0]:
import pandas as pd
from pyspark.sql import SparkSession

# Crear la SparkSession
spark = SparkSession.builder.appName("Airbnb_Room_Type_Analysis").getOrCreate()

# Leer el archivo Excel usando pandas desde la ruta DBFS
file_path = "/dbfs/FileStore/tables/airbnb_room_type.xlsx"
airbnb_room_type_pandas_df = pd.read_excel(file_path)

# Convertir el DataFrame de pandas a PySpark
airbnb_room_type_df = spark.createDataFrame(airbnb_room_type_pandas_df)

# Filtrar los listados que tienen 'room_type' como "private room"
private_rooms_df = airbnb_room_type_df.filter(airbnb_room_type_df["room_type"] == "private room")

# Contar cuántos listados son habitaciones privadas
numero_habitaciones_privadas = private_rooms_df.count()

# Mostrar el resultado
print(f"Número de habitaciones privadas: {numero_habitaciones_privadas}")

Unexpected exception formatting exception. Falling back to standard exception


Traceback (most recent call last):
  File "/databricks/python/lib/python3.9/site-packages/IPython/core/interactiveshell.py", line 3378, in run_code
    exec(code_obj, self.user_global_ns, self.user_ns)
  File "<command-1453135441248897>", line 9, in <module>
    airbnb_room_type_pandas_df = pd.read_excel(file_path)
  File "/databricks/python/lib/python3.9/site-packages/pandas/util/_decorators.py", line 311, in wrapper
    return func(*args, **kwargs)
  File "/databricks/python/lib/python3.9/site-packages/pandas/io/excel/_base.py", line 457, in read_excel
    io = ExcelFile(io, storage_options=storage_options, engine=engine)
  File "/databricks/python/lib/python3.9/site-packages/pandas/io/excel/_base.py", line 1376, in __init__
    ext = inspect_excel_format(
  File "/databricks/python/lib/python3.9/site-packages/pandas/io/excel/_base.py", line 1250, in inspect_excel_format
    with get_handle(
  File "/databricks/python/lib/python3.9/site-packages/pandas/io/common.py", line 798, in get

In [0]:
# Listar los archivos en el directorio para verificar la ubicación
dbutils.fs.ls("dbfs:/FileStore/Examen/")

Out[28]: [FileInfo(path='dbfs:/FileStore/Examen/airbnb_last_review.tsv', name='airbnb_last_review.tsv', size=734209, modificationTime=1732790446000),
 FileInfo(path='dbfs:/FileStore/Examen/airbnb_price.csv', name='airbnb_price.csv', size=1192070, modificationTime=1732790446000),
 FileInfo(path='dbfs:/FileStore/Examen/airbnb_room_type.xlsx', name='airbnb_room_type.xlsx', size=1002227, modificationTime=1732790446000),
 FileInfo(path='dbfs:/FileStore/Examen/ds_jobs.csv', name='ds_jobs.csv', size=2508138, modificationTime=1732790457000)]

In [0]:
import pandas as pd

# Ruta correcta al archivo en DBFS
file_path = "/dbfs/FileStore/Examen/airbnb_room_type.xlsx"

# Leer el archivo Excel usando pandas
airbnb_room_type_pandas_df = pd.read_excel(file_path)

# Mostrar algunas filas para verificar la carga
print(airbnb_room_type_pandas_df.head())


In [0]:
# Copiar el archivo desde DBFS a una carpeta temporal accesible
dbutils.fs.cp("dbfs:/FileStore/Examen/airbnb_room_type.xlsx", "file:/tmp/airbnb_room_type.xlsx")


Out[30]: True

In [0]:
import pandas as pd

# Ruta al archivo copiado en la carpeta temporal
file_path = "/tmp/airbnb_room_type.xlsx"

# Leer el archivo Excel usando pandas
airbnb_room_type_pandas_df = pd.read_excel(file_path)

# Mostrar algunas filas para verificar la carga
print(airbnb_room_type_pandas_df.head())


[0;31m---------------------------------------------------------------------------[0m
[0;31mModuleNotFoundError[0m                       Traceback (most recent call last)
File [0;32m/databricks/python/lib/python3.9/site-packages/pandas/compat/_optional.py:138[0m, in [0;36mimport_optional_dependency[0;34m(name, extra, errors, min_version)[0m
[1;32m    137[0m [38;5;28;01mtry[39;00m:
[0;32m--> 138[0m     module [38;5;241m=[39m [43mimportlib[49m[38;5;241;43m.[39;49m[43mimport_module[49m[43m([49m[43mname[49m[43m)[49m
[1;32m    139[0m [38;5;28;01mexcept[39;00m [38;5;167;01mImportError[39;00m:

File [0;32m/usr/lib/python3.9/importlib/__init__.py:127[0m, in [0;36mimport_module[0;34m(name, package)[0m
[1;32m    126[0m         level [38;5;241m+[39m[38;5;241m=[39m [38;5;241m1[39m
[0;32m--> 127[0m [38;5;28;01mreturn[39;00m [43m_bootstrap[49m[38;5;241;43m.[39;49m[43m_gcd_import[49m[43m([49m[43mname[49m[43m[[49m[43mlevel[49m[43m:[49m

# Instalamos dependencia openpyxl
%pip install openpyxl

Python interpreter will be restarted.
Collecting openpyxl
  Downloading openpyxl-3.1.5-py2.py3-none-any.whl (250 kB)
Collecting et-xmlfile
  Downloading et_xmlfile-2.0.0-py3-none-any.whl (18 kB)
Installing collected packages: et-xmlfile, openpyxl
Successfully installed et-xmlfile-2.0.0 openpyxl-3.1.5
Python interpreter will be restarted.


In [0]:
import pandas as pd

# Ruta al archivo copiado en la carpeta temporal
file_path = "/tmp/airbnb_room_type.xlsx"

# Leer el archivo Excel usando pandas
airbnb_room_type_pandas_df = pd.read_excel(file_path)

# Mostrar algunas filas para verificar la carga
print(airbnb_room_type_pandas_df.head())




   listing_id                                description        room_type
0        2595                      Skylit Midtown Castle  Entire home/apt
1        3831            Cozy Entire Floor of Brownstone  Entire home/apt
2        5099  Large Cozy 1 BR Apartment In Midtown East  Entire home/apt
3        5178            Large Furnished Room Near B'way     private room
4        5238         Cute & Cozy Lower East Side 1 bdrm  Entire home/apt


In [0]:
# Filtrar las habitaciones privadas del DataFrame usando pandas
private_rooms_df = airbnb_room_type_pandas_df[airbnb_room_type_pandas_df["room_type"] == "private room"]

# Contar cuántos anuncios son habitaciones privadas
num_private_rooms = private_rooms_df.shape[0]

# Guardar el resultado en una variable
numero_habitaciones_privadas = num_private_rooms

# Mostrar el resultado
print(f"Número de habitaciones privadas: {numero_habitaciones_privadas}")


Número de habitaciones privadas: 2248


- ¿Cuál es el precio promedio de los anuncios? Redondee a los dos decimales más cercanos y guárdelo en una variable.


In [0]:
from pyspark.sql import SparkSession
from pyspark.sql import functions as F

spark = SparkSession.builder.appName("Airbnb_Price_Analysis").getOrCreate()


In [0]:
airbnb_price_df = spark.read.option("header", "true").option("inferSchema", "true").csv("dbfs:/FileStore/Examen/airbnb_price.csv")

airbnb_price_df.display()

listing_id,price,nbhood_full
2595,225 dollars,"Manhattan, Midtown"
3831,89 dollars,"Brooklyn, Clinton Hill"
5099,200 dollars,"Manhattan, Murray Hill"
5178,79 dollars,"Manhattan, Hell's Kitchen"
5238,150 dollars,"Manhattan, Chinatown"
5295,135 dollars,"Manhattan, Upper West Side"
5441,85 dollars,"Manhattan, Hell's Kitchen"
5803,89 dollars,"Brooklyn, South Slope"
6021,85 dollars,"Manhattan, Upper West Side"
6848,140 dollars,"Brooklyn, Williamsburg"


In [0]:
# Limpiar la columna "price" eliminando el texto " dollars" y convirtiéndola a tipo double
airbnb_price_df = airbnb_price_df.withColumn("price", F.regexp_replace(F.col("price"), " dollars", "").cast("double"))

In [0]:
# Eliminar filas con valores nulos en la columna "price"
airbnb_price_df = airbnb_price_df.filter(F.col("price").isNotNull())

# Calcular el precio promedio de los anuncios
precio_promedio_df = airbnb_price_df.agg(F.avg("price").alias("precio_promedio"))

# Obtener el valor del promedio redondeado a dos decimales
precio_promedio_valor = precio_promedio_df.collect()[0]["precio_promedio"]

# Comprobar si el precio promedio es nulo
if precio_promedio_valor is not None:
    precio_promedio_redondeado = round(precio_promedio_valor, 2)
else:
    precio_promedio_redondeado = 0.0  # Asignar un valor predeterminado si el promedio es None

# Guardar el resultado en una variable
precio_promedio_anuncios = precio_promedio_redondeado

# Mostrar el resultado
print(f"Precio promedio de los anuncios: {precio_promedio_anuncios}")


Precio promedio de los anuncios: 141.78


- Combine las nuevas variables en un DataFrame llamado review_dates con cuatro columnas en el siguiente orden: first_reviewed, last_reviewed, nb_private_rooms y avg_price. El DataFrame solo debe contener una fila de valores.

In [0]:
from pyspark.sql import Row

# Crear las variables (estos valores deben haber sido calculados previamente)
first_reviewed =  first_review_date # Ejemplo de primera revisión
last_reviewed = last_review_date   # Ejemplo de última revisión
nb_private_rooms = num_private_rooms  # Número de habitaciones privadas ya calculado
avg_price = precio_promedio_anuncios  
# Crear un Row con los valores necesarios que hemos calculado previamente en los ejercicios anteriores
data_row = Row(first_reviewed=first_reviewed,
               last_reviewed=last_reviewed,
               nb_private_rooms=nb_private_rooms,
               avg_price=avg_price)
# Crear un DataFrame a partir del Row
review_dates_df = spark.createDataFrame([data_row])

# Mostrar el DataFrame resultante
review_dates_df.display()

first_reviewed,last_reviewed,nb_private_rooms,avg_price
2019-01-01,2019-07-09,2248,141.78
