# Explorando tendencias de mercado de Airbnb

La ciudad de Nueva York tiene una variedad de anuncios de Airbnb para satisfacer la alta demanda de alojamiento temporal para viajeros, con diferentes niveles de precios, tipos de habitaciones y ubicaciones.

La ciudad de Nueva York, es una de las ciudades más visitadas del mundo. Hay muchos anuncios de Airbnb en la ciudad de Nueva York para satisfacer la alta demanda de alojamiento temporal para viajeros, que puede durar desde unas pocas noches hasta muchos meses. En este proyecto, analizaremos más de cerca el mercado de Airbnb de Nueva York combinando datos de varios tipos de archivos como .csv, .tsv y .xlsx.

Recuerde que los archivos CSV, TSV y Excel son tres formatos comunes para almacenar datos. Tiene a su disposición [tres archivos](https://tajamar365.sharepoint.com/:f:/s/3405-MasterIA2024-2025/EoXMgjAJLLNJqWDyKDig8kABSUkpWj_HGQjl267qNnHS9g?e=foxjFc) que contienen datos sobre los anuncios de Airbnb de 2019:  

- `airbnb_price.csv `: Este es un archivo CSV que contiene datos sobre precios y ubicaciones de anuncios de Airbnb.  
  1. `listing_id`: identificador único del anuncio  
  2. `price`: precio del anuncio por noche en USD  
  3. `nbhood_full`: nombre del distrito y del barrio donde se encuentra el anuncio  
    

- `airbnb_room_type.xlsx`: Este es un archivo Excel que contiene datos sobre las descripciones de los anuncios de Airbnb y los tipos de habitaciones.  
  1. `listing_id`: identificador único del anuncio  
  2. `description`: descripción del anuncio     
  3. `room_type`: Airbnb tiene tres tipos de habitaciones: habitaciones compartidas, habitaciones privadas y casas o apartamentos completos


- `airbnb_last_review.tsv`: Este es un archivo TSV que contiene datos sobre los nombres de los anfitriones de Airbnb y las fechas de revisión.  
  1. `listing_id`: identificador único del anuncio  
  2. `host_name`:  nombre del anfitrión del anuncio  
  3. `last_review`: echa en la que se revisó el anuncio por última vez   

Como consultor que trabaja para una empresa inmobiliaria emergente, ha recopilado datos de anuncios de Airbnb de varias fuentes para investigar el mercado de alquileres a corto plazo en Nueva York. Analizará estos datos para brindar información sobre habitaciones privadas a la empresa inmobiliaria.

- ¿Cuáles son las fechas de las primeras y las últimas reseñas? Almacene estos valores como dos variables independientes con los nombres que prefiera.
- ¿Cuántos de los anuncios son habitaciones privadas? Guárdelo en cualquier variable.
- ¿Cuál es el precio promedio de los anuncios? Redondee a los dos decimales más cercanos y guárdelo en una variable.
- Combine las nuevas variables en un DataFrame llamado review_dates con cuatro columnas en el siguiente orden: first_reviewed, last_reviewed, nb_private_rooms y avg_price. El DataFrame solo debe contener una fila de valores.

Instalamos las dependencias necesarias para cargar archivos de tipo Excel

In [None]:
# Instala las bibliotecas necesarias para leer archivos Excel:
!pip install openpyxl



In [None]:
import pandas as pd

# Ruta de archivos
file_price = "/content/EP_3/airbnb_price.csv"
file_room_type = "/content/EP_3/airbnb_room_type.xlsx"
file_last_review = "/content/EP_3/airbnb_last_review.tsv"

# Leer el archivo CSV con precios, especificando el delimitador como tabulador
df_price = pd.read_csv(file_price, sep=',')

# Leer el archivo Excel con tipos de habitaciones
df_room_type = pd.read_excel(file_room_type, engine="openpyxl")

# Leer el archivo TSV con revisiones
df_last_review = pd.read_csv(file_last_review, sep="\t")

# Verificar los datos cargados (opcional)
print(df_price.head())
print(df_room_type.head())
print(df_last_review.head())

   listing_id        price                nbhood_full
0        2595  225 dollars         Manhattan, Midtown
1        3831   89 dollars     Brooklyn, Clinton Hill
2        5099  200 dollars     Manhattan, Murray Hill
3        5178   79 dollars  Manhattan, Hell's Kitchen
4        5238  150 dollars       Manhattan, Chinatown
   listing_id                                description        room_type
0        2595                      Skylit Midtown Castle  Entire home/apt
1        3831            Cozy Entire Floor of Brownstone  Entire home/apt
2        5099  Large Cozy 1 BR Apartment In Midtown East  Entire home/apt
3        5178            Large Furnished Room Near B'way     private room
4        5238         Cute & Cozy Lower East Side 1 bdrm  Entire home/apt
   listing_id    host_name   last_review
0        2595     Jennifer   May 21 2019
1        3831  LisaRoxanne  July 05 2019
2        5099        Chris  June 22 2019
3        5178     Shunichi  June 24 2019
4        5238          Ben 

#### Union de archivos

Cargaremos los tres archivos:
- airbnb_price.csv: Este es un archivo CSV que contiene datos sobre precios y ubicaciones de anuncios de Airbnb.

- airbnb_room_type.xlsx: Este es un archivo Excel que contiene datos sobre las descripciones de los anuncios de Airbnb y los tipos de habitaciones.

- airbnb_last_review.tsv: Este es un archivo TSV que contiene datos sobre los nombres de los anfitriones de Airbnb y las fechas de revisión.

En los tres archivos coinciden la columna `listing_id`, lo que las uniremos basándonos en la columna `listing_id`.
Para ello haremos un `join` mediante un `inner`.

¿Por qué usaremos un `inner` frente a un `right` o un `left` ?

  - `inner`: se usa si necesitas solo los registros completos (cuando las coincidencias en los tres archivos son obligatorias).

  - `outer`: Conserva todo de ambos archivos, rellenando con NULL cuando no haya coincidencias.

  - `left`: todos los registros del lado izquierdo (df_left) estarán en el resultado, aunque no tengan coincidencias en el lado derecho

  - `right`: todos los registros del lado derecho (df_right) estarán en el resultado, aunque no tengan coincidencias en el lado izquierdo.

  
  Ejemplo: ``df_left.join(df_right, on="listing_id", how="right")``

  

In [None]:
# Uniremos room type file sobre price file
df_unido = pd.merge(df_price, df_room_type, on="listing_id", how="left")

# Uniremos a esto el otro archivo que nos queda last_review
df_final = pd.merge(df_unido, df_last_review, on="listing_id", how="left")

print(df_final.head())

   listing_id        price                nbhood_full  \
0        2595  225 dollars         Manhattan, Midtown   
1        3831   89 dollars     Brooklyn, Clinton Hill   
2        5099  200 dollars     Manhattan, Murray Hill   
3        5178   79 dollars  Manhattan, Hell's Kitchen   
4        5238  150 dollars       Manhattan, Chinatown   

                                 description        room_type    host_name  \
0                      Skylit Midtown Castle  Entire home/apt     Jennifer   
1            Cozy Entire Floor of Brownstone  Entire home/apt  LisaRoxanne   
2  Large Cozy 1 BR Apartment In Midtown East  Entire home/apt        Chris   
3            Large Furnished Room Near B'way     private room     Shunichi   
4         Cute & Cozy Lower East Side 1 bdrm  Entire home/apt          Ben   

    last_review  
0   May 21 2019  
1  July 05 2019  
2  June 22 2019  
3  June 24 2019  
4  June 09 2019  


Usaremos `left join` ya que incluiremos todos los registros del archivo base (airbnb_price.csv) y rellenamos con nulos las columnas faltantes si no hay coincidencia.

En cambio, si usamos `inner join` solo incluye registros que tienen coincidencias en los tres archivos, y podemos tener celdas como review, descripcion vacío ya que no  es tan relevante.

In [None]:
# Podemos guardar los tres archivos en un solo CSV
df_final.to_csv("airbnb_full.csv", index=False)

# Descargar el archivo resultante
from google.colab import files
files.download("airbnb_full.csv")

# Verificar la estructura del DataFrame
print(df_final.info())

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25209 entries, 0 to 25208
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   listing_id   25209 non-null  int64 
 1   price        25209 non-null  object
 2   nbhood_full  25209 non-null  object
 3   description  25199 non-null  object
 4   room_type    25209 non-null  object
 5   host_name    25201 non-null  object
 6   last_review  25209 non-null  object
dtypes: int64(1), object(6)
memory usage: 1.3+ MB
None


In [None]:
from pyspark.sql import SparkSession

# Crear una sesión Spark
spark = SparkSession.builder.appName("Airbnb Analysis").getOrCreate()

# Cargar el CSV final
df_final = spark.read.csv("airbnb_full.csv", header=True, inferSchema=True)

# Mostrar las primeras filas del DataFrame
df_final.show()

+----------+-----------+--------------------+--------------------+---------------+----------------+---------------+
|listing_id|      price|         nbhood_full|         description|      room_type|       host_name|    last_review|
+----------+-----------+--------------------+--------------------+---------------+----------------+---------------+
|      2595|225 dollars|  Manhattan, Midtown|Skylit Midtown Ca...|Entire home/apt|        Jennifer|    May 21 2019|
|      3831| 89 dollars|Brooklyn, Clinton...|Cozy Entire Floor...|Entire home/apt|     LisaRoxanne|   July 05 2019|
|      5099|200 dollars|Manhattan, Murray...|Large Cozy 1 BR A...|Entire home/apt|           Chris|   June 22 2019|
|      5178| 79 dollars|Manhattan, Hell's...|Large Furnished R...|   private room|        Shunichi|   June 24 2019|
|      5238|150 dollars|Manhattan, Chinatown|Cute & Cozy Lower...|Entire home/apt|             Ben|   June 09 2019|
|      5295|135 dollars|Manhattan, Upper ...|Beautiful 1br on ...|Entire

Convertimos la fecha de `last_review` a tipo `Date`

In [None]:
from pyspark.sql.functions import to_date

# Convertir 'last_review' al formato estándar yyyy-MM-dd
df_cleaned = df_final.withColumn("last_review", to_date("last_review", "MMMM dd yyyy"))

df_cleaned.select("last_review").show(3)

+-----------+
|last_review|
+-----------+
| 2019-05-21|
| 2019-07-05|
| 2019-06-22|
+-----------+
only showing top 3 rows



**¿Cuáles son las fechas de las primeras y las últimas reseñas?**

Almacene estos valores como dos variables independientes con los nombres que prefiera.

In [None]:
from pyspark.sql.functions import min, max

# Calculate first and last review dates
review_dates = df_cleaned.select(min("last_review"), max("last_review")).first()
first_review_date = review_dates[0]
last_review_date = review_dates[1]

print("First review date:", first_review_date)
print("Last review date:", last_review_date)

First review date: 2019-01-01
Last review date: 2019-07-09


In [None]:
from pyspark.sql.functions import lower, trim

# Normalize records, convert to lowercase (PRIVATE ROOM / Private Room / private room)
df_cleaned = df_cleaned.withColumn("room_type", lower(trim(df_cleaned.room_type)))

# Filter the number of private rooms
df_private_rooms = df_cleaned.filter(df_cleaned['room_type'] == 'private room')

# Count the number of private rooms
nb_private_rooms = df_private_rooms.count()

# Show data
df_private_rooms.show()

# Print number of private rooms
print("Numero de habitaciones privadas: ", nb_private_rooms)

Numero de habitaciones privadas antes de lowercase:  25350
+----------+-----------+--------------------+--------------------+------------+---------------+-----------+
|listing_id|      price|         nbhood_full|         description|   room_type|      host_name|last_review|
+----------+-----------+--------------------+--------------------+------------+---------------+-----------+
|      5178| 79 dollars|Manhattan, Hell's...|Large Furnished R...|private room|       Shunichi| 2019-06-24|
|      5441| 85 dollars|Manhattan, Hell's...|Central Manhattan...|private room|           Kate| 2019-06-23|
|      5803| 89 dollars|Brooklyn, South S...|Lovely Room 1, Ga...|private room|         Laurie| 2019-06-24|
|      6021| 85 dollars|Manhattan, Upper ...|Wonderful Guest B...|private room|        Claudio| 2019-07-05|
|      7322|140 dollars|  Manhattan, Chelsea|     Chelsea Perfect|private room|           Doti| 2019-07-01|
|      8024|130 dollars|Brooklyn, Park Slope|CBG CtyBGd HelpsH...|private roo

**¿Cuál es el precio promedio de los anuncios?**

Redondee a los dos decimales más cercanos y guárdelo en una variable.

In [None]:
from pyspark.sql.functions import round, regexp_replace, avg

# Delete 'dollars' from price column and convert to float
df_cleaned = df_cleaned.withColumn("price_numeric",
                                   regexp_replace(df_cleaned["price"],
                                    " dollars", "").cast("float")
                                  )

df_cleaned.select("price_numeric").show(3)

# Calculate the average price
avg_price = df_cleaned.select(round(avg("price_numeric"), 2)).first()[0]

# Print the average price
print("Precio medio: ", avg_price)

+-------------+
|price_numeric|
+-------------+
|        225.0|
|         89.0|
|        200.0|
+-------------+
only showing top 3 rows

Precio medio:  141.78


**Combine las nuevas variables en un DataFrame llamado review_dates con cuatro columnas en el siguiente orden:**

 `first_reviewed`, `last_reviewed`, `nb_private_rooms` y `avg_price`.

 El DataFrame solo debe contener una fila de valores.

In [None]:
# Create the review_dates DataFrame
review_dates = pd.DataFrame({
    'first_reviewed': [first_review_date],
    'last_reviewed': [last_review_date],
    'nb_private_rooms': [nb_private_rooms],
    'avg_price': [avg_price]
})

review_dates

Unnamed: 0,first_reviewed,last_reviewed,nb_private_rooms,avg_price
0,2019-01-01,2019-07-09,11279,141.78
