# <center>TFM: Análisis de la Turistificación en Madrid mediante Machine Learning <center>

**Nombre y apellidos:** Penelope Lizardo Valenzuela

**Usuario VIU:** plizardov@student.universidadviu.com

---
# Resumen
---

Este notebook se encarga de la carga y consolidación de los datos de Airbnb Inside, los cuales están divididos por trimestres. El proceso incluye la integración de todos los archivos en un único dataset, agregando dos columnas adicionales: una que indica la fecha correspondiente y otra que especifica el trimestre al que pertenece cada registro. Esta consolidación es el primer paso para el análisis exploratorio y el posterior modelado de datos en el contexto del TFM.

In [None]:
import pandas as pd
import glob
import os
from datetime import datetime

In [None]:
# Ruta de los archivos en Google Colab
ruta_archivos = "/content/*.csv"  # Ajusta esta ruta si es necesario

# Obtener la lista de archivos CSV
archivos = glob.glob(ruta_archivos)

# Lista para almacenar los dataframes
dataframes = []

In [None]:
# Función para extraer la fecha y trimestre del nombre del archivo
def obtener_fecha_y_trimestre(nombre_archivo):
    try:
        # Extraer la fecha del nombre del archivo (Formato: YYYY-MM-DD.csv)
        base_nombre = os.path.basename(nombre_archivo).replace(".csv", "")
        fecha = datetime.strptime(base_nombre, "%Y-%m-%d")  # Ahora es un datetime

        # Calcular el trimestre
        quarter = f"Q{((fecha.month - 1) // 3) + 1}"
        return fecha, quarter
    except Exception as e:
        print(f"Error procesando {nombre_archivo}: {e}")
        return None, None

In [None]:
# Leer archivos y agregar columnas
for archivo in archivos:
    df = pd.read_csv(archivo)  # Cargar el CSV
    filename = os.path.basename(archivo)  # Obtener nombre del archivo

    # Extraer la fecha y trimestre
    fecha_listing, trimestre = obtener_fecha_y_trimestre(filename)

    # Verificar que la extracción fue correcta
    if fecha_listing is not None and trimestre is not None:
        df["listing_date"] = fecha_listing  # Ahora es datetime desde el inicio
        df["quarter"] = trimestre
    else:
        print(f"Archivo ignorado: {archivo}")

    # Agregar a la lista
    dataframes.append(df)

In [None]:
# Unir todos los dataframes en uno solo
df_listings = pd.concat(dataframes, ignore_index=True)

# Confirmar que listing_date es datetime
df_listings["listing_date"] = pd.to_datetime(df_listings["listing_date"])

# Guardar el dataset final con las nuevas columnas
df_listings.to_csv("airbnb_madrid_2024_con_trimestre.csv", index=False)

In [None]:
# Verificar que listing_date sea datetime y quarter no tenga nulos
print(f"Dataset final creado con {df_listings.shape[0]} filas y {df_listings.shape[1]} columnas.")
print(f"Tipo de 'listing_date': {df_listings['listing_date'].dtype}")
print(f"Valores nulos en quarter después del procesamiento: {df_listings['quarter'].isnull().sum()}")

Dataset final creado con 106688 filas y 20 columnas.
Tipo de 'listing_date': datetime64[us]
Valores nulos en quarter después del procesamiento: 0


In [None]:
print("Valores únicos en quarter:")
print(df_listings["quarter"].unique())

Valores únicos en quarter:
['Q2' 'Q3' 'Q4' 'Q1']


In [None]:
df_listings.head()  # Ver las primeras filas

Unnamed: 0,id,name,host_id,host_name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365,number_of_reviews_ltm,license,listing_date,quarter
0,21853,Bright and airy room,83531,Abdel,Latina,Cármenes,40.40381,-3.7413,Private room,31.0,4,33,2018-07-15,0.28,2,83,0,,2024-06-15,Q2
1,24805,Gran Via Studio Madrid,346366726,Alvaro,Centro,Universidad,40.42183,-3.70529,Entire home/apt,104.0,5,43,2024-06-01,0.37,1,113,13,,2024-06-15,Q2
2,40718,COZY APARTMENT CIBELES-GRAN VIA-PTA DEL SOL-CH...,34217435,Luis,Centro,Justicia,40.41969,-3.69736,Entire home/apt,114.0,2,150,2024-05-30,0.89,15,310,20,,2024-06-15,Q2
3,40916,Holiday Apartment Madrid Center,130907,Dana,Centro,Universidad,40.42247,-3.70577,Entire home/apt,,5,49,2021-12-11,0.3,3,0,0,,2024-06-15,Q2
4,30320,Great Vacational Apartments,130907,Dana,Centro,Sol,40.41476,-3.70418,Entire home/apt,,5,172,2022-09-26,1.01,3,0,0,,2024-06-15,Q2


In [None]:
df_listings["quarter"].value_counts()  # Comprobar los trimestres

Unnamed: 0_level_0,count
quarter,Unnamed: 1_level_1
Q3,26980
Q2,26924
Q4,26760
Q1,26024


In [None]:
df_listings["listing_date"].describe()  # Resumen de fechas

Unnamed: 0,listing_date
count,106688
mean,2024-07-31 16:03:03.563287
min,2024-03-22 00:00:00
25%,2024-06-15 00:00:00
50%,2024-09-11 00:00:00
75%,2024-12-12 00:00:00
max,2024-12-12 00:00:00


In [None]:
# Ver las primeras filas
df_listings.head()

Unnamed: 0,id,name,host_id,host_name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365,number_of_reviews_ltm,license,listing_date,quarter
0,21853,Bright and airy room,83531,Abdel,Latina,Cármenes,40.40381,-3.7413,Private room,31.0,4,33,2018-07-15,0.28,2,83,0,,2024-06-15,Q2
1,24805,Gran Via Studio Madrid,346366726,Alvaro,Centro,Universidad,40.42183,-3.70529,Entire home/apt,104.0,5,43,2024-06-01,0.37,1,113,13,,2024-06-15,Q2
2,40718,COZY APARTMENT CIBELES-GRAN VIA-PTA DEL SOL-CH...,34217435,Luis,Centro,Justicia,40.41969,-3.69736,Entire home/apt,114.0,2,150,2024-05-30,0.89,15,310,20,,2024-06-15,Q2
3,40916,Holiday Apartment Madrid Center,130907,Dana,Centro,Universidad,40.42247,-3.70577,Entire home/apt,,5,49,2021-12-11,0.3,3,0,0,,2024-06-15,Q2
4,30320,Great Vacational Apartments,130907,Dana,Centro,Sol,40.41476,-3.70418,Entire home/apt,,5,172,2022-09-26,1.01,3,0,0,,2024-06-15,Q2
