In [3]:
""" 
Importación de ficheros de AIRBNB. Preprocesado y cargado a la base de datos 

Obtenemos los datos desde https://insideairbnb.com/get-the-data/

Podríamos hacer scraping, obtener la fecha de la última actualización de Madrid y generar el enlace para descargarlo, pero no es necesario por que se actualiza cada mucho tiempo y no es necesario tener la última versión. Podemos cambiar la info procesable en la carpeta data manualmente.

"""
import os
import pandas as pd
import numpy as np
import datetime
from config_bd import *
import requests
import sys
import gzip
import shutil

DATA_DIR = os.path.join('data')
# DATA_DIR = os.path.join(os.path.dirname(__file__), 'data')
TEMP_DIR = os.path.join(DATA_DIR, 'TEMP')


""" Comprobamos que existe el directorio de datos """

if not os.path.exists(DATA_DIR):
    print(f"El directorio {DATA_DIR} no existe. No es posible continuar...")
    sys.exit()

""" Descomprimimos el archivo de calendario """

if not os.path.exists(TEMP_DIR):
    os.makedirs(TEMP_DIR)


gz_file_path = os.path.join(DATA_DIR, 'calendar.csv.gz')
output_file_path = os.path.join(TEMP_DIR, os.path.splitext(os.path.basename(gz_file_path))[0])

if os.path.exists(gz_file_path):
    try:
        with gzip.open(gz_file_path, 'rb') as f_in:
            with open(output_file_path, 'wb') as f_out:
                shutil.copyfileobj(f_in, f_out)
        print(f"Archivo {gz_file_path} descomprimido como {output_file_path}")
    except Exception as e:
        print(f"Error al descomprimir el archivo {gz_file_path}: {e}")
        sys.exit()
else:
    print(f"El archivo {gz_file_path} no existe. No es posible continuar...")
    sys.exit()







Archivo data\calendar.csv.gz descomprimido como data\TEMP\calendar.csv


In [15]:
df = pd.read_csv(output_file_path, low_memory=False)
df['price'] = df['price'].replace({'\$': '', ',': ''}, regex=True).astype(float)
df['price'] = df['price'].fillna(0)

In [16]:
df.describe()


Unnamed: 0,listing_id,price,minimum_nights,maximum_nights
count,9236806.0,9236806.0,9229917.0,9229917.0
mean,6.438998e+17,211.6178,10.16846,614.4271
std,5.35787e+17,639.6718,30.82246,447.6395
min,21853.0,8.0,1.0,1.0
25%,36760070.0,55.0,1.0,364.0
50%,8.115293e+17,92.0,2.0,365.0
75%,1.142566e+18,160.0,6.0,1125.0
max,1.369179e+18,21000.0,1125.0,11111.0


In [20]:
len(df['listing_id'].unique())

25288

In [19]:
len(df['date'].unique())

372