**WEB SCRAPING AEMET**

El objetivo de este c√≥digo es recolectar datos meteorol√≥gicos del servicio de AEMET para el municipio de Vilassar de Mar desde marzo de 2021 hasta 2025.

Estos datos incluyen informaci√≥n sobre temperaturas m√°ximas, m√≠nimas, medias y precipitaciones por hora de cada dia. Con este c√≥digo se obtiene mediante t√©cnicas de web scraping esta informaci√≥n y se calcula la temperatura media diaria y la precipitaci√≥n diaria.

El motivo de esta recolecci√≥n es incorporar la variable clim√°tica al estudio de predicci√≥n de ocupaci√≥n de un B&B, ya que las condiciones meteorol√≥gicas pueden influir en la demanda tur√≠stica y, por tanto, en la ocupaci√≥n del establecimiento.

Este m√≥dulo forma parte de un proyecto m√°s amplio orientado a aplicar inteligencia artificial en la predicci√≥n de ocupaci√≥n hotelera.

Debido a que el servidor tiende a bloquear el acceso a la URL cuando detecta actividad de scraping, se decidi√≥ realizar la extracci√≥n de datos en bloques de 60 d√≠as, utilizando adem√°s tiempos de espera aleatorios tanto entre d√≠as como entre bloques para reducir la probabilidad de detecci√≥n.

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
from datetime import datetime, timedelta
from tqdm.notebook import tqdm
import time, random
import os

# --- Funci√≥n para extraer datos de un d√≠a ---
def extraer_datos_dia(url, fecha_str):
    user_agents = [
    # Navegadores modernos en Windows
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36",
    "Mozilla/5.0 (Windows NT 10.0; rv:109.0) Gecko/20100101 Firefox/120.0",
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Edge/120.0.0.0 Safari/537.36",

    # macOS
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 13_4_1) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/16.5 Safari/605.1.15",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 12_6_9) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36",

    # Linux
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36",
    "Mozilla/5.0 (X11; Linux x86_64) Gecko/20100101 Firefox/117.0",

    # Android
    "Mozilla/5.0 (Linux; Android 13; Pixel 6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.6167.144 Mobile Safari/537.36",
    "Mozilla/5.0 (Linux; Android 11; SM-G991B) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Mobile Safari/537.36",

    # iOS
    "Mozilla/5.0 (iPhone; CPU iPhone OS 17_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.3 Mobile/15E148 Safari/604.1",
    "Mozilla/5.0 (iPad; CPU OS 16_6_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/16.6 Mobile/15E148 Safari/604.1"
]

    try:
        headers = {'User-Agent': random.choice(user_agents)}
        r = requests.get(url, headers=headers, timeout=10)
        r.raise_for_status()
        soup = BeautifulSoup(r.text, 'html.parser')
        tabla = soup.select_one('div.div_table_scroll table')
        if not tabla:
            return None

        # Identificar cabeceras
        cabecera = tabla.find("tr")
        ths = [th.text.strip().upper() for th in cabecera.find_all("th")]

        # Buscar √≠ndices seg√∫n encabezados
        idx_temp = next((i for i, texto in enumerate(ths) if "TEMP" in texto), None)
        idx_prec = next((i for i, texto in enumerate(ths) if "PRECIPITACI√ìN" in texto or "PREC" in texto), None)

        if idx_temp is None or idx_prec is None:
            print(f"‚ö†Ô∏è No se encontraron columnas adecuadas en {fecha_str}")
            return None

        # Filas de datos
        filas = tabla.find_all("tr")[1:]
        temps, precs = [], []

        for fila in filas:
            columnas = fila.find_all("td")
            if len(columnas) > max(idx_temp, idx_prec):
                try:
                    temp = float(columnas[idx_temp].text.replace(",", "."))
                    prec = float(columnas[idx_prec].text.replace(",", "."))
                    temps.append(temp)
                    precs.append(prec)
                except ValueError:
                    continue

        if temps:
            return {
                "fecha": fecha_str,
                "temp_media": round(sum(temps) / len(temps), 2),
                "precipitacion": round(sum(precs), 2)
            }
        else:
            return None

    except Exception as e:
        print(f"‚ùå Error en {fecha_str}: {e}")
        return None

# --- Par√°metros de scraping ---
base_url = "https://x-y.es/aemet/est-0244X-vilassar-de-dalt?fecha={}"
fecha_inicio = datetime(2021, 3, 31)
fecha_fin = datetime(2025, 4, 19)
bloque_dias = 60

# --- Crear bloques de fechas ---
rango_total = pd.date_range(start=fecha_inicio, end=fecha_fin)
bloques = [rango_total[i:i + bloque_dias] for i in range(0, len(rango_total), bloque_dias)]

# --- Proceso por bloques ---
csv_files = []

for i, bloque in enumerate(bloques):
    print(f"\nüîÑ Procesando bloque {i+1}/{len(bloques)}: {bloque[0].date()} ‚Üí {bloque[-1].date()}")
    datos_bloque = []

    for fecha in tqdm(bloque):
        fecha_str = fecha.strftime("%Y-%m-%d")
        url = base_url.format(fecha_str)
        resultado = extraer_datos_dia(url, fecha_str)
        if resultado:
            datos_bloque.append(resultado)

        time.sleep(random.uniform(1.1, 2.5))


    if datos_bloque:
        df_bloque = pd.DataFrame(datos_bloque)
        archivo_csv = f"datos_bloque_{i}.csv"
        df_bloque.to_csv(archivo_csv, index=False)
        csv_files.append(archivo_csv)
        print(f"‚úÖ Guardado: {archivo_csv}")

    # Pausa larga entre bloques para evitar bloqueo
    if i < len(bloques) - 1:
        pausa = random.uniform(300, 600)
        print(f"‚è∏Ô∏è Pausa de {int(pausa)} segundos antes del siguiente bloque...")
        time.sleep(pausa)

# --- Unir todos los CSVs ---
df_final = pd.concat([pd.read_csv(f) for f in csv_files])
df_final['fecha'] = pd.to_datetime(df_final['fecha'])
df_final = df_final.sort_values('fecha').reset_index(drop=True)

# --- Guardar CSV final ---
df_final.to_csv("clima_diario_vilassar_2021_2025.csv", index=False)
print("\nüì¶ Archivo final guardado como 'clima_diario_vilassar_2021_2025.csv'")

# Mostrar resumen
df_final.head()



üîÑ Procesando bloque 1/25: 2021-03-31 ‚Üí 2021-05-29


  0%|          | 0/60 [00:00<?, ?it/s]

‚è∏Ô∏è Pausa de 495 segundos antes del siguiente bloque...

üîÑ Procesando bloque 2/25: 2021-05-30 ‚Üí 2021-07-28


  0%|          | 0/60 [00:00<?, ?it/s]

‚è∏Ô∏è Pausa de 517 segundos antes del siguiente bloque...

üîÑ Procesando bloque 3/25: 2021-07-29 ‚Üí 2021-09-26


  0%|          | 0/60 [00:00<?, ?it/s]

‚è∏Ô∏è Pausa de 314 segundos antes del siguiente bloque...

üîÑ Procesando bloque 4/25: 2021-09-27 ‚Üí 2021-11-25


  0%|          | 0/60 [00:00<?, ?it/s]

‚è∏Ô∏è Pausa de 525 segundos antes del siguiente bloque...

üîÑ Procesando bloque 5/25: 2021-11-26 ‚Üí 2022-01-24


  0%|          | 0/60 [00:00<?, ?it/s]

‚è∏Ô∏è Pausa de 460 segundos antes del siguiente bloque...

üîÑ Procesando bloque 6/25: 2022-01-25 ‚Üí 2022-03-25


  0%|          | 0/60 [00:00<?, ?it/s]

‚è∏Ô∏è Pausa de 489 segundos antes del siguiente bloque...

üîÑ Procesando bloque 7/25: 2022-03-26 ‚Üí 2022-05-24


  0%|          | 0/60 [00:00<?, ?it/s]

‚è∏Ô∏è Pausa de 502 segundos antes del siguiente bloque...

üîÑ Procesando bloque 8/25: 2022-05-25 ‚Üí 2022-07-23


  0%|          | 0/60 [00:00<?, ?it/s]

‚è∏Ô∏è Pausa de 440 segundos antes del siguiente bloque...

üîÑ Procesando bloque 9/25: 2022-07-24 ‚Üí 2022-09-21


  0%|          | 0/60 [00:00<?, ?it/s]

‚è∏Ô∏è Pausa de 405 segundos antes del siguiente bloque...

üîÑ Procesando bloque 10/25: 2022-09-22 ‚Üí 2022-11-20


  0%|          | 0/60 [00:00<?, ?it/s]

‚è∏Ô∏è Pausa de 528 segundos antes del siguiente bloque...

üîÑ Procesando bloque 11/25: 2022-11-21 ‚Üí 2023-01-19


  0%|          | 0/60 [00:00<?, ?it/s]

‚è∏Ô∏è Pausa de 577 segundos antes del siguiente bloque...

üîÑ Procesando bloque 12/25: 2023-01-20 ‚Üí 2023-03-20


  0%|          | 0/60 [00:00<?, ?it/s]

‚è∏Ô∏è Pausa de 343 segundos antes del siguiente bloque...

üîÑ Procesando bloque 13/25: 2023-03-21 ‚Üí 2023-05-19


  0%|          | 0/60 [00:00<?, ?it/s]

‚è∏Ô∏è Pausa de 428 segundos antes del siguiente bloque...

üîÑ Procesando bloque 14/25: 2023-05-20 ‚Üí 2023-07-18


  0%|          | 0/60 [00:00<?, ?it/s]

‚è∏Ô∏è Pausa de 351 segundos antes del siguiente bloque...

üîÑ Procesando bloque 15/25: 2023-07-19 ‚Üí 2023-09-16


  0%|          | 0/60 [00:00<?, ?it/s]

‚è∏Ô∏è Pausa de 528 segundos antes del siguiente bloque...

üîÑ Procesando bloque 16/25: 2023-09-17 ‚Üí 2023-11-15


  0%|          | 0/60 [00:00<?, ?it/s]

‚è∏Ô∏è Pausa de 502 segundos antes del siguiente bloque...

üîÑ Procesando bloque 17/25: 2023-11-16 ‚Üí 2024-01-14


  0%|          | 0/60 [00:00<?, ?it/s]

‚è∏Ô∏è Pausa de 346 segundos antes del siguiente bloque...

üîÑ Procesando bloque 18/25: 2024-01-15 ‚Üí 2024-03-14


  0%|          | 0/60 [00:00<?, ?it/s]

‚è∏Ô∏è Pausa de 370 segundos antes del siguiente bloque...

üîÑ Procesando bloque 19/25: 2024-03-15 ‚Üí 2024-05-13


  0%|          | 0/60 [00:00<?, ?it/s]

‚è∏Ô∏è Pausa de 522 segundos antes del siguiente bloque...

üîÑ Procesando bloque 20/25: 2024-05-14 ‚Üí 2024-07-12


  0%|          | 0/60 [00:00<?, ?it/s]

‚è∏Ô∏è Pausa de 584 segundos antes del siguiente bloque...

üîÑ Procesando bloque 21/25: 2024-07-13 ‚Üí 2024-09-10


  0%|          | 0/60 [00:00<?, ?it/s]

‚è∏Ô∏è Pausa de 313 segundos antes del siguiente bloque...

üîÑ Procesando bloque 22/25: 2024-09-11 ‚Üí 2024-11-09


  0%|          | 0/60 [00:00<?, ?it/s]

‚è∏Ô∏è Pausa de 402 segundos antes del siguiente bloque...

üîÑ Procesando bloque 23/25: 2024-11-10 ‚Üí 2025-01-08


  0%|          | 0/60 [00:00<?, ?it/s]

‚è∏Ô∏è Pausa de 476 segundos antes del siguiente bloque...

üîÑ Procesando bloque 24/25: 2025-01-09 ‚Üí 2025-03-09


  0%|          | 0/60 [00:00<?, ?it/s]

‚è∏Ô∏è Pausa de 445 segundos antes del siguiente bloque...

üîÑ Procesando bloque 25/25: 2025-03-10 ‚Üí 2025-04-19


  0%|          | 0/41 [00:00<?, ?it/s]

ValueError: No objects to concatenate

A pesar de implementar medidas para evitar el bloqueo del servidor, no fue posible recuperar todos los datos de forma continua. Por ello, se opt√≥ por desarrollar un script que ejecuta la recolecci√≥n √∫nicamente para los primeros 60 d√≠as con datos faltantes en el dataset. Al finalizar cada iteraci√≥n, se desconecta manualmente el entorno de ejecuci√≥n, lo cual permite cambiar la direcci√≥n IP y as√≠ eludir temporalmente el bloqueo del servidor.

In [None]:
# ‚úÖ 1. Importar librer√≠as
import pandas as pd
import requests
from bs4 import BeautifulSoup
from datetime import datetime, timedelta
import time

# ‚úÖ 2. Cargar CSV existente
nombre_csv_existente = "clima_vilassar_completo_actualizado.csv"  # Cambia si tu archivo tiene otro nombre
df_existente = pd.read_csv(nombre_csv_existente, parse_dates=["fecha"])
print(f"üìÑ CSV original cargado con {len(df_existente)} registros")

# ‚úÖ 3. Detectar fechas faltantes
fecha_inicio = datetime(2021, 3, 31)
fecha_fin = datetime(2025, 4, 19)
fechas_completas = pd.date_range(start=fecha_inicio, end=fecha_fin)

fechas_en_csv = set(df_existente['fecha'].dt.date)
fechas_faltantes = [f for f in fechas_completas if f.date() not in fechas_en_csv]

print(f"üîç Se detectaron {len(fechas_faltantes)} fechas faltantes")

# ‚úÖ 4. Definir scraping
base_url = "https://x-y.es/aemet/est-0244X-vilassar-de-dalt?fecha={}"

def extraer_datos_dia(url, fecha_str):
    try:
        r = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}, timeout=10)
        r.raise_for_status()
        soup = BeautifulSoup(r.text, 'html.parser')
        tabla = soup.select_one('div.div_table_scroll table')
        if not tabla:
            print(f"‚ö†Ô∏è Sin tabla para: {fecha_str}")
            return None

        cabecera = tabla.find("tr")
        ths = [th.text.strip().upper() for th in cabecera.find_all("th")]

        # Buscar √≠ndices seg√∫n encabezados
        idx_temp = next((i for i, texto in enumerate(ths) if "TEMP" in texto), None)
        idx_prec = next((i for i, texto in enumerate(ths) if "PRECIPITACI√ìN" in texto or "PREC" in texto), None)

        if idx_temp is None or idx_prec is None:
            print(f"‚ö†Ô∏è No se encontraron columnas adecuadas en {fecha_str}")
            return None

        # Filas de datos
        filas = tabla.find_all("tr")[1:]
        temps, precs = [], []

        for fila in filas:
            columnas = fila.find_all("td")
            if len(columnas) > max(idx_temp, idx_prec):
                try:
                    temp = float(columnas[idx_temp].text.replace(",", "."))
                    prec = float(columnas[idx_prec].text.replace(",", "."))
                    temps.append(temp)
                    precs.append(prec)
                except ValueError:
                    continue

        if temps:
            return {
                "fecha": fecha_str,
                "temp_media": round(sum(temps) / len(temps), 2),
                "precipitacion": round(sum(precs), 2)
            }
        else:
            return None

    except Exception as e:
        print(f"‚ùå Error en {fecha_str}: {e}")
        return None

# ‚úÖ 5. Ejecutar scraping para fechas faltantes
datos_recuperados = []


for fecha in fechas_faltantes[:60]:

    fecha_str = fecha.strftime("%Y-%m-%d")
    url = base_url.format(fecha_str)
    resultado = extraer_datos_dia(url, fecha_str)
    if resultado:
        datos_recuperados.append(resultado)
    time.sleep(0.5)  # evitar bloqueo

# ‚úÖ 6. Combinar con datos existentes
df_nuevos = pd.DataFrame(datos_recuperados)
df_nuevos['fecha'] = pd.to_datetime(df_nuevos['fecha'])

df_final = pd.concat([df_existente, df_nuevos])
df_final = df_final.drop_duplicates(subset="fecha").sort_values("fecha")
df_final.to_csv("clima_vilassar_completo_actualizado.csv", index=False)

print(f"\nüì¶ CSV actualizado guardado con {len(df_final)} registros como 'clima_vilassar_completo_actualizado.csv'")
df_final.tail()

Se detect√≥ la ausencia de datos para el d√≠a 03/05/2023, por lo que se decidi√≥ interpolar su valor utilizando los datos de los d√≠as inmediatamente anteriores y posteriores.

In [None]:
import pandas as pd

# Cargar el archivo CSV (ajusta el nombre si es diferente)
df = pd.read_csv("clima_vilassar_completo_actualizado.csv", parse_dates=["fecha"])
import pandas as pd
from datetime import datetime

# Cargar el archivo CSV (ajusta el nombre si es diferente)
df = pd.read_csv("clima_vilassar_completo_actualizado.csv", parse_dates=["fecha"])
df = df.sort_values("fecha")
df.head()
df[(df['fecha'] < datetime(2023, 5, 5)) & (df['fecha'] > datetime(2023, 5, 1))]

In [None]:
temp_02=df.loc[df['fecha'] == datetime(2023, 5, 2)].iloc[0,1]
temp_04=df.loc[df['fecha'] == datetime(2023, 5, 4)].iloc[0,1]
temp_03=(temp_02+temp_04)/2
temp_03

if not (df['fecha'] == datetime(2023, 5, 3)).any():
    nueva_fila = pd.DataFrame([{
        'fecha': datetime(2023, 5, 3),
        'temp_media': temp_03,
        'precipitacion': 0
    }])
    df= pd.concat([df, nueva_fila], ignore_index=True)
    df = df.sort_values('fecha').reset_index(drop=True)



In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(15, 5))
plt.plot(df["fecha"], df["temp_media"], color='tomato', linewidth=1)
plt.title("Temperatura media diaria (Vilassar de Dalt)", fontsize=14)
plt.xlabel("Fecha")
plt.ylabel("Temperatura (¬∞C)")
plt.grid(True)
plt.tight_layout()
plt.show()


In [None]:
df[(df['fecha'] < datetime(2023, 7, 1)) & (df['fecha'] > datetime(2023, 5, 30))]

Se observa que entre los d√≠as 01/06/2023 y 22/06/2023 los datos registrados son err√≥neos, ya que la p√°gina web no muestra valores para esas fechas. Por ello, se opt√≥ por obtener los datos correspondientes de la estaci√≥n meteorol√≥gica m√°s cercana.



In [None]:
fecha_inicio = datetime(2023, 6, 1)
fecha_fin = datetime(2023, 6, 22)
rango_total = pd.date_range(start=fecha_inicio, end=fecha_fin)

base_url = 'https://x-y.es/aemet/est-0201D-barcelona-cmt?fecha={}'
datos_barcelona = []

for fecha in rango_total:
    fecha_str = fecha.strftime("%Y-%m-%d")
    url = base_url.format(fecha_str)  # aqu√≠ se construye correctamente
    resultado = extraer_datos_dia(url, fecha_str)  # y ahora s√≠ se usa la URL con la fecha
    if resultado:
        datos_barcelona.append(resultado)
    time.sleep(0.5)


# ‚úÖ 6. Combinar con datos existentes
df_barcelona = pd.DataFrame(datos_recuperados)
df_barcelona['fecha'] = pd.to_datetime(df_nuevos['fecha'])
df_barcelona


In [None]:
# 2. Eliminar del original las fechas que est√©n en el nuevo
df_combinado = df[~df['fecha'].isin(df_barcelona['fecha'])]

# 3. Unir los dos dataframes (el original sin duplicados y los nuevos datos)
df_combinado = pd.concat([df_combinado, df_barcelona])

# 4. Ordenar por fecha (opcional pero recomendable)
df_combinado = df_combinado.sort_values('fecha').reset_index(drop=True)
df_combinado.to_csv("clima_completo.csv", index=False)

# Descargar
from google.colab import files
files.download("clima_completo.csv")



In [None]:
import matplotlib.pyplot as plt
df = pd.read_csv("clima_completo.csv", parse_dates=["fecha"])
plt.figure(figsize=(15, 5))
plt.plot(df_combinado["fecha"], df_combinado["temp_media"], color='tomato', linewidth=1)
plt.title("Temperatura media diaria (Vilassar de Dalt)", fontsize=14)
plt.xlabel("Fecha")
plt.ylabel("Temperatura (¬∞C)")
plt.grid(True)
plt.tight_layout()
plt.show()


In [None]:
plt.figure(figsize=(15, 5))
plt.bar(df["fecha"], df["precipitacion"], color='royalblue', width=1)
plt.title("Precipitaci√≥n diaria (Vilassar de Dalt)", fontsize=14)
plt.xlabel("Fecha")
plt.ylabel("Precipitaci√≥n (mm)")
plt.grid(True)
plt.tight_layout()
plt.show()