# INIT


In [1]:
import nest_asyncio
from dotenv import load_dotenv
from langchain_openai import ChatOpenAI
from langchain_openai import AzureOpenAI, AzureChatOpenAI
import os

nest_asyncio.apply()

load_dotenv()

llm = AzureChatOpenAI(
            max_tokens=5000,
            temperature=0,
            max_retries=20,
            request_timeout=500,
            api_key=os.getenv("AZURE_OPENAI_API_KEY"),
            azure_endpoint=os.getenv("AZURE_OPENAI_ENDPOINT"),
            api_version=os.getenv("AZURE_OPENAI_API_VERSION"),
            azure_deployment=os.getenv("AZURE_OPENAI_CHAT_VERSION"),
            )

In [2]:
llm.invoke("hi")

AIMessage(content='Hello! How can I assist you today?', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 9, 'prompt_tokens': 8, 'total_tokens': 17, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_ded0d14823', 'finish_reason': 'stop', 'logprobs': None, 'content_filter_results': {}}, id='run-d9404fb3-515d-49aa-b751-d1a81ccebd6b-0', usage_metadata={'input_tokens': 8, 'output_tokens': 9, 'total_tokens': 17, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})

# IDAE


In [24]:
import asyncio
import os
from dotenv import load_dotenv
from pydantic import BaseModel
from browser_use import Agent, Browser, BrowserConfig
from browser_use.browser.context import BrowserContextConfig
from typing import List


context_config = BrowserContextConfig(
    save_downloads_path="/mnt/c/Users/civars_bec/Downloads", 
    browser_window_size={"width": 2000, "height": 1100},  
)

config = BrowserConfig(
    headless=False,  
    new_context_config=context_config,
    cdp_url=None,
    chrome_instance_path="/usr/bin/google-chrome"  
)

class BoletinItem(BaseModel):
    titulo: str
    url: str

class BoletinPDFs(BaseModel):
    boletines: List[BoletinItem] 

browser = Browser(config=config)

task = """
Cuales son las resoluciones publicadas en **IDAE** en PDF de julio de 2024?

Para facilitar la busqueda te proporcciono la informacion que te pueda ayudar a buscar en el navegador: resoluciones bombeo site: https://sede.idae.gob.es/ filetype: pdf

Busca TODAS las resoluciones PDF relacionadas con centrales hidroelectricas de bombeo reversible o relacionadas con bombeo reversible.

Devuelveme un json con los resutlados encontrados que contenga el titulo, el enlace al PDF y la fecha de publicacion.
"""
#una lista diccionarios, donde cada resolución es un diccionario que contiene el titulo ,el enlace al PDF y la fecha de publicacion.
async def main():
    agent = Agent(
        task=task,
        llm=llm,
        browser=browser,
        generate_gif=True, 
    )
    history = await agent.run()
    result = history.final_result()

    if result:
        print(f" Boletines encontrados: {result}")
    else:
        print(" No se encontraron boletines en PDF.")

    await browser.close()
asyncio.run(main())


INFO     [agent] 🚀 Starting task: 
Cuales son las resoluciones publicadas en **IDAE** en PDF de julio de 2024?

Para facilitar la busqueda te proporcciono la informacion que te pueda ayudar a buscar en el navegador: resoluciones bombeo site: https://sede.idae.gob.es/ filetype: pdf

Busca TODAS las resoluciones PDF relacionadas con centrales hidroelectricas de bombeo reversible o relacionadas con bombeo reversible.

Devuelveme un json con los resutlados encontrados que contenga el titulo, el enlace al PDF y la fecha de publicacion.

INFO     [agent] 📍 Step 1
INFO     [backoff] Backing off send_request(...) for 0.7s (requests.exceptions.ReadTimeout: HTTPSConnectionPool(host='eu.i.posthog.com', port=443): Read timed out. (read timeout=15))
INFO     [agent] 🤷 Eval: Unknown - No previous goals to evaluate as this is the initial state.
INFO     [agent] 🧠 Memory: Starting the task to find PDF resolutions from IDAE related to pumping stations for July 2024. No actions have been completed yet.


# CCAA

## Cantabria

In [5]:
import asyncio
import os
from dotenv import load_dotenv
from pydantic import BaseModel
from browser_use import Agent, Browser, BrowserConfig
from browser_use.browser.context import BrowserContextConfig
from typing import List


context_config = BrowserContextConfig(
    save_downloads_path="/mnt/c/Users/civars_bec/Downloads", 
    browser_window_size={"width": 2000, "height": 1100},  
)

config = BrowserConfig(
    headless=False,  
    new_context_config=context_config,
    cdp_url=None,
    chrome_instance_path="/usr/bin/google-chrome"  
)

class BoletinItem(BaseModel):
    titulo: str
    url: str

class BoletinPDFs(BaseModel):
    boletines: List[BoletinItem] 

browser = Browser(config=config)

task = """
¿Cuáles son los boletines publicados en PDF el día 22 de febrero de 2023 en https://boc.cantabria.es/boces/boletines.do?

Para ello filtra los boletines por fecha y una vez filtrados devuelve todos los boletines como te indico.

Devuelveme una lista con los titulos **COMPLETOS** exactos y las urls exactas de  **TODOS LOS PDF** encontrados en ese dia.

Tienes que devolver todas las urls de pdf de ese dia, no te puedes dejar ninguna, haz scroll si es necesario.

Cuando no aparezca mas informacion, termina y devuelve los resultados
"""
taksjlkdfhajhdfajh = """
Objetivo: Obtener una lista completa de todos los boletines publicados en formato PDF el 22 de febrero de 2023 en el sitio web del Boletín Oficial de Cantabria (https://boc.cantabria.es/boces/boletines.do).

Instrucciones detalladas:

1. Accede a la URL proporcionada y filtra por la fecha exacta: 22 de febrero de 2023.
2. Extrae todos los boletines publicados en ese día, asegurándote de obtener:
    -El título completo exacto de cada boletín.
    -La URL exacta de cada archivo en formato PDF.
3.Asegúrate de no omitir ningún boletín. Si la página requiere desplazamiento (scroll) o paginación, carga toda la información disponible antes de devolver los resultados.
4.Entrega el resultado en una lista estructurada, mostrando cada boletín con su título y su enlace correspondiente en formato claro y organizado.

"""
async def main():
    agent = Agent(
        task=task,
        llm=llm,
        browser=browser,
        generate_gif=True, 
    )
    history = await agent.run()
    result = history.final_result()

    if result:
        print(f"📜 Boletines encontrados: {result}")
    else:
        print("❌ No se encontraron boletines en PDF.")

    await browser.close()
asyncio.run(main())


INFO     [agent] 🚀 Starting task: 
¿Cuáles son los boletines publicados en PDF el día 22 de febrero de 2023 en https://boc.cantabria.es/boces/boletines.do?

Para ello filtra los boletines por fecha y una vez filtrados devuelve todos los boletines como te indico.

Devuelveme una lista con los titulos **COMPLETOS** exactos y las urls exactas de  **TODOS LOS PDF** encontrados en ese dia.

Tienes que devolver todas las urls de pdf de ese dia, no te puedes dejar ninguna, haz scroll si es necesario.

Cuando no aparezca mas informacion, termina y devuelve los resultados

INFO     [agent] 📍 Step 1


INFO     [agent] 🤷 Eval: Unknown - No previous actions taken yet.
INFO     [agent] 🧠 Memory: No actions have been taken yet. Need to search for the website to find the bulletins published on February 22, 2023.
INFO     [agent] 🎯 Next goal: Search for the URL https://boc.cantabria.es/boces/boletines.do
INFO     [agent] 🛠️  Action 1/1: {"go_to_url":{"url":"https://boc.cantabria.es/boces/boletines.do"}}
INFO     [controller] 🔗  Navigated to https://boc.cantabria.es/boces/boletines.do
INFO     [agent] 📍 Step 2
INFO     [agent] 🤷 Eval: Unknown - No previous actions taken yet.
INFO     [agent] 🧠 Memory: No actions have been taken yet. Need to input the date 22/02/2023 to search for bulletins.
INFO     [agent] 🎯 Next goal: Input the date 22/02/2023 in the date field and submit the search.
INFO     [agent] 🛠️  Action 1/2: {"input_text":{"index":26,"text":"22/02/2023"}}
INFO     [agent] 🛠️  Action 2/2: {"click_element":{"index":30}}
INFO     [controller] ⌨️  Input 22/02/2023 into index 26
INFO 

## Andalucia

In [None]:
import asyncio
import os
from dotenv import load_dotenv
from pydantic import BaseModel
from browser_use import Agent, Browser, BrowserConfig
from browser_use.browser.context import BrowserContextConfig

context_config = BrowserContextConfig(
    save_downloads_path="/mnt/c/Users/civars_bec/Downloads", 
    browser_window_size={"width": 2000, "height": 1100},  
)

config = BrowserConfig(
    headless=False,  
    new_context_config=context_config,
    cdp_url=None,
    chrome_instance_path="/usr/bin/google-chrome"  
)

class BoletinPDFs(BaseModel):
    boletines: list[(str, str)]  

browser = Browser(config=config)

task = """
¿Cuáles son los boletines publicados en PDF el día 22 de febrero de 2023 en andalucia?

Devuelveme una lista con los titulos y los enlaces encontrados en ese dia.
"""

async def main():
    agent = Agent(
        task=task,
        llm=llm,
        browser=browser,
        generate_gif=True, 
    )
    history = await agent.run()
    result = history.final_result()

    if result:
        parsed = BoletinPDFs.model_validate_json(result) 
        print(f"📜 Boletines encontrados: {parsed.boletines}")
    else:
        print("❌ No se encontraron boletines en PDF.")

    await browser.close()
asyncio.run(main())


## Catalunya

In [None]:
import asyncio
import os
from dotenv import load_dotenv
from pydantic import BaseModel
from browser_use import Agent, Browser, BrowserConfig
from browser_use.browser.context import BrowserContextConfig

context_config = BrowserContextConfig(
    save_downloads_path="/mnt/c/Users/civars_bec/Downloads", 
    browser_window_size={"width": 2000, "height": 1100},  
)

config = BrowserConfig(
    headless=False,  
    new_context_config=context_config,
    cdp_url=None,
    chrome_instance_path="/usr/bin/google-chrome"  
)

class BoletinPDFs(BaseModel):
    boletines: list[(str, str)]  

browser = Browser(config=config)

task = """
¿Cuáles son los boletines publicados en PDF el día 22 de febrero de 2023 en catalunya

Devuelveme una lista con los titulos y los enlaces encontrados en ese dia.
"""

async def main():
    agent = Agent(
        task=task,
        llm=llm,
        browser=browser,
        generate_gif=True, 
    )
    history = await agent.run()
    result = history.final_result()

    if result:
        parsed = BoletinPDFs.model_validate_json(result) 
        print(f"📜 Boletines encontrados: {parsed.boletines}")
    else:
        print("❌ No se encontraron boletines en PDF.")

    await browser.close()
asyncio.run(main())


## C.Valenciana

## Castilla la Mancha

## La rioja

## Navarra

## Murcia

## Extremadura