In [2]:
## \file /sandbox/davidka/crawler.py
# -*- coding: utf-8 -*-
#! .pyenv/bin/python3

"""
Модуль для сбора данных со страниц товаров с различных сайтов
=====================================================
Использует WebDriver для взаимодействия со страницами и LLM для извлечения
структурированной информации на основе инструкций. Обрабатывает задачи
по сбору данных о товарах по URL, по категориям, извлечению категорий
с сайтов поставщиков и поиску товаров на заданных доменах.

```rst
.. module:: sandbox.davidka.crawler
```
"""
import asyncio
import random # Используется для перемешивания списков (хотя сейчас закомментировано)
from pathlib import Path
from types import SimpleNamespace
from typing import List, Optional, Dict, Any, Set # Добавлены Dict, Any, Optional, List, Set

import header
from header import __root__
from src import gs
from src.webdriver import driver
from src.webdriver.llm_driver import SimpleDriver
from SANDBOX.davidka import utils 
from src.utils.file import read_text_file
from src.utils.jjson import j_loads, j_dumps
from src.logger import logger

class Config:
    ENDPOINT:Path = __root__/ 'SANDBOX/davidka'
    GEMINI_API:str = gs.credentials.gemini.kazarinov.api_key
    GEMINI_MODEL_NAME = 'gemini-2.5-flash-preview-04-17'
    driver:SimpleDriver = SimpleDriver(GEMINI_API,gemini_model_name=GEMINI_MODEL_NAME)
    instruction_filter_urls:str = read_text_file(ENDPOINT/'instructions'/'filter_urls.md')
    output_file:Path = Path("J://My Drive//hypo69//llm//filtered_urls.json") 

async def filter_url(url:str) -> bool:
    """"""
    output_dict:dict = j_loads(Config.output_file) or {}
    driver = Config.driver
    task = Config.instruction_filter_urls.replace('{TARGET_URL}', url)
    raw_res = await driver.run_task(task) # Предполагаем использование стандартного LLM
    res_dict:dict = j_loads(raw_res)
    output_dict.update(res_dict)
    j_dumps(output_dict, Config.output_file)
    ...


async def main():
    urls_list: list = utils.fetch_urls_from_all_mining_files(['random_urls','output_product_data_set1'])
    # tasks = [filter_url(url.strip()) for url in urls_list]
    # await asyncio.gather(*tasks)
    for url in urls_list:
        url = url.strip()
        if url.startswith('http'):
            try:
                await filter_url(url)
            except Exception as ex:
                print(f"Error processing URL {url}: {ex}")
        else:
            print(f"Invalid URL format: {url}")


2025-05-02 05:24:28,756 - INFO - ℹ️ [32m[49m--- Начало СИНХРОННОЙ инициализации Driver --- [0m
2025-05-02 05:24:28,758 - INFO - ℹ️ [32m[49mИнициализация Gemini: Model=gemini-2.5-flash-preview-04-17 [0m
2025-05-02 05:24:28,782 - INFO - ℹ️ [32m[49mGemini LLM инициализирован. [0m
2025-05-02 05:24:28,784 - INFO - ℹ️ [32m[49m--- Синхронная инициализация Driver завершена. Вызовите async_init() --- [0m


In [None]:
await main()

2025-05-02 05:24:32,595 - INFO - ℹ️ [32m[49m--- Начало АСИНХРОННОЙ инициализации Driver --- [0m
2025-05-02 05:24:32,596 - INFO - ℹ️ [32m[49mАсинхронная инициализация BrowserController... [0m
2025-05-02 05:24:32,596 - INFO - ℹ️ [32m[49mBrowserController создан (Headless=True, Timeout=30000ms). Вызовите start() для инициализации. [0m
2025-05-02 05:24:32,596 - INFO - ℹ️ [32m[49mАсинхронная инициализация BrowserController... [0m
2025-05-02 05:24:33,239 - INFO - ℹ️ [32m[49mPlaywright запущен, браузер открыт, контекст и страница созданы (Async). [0m
2025-05-02 05:24:33,239 - INFO - ℹ️ [32m[49mBrowserController асинхронно инициализирован. [0m
2025-05-02 05:24:33,240 - INFO - ℹ️ [32m[49mИнициализация зависимых контроллеров... [0m
2025-05-02 05:24:33,240 - DEBUG - 🐛 [36m[49mDataExtractionController инициализирован. [0m
NoneType: None
2025-05-02 05:24:33,241 - INFO - ℹ️ [32m[49mDataExtractionController иниц. [0m
2025-05-02 05:24:33,241 - DEBUG - 🐛 [36m[49mFormControl



[1m> Entering new AgentExecutor chain...[0m


2025-05-02 05:24:36,567 - INFO - ℹ️ [32m[49mПереход на: https://www.fujielectric.com/products/hmi/x1/ [0m


[32;1m[1;3mAction: BrowserNavigate
Action Input: https://www.fujielectric.com/products/hmi/x1/[0m



[33;1m[1;3mНе удалось перейти на https://www.fujielectric.com/products/hmi/x1/. Статус: 404[0m

2025-05-02 05:24:40,622 - INFO - ℹ️ [32m[49mПереход на: https://www.fujielectric.com/products/hmi/ [0m


[32;1m[1;3mThe initial URL returned a 404 error. According to the instructions, I need to move one level up the URL path and try again. The current URL is `https://www.fujielectric.com/products/hmi/x1/`. Removing the last segment `/x1/` results in `https://www.fujielectric.com/products/hmi/`. I will navigate to this new URL.
Action: BrowserNavigate
Action Input: https://www.fujielectric.com/products/hmi/[0m



[33;1m[1;3mНе удалось перейти на https://www.fujielectric.com/products/hmi/. Статус: 404[0m

2025-05-02 05:24:43,370 - INFO - ℹ️ [32m[49mПереход на: https://www.fujielectric.com/products/ [0m


[32;1m[1;3mAction: BrowserNavigate
Action Input: https://www.fujielectric.com/products/[0m

2025-05-02 05:24:45,194 - INFO - ℹ️ [32m[49mУспешный переход на https://www.fujielectric.com/products/. Статус: 200. Заголовок: 'Products & Solutions | Fuji Electric Global' [0m


[33;1m[1;3mУспешный переход на https://www.fujielectric.com/products/. Заголовок: Products & Solutions | Fuji Electric Global. Начало текста: Skip navigation menu
 Regional Websites
Regional Websites
Americas

USA 

Europe

France 

Germany 

Asia

China 

Japan 

Singapore 

Hong Kong 

Korea 

Taiwan 

India 

Malaysia 

Thailand 

Indone...[0m