#### Для механизма сбора набора данных и его автоматизации, дальних требований определения типа запроса на основе анализа выдачи ТОП-10 результатов, я могу предложить следующие варианты:  

Веб-скрейпинг — это процесс извлечения данных с веб-страницы. BeautifulSoup и Scrapy — это две популярные библиотеки для веб-скрейпинга на Python:

BeautifulSoup — это библиотека Python для анализа HTML и XML документов. Она часто используется для веб-скрейпинга. BeautifulSoup преобразует сложные HTML-документы в объекты Python, такие как теги, навигационные строки и так далее.

Scrapy — это более мощная и гибкая библиотека для веб-скрейпинга, которая также может решать более сложные задачи, такие как вход в систему, сохранение сессий и исследование перекрестных ссылок.

Парсинг выдачи ТОП-10 страниц: с использованием библиотек для парсинга веб-страниц, таких как BeautifulSoup или Scrapy, чтобы получить данные о выдаче ТОП-10 страниц для каждого запроса. И последующее извлечение URL каждой страницы из выдачи.

Анализ URL-адресов страниц: Анализ URL-адресов каждой страницы из выдачи и предоставления ключевых слов или шаблонов, указывающих на коммерческую или информационную тематику.

Определение типа запроса: На основе анализа URL-адресов страниц выдачи, определение типа запроса как коммерческий или информационный. Если большинство страниц содержат коммерческие шаблоны в URL-адресе, этот запрос можно считать коммерческим. Если большинство страниц содержит шаблоны URL-адресов, запрос можно считать информационным.

Автоматизация парсинга и определение ключевых фраз: Создание скрипта на языке Python, который будет автоматически запускаться и выполнять парсинг выдачи ТОП-10 страниц для каждого запроса. Скрипт должен получать URL-адреса страниц, анализировать их и определять тип запроса. Затем можно сохранить эти данные в наборе датасета для дальнейшего использования.

Это возможный вариант для машины, собирающей набор данных и его автоматизацию, для определения требований по типу запроса на основе анализа выдачи ТОП-10 надежных. Необходимо конечно ещё подготовить и доработать предложенный код.

In [2]:
import requests
from bs4 import BeautifulSoup
import urllib.parse
import pandas as pd

queries = ["перчатки", "цветок", "огнетушитель"]
num_links = 10

commercial_keywords = [
    "/catalog/",
    "/shop/",
    "/katalog/",
    "/uslugi/",
    "/product/",
    "/tovar/",
    "/price/",
    "/ceny/",
    "/services/",
    "/service/"
]

informational_keywords = [
    "/blog/",
    "/stati/",
    "/staty/",
    "/news/"
]

# Создаем пустой DataFrame для хранения результатов
results_df = pd.DataFrame(columns=["Запрос", "Коммерческие ссылки", "Информационные ссылки", "Неопределенные ссылки"])

for query in queries:
    # Формируем URL для поиска в Google
    url = f"https://www.google.com/search?q={urllib.parse.quote(query)}"

    # Отправляем GET-запрос и получаем HTML-код страницы
    response = requests.get(url)
    soup = BeautifulSoup(response.text, "html.parser")

    # Счетчики для категорий
    commercial_count = 0
    informational_count = 0
    undefined_count = 0

    # Находим все ссылки на странице
    links = soup.find_all("a")

    # Выводим ссылки с указанием статуса
    print(f"Категория: {query}")
    print("------------------------")

    for link in links:
        href = link.get("href")

        # Проверяем, содержит ли ссылка полный URL-адрес
        if href.startswith("/url?q="):
            real_link = urllib.parse.unquote(href[7:]).split("&")[0]

            # Проверяем наличие ключевых слов в ссылке и увеличиваем соответствующий счетчик
            if any(keyword in real_link for keyword in commercial_keywords):
                print(f"Статус: Коммерческий")
                print(f"Ссылка: {real_link}")
                commercial_count += 1
            elif any(keyword in real_link for keyword in informational_keywords):
                print(f"Статус: Информационный")
                print(f"Ссылка: {real_link}")
                informational_count += 1
            else:
                print(f"Статус: Не определен")
                print(f"Ссылка: {real_link}")
                undefined_count += 1

            # Если достигнуто максимальное количество ссылок, выходим из цикла
            if commercial_count + informational_count + undefined_count == num_links:
                break

    # Выводим количество ссылок для каждой категории
    print(f"\nВсего найдено ссылок: {commercial_count + informational_count + undefined_count}")
    print(f"Коммерческий: {commercial_count}")
    print(f"Информационный: {informational_count}")
    print(f"Не определен: {undefined_count}")
    print("\n")

    # Добавляем результаты в DataFrame
    results_df = results_df.append({
        "Запрос": query,
        "Коммерческие ссылки": commercial_count,
        "Информационные ссылки": informational_count,
        "Неопределенные ссылки": undefined_count
    }, ignore_index=True)

# Выводим итоговый DataFrame
print(results_df)
results_df

Категория: перчатки
------------------------
Статус: Коммерческий
Ссылка: https://www.wildberries.ru/catalog/aksessuary/perchatki-i-varezhki
Статус: Коммерческий
Ссылка: https://www.wildberries.ru/catalog/aksessuary/perchatki-i-varezhki/tags/zhenskie-perchatki
Статус: Коммерческий
Ссылка: https://www.wildberries.ru/catalog/aksessuary/perchatki-i-varezhki/tags/muzhskie-mufty
Статус: Коммерческий
Ссылка: https://www.wildberries.ru/catalog/aksessuary/perchatki-i-varezhki/tags/detskie-perchatki
Статус: Коммерческий
Ссылка: https://www.wildberries.ru/catalog/aksessuary/perchatki-i-varezhki/tags/varezhki-kragi-detskie
Статус: Не определен
Ссылка: https://ru.wikipedia.org/wiki/%D0%9F%D0%B5%D1%80%D1%87%D0%B0%D1%82%D0%BA%D0%B8
Статус: Не определен
Ссылка: https://www.ozon.ru/category/perchatki-zhenskie/
Статус: Коммерческий
Ссылка: https://www.sportmaster.ru/catalog/aksessuary/perchatki_rukavitsy/
Статус: Не определен
Ссылка: https://eleganzza.ru/zhenschinam/perchatki
Статус: Не определен
Ссылк

  results_df = results_df.append({


Категория: цветок
------------------------
Статус: Не определен
Ссылка: https://www.google.com/preferences?hl=en
Статус: Не определен
Ссылка: https://ru.wikipedia.org/wiki/%D0%A6%D0%B2%D0%B5%D1%82%D0%BE%D0%BA
Статус: Не определен
Ссылка: https://ru.wiktionary.org/wiki/%D1%86%D0%B2%D0%B5%D1%82%D0%BE%D0%BA
Статус: Не определен
Ссылка: https://en.wikipedia.org/wiki/Flower
Статус: Не определен
Ссылка: https://foxford.ru/wiki/biologiya/stroenie-tsvetka
Статус: Не определен
Ссылка: https://znanierussia.ru/articles/%D0%A6%D0%B2%D0%B5%D1%82%D0%BE%D0%BA
Статус: Не определен
Ссылка: https://en.wiktionary.org/wiki/%D1%86%D0%B2%D0%B5%D1%82%D0%BE%D0%BA
Статус: Не определен
Ссылка: https://en.wiktionary.org/wiki/%D1%86%D0%B2%D0%B5%D1%82%D0%BE%D0%BA#Russian
Статус: Не определен
Ссылка: https://en.wiktionary.org/wiki/%D1%86%D0%B2%D0%B5%D1%82%D0%BE%D0%BA#Noun
Статус: Не определен
Ссылка: https://www.youtube.com/watch?v=IFRpmEG7xCE

Всего найдено ссылок: 10
Коммерческий: 0
Информационный: 0
Не определен

  results_df = results_df.append({


Категория: огнетушитель
------------------------
Статус: Не определен
Ссылка: https://ru.wikipedia.org/wiki/%D0%9E%D0%B3%D0%BD%D0%B5%D1%82%D1%83%D1%88%D0%B8%D1%82%D0%B5%D0%BB%D1%8C
Статус: Коммерческий
Ссылка: https://www.magazin01.ru/catalog/ognetushiteli/
Статус: Коммерческий
Ссылка: https://www.magazin01.ru/catalog/ognetushiteli/Poroshkovye-ognetushiteli/
Статус: Коммерческий
Ссылка: https://www.magazin01.ru/catalog/ognetushiteli/Uglekislotnye-ognetushiteli/
Статус: Коммерческий
Ссылка: https://www.magazin01.ru/catalog/ognetushiteli/Samosrabatyvayuschie-ognetushiteli-i-moduli/
Статус: Не определен
Ссылка: https://www.holt-trade.ru/info/ognetushiteli/
Статус: Не определен
Ссылка: https://en.wikipedia.org/wiki/Fire_extinguisher
Статус: Коммерческий
Ссылка: https://www.magazin01.ru/catalog/ognetushiteli/Poroshkovye-ognetushiteli/
Статус: Не определен
Ссылка: https://www.ozon.ru/category/ognetushiteli-30580/
Статус: Не определен
Ссылка: https://www.ozon.ru/category/ognetushitel-domashni

  results_df = results_df.append({


Unnamed: 0,Запрос,Коммерческие ссылки,Информационные ссылки,Неопределенные ссылки
0,перчатки,6,0,4
1,цветок,0,0,10
2,огнетушитель,5,0,5
