# Демо динамического парсера

[инструкция](../documentation/users/dynamic_parser.md) по работе с динамическим парсером

In [1]:
# импорты
import sys
sys.path.append('/Users/ekertn7/Downloads/Projects/SberMegaParser')

In [4]:
from SberMegaParser import DynamicParser, DynamicParserType, DynamicParserKeys
from SberMegaParser import generate_user_agent, UserAgentBrowsers, UserAgentOperatingSystems, UserAgentPlatforms
from SberMegaParser import DynamicParserProxy

### Инициализация динамического парсера

In [3]:
parser = DynamicParser(
    DynamicParserType.firefox,  # выбираем firefox в качестве браузера
    window_width=900,
    window_height=900,
    headless=False,             # можно установить это значение = True и тогда
                                # браузер запустится в скрытом режиме, вы не
                                # увидите окошко, но все будет работать
    driver_path='/geckodriver', # можно указать свой путь для вебдрайвера,
                                # однако если вебдрайвер находится в корне
                                # проекта, то все будет работать и без указания
                                # этого параметра
    user_agent = generate_user_agent(
        browsers=[UserAgentBrowsers.CHROME, UserAgentBrowsers.FIREFOX],
        operating_systems=UserAgentOperatingSystems.WINDOWS,
        platforms=UserAgentPlatforms.PC
    ),                          # если сайт не пускает вас, можно подменить
                                # свой user agent с помощью такой функции,
                                # при этом параметры указывать не обязательно,
                                # они нужны только чтобы сузить варианты
                                # рандомизации user agents
    cookies = {
        'name': 'PHPSESSID', 'value': '4cfcc2d0af4c3a0a165242691ace5adb',
        'path': '/', 'domain': 'whatmyuseragent.com', 'secure': False,
        'httpOnly': False, 'sameSite': 'None'
    },                          # можно также передавать cookies в формате
                                # словаря или списка словарей
    proxy = DynamicParserProxy(host='195.241.3.23', port='8500')
                                # при необходимости можно указать proxy сервер
)

In [4]:
# откроем соединение
parser.open_connection()

In [5]:
# посмотрим на свой user agent
parser.get('https://whatmyuseragent.com')
# от отличается от того, что установлен изначально у вас на компьютере
# можно проверить это открыв рядом окно своего браузера с тем же сайтом

In [6]:
# посмотрим cookies
parser.extract_cookies()

[{'name': 'PHPSESSID',
  'value': 'c00783a2e6a2bd87bd098a819c2eba88',
  'path': '/',
  'domain': 'whatmyuseragent.com',
  'secure': False,
  'httpOnly': False,
  'sameSite': 'None'},
 {'name': '_ga_Z9VC12D3Q7',
  'value': 'GS1.1.1720005581.1.0.1720005581.0.0.0',
  'path': '/',
  'domain': '.whatmyuseragent.com',
  'secure': False,
  'httpOnly': False,
  'expiry': 1783077581,
  'sameSite': 'None'},
 {'name': '_ga',
  'value': 'GA1.1.198733899.1720005581',
  'path': '/',
  'domain': '.whatmyuseragent.com',
  'secure': False,
  'httpOnly': False,
  'expiry': 1783077581,
  'sameSite': 'None'},
 {'name': '__gads',
  'value': 'ID=c68031fd45042dbe:T=1720005581:RT=1720005581:S=ALNI_MYO_N7_unwzP8J4unaS6KueeniZ1A',
  'path': '/',
  'domain': '.whatmyuseragent.com',
  'secure': True,
  'httpOnly': False,
  'expiry': 1753701581,
  'sameSite': 'None'},
 {'name': '__gpi',
  'value': 'UID=00000e705f6d87d2:T=1720005581:RT=1720005581:S=ALNI_MbVzwL4oRb1yYc6cYbKHDC6pI7UsQ',
  'path': '/',
  'domain': '.w

In [7]:
# откроем соединение еще раз и получим ошибку
parser.open_connection()
# читаем ошибку, там написано в чем проблема
# в данном случае мы попытались открыть соединение, которое ранее уже было
# открыто, мы не можем так делать
# нам нужно либо создать объект DynamicParser еще раз и в нем уже открыть
# новое соединение, либо закрыть текущее соединение и открыть его заново

DriverAlreadyInitializedException: Web driver object is already initialized! Please, close old connection using close_connection method and try again!

In [23]:
# закроем текущее соединение
parser.close_connection()

In [21]:
# запускаем парсер с минимальными настройками
parser = DynamicParser(
    DynamicParserType.firefox,
    window_width=1020, window_height=900,
    user_agent = generate_user_agent(
        browsers=[UserAgentBrowsers.CHROME, UserAgentBrowsers.FIREFOX],
        operating_systems=UserAgentOperatingSystems.WINDOWS,
        platforms=UserAgentPlatforms.PC
    )
)
parser.open_connection()

In [22]:
# откроем сайт irecommend для тестирования
parser.get('https://irecommend.ru')

In [11]:
# просмотр всех активных вкладок/окон
active_windows = parser.windows()
active_windows

['b9fcabc1-efcb-4f92-b29e-1d984399dc4a']

In [12]:
# переключение на одну из вкладок/окон
parser.switch_to_window(active_windows[0])

In [13]:
logo_xpath = '//img[contains(@class, "site-logo")]'

In [14]:
# ожидаем, что элемент прогрузился и находится на странице
# если все ок, то функция просто выполнится и не будет сообщения об ошибке
# если нет, то будет выведено сообщение об ошибке
parser.wait_until_element_located(logo_xpath, waiting_time=10)

In [15]:
# ожидаем, что элемент прогрузился, находится на странице и его видно
# если все ок, то функция просто выполнится и не будет сообщения об ошибке
# если нет, то будет выведено сообщение об ошибке
parser.wait_until_element_visible(logo_xpath)

In [16]:
# поиск множества элементов на странице
menu_buttons_xpath = '//div[contains(@class, "IrecUiNavbar")]//span'
parser.wait_until_element_located(menu_buttons_xpath)
menu_buttons = parser.find_all(menu_buttons_xpath)
for btn in menu_buttons:
    print(btn.text.strip())

Красота и здоровье
Детское
Техника
Туризм
Животные
Кино
Книги
Продукты
Посуда
Авто
Другие


In [17]:
parser.click(menu_buttons[-1], attempts_number=42)

True

In [18]:
categories_xpath = '//div[@class="siteCategoriesTree"]//a'
categories = parser.find_all(categories_xpath)
for i, btn in enumerate(categories):
    if 'банк' in btn.text.lower():
        print(btn.text, i)

Банки и банковские продукты 80


In [19]:
parser.click(categories[80])

True

In [None]:
# ввод символов в форму
textarea_xpath = '//div[contains(@class, "TextInput")]/input[@placeholder="Поиск"]'
parser.wait_until_element_located(textarea_xpath)
textarea = parser.find(textarea_xpath)
parser.click(textarea)
parser.write(textarea, 'мегамаркет ', clear=True)
# параметр clear = True очищает поле от ранее введенного контента
# если что-то пошло не так и поле не очистилось, то можно сделать, например,
# так: parser.write(textarea, DynamicParserKeys.BACKSPACE*100)
parser.write(textarea, 'приложение ')
parser.write(textarea, DynamicParserKeys.ARROW_D)
# обратите внимание на дополнительные задержки, иногда они необходимы для
# корректной работы динамического сайта, их подбирают эмпирическим путем
# (методом проб и ошибок)
parser.write(textarea, DynamicParserKeys.ENTER, sleep_range=(1400, 1600))

In [None]:
html = parser.get_html()
for element in html.find('ul', {'class': 'list-comments'}).find_all('li'):
    print(
        element.find('div', {'class': 'authorName'}).text.strip(), ':',
        element.find('div', {'class': 'reviewTitle'}).text.strip()[:50],
        '...'
    )

In [20]:
# закроем текущее соединение
parser.close_connection()

In [None]:
# откроем сайт google для тестирования
parser.get('https://google.com')

In [None]:
# ожидаем, что элемент прогрузился и находится на странице
# если все ок, то функция просто выполнится и не будет сообщения об ошибке
# если нет, то будет выведено сообщение об ошибке
parser.wait_until_element_located('//input[@class="RNmpXc"]', waiting_time=10)

In [None]:
# ожидаем, что элемент прогрузился, находится на странице и его видно
# если все ок, то функция просто выполнится и не будет сообщения об ошибке
# если нет, то будет выведено сообщение об ошибке
parser.wait_until_element_visible('//img[contains(@alt, "Google")]')

In [None]:
# поиск одного элемента на странице
# возвращает объект элемента
body = parser.find('//body')
body

In [None]:
# получим значение аттрибута jsmodel блока body
body.get_attribute('jsmodel')
# получать эти значения может быть полезно, например, если нужно извлечь href
# из ссылки, value из формы или дополнительную информацию объекта

In [None]:
# получим текст из блока body
body.text

In [None]:
# поиск множества элементов на странице
elements = parser.find_all('//input')
elements

In [None]:
# просмотр всех активных вкладок/окон
active_windows = parser.windows()
active_windows

In [None]:
# переключение на одну из вкладок/окон
parser.switch_to_window(active_windows[0])

In [None]:
# клик по элементу на странице
# в данном случае кликаем на блок клавиатуры
show_keyboard_button = parser.find('//span[@class="ly0Ckb"]')
parser.click(show_keyboard_button, attempts_number=42)

In [None]:
# ввод символов в форму
# попробуем что-нибудь найти
textarea = parser.find('//textarea[@title="Поиск"]')
parser.write(textarea, 'кто такой аудито ', clear=True)
# параметр clear = True очищает поле от ранее введенного контента
# если что-то пошло не так и поле не очистилось, то можно сделать, например,
# так: parser.write(textarea, DynamicParserKeys.BACKSPACE*100)
parser.write(textarea, DynamicParserKeys.ARROW_D)
parser.write(textarea, ' подскажите')
# обратите внимание на дополнительные задержки, иногда они необходимы для
# корректной работы динамического сайта, их подбирают эмпирическим путем
# (методом проб и ошибок)
parser.write(textarea, DynamicParserKeys.ENTER, sleep_range=(1400, 1600))

### Остановка динамического парсера

In [None]:
# закроем текущее соединение
parser.close_connection()
# при желании теперь можно еще раз открыть соединение