# Демо динамического парсера

[инструкция](../documentation/users/dynamic_parser.md) по работе с динамическим парсером

In [21]:
import sys
sys.path.append('/Users/ekertn7/Downloads/Projects/SberMegaParser')
from SberMegaParser import DynamicParser, DynamicParserType, DynamicParserKeys
from SberMegaParser import generate_user_agent, UserAgentBrowsers, UserAgentOperatingSystems, UserAgentPlatforms

### Инициализация динамического парсера

In [37]:
parser = DynamicParser(
    DynamicParserType.firefox,  # выбираем firefox в качестве браузера
    window_width=300,
    window_height=700,
    headless=False,             # можно установить это значение = True и тогда
                                # браузер запустится в скрытом режиме, вы не
                                # увидите окошко, но все будет работать
    driver_path='/geckodriver', # можно указать свой путь для вебдрайвера,
                                # однако если вебдрайвер находится в корне
                                # проекта, то все будет работать и без указания
                                # этого параметра
    user_agent = generate_user_agent(
        browsers=[UserAgentBrowsers.CHROME, UserAgentBrowsers.FIREFOX],
        operating_systems=UserAgentOperatingSystems.WINDOWS,
        platforms=UserAgentPlatforms.PC
    ),                          # если сайт не пускает вас, можно подменить
                                # свой user agent с помощью такой функции,
                                # при этом параметры указывать не обязательно,
                                # они нужны только чтобы сузить варианты
                                # рандомизации user agents
)

### Демонстрация работы динамического парсера

In [38]:
# откроем соединение
parser.open_connection()

In [None]:
# посмотрим на свой user agent
parser.get('https://whatmyuseragent.com')
# от отличается от того, что установлен изначально у вас на компьютере
# можно проверить это открыв рядом окно своего браузера

In [5]:
# откроем соединение еще раз и получим ошибку
parser.open_connection()
# читаем ошибку, там написано в чем проблема
# в данном случае мы попытались открыть соединение, которое ранее уже было
# открыто, мы не можем так делать
# нам нужно либо создать объект DynamicParser еще раз и в нем уже открыть
# новое соединение, либо закрыть текущее соединение и открыть его заново

DriverAlreadyInitializedException: Web driver object is already initialized! Please, close old connection using close_connection method and try again!

In [6]:
# откроем сайт google для тестирования
parser.get('https://google.com')

In [7]:
# ожидаем, что элемент прогрузился и находится на странице
# если все ок, то функция просто выполнится и не будет сообщения об ошибке
# если нет, то будет выведено сообщение об ошибке
parser.wait_until_element_located('//input[@class="RNmpXc"]', waiting_time=10)

In [8]:
# ожидаем, что элемент прогрузился, находится на странице и его видно
# если все ок, то функция просто выполнится и не будет сообщения об ошибке
# если нет, то будет выведено сообщение об ошибке
parser.wait_until_element_visible('//img[contains(@alt, "Google")]')

In [9]:
# поиск одного элемента на странице
# возвращает объект элемента
body = parser.find('//body')
body

<selenium.webdriver.remote.webelement.WebElement (session="bd617b26-6ce7-412f-803d-7cb304291bf7", element="f4754141-c110-4394-b4df-391fb3384deb")>

In [12]:
# или возвращает ошибку если такого элемента нет
parser.find('//body/lsdkf')

NoSuchElementException: Message: Unable to locate element: //body/lsdkf
Stacktrace:
RemoteError@chrome://remote/content/shared/RemoteError.sys.mjs:8:8
WebDriverError@chrome://remote/content/shared/webdriver/Errors.sys.mjs:189:5
NoSuchElementError@chrome://remote/content/shared/webdriver/Errors.sys.mjs:507:5
dom.find/</<@chrome://remote/content/shared/DOM.sys.mjs:132:16


In [13]:
# получим значение аттрибута jsmodel блока body
body.get_attribute('jsmodel')
# получать эти значения может быть полезно, например, если нужно извлечь href
# из ссылки, value из формы или дополнительную информацию объекта

'hspDDf '

In [14]:
# получим текст из блока body
body.text

'ПочтаКартинки\nВойти\nРоссия\nВсё о Google\nРеклама\nДля бизнеса\nКак работает Google Поиск\nНаше третье десятилетие борьбы с изменением климата\nКонфиденциальность\nУсловия\nНастройки'

In [15]:
# поиск множества элементов на странице
elements = parser.find_all('//input')
elements

[<selenium.webdriver.remote.webelement.WebElement (session="bd617b26-6ce7-412f-803d-7cb304291bf7", element="0c3fca51-dd07-4210-af2a-c903e6e1406e")>,
 <selenium.webdriver.remote.webelement.WebElement (session="bd617b26-6ce7-412f-803d-7cb304291bf7", element="bcc2d3dd-364d-4dc9-99da-220b2f4f836e")>,
 <selenium.webdriver.remote.webelement.WebElement (session="bd617b26-6ce7-412f-803d-7cb304291bf7", element="0fdc2e42-5f42-42d6-9941-d941941d5ce4")>,
 <selenium.webdriver.remote.webelement.WebElement (session="bd617b26-6ce7-412f-803d-7cb304291bf7", element="0d1011c5-761e-4de5-be03-1b1966aa7b7c")>,
 <selenium.webdriver.remote.webelement.WebElement (session="bd617b26-6ce7-412f-803d-7cb304291bf7", element="832d87cf-d9e5-4d68-ae4d-656be55e7974")>,
 <selenium.webdriver.remote.webelement.WebElement (session="bd617b26-6ce7-412f-803d-7cb304291bf7", element="8c887d87-c71d-4779-9f51-6ce8bede5d68")>,
 <selenium.webdriver.remote.webelement.WebElement (session="bd617b26-6ce7-412f-803d-7cb304291bf7", element

In [16]:
# просмотр всех активных вкладок/окон
active_windows = parser.windows()
active_windows

['cf097bf1-87f5-424e-a85a-070b91c61f8e']

In [17]:
# переключение на одну из вкладок/окон
parser.switch_to_window(active_windows[0])

In [18]:
# клик по элементу на странице
# в данном случае кликаем на блок клавиатуры
show_keyboard_button = parser.find('//span[@class="ly0Ckb"]')
parser.click(show_keyboard_button, attempts_number=42)

True

In [19]:
# ввод символов в форму
# попробуем что-нибудь найти
textarea = parser.find('//textarea[@title="Поиск"]')
parser.write(textarea, 'что такое ', clear=True)
# параметр clear = True очищает поле от ранее введенного контента
# если что-то пошло не так и поле не очистилось, то можно сделать, например,
# так: parser.write(textarea, DynamicParserKeys.BACKSPACE*100)
parser.write(textarea, DynamicParserKeys.ARROW_D)
parser.write(textarea, ' подскажите')
# обратите внимание на дополнительные задержки, иногда они необходимы для
# корректной работы динамического сайта, их подбирают эмпирическим путем
# (методом проб и ошибок)
parser.write(textarea, DynamicParserKeys.ENTER, sleep_range=(1400, 1600))

### Остановка динамического парсера

In [39]:
# закроем текущее соединение
parser.close_connection()
# при желании теперь можно еще раз открыть соединение