# 11. Имитация действий пользователя в браузере

## Вступление

В этом уроке используется библиотека Selenium. Для стабильной работы этой библиотеки скачайте этот файл себе на компьютер и установите Selenium локально.

## 1. Для чего это нужно

Изначально эти технологии разрабатывались для тестирования сайтов. Робот воспроизводит последовательность действий человека, если все шло по плану - тест пройден.<br/>
Потом их начали применять для раскрутки сайтов (имитация повышенной активности), но поисковики научились анализировать поведение пользователей и не учитывать эту активность.<br/><br/>
Так для чего нужна имитация действий пользователя сегодня?<br/><br/>
Для автоматизации рутинных операций по внесению данных на сайт.<br/>
Для поиска и получения данных.<br/>
Многие сайты сегодня написаны с использованием технологии AJAX и для управления ими требуется нажимать кнопки и ссылки, вводить данные и т.п.<br/>
Простой (или не очень простой) робот поможет вам в этом.

## 2. Панель разработчика в Chrome

Чтобы разобраться в структуре данных воспользуемся Панелью разработчика, встроенной в браузер Google Chrome. Она включает в себя огромный набор функционала для тестирования сайтов веб-разработчиком. Панель разработчика открывается при нажатии F12.

<img src="img/Task11_01.png">

Теперь перед нами содержимое страницы и HTML-древо этой страницы. При наведении мышкой на тэг в дереве на экране будет подсвечена область данного тэга и наоборот.

Есть два способа найти нужный тег в древе. Способ первый - перед Elements в меню находятся 2 иконки, первая из них - выбрать элемент на странице. Достаточно нажать на первую кнопку, выбрать нужный блок и кликнуть по нему левой кнопкой мыши, таким образом у нас откроется именно данный тэг. Метод второй, более быстрый - сразу правой кнопкой мыши нажать на нужный участок сайта и выбрать "Просмотреть код".

## 3. Знакомство с Selenium 

Selenium WebDriver – это библиотека для управления браузером из своей программы. Существуют драйверы для различных браузеров, но все это разнообразие требуется скорее для автоматизированного тестирования дизайнов сайта, а не для наших задач.<br/>
По сути Selenium открывает окно с браузером, в котором вполне можно выполнять действия руками, но можно посылать команды из своей программы.<br/>
Сайт будет воспринимать эти действия как обычную активность пользователя.<br/>
Самое подробное описание Selenium из всех виденных мной лежит тут https://selenium-python.readthedocs.io/index.html

Устанавливается командой 

In [None]:
!pip3 install selenium

Кроме того, нужно скачать последнюю версию файла chromedriver.exe с http://chromedriver.chromium.org/downloads и положить ее в папку с нашими проектами. Либо прописывать полный путь к файлу.

Приведенный ниже код откроет страницу Яндекса в окне Selenium и сохранит скриншот. Скриншоты могут понадобиться при отладке, другого применения я им не нашел.

In [None]:
from selenium import webdriver # Подключаем библиотеку

driver = webdriver.Chrome(executable_path ="chromedriver.exe") # запускаем браузер
driver.get('http://yandex.ru')  # Загружаем страницу
driver.save_screenshot('screenshot.png') # Делаем скриншот

driver.close()  # Закрываем браузер
driver.quit()   # Выходим из selenium

## 4. Поиск HTML-элементов

Как вы уже поняли, чтобы управлять элементами страницы, нам нужно сначала найти их. Selenium использует так называемые локаторы, чтобы находить элементы на веб-странице.

Поиск элементов. Если элементов удовлетворяющих запросу несколько, будет возвращен только первый из них

<table class="table table-striped table-bordered">
<thead>
<tr><th>Что ищем</th><th>Метод</th><th>Как выглядит HTML</th></tr>
</thead>
<tr><td>Поиск по ID</td><td>find_element_by_id("main")</td><td>Выбирает элемент с идентификатором main (id=&quot;main&quot;).</td></tr>
<tr><td>Поиск по имени</td><td>find_element_by_name("MyName1")</td><td>Выбирает элемент с именем MyName1 (class=&quot;MyName1&quot;).</td></tr>
"<tr><td>Поиск по тексту ссылки</td><td>find_element_by_link_text(""Войти"")</td><td>Выбирает ссылку с текстом, значение которого в точности совпадает с указанным параметром
    
&lt;a href=&quot;/login&quot;&gt;Войти&lt;/a&gt;</td></tr>"
"<tr><td>Поиск по части текста ссылки</td><td>find_element_by_partial_link_text(""Восстанов"")</td><td>Выбирает ссылку с текстом, значение которого включает в себя указанный параметр
    
&lt;a href=&quot;/next&quot;&gt;Восстановить пароль&lt;/a&gt;</td></tr>"
<tr><td>Поиск используя XPath</td><td>find_element_by_xpath(‘//div[@id="login"]/input’)</td><td>Вернет первый элемент, соответствующий xpath</td></tr>
<tr><td>Поиск по тэгу</td><td>find_element_by_tag_name("a")</td><td>Вернет первую встреченную ссылку</td></tr>
<tr><td>Поиск по классу</td><td>find_element_by_class_name("MyClass1")</td><td>Вернет первый элемент с классом MyClass1 (class=&quot;MyClass1&quot;).</td></tr>
<tr><td>Поиск по CSS селектору</td><td>find_element_by_css_selector(‘#login > input[type="text"]’)</td><td>Вернет первый элемент, соответствующий CSS-селектору</td></tr>
</table>

Чтобы найти все элементы, удовлетворяющие условию поиска, используйте следующие методы (возвращается список)

<table class="table table-striped table-bordered">
<thead>
<tr><th>Что ищем</th><th>Метод</th><th>Как выглядит HTML</th></tr>
</thead>
"<tr><td>Поиск по тексту ссылки</td><td>find_elements_by_link_text(""Войти"")</td><td>Вернет все ссылки с текстом, значение которого в точности совпадает с указанным параметром
    
&lt;a href=&quot;/login&quot;&gt;Войти&lt;/a&gt;</td></tr>"
"<tr><td>Поиск по части текста ссылки</td><td>find_elements_by_partial_link_text(""Восстанов"")</td><td>Вернет все ссылки с текстом, значение которого включает в себя указанный параметр 
    
&lt;a href=&quot;/next&quot;&gt;Восстановить пароль&lt;/a&gt;</td></tr>"
<tr><td>Поиск используя XPath</td><td>find_elements_by_xpath(‘//div[@id="login"]/input’)</td><td>Вернет все элементы, соответствующие xpath</td></tr>
<tr><td>Поиск по тэгу</td><td>find_elements_by_tag_name("a")</td><td>Вернет все ссылки</td></tr>
<tr><td>Поиск по классу</td><td>find_elements_by_class_name("MyClass1")</td><td>Вернет все элементы с классом MyClass1 (class=&quot;MyClass1&quot;).</td></tr>
<tr><td>Поиск по CSS селектору</td><td>find_elements_by_css_selector(‘#login > input[type="text"]’)</td><td>Вернет все элементы, соответствующие CSS-селектору</td></tr>
</table>


Указанные функции можно применять как к driver (поиск будет пройдет по всему документу), так и к определенному элементу (тогда будет проведен поиск только среди его дочерних элементов).

Если функция, ищущая единственный элемент - find_element_…) ничего не найдет - вызывается ошибка NoSuchElementException.
При использовании функций, ищущих массив элементов (find_elements_…) если ничего не нашлось вернется пустой массив, ошибки не произойдет.

## 5. Внесение текстовых данных

Начнем эксперименты со страницей https://ya.ru

Изучим ее в отладочной консоли Chrome.

Видим, что поле для ввода поискового запроса имеет id = ‘text’, а кнопка поиска - это HTML-кнопка (тэг button) и у нее свойство type="submit" 

In [None]:
from selenium import webdriver # Подключаем библиотеку

driver = webdriver.Chrome(executable_path ="chromedriver.exe") # запускаем браузер

driver.get('https://ya.ru/')  # Загружаем страницу

searchInput = driver.find_element_by_id("text") # Ищем текстовое поле
searchInput.send_keys("Язык Python") # Ввод символов

И получаем открытую страницу Яндекса с введенным запросом.<br/>
Теперь нужно начать поиск. Очень часто это можно сделать находясь в текстовом поле и нажав клавишу Enter

In [None]:
from selenium.webdriver.common.keys import Keys # Подключаем библиотеку с кодами служебных клавиш
searchInput.send_keys(Keys.RETURN) # Нажимает Enter

Результат работы - страница с результатами поиска.

<img src="img/Task11_02.png">

## 6. Нажатие кнопок

Пойдем другим путем - все-таки нажмем кнопку поиска.

In [None]:
from selenium import webdriver # Подключаем библиотеку

driver = webdriver.Chrome(executable_path ="chromedriver.exe") # запускаем браузер

driver.get('https://ya.ru/')  # Загружаем страницу

searchInput = driver.find_element_by_id("text") # Ищем текстовое поле
searchInput.send_keys("Язык Python Selenium примеры") # Вводим поисковый запрос

btn = driver.find_element_by_css_selector('button[type="submit"]') # Ищем кнопку с типом submit
btn.click() # Нажимаем кнопку

Результат работы - страница с результатами поиска по нашему новому запросу.

## 7. Выбор из выпадающих списков

В этом вопросе будем тренироваться на странице http://htmlbook.ru/html/select

На этой странице два селектора с именами select и select2.

Начнем работать с левым селектором, позволяющим делать множественный выбор

<img src="img/Task11_03.png">

In [None]:
from selenium import webdriver # Подключаем библиотеку

driver = webdriver.Chrome(executable_path ="chromedriver.exe") # запускаем браузер
driver.get('http://htmlbook.ru/html/select')  # Загружаем страницу

aControl = driver.find_element_by_name("select") # Ищем нужный селектор по имени
all_options = aControl.find_elements_by_tag_name("option") # Получаем список его значений
for option in all_options: # Выводим их на экран
    print("Value:", option.get_attribute("value"))
    print("Text:", option.text)

Text - это те надписи, что мы видим.


Value - цифровые или буквенные коды, которые им сопоставлены (это не обязательно). Если они заданы - то именно они отправляются на сервер при передачи данных. Если не заданы - отправляется Text.

Если Value и Text совпадают, значит на самом деле Value не задано, задан только видимый текст.

Для установки значение селектора в Selenium предназначен класс Select и его функции
    - select_by_index(index) - Выбор по номеру
    - select_by_visible_text("text") - Выбор по тексту
    - select_by_value(value) - выбор по Value. В нашем случае Value не задано, так что эта функция недоступна.

Выберем в левом селекторе Чебурашку и Шапокляк


In [None]:
from selenium.webdriver.support.ui import Select # Импортируем библиотеку с классом Select

aControl = Select(driver.find_element_by_name("select")) # Ищем нужный селектор по имени и приводим найденный контрол к класса Select
aControl.select_by_visible_text('Шапокляк')
aControl.select_by_visible_text('Чебурашка')

А во втором селекторе выберем Крокодила Гену

In [None]:
aControl = Select(driver.find_element_by_name("select2")) # Ищем нужный селектор по имени и приводим найденный контрол к класса Select
aControl.select_by_visible_text('Крокодил Гена')

## 8. Проставление “галочек”

Галочки устанавливаются так же, как нажимаются кнопки - функцией click().

Проверить установлена ли галочка можно функцией is_selected( )  

Будем работать со страницей http://shpargalkablog.ru/2013/08/checked.html

<img src="img/Task11_04.png">

In [None]:
from selenium import webdriver # Подключаем библиотеку

driver = webdriver.Chrome(executable_path ="chromedriver.exe") # запускаем браузер
driver.get('http://shpargalkablog.ru/2013/08/checked.html')  # Загружаем страницу

In [None]:
aControl = driver.find_elements_by_css_selector("input[type='checkbox']") # Ищем нужную галочку по тэгу и типу
print('Всего галочек на странице', len(aControl))
print('Состояние галочки с номером 2', aControl[2].is_selected( ))  # Проверяем состояние галочки
aControl[2].click() # Меняем его
print('Состояние галочки с номером 2', aControl[2].is_selected( ))  # Проверяем повторно

## 9. Проматывание страницы вниз

Чтобы промотать страницу до самого конца воспользуйтесь командой 

In [None]:
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

Вместо document.body.scrollHeight можно указать (в пикселях) на сколько нужно промотать.

## 10. Ожидание загрузки страницы

Сегодня многие сайта используют AJAX технологии. После того как страница загружается в браузере, отдельнее ее элементы могут подгружаться в разное время. Это делает невозможные поиск элементов сразу же после загруски страницы. Ведь если функции не находят элемент то возникает ошибка. Эту проблему можно решить в лоб, используя ожидание. Ожидание даст нам время на загрузку интерактивных элементов. Самый простой вариант ожидания - поставить паузу time.sleep(N), где N - время в секундах.
Но этого времени может не хватить на загрузку. Либо наоборот, оно окажется избыточным и мы зря потеряем время на каждом ожидании.

Selenium поддерживает два типа ожиданий - явное и неявное. Явное ожидание означает, что Selenium будет ждать возникновение определенного условия. Неявное ожидание  - Selenium будет опрашивать страницу определенное время, пытаясь найти элемент.

Явное ожидание  - это прописанные условия и срок ожидания, по истечение которого произойдет исключение, если условие так и не выполнилось.

In [1]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from datetime import datetime

driver = webdriver.Chrome(executable_path ="chromedriver.exe")
driver.get("http://yandex.ru")
print(datetime.now().strftime('%H:%M:%S'))
try:
    element = WebDriverWait(driver, 5).until( # Ждем загрузки элемента с ID myDynamicElement 5 секунд
        EC.presence_of_element_located((By.ID, "myDynamicElement"))
    )
    print('Элемент найден')
except Exception:    
    print(datetime.now().strftime('%H:%M:%S'))
    print('Ошибка при поиске элемента')
finally:
    driver.quit()

16:37:41
16:37:46
Ошибка при поиске элемента


Данный пример будет 5 секунд ждать, пока на странице Яндекса прогрузится элемент с ID myDynamicElement. Этого не произойдет, так что через 5 секунд программа напишет "Ошибка при поиске элемента"

Ожидаемые условия

<table class="table table-striped table-bordered">
<thead>
<tr><th>Условие</th><th>Описание</th></tr>
</thead>
<tr><td>element_to_be_clickable </td><td>Элемент виден и активен (не в режиме ReadOnly и не заблокирован)</td></tr>
<tr><td>element_to_be_selected</td><td>Проверяет присутствует ли элемент и выбран ли он</td></tr>
<tr><td>invisibility_of_element</td><td>Элемент невидим или отсутствует</td></tr>
<tr><td>presence_of_all_elements_located</td><td>Хотя бы один элемент найден на странице</td></tr>
<tr><td>presence_of_element_located</td><td>Элемент найден на странице</td></tr>
<tr><td>staleness_of</td><td>Ожидание удаления элемента. Если элемент удален за указанное время - вернет True.</td></tr>
<tr><td>text_to_be_present_in_element</td><td>В элементе найден искомый текст</td></tr>
<tr><td>text_to_be_present_in_element_value</td><td>В элементе найден искомый текст</td></tr>
<tr><td>title_contains</td><td>Заголовок страницы включает в себя текст. Возвращает результат проверки True/False</td></tr>
<tr><td>title_is</td><td>Заголовок страницы равен тексту. Возвращает результат проверки True/False</td></tr>
<tr><td>visibility_of</td><td>Элемент найден на странице и он видим, т.е. не скрыт и имеет размеры больше нуля. Возвращает результат проверки True/False</td></tr>
<tr><td>visibility_of_element_located</td><td>Элемент найден на странице и он видим, т.е. не скрыт и имеет размеры больше нуля. При этом возвращается сам элемент.</td></tr>
</table>

Неявное ожидание - Selenium опрашивает страницу заданное количество времени, пытаясь найти элементы, которые недоступны в тот момент. При запуске это значение равно 0 секунд. Если его задать, то оно действует только на протяжении данного запуска скрипта.

In [2]:
from selenium import webdriver
from datetime import datetime

driver = webdriver.Chrome(executable_path ="chromedriver.exe")
driver.implicitly_wait(5) # Задаем время ожидания 5 секунд
driver.get("http://yandex.ru")
print(datetime.now().strftime('%H:%M:%S'))
try:
    myDynamicElement = driver.find_element_by_id("myDynamicElement")
except Exception:    
    print(datetime.now().strftime('%H:%M:%S'))
    print('Ошибка при поиске элемента')
finally:
    driver.quit()

16:38:58
16:39:03
Ошибка при поиске элемента


## 11. Задание

Решим с помощью робота практическую задачу притворяясь обычным пользователем.

Найдем в Яндексе публикации по запросу “<a href="https://yandex.ru/search/?text=Python%20Selenium">Python Selenium</a>” за последний месяц и откроем вторую ссылку со второй страницы.

<img src="img/Task11_05.png">

Как запустить поисковый запрос мы уже знаем, потом надо будет нажать на кнопку 1 (см. рисунок) и выбрать фильтр “За месяц”.

Изучим с помощью Консоли страницу поисковой выдачи. Оказывается, кнопка 1 это вовсе не кнопка, а span с классом input__settings, которая только выглядит как кнопка.

<img src="img/Task11_06.png">

Но это ничего не меняет, главное, чтобы на нее можно было кликнуть, использовав функцию click().<br/>
Найдем его функцией <br/>
driver.find_element_by_class_name("input__settings")

Кнопка “За месяц” тоже оказалась не кнопкой, а нагромождением элементов, внутри которого заключен input с атрибутом value="2".

<img src="img/Task11_07.png">

Найдем его функцией <br/>
driver.find_element_by_css_selector("input[value='2']")

Ссылку “далее” мы найдем функцией по тексту ссылки функцией <br/>
driver.find_element_by_link_text("дальше")

Ссылки на найденные страницы имеют тэг “a” и находятся внутри заголовка с тэгом “h2”

<img src="img/Task11_08.png">

Найдем его функцией <br/>
driver.find_elements_by_css_selector("h2 a") 

При подготовке этого задания была выявлена одна особенность. Если поисковая выдача Яндекса открыта в небольшом окошке, то кнопка настроек параметров поиска не видна на экране. Она находится, но ее нельзя кликнуть. Selenium выводит ошибку “element not interactable”. 
Нужно развернуть браузер на весь экран, чтобы кнопка стала видна, только тогда ее можно нажимать.

Для этого запуск браузера нужно оформить следующим образом:<br/><hr/>
chrome_options = webdriver.ChromeOptions() # В этот раз будем запускать браузер с опциями<br/>
chrome_options.add_argument("--start-maximized"); # Развернем его на весь экран<br/>

driver = webdriver.Chrome(executable_path ="chromedriver.exe", options = chrome_options) # запускаем браузер
<hr/>


Чтобы избежать ошибок связанных со скоростью загрузки, будем использовать неявное ожидание, поставим 5 секунд. Для наших целей эта задержка несущественна, так что выберем простой путь, не заставляющий нас усложнять код.
<br/>driver.implicitly_wait(5)


Вот готовый скрипт

In [3]:
from selenium import webdriver # Подключаем библиотеку
from selenium.webdriver.common.keys import Keys # Подключаем библиотеку с кодами служебных клавиш

chrome_options = webdriver.ChromeOptions() # В этот раз будем запускать браузер с опциями
chrome_options.add_argument("--start-maximized"); # Развернем его не весь экран
# Если этого не сделать, то кнопка настроек поиска будет скрыта за пределами экрана и ее нельзя будет нажать
driver = webdriver.Chrome(executable_path ="chromedriver.exe", options = chrome_options) # запускаем браузер

driver.implicitly_wait(5) # Задаем время ожидания загрузки 
driver.get("https://yandex.ru")  # Загружаем страницу


aSearch = driver.find_element_by_name("text") # Ищем поле для ввода запроса
aSearch.send_keys("Python Selenium") # Вводим запрос
aSearch.send_keys(Keys.RETURN) # Нажимает Enter

# Ради этой кнопки мы и разворачивали браузер во весь экран
aBtn = driver.find_element_by_class_name("input__settings") # Ищем "кнопку" настройки параметров запроса
aBtn.click() # Нажимаем ее

aSett = driver.find_element_by_css_selector("input[value='2']") # Ищем "кнопку-флажок" за месяц
aSett.click() # Устанавливаем

aSearch = driver.find_element_by_name("text") # Находим поле для ввода запроса
aSearch.send_keys(Keys.RETURN) # Нажимает в нем Enter

aNextBtn = driver.find_element_by_link_text("дальше") # Ищем ссылку с текстом "далее"
aNextBtn.click()  # Нажимаем ее

aLinks = driver.find_elements_by_css_selector("h2 a") # Получаем список ссылок на найденные статьи
aLinks[1].click() # нажимаем вторую из них

##### Задания для самостоятельного выполнения:

    -Замените поисковую фразу "Python Selenium" на бессмысленный набор букв “grqrvwFCAEWDEF23ACDXVWFCFDCWDX” - Яндекс ничего не найдет и при попытке перехода на вторую страницу возникнет ошибка. Исправьте код, чтобы не было ошибки, а выводилось сообщение “Второй страницы поиска для запроса … не существует”

In [14]:
from selenium import webdriver # Подключаем библиотеку

driver = webdriver.Chrome(executable_path ="chromedriver.exe") # запускаем браузер
driver.get('http://shpargalkablog.ru/2013/08/checked.html')  # Загружаем страницу

CheckBoxes = driver.find_elements_by_css_selector("input[type='checkbox']") # Ищем все галочки
n = 0 # Счетчик установленных галок
for cb in CheckBoxes:
    try:
        if not cb.is_selected( ):  # Проверяем состояние галочки - нам нужны только те, что еще не установлены
            cb.click() # Меняем его
            n = n + 1
    except Exception:   
        pass # Произошла ошибка при попытке установить галку

print('Всего галок:', len(aControls))
print('Мы установили галок:', n)

Всего галок: 95
Мы установили галок: 37


Ошибка при установке галки <class 'Exception'>
Ошибка при установке галки <class 'Exception'>
Ошибка при установке галки <class 'Exception'>
Ошибка при установке галки <class 'Exception'>
Ошибка при установке галки <class 'Exception'>


KeyboardInterrupt: 

In [12]:
len(aControls)

95