# Python для анализа данных

## Web-scraping: используем Selenium для автоматического управления браузером

*Автор: Алла Тамбовцева, НИУ ВШЭ*  

### Автоматизация работы в браузере: библиотека `selenium`

Библиотека `selenium` – набор инструментов для интерактивной работы в браузере средствами Python. Вообще Selenium ‒ это целый проект, в котором есть разные инструменты. Мы рассмотрим один из самых распространенных ‒ Selenium WebDriver, модуль, который позволяется Python встраиваться в браузер и работать в нем как пользователь: кликать на ссылки и кнопки, заполнять формы, выбирать опции в меню и прочее. 

Мы будем использовать WebDriver для решения такой задачи. Необходимо выгрузить все адреса участковых избирательных  комиссий Ивановской области. Для этого нужно написать код, который будет открывать в окне браузера раздел *По номеру избирательного участка*, вводить в поле с номером номер участка и выбирать регион из предлагаемого списка. Итак, начнем.

Сначала загрузим веб-драйвер из библиотеки `selenium`. 

In [1]:
!pip install selenium



You should consider upgrading via the 'python -m pip install --upgrade pip' command.


In [None]:
from selenium import webdriver as wb

Если Python пишет `No module called selenium`, убедитесь, что у вас установлена эта библиотека. Самый надежный способ установить ее ‒ найти *Anaconda Command Prompt*, вписать строку `pip install selenium` и нажать *Enter*. Если *Anaconda Command Prompt* не находится, можно поступить так: запустить Jupyter Notebook, щелкнуть на черное окно консоли, нажать *Ctrl+Z* (остановить запуск Jupyter), а потом так же ввести в этом окне строку `pip install selenium` и нажать *Enter*.

Затем нужно выбрать браузер и открыть новое окно через Python. Для этого нужно вызвать функцию, которая отвечает за открытие браузера. Мы будем вызывать Chrome.

In [24]:
br = wb.Chrome(r'chromedriver.exe')

Если код выше не исполняется, скачайте файл с веб-драйвером [отсюда](https://sites.google.com/a/chromium.org/chromedriver/downloads), распакуйте архив и пропишите путь к файлу в круглых скобках (в примере файл с расширением exe на Windows). 

In [22]:
#br = wb.Chrome('C:/Users/student/Desktop/chromewebdriver/chromedriver.exe')

In [25]:
br.get("http://www.cikrf.ru/services/lk_address/?do=find_by_uik")

Ура, страница открылась. Что на этой странице есть интересного? Два поля: ввод номера участка и регион. Сохраним номер участка в переменную `n_uik`, а регион ‒ в `reg`.

In [26]:
n_uik = 244
reg = "Ивановская область"

Вопрос: как эти два поля заполнить? Нужно найти их на странице, открытой в браузере, и вписать туда нужные строки. Только сделать это нужно через Python. Воспользуемся инструментом CSS Selector (установить расширение для Chrome можно [здесь](https://chrome.google.com/webstore/detail/selectorgadget/mhjhnkcfbdhnjickkkdbjoemdmbfginb)). Для этого нужно открыть страницу в обычном браузере и кликнуть на расширение в правом углу. 

![](css.png)

Теперь, когда мы будем наводить курсор мыши на объект на странице в таком режиме и кликать, внизу будет отображаться его название в css. 

![](css-uik.png)

Теперь осталось зафиксировать поле с таким названием и ввести туда номер УИКа. 

In [27]:
# находим поле с #uik и сохраняем
uik_field = br.find_element_by_css_selector("#uik")

# вводим номер УИКа в поле - метод send_keys
uik_field.send_keys(n_uik)

![](css-enter.png)

Ура, получилось. А как быть с регионом? Там же не поле ввода, а целое выпадающее меню с опциями... Действовать можно аналогичным образом.

In [28]:
# region_field - поле для выбора региона, нашли по названию
region_field = br.find_element_by_name("subject")
region_field.send_keys(reg)

Осталось только кликнуть на кнопку *Отправить запрос*. Сначала найдем ее с помощью CSS Selector, а потом кликнем по ней ‒ воспользуемся методом `.click()`:

In [30]:
button = br.find_element_by_link_text("Отправить запрос")
button.click()

NoSuchElementException: Message: no such element: Unable to locate element: {"method":"link text","selector":"Отправить запрос"}
  (Session info: chrome=80.0.3987.163)


В браузере открылась страница с адресом избирательного участка. 

![](page.png)

Осталось подгрузить `re` и найти на странице адрес участка с помощью регулярных выражений.

In [31]:
br.page_source

'<html lang="ru"><head>\n    <meta http-equiv="content-type" content="text/html; charset=UTF-8">\n    <meta http-equiv="Cache-Control" content="no-cache">\n    <meta http-equiv="Pragma" content="no-cache">\n    <meta http-equiv="Expires" content="0">\n    <title>Найди свой избирательный участок</title>\n    <meta http-equiv="Content-Language" content="ru">\n    <link rel="stylesheet" href="/files/css/content.css" type="text/css" media="all">\n    <link rel="stylesheet" href="/files/css/base.css" type="text/css" media="all">\n    <script type="text/javascript" async="" src="https://mc.yandex.ru/metrika/tag.js"></script><script type="text/javascript" async="" src="https://mc.yandex.ru/metrika/tag.js"></script><script type="text/javascript" async="" src="https://mc.yandex.ru/metrika/tag.js"></script><script type="text/javascript" src="/files/js/jquery.js"></script>\n\t<script type="text/javascript" src="/files/js/jquery.jstree.js"></script>\n\t<link rel="stylesheet" href="/files/themes/de

In [None]:
import re

In [32]:
p = re.search(r"Адрес помещения для голосования: ([^<]+)", br.page_source)
p

<_sre.SRE_Match object; span=(1741, 1919), match='Адрес помещения для голосования: 155800, Ивановск>

In [33]:
p.group(1) # текст адреса

'155800, Ивановская область, городской округ Кинешма, город Кинешма, улица Григория Королева, дом 10, здание "Кинешемский политехнический колледж"'

Получилось! Единственное, хорошо бы учесть случаи, когда адреса участка в таком виде на странице нет (такие случаи бывают: иногда страница создана не по шаблону, иногда указан адрес территориальной комиссии). Для этого нам понадобится условие. Добавим «развилку»: пусть Python пробует найти адрес через указанное регулярное выражение, а если не найдет, то ищет его с помощью другого регулярного выражения. 

In [35]:
if p is None:
    p = re.search(r"Адрес: ([^<]+)", br.page_source)
    addr = p.group(1)

Теперь у нас есть универсальный код, который позволяет найти адрес избирательного участка по номеру. Теперь оформим этот код в функцию, чтобы можно было подставлять в нее любой номер и регион, и применять ее в цикле, итерируя по номерам участков.

In [36]:
from time import sleep
import pandas as pd

br.implicitly_wait(2)

Теперь напишем функцию `get_uik_address()`, которая принимает на вход два аргумента, номер участка и регион, и возвращает строку с адресом. Для этого в тело функции скопируем код с прошлого занятия:

In [37]:
def get_uik_address(n_uik, reg):
    
    br.get("http://www.cikrf.ru/services/lk_address/?do=find_by_uik")
    uik_field = br.find_element_by_css_selector("#uik")
    uik_field.send_keys(n_uik)
    
    region_field = br.find_element_by_name("subject")
    region_field.send_keys(reg)
    sleep(1.5) # еще добавим задержку в 1.5 секунды
    
    button = br.find_element_by_link_text("Отправить запрос")
    button.click()
    sleep(1.5) # еще добавим задержку в 1.5 секунды
    
    p = re.search(r"Адрес помещения для голосования: ([^<]+)", br.page_source)
    
    if p is None:
        
        p = re.search(r"Адрес: ([^<]+)", br.page_source)
    
    addr = p.group(1)
        
    return addr

Теперь попробуем взять несколько номеров участков и посмотреть, что получается в цикле. Только давайте перестрахуемся ‒ напишем выражение с исключением, чтобы в случае, если страница не содержит адреса или загружается некорректно, наш код не ломался и не происходило выхода из цикла. В случае, если все хорошо (адрес есть), Python будет его сохранять («ветка» c `try`), в случае, если все плохо (адреса нет ни в каком виде), Python будет записывать вместо него пустую строку (ветка с `except`) и двигаться дальше. 

In [38]:
uiks = range(240, 245)

In [39]:
addresses = []

for u in uiks:
    try:
        address = get_uik_address(u, "Ивановская область")
    except:
        address = ""
    addresses.append(address)
    print(u, address)

240 
241 155330, Ивановская область, городской округ Вичуга, город Вичуга, улица Желябова, дом 6, здание МБОУ ООШ №6
242 155330, Ивановская область, городской округ Вичуга, город Вичуга, улица Ленинская, дом 26, здание МБУК "Клуб имени Шагова"
243 155330, Ивановская область, городской округ Вичуга, город Вичуга, улица Ленинская, дом 26, здание МБУК "Клуб имени Шагова"
244 155800, Ивановская область, городской округ Кинешма, город Кинешма, улица Григория Королева, дом 10, здание "Кинешемский политехнический колледж"


Работает! Создадим список со всеми номерами избирательных участков Ивановской области:

In [40]:
ivanovo = range(1, 777) # вроде все, см здесь новый список - http://www.ivanovo.izbirkom.ru/docs/4272/

**Внимание:** исполнение следующей ячейки займет много времени (примерно полтора часа). Если просто хотите посмотреть, как это работает (не выгружая информацию по всем участкам), уменьшите правое значение в `range()` в строчке выше.

In [None]:
ivanovo_addr = []

for i in ivanovo:
    try:
        address = get_uik_address(i, "Ивановская область")
    except:
        address = ""
    ivanovo_addr.append(address)

**Важно:** периодически открывайте окно браузера, в котором Python ищет избирательные участки! Это не только приятно (смотреть, как в полях для поиска все заполняется без нашего участия), но и полезно: так можно заметить, если что-то пошло не так. История из жизни: опечаталась в букве внутри цикла, Python 777 раз открыл страницу с избирательным участком 244 и сохранил одинаковые адреса. 

Создадим датафрейм из словаря, ключами которого служат названия столбцов таблицы, а значениями – списки элементов этих столбцов.

In [11]:
df = pd.DataFrame({'uik': ivanovo, 'address': ivanovo_addr})

In [12]:
df.head()

Unnamed: 0,uik,address
0,1,"153012, Ивановская область, городской округ Ив..."
1,2,"153012, Ивановская область, городской округ Ив..."
2,3,"153000, Ивановская область, городской округ Ив..."
3,4,"153012, Ивановская область, городской округ Ив..."
4,5,"153012, Ивановская область, городской округ Ив..."


In [13]:
list(df.address)[0:10]

['153012, Ивановская область, городской округ Иваново, город Иваново, Ленинский район, проспект Шереметевский, дом 8, здание ФГБОУ ВО "Ивановская государственная медицинская академия" Министерства здравоохранения Российской Федерации',
 '153012, Ивановская область, городской округ Иваново, город Иваново, Ленинский район, проспект Шереметевский, дом 10, здание ФГБОУ ВО "Ивановский государственный химико-технологический университет"',
 '153000, Ивановская область, городской округ Иваново, город Иваново, Ленинский район, проспект Шереметевский, дом 21, здание Текстильного института ФГБОУ ВО "Ивановский государственный политехнический университет"',
 '153012, Ивановская область, городской округ Иваново, город Иваново, Ленинский район, улица Арсения, дом 33/16, здание МАОУ лицей № 21',
 '153012, Ивановская область, городской округ Иваново, город Иваново, Ленинский район, улица Арсения, дом 33/16, здание МАОУ лицей № 21',
 '153012, Ивановская область, городской округ Иваново, город Иваново, 

Сохраним таблицу в csv-файл:

In [14]:
df.to_csv('Ivanovo.csv')