# Web-scraping: сбор данных из баз данных и интернет-источников
*Алла Тамбовцева, НИУ ВШЭ*

## Управление браузером с Selenium: знакомство с XPATH и скачивание файлов

### Знакомство с XPATH

**XML** (от *eXtended MarkUp Language*) – язык разметки, только в отличие от HTML не позволяет регулировать внешний вид страницы, а просто хранит данные в виде строки с удобными тэгами.

На XML-файл можно смотреть как на хранилище, откуда по запросу динамически подгружаются данные для подстановки в HTML-файл. Смысл: когда нам нужно постоянно обновлять информацию на веб-странице (каталоги товаров в магазине, данные о погоде, курсе валют), не нужно каждый раз переписывать HTML-файл, достаточно изменить XML-файл, а из него уже информация «подтянется» на страницу с помощью запроса, написанного на JavaScript.

**XPATH** (от *XML Path Language*) – язык запросов в XML-файлу, который можно использовать и для HTML тоже.

Примеры запросов (честно взяты [отсюда](https://www.w3schools.com/xml/xpath_intro.asp), очень полезный тьюториал по XPATH, у них же есть классные [материалы](https://www.w3schools.com/xml/) по XML):

* `//title[@lang]`: все элементы с тэгом `<title>`, имеющие атрибут `lang`;
* `//title[@lang='en']` : все элементы с тэгом `<title>`, имеющие атрибут `lang`, равный `'en'`;
* `//title[@*]`: все элементы с тэгом `<title>`, имеющие хоть какие-нибудь атрибуты.

### Пример скачивания PDF с Selenium

Как обычно открываем браузер с помощью Selenium:

In [1]:
from selenium import webdriver as wd
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By

In [2]:
# br = wd.Chrome(r'D:\Загрузки\chromedriver_win32 (2)\chromedriver.exe')
br = wd.Chrome("/Users/allat/Documents/chromedriver")

  


Переходим на сайт для поиска нот (*why not?*):

In [3]:
br.get("https://ponotam.ru/")

Давайте для практики будем искать все необходимые элементы (поля для поиска, ссылки, кнопки) через XPATH.
Сначала нам нужно найти поле для поиска. Давайте найдем его и отправим туда значение *Happy New Year*.

In [4]:
search = br.find_element(By.XPATH, "//input[@id='edit-search-block-form--2']")
search.send_keys("Happy New Year") 

Теперь попробуем найти кнопку для активации поиска (обратите внимание на тэг `<label>`):

In [5]:
button = br.find_element(By.XPATH, "//label[@for='edit-search-block-form--2']")
button.click()

ElementClickInterceptedException: Message: element click intercepted: Element <label class="element-invisible" for="edit-search-block-form--2">...</label> is not clickable at point (133, 100). Other element would receive the click: <div class="container-inline">...</div>
  (Session info: chrome=110.0.5481.177)
Stacktrace:
0   chromedriver                        0x00000001088e7138 chromedriver + 4923704
1   chromedriver                        0x000000010885f9d3 chromedriver + 4368851
2   chromedriver                        0x00000001084a8787 chromedriver + 472967
3   chromedriver                        0x00000001084f5eaf chromedriver + 790191
4   chromedriver                        0x00000001084f32b9 chromedriver + 778937
5   chromedriver                        0x00000001084efec4 chromedriver + 765636
6   chromedriver                        0x00000001084ee9db chromedriver + 760283
7   chromedriver                        0x00000001084df303 chromedriver + 697091
8   chromedriver                        0x0000000108515fb2 chromedriver + 921522
9   chromedriver                        0x00000001084de971 chromedriver + 694641
10  chromedriver                        0x00000001085161de chromedriver + 922078
11  chromedriver                        0x0000000108530c0f chromedriver + 1031183
12  chromedriver                        0x0000000108515d23 chromedriver + 920867
13  chromedriver                        0x00000001084dca4b chromedriver + 686667
14  chromedriver                        0x00000001084de044 chromedriver + 692292
15  chromedriver                        0x00000001088b28fe chromedriver + 4708606
16  chromedriver                        0x00000001088b7e22 chromedriver + 4730402
17  chromedriver                        0x00000001088c06bf chromedriver + 4765375
18  chromedriver                        0x00000001088b8e80 chromedriver + 4734592
19  chromedriver                        0x0000000108889975 chromedriver + 4540789
20  chromedriver                        0x00000001088dae78 chromedriver + 4873848
21  chromedriver                        0x00000001088daff5 chromedriver + 4874229
22  chromedriver                        0x00000001088ef6de chromedriver + 4957918
23  libsystem_pthread.dylib             0x00007fff70045661 _pthread_body + 340
24  libsystem_pthread.dylib             0x00007fff7004550d _pthread_body + 0
25  libsystem_pthread.dylib             0x00007fff70044bf9 thread_start + 13


Проблема: объект, который мы нашли (рядом с ним было слово *Поиск*), на самом деле – не кнопка и вообще не кликабельный! Попробуем последовать совету Python и кликнуть на объект, про который он пишет:

In [6]:
button = br.find_element(By.XPATH, "//div[@class='container-inline']")
button.click()

На что-то кликнули, но это опять не кнопка, ничего не произошло. Хочешь сделайть хорошо – сделай сам :) Давайте просто найдём эту кнопку по ID и кликнем на нее!

In [7]:
button = br.find_element(By.ID, "edit-submit")
button.click() 

Перешли на страницу с результатами, давайте заберем ссылку на единственный результат по частичному тексту ссылки и кликнем на нее.

In [8]:
link = br.find_element(By.PARTIAL_LINK_TEXT, "Happy")
link.click() 

Ура! Чтобы скачать pdf-файл с нотами, нужно кликнуть на соответствующую иконку. Давайте найдем ее через XPATH и кликнем.

In [9]:
pdf = br.find_element(By.XPATH, "//img[@alt='Скачать PDF']")
pdf.click() 

Идеально! В браузере открылся pdf-файл, но как его автоматически скачать, неясно. Давайте откроем браузер с дополнительными опциями, чтобы PDF скачивался сразу, а не просто открывался в браузере.

In [10]:
options = wd.ChromeOptions()

In [11]:
# словарь 
# default_directory: папка для загрузок, если возникают проблемы, можно убрать
# prompt_for_download: автоматическое скачивание без всплывающих вопросов
# plugins.always_open_pdf_externally: скачивание без открытия в браузере

options.add_experimental_option('prefs', {
"download.default_directory": "/Users/allat/Downloads", 
"download.prompt_for_download": False, 
"download.directory_upgrade": True,
"plugins.always_open_pdf_externally": True
})

Открываем браузер с дополнением `options`:

In [12]:
br = wd.Chrome("/Users/allat/Documents/chromedriver",
               options=options)

  


Осталось повторить все проделанные операции по скачиванию!

In [13]:
br.get("https://ponotam.ru/")
br.implicitly_wait(2)

search = br.find_element(By.XPATH, "//input[@id='edit-search-block-form--2']")
search.send_keys("Happy New Year") 
br.implicitly_wait(2)

button = br.find_element(By.ID, "edit-submit")
button.click() 

link = br.find_element(By.PARTIAL_LINK_TEXT, "Happy")
link.click() 

pdf = br.find_element(By.XPATH, "//img[@alt='Скачать PDF']")
pdf.click()

Если мы захотим скачать zip-архив, схема будет той же самой. Или даже еще проще: так как файл ZIP не открывается для предварительного просмотра в браузере, опции можно не настраивать. В нашем случае получаем тот же код, только со строкой *Скачать ZIP* в конце:

In [14]:
br = wd.Chrome("/Users/allat/Documents/chromedriver")

br.get("https://ponotam.ru/")
br.implicitly_wait(2)

search = br.find_element(By.XPATH, "//input[@id='edit-search-block-form--2']")
search.send_keys("Happy New Year") 
br.implicitly_wait(2)

button = br.find_element(By.ID, "edit-submit")
button.click() 

link = br.find_element(By.PARTIAL_LINK_TEXT, "Happy")
link.click() 

pdf = br.find_element(By.XPATH, "//img[@alt='Скачать ZIP']")
pdf.click()

  """Entry point for launching an IPython kernel.


### Дополнение: пример скачивания нескольких файлов DOC

Давайте зайдем на страницу сайта Вышки, на которой хранятся бланки заявлений для приема на работу и скачаем все бланки в формате `.doc`. В данном случае задача не очень сложная:  если посмотреть на исходный код страницы, можно заметить, что для скачивания файлов необходимо просто кликнуть на ссылку, которая заканчивается расширением `.doc`. Поэтому пока не будем использовать Selenium, а вытащим из исходного кода страницы подходящие ссылки:

In [17]:
import requests
from bs4 import BeautifulSoup

In [18]:
page = requests.get("https://hr.hse.ru/blanki")
soup = BeautifulSoup(page.text)

In [19]:
# находим все элементы с тэгом <a>
# так как не во всех тэгах <a> есть ссылки (атрибут href),
# пишем try-except, чтобы код не ломался при столкновениями с такими случаями
# в итоге забираем только те ссылки, которые заканчиваются на .doc

L = soup.find_all("a")
docs = []
for a in L:
    try:
        if a.get("href").endswith(".doc"):
            docs.append(a.get("href"))
    except:
        pass

In [20]:
# не все ссылки на doc полные 
# для экономии времени отфильтруем только полные
# относительные ссылки при желании можно будет дополнить потом

docs_full = []
for doc in docs:
    if doc.startswith("http"):
        docs_full.append(doc)

Теперь осталось только прокликать все ссылки из списка с помощью Selenium, по умолчанию документы сохранятся в папку с загрузками. На всякий случай добавим задержку в 5 секунд после каждого скачивания:

In [21]:
from time import sleep

In [22]:
br = wd.Chrome("/Users/allat/Documents/chromedriver")

  """Entry point for launching an IPython kernel.


In [23]:
for i in docs_full:
    br.get(i)
    sleep(5)