# Web-scraping: сбор данных из баз данных и интернет-источников
*Алла Тамбовцева, НИУ ВШЭ*

## Управление браузером с Selenium: знакомство с XPATH и скачивание файлов

### Знакомство с XPATH

**XML** (от *eXtended MarkUp Language*) – язык разметки, только в отличие от HTML не позволяет регулировать внешний вид страницы, а просто хранит данные в виде строки с удобными тэгами.

На XML-файл можно смотреть как на хранилище, откуда по запросу динамически подгружаются данные для подстановки в HTML-файл. Смысл: когда нам нужно постоянно обновлять информацию на веб-странице (каталоги товаров в магазине, данные о погоде, курсе валют), не нужно каждый раз переписывать HTML-файл, достаточно изменить XML-файл, а из него уже информация «подтянется» на страницу с помощью запроса, написанного на JavaScript.

**XPATH** (от *XML Path Language*) – язык запросов в XML-файлу, который можно использовать и для HTML тоже.

Примеры запросов (честно взяты [отсюда](https://www.w3schools.com/xml/xpath_intro.asp), очень полезный тьюториал по XPATH, у них же есть классные [материалы](https://www.w3schools.com/xml/) по XML):

* `//title[@lang]`: все элементы с тэгом `<title>`, имеющие атрибут `lang`;
* `//title[@lang='en']` : все элементы с тэгом `<title>`, имеющие атрибут `lang`, равный `'en'`;
* `//title[@*]`: все элементы с тэгом `<title>`, имеющие хоть какие-нибудь атрибуты.

### Пример скачивания PDF с Selenium

Как обычно открываем браузер с помощью Selenium:

In [None]:
from selenium import webdriver as wd
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By

In [None]:
br = wd.Chrome('/Users/allat/Desktop/chromedriver')

Переходим на сайт для поиска нот (*why not?*):

In [None]:
br.get("https://ponotam.ru/")

Давайте для практики будем искать все необходимые элементы (поля для поиска, ссылки, кнопки) через XPATH.
Сначала нам нужно найти поле для поиска. Давайте найдем его и отправим туда значение *Happy New Year*.

In [None]:
### YOUR CODE HERE ###

Теперь попробуем найти кнопку для активации поиска (обратите внимание на тэг `<label>`):

In [None]:
button = br.find_element(By.XPATH, "//label[@for='edit-search-block-form--2']")
button.click()

Проблема! Попробуем последовать совету Python:

In [None]:
button = br.find_element(By.XPATH, "//div[@class='container-inline']")
button.click()

Хочешь сделайть хорошо – сделай сам :) Давайте просто найдём эту кнопку по ID и кликнем на нее!

In [None]:
### YOUR CODE HERE ###

Перешли на страницу с результатами, давайте заберем ссылку на единственный результат по частичному тексту ссылки и кликнем на нее.

In [None]:
### YOUR CODE HERE ###

Ура! Чтобы скачать pdf-файл с нотами, нужно кликнуть на соответствующую иконку. Давайте найдем ее через XPATH и кликнем.

In [None]:
### YOUR CODE HERE ###

Идеально! В браузере открылся pdf-файл, но как его автоматически скачать, неясно. Давайте откроем браузер с дополнительными опциями, чтобы PDF скачивался сразу, а не просто открывался в браузере.

In [None]:
options = wd.ChromeOptions()

In [None]:
# словарь 
# default_directory: папка для загрузок
# prompt_for_download: автоматическое скачивание без всплывающих вопросов
# plugins.always_open_pdf_externally: скачивание без открытия в браузере

options.add_experimental_option('prefs', {
"download.default_directory": "/Users/allat/Downloads/", 
"download.prompt_for_download": False, 
"download.directory_upgrade": True,
"plugins.always_open_pdf_externally": True
})

Открываем браузер с дополнением `options`:

In [None]:
br = wd.Chrome('/Users/allat/Desktop/chromedriver', options=options)

Осталось повторить все проделанные операции по скачиванию!

In [None]:
### YOUR CODE HERE ###