# Web-scraping: сбор данных из баз данных и интернет-источников
*Алла Тамбовцева, НИУ ВШЭ*

## Практикум 7.2. Управление браузером с Selenium: скачивание файлов

### Часть 1: скачиваем PDF и ZIP

Импортируем необходимые модули и коллекции методов:

In [1]:
from selenium import webdriver as wd
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By

Начинаем новую сессию работы с браузером – новое окно браузера:

In [2]:
br = wd.Chrome()

Переходим на сайт для поиска нот (*why not?*):

In [3]:
br.get("https://ponotam.ru/")

Давайте для практики будем искать все необходимые элементы (поля для поиска, ссылки, кнопки) через XPATH.
Сначала нам нужно найти поле для поиска. Давайте найдем его и отправим туда значение *Happy New Year*.

In [4]:
search = br.find_element(By.XPATH, "//input[@id='edit-search-block-form--2']")

search.send_keys("Happy New Year")

Теперь попробуем найти кнопку для активации поиска (обратите внимание на тэг `<label>`):

In [5]:
button = br.find_element(By.XPATH, "//label[@for='edit-search-block-form--2']")
button.click()

ElementClickInterceptedException: Message: element click intercepted: Element <label class="element-invisible" for="edit-search-block-form--2">...</label> is not clickable at point (133, 100). Other element would receive the click: <div class="container-inline">...</div>
  (Session info: chrome=116.0.5845.187)
Stacktrace:
0   chromedriver                        0x00000001045f0638 chromedriver + 5002808
1   chromedriver                        0x00000001045e7a53 chromedriver + 4966995
2   chromedriver                        0x0000000104198a57 chromedriver + 449111
3   chromedriver                        0x00000001041e68f8 chromedriver + 768248
4   chromedriver                        0x00000001041e4345 chromedriver + 758597
5   chromedriver                        0x00000001041e1884 chromedriver + 747652
6   chromedriver                        0x00000001041e064f chromedriver + 742991
7   chromedriver                        0x00000001041d303a chromedriver + 688186
8   chromedriver                        0x00000001042053f2 chromedriver + 893938
9   chromedriver                        0x00000001041d28b8 chromedriver + 686264
10  chromedriver                        0x00000001042055ae chromedriver + 894382
11  chromedriver                        0x0000000104220391 chromedriver + 1004433
12  chromedriver                        0x00000001042051c3 chromedriver + 893379
13  chromedriver                        0x00000001041d0df9 chromedriver + 679417
14  chromedriver                        0x00000001041d1fde chromedriver + 683998
15  chromedriver                        0x00000001045ad2d9 chromedriver + 4727513
16  chromedriver                        0x00000001045b22de chromedriver + 4747998
17  chromedriver                        0x00000001045702c9 chromedriver + 4477641
18  chromedriver                        0x00000001045b302d chromedriver + 4751405
19  chromedriver                        0x00000001045860ec chromedriver + 4567276
20  chromedriver                        0x00000001045d07f8 chromedriver + 4872184
21  chromedriver                        0x00000001045d09b7 chromedriver + 4872631
22  chromedriver                        0x00000001045e0a1f chromedriver + 4938271
23  libsystem_pthread.dylib             0x00007fff77559661 _pthread_body + 340
24  libsystem_pthread.dylib             0x00007fff7755950d _pthread_body + 0
25  libsystem_pthread.dylib             0x00007fff77558bf9 thread_start + 13


Проблема! Попробуем последовать совету Python:

In [6]:
button = br.find_element(By.XPATH, "//div[@class='container-inline']")
button.click()

Хочешь сделать хорошо – сделай сам :) На самом деле сообщение выше не совет – это предупреждение о том, что какой-то другой объект «получит» наш клик, он либо находится слишком близко (мы не ту локацию нашли), либо просто перекрывает тот объект, который нам нужен (всплывающее окно, невидимый элемент меню, который становится видимым при определённых действиях на странице, но который всё равно мешает). 

Давайте просто найдём эту кнопку по ID и кликнем на нее!

In [7]:
button = br.find_element(By.ID, "edit-submit")
button.click()

Перешли на страницу с результатами, давайте заберем ссылку на единственный результат по частичному тексту ссылки и кликнем на нее.

In [8]:
link = br.find_element(By.PARTIAL_LINK_TEXT, "Happy new Year")
link.click()

Ура! Чтобы скачать pdf-файл с нотами, нужно кликнуть на соответствующую иконку. Давайте найдем ее через XPATH и кликнем.

In [9]:
pdf = br.find_element(By.XPATH, "//img[@alt='Скачать PDF']")
pdf.click()

Идеально! В браузере открылся pdf-файл, но как его автоматически скачать, неясно. Давайте откроем браузер с дополнительными опциями, чтобы PDF скачивался сразу, а не просто открывался в браузере.

In [10]:
options = wd.ChromeOptions()

In [11]:
# словарь 
# default_directory: папка для загрузок, поменяйте или закомментируйте, 
# если папка по умолчанию устраивает
# prompt_for_download: автоматическое скачивание без всплывающих вопросов
# plugins.always_open_pdf_externally: скачивание без открытия в браузере

options.add_experimental_option('prefs', {
"download.default_directory": "/Users/allat/Downloads/", 
"download.prompt_for_download": False, 
"download.directory_upgrade": True,
"plugins.always_open_pdf_externally": True
})

Открываем браузер с дополнением `options`:

In [12]:
br = wd.Chrome(options=options)

Осталось повторить все проделанные операции по скачиванию!

In [13]:
br.get("https://ponotam.ru/")

In [14]:
search = br.find_element(By.XPATH, "//input[@id='edit-search-block-form--2']")
search.send_keys("Happy New Year")

In [15]:
button = br.find_element(By.ID, "edit-submit")
button.click()

In [16]:
link = br.find_element(By.PARTIAL_LINK_TEXT, "Happy new Year")
link.click()

In [17]:
pdf = br.find_element(By.XPATH, "//img[@alt='Скачать PDF']")
pdf.click()

Выполните то же самое для файла с zip-архивом.

In [18]:
br.get("https://ponotam.ru/")

search = br.find_element(By.XPATH, "//input[@id='edit-search-block-form--2']")
search.send_keys("Happy New Year")

button = br.find_element(By.ID, "edit-submit")
button.click()

In [19]:
link = br.find_element(By.PARTIAL_LINK_TEXT, "Happy new Year")
link.click()

In [20]:
zip_ = br.find_element(By.XPATH, "//img[@alt='Скачать ZIP']")
zip_.click()

### Часть 2: скачиваем файлы DOC

Давайте зайдем на страницу сайта Вышки, на которой хранятся бланки заявлений для приема на работу и скачаем все бланки в формате `.doc`. В данном случае задача не очень сложная: если посмотреть на исходный код страницы, можно заметить, что для скачивания файлов необходимо просто кликнуть на ссылку, которая заканчивается расширением `.doc`. Поэтому пока не будем использовать Selenium, а вытащим из исходного кода страницы подходящие ссылки:

In [21]:
import requests
from bs4 import BeautifulSoup

In [22]:
page = requests.get("https://hr.hse.ru/blanki")
soup = BeautifulSoup(page.text)

In [23]:
# находим все элементы с тэгом <a>
# так как не во всех тэгах <a> есть ссылки (атрибут href),
# пишем try-except, чтобы код не ломался при столкновениями с такими случаями
# в итоге забираем только те ссылки, которые заканчиваются на .doc

L = soup.find_all("a")
docs = []
for a in L:
    try:
        if a.get("href").endswith(".doc"):
            docs.append(a.get("href"))
    except:
        pass

In [24]:
print(docs[0:10])

['https://www.hse.ru/data/2021/07/13/1313008643/5%20%D0%9F%D0%9F%D0%A1_%D0%97%D0%B0%D1%8F%D0%B2%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5%20%D0%BF%D1%80%D0%B8%D0%B5%D0%BC%20%D0%BF%D0%BE%20%D0%B2%D0%BD%D0%B5%D1%88%D0%BD%D0%B5%D0%BC%D1%83%20%D1%81%D0%BE%D0%B2%D0%BC.%20%D0%B0%D1%84%D1%84,%20%D0%B3%D1%80%D0%B0%D0%B6%D0%B4,%20%D0%BD%D0%B0%D0%B3%D1%80%D1%83%D0%B7%D0%BA%D0%B0_080721.doc', 'https://www.hse.ru/data/2021/07/13/1143788942/6%20%D0%9F%D0%9F%D0%A1_%D0%97%D0%B0%D1%8F%D0%B2%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5%20%D0%BF%D1%80%D0%B8%D0%B5%D0%BC%20%D0%BF%D0%BE%20%D0%B2%D0%BD%D1%83%D1%82%D1%80%20%D1%81%D0%BE%D0%B2%D0%BC,%20%D0%B3%D1%80-%D0%B2%D0%BE,%20%D0%BD%D0%B0%D0%B3%D1%80%D1%83%D0%B7%D0%BA%D0%B0_080721.doc', '/data/2021/07/29/1083147102/17 Заявление о приеме на работу (основное место работы, НРД) 080721.doc', '/data/2021/07/13/1305904881/Пенсионное-НИУ-ВШЭ.doc', '/data/2021/07/13/1312363400/19 Перевод 080721.doc', '/data/2021/07/13/1105489121/20 ППС_Заявление на перевод _080721.doc', '/data/2023/04/04/2

In [25]:
# не все ссылки на doc полные 
# для экономии времени отфильтруем только полные
# относительные ссылки при желании можно будет дополнить потом

docs_full = []
for doc in docs:
    if doc.startswith("http"):
        docs_full.append(doc)

Теперь осталось только прокликать все ссылки из списка с помощью Selenium, по умолчанию документы сохранятся в папку с загрузками. На всякий случай добавим задержку в 5 секунд после каждого скачивания:

In [26]:
from time import sleep

In [27]:
br = wd.Chrome()

In [29]:
# проверяем папку с загрузками

for i in docs_full:
    br.get(i)
    sleep(5)