# 12. Получение данных с сайтов

## Вступление

В этом уроке используется библиотека Selenium. Для стабильной работы этой библиотеки скачайте этот файл себе на компьютер и установите Selenium локально.

## 1. Цели парсинга

Парсинг - это извлечение неструктурированной информации с различных интернет-ресурсов и сохранение ее в структурированном, пригодном для дальнейшего автоматизированного использования, виде.

Именно в преобразовании данных в структурированный вид состоит основное отличие от программ, которые умеют скачивать сайты целиком.

Парсинг может использоваться при решении массы бизнес-задач.
Самое распространенное - это мониторинг изменения цен и наличия товаров у поставщика или конкурентов. 

На втором по популярности месте - получение каталогов продукции с сайта интернет-магазина и превращение его в структурированный документ.

На третьем месте выкачивание контактных данных.

Возможен вариант с объединением множества поисковых запросов в один результат. Например, при поиске объявлений о продаже недвижимости. Парсер избавит от необходимости многократно заполнять фильтры и просматривать результаты по-отдельности.

Еще распространенные варианты:
- Получение данных для анализа рынка
- Поиск новых (а не поднятых) объявлений или резюме
- Поиск новинок на интернет-аукционах
- Получение информации из соцсетей - списки друзей/подписчиков

## 2. Юридические и технические ограничения

Законами России парсинг не запрещен. Запрещен взлом, выведение информационных ресурсов из строя, воровство интеллектуальной собственности (авторского контента). Сам по себе грамотно сделанный парсинг не является ничем из названного, значит он не запрещен.

При парсинге мы получаем доступ к той информации, которая открыто размещена на сайте и доступна всем посетителям. Дальнейшие действия с текстовой информацией, например ее публикация без указания авторства, может попадать под статьи закона о нарушении авторских прав, поэтому следует проявлять осмотрительность при использовании текстов.

С технической точки зрения все сложнее.
Следует помнить, что любой посетитель на сайте создает нагрузку на информационную инфраструктуру, веб-сервер и базу данных.
Но люди большую часть времени не загружают информацию, а читают то, что уже отобразилось на странице браузера. Поэтому они создают ничтожно малую нагрузку. Парсер наоборот, не тратит время на чтение, получив страницу он готов перейти к следующей. Поэтому не следует скачивать данные с максимальной скоростью, нужно делать паузы между загрузками.

Некоторые сайты борются с парсерами и банят IP-адреса, с которых идет слишком большой поток запросов. У каждого сайта свои критерии что значит “слишком большой”. Как показывает практика, большинство сайтов спокойно относится к режиму, при котором между загрузками стоит пауза 5 секунд.

Также следует учитывать, что некоторые запросы могут стоит хозяевам сайта не только дополнительной нагрузки на сервер, но и живых денег. Например, при поиске авиабилетов при каждом запросе идет обращение к международным системам бронирования и эти запросы платные. Так что кроме технических ограничений могут быть еще и моральные.


## 3. Получение результатов запроса

Для получения данных с сайта можно воспользоваться как библиотекой requests, так и Selenium.
Как выбрать?
Ответ прост - если сайт нормально загружается при помощи requests, то следует использовать именно его.
Selenium работает медленнее, потребляет больше ресурсов.

Он нужен там, где:
Требуется интерактивное взаимодействие с сайтом (ввод пароля, заполнение форм)
На сайте используется технология AJAX, т.е. части содержимого страницы могут меняться без нажатия кнопки “Обновить страницу”

Как вы уже знаете, библиотека requests возвращает нам запрошенный HTML, который разбирается предназначенной для этого библиотекой (например lxml). 

У Selenium уже есть методы для манипуляций с полученной информацией, но они работают медленно, а при парсинге 1000 страниц даже задержка в пару секунд на каждой из них заставит потерять более получаса времени.

Поэтому, если для получения данных используется Selenium, для работы с полученным HTML следует использовать специальные библиотеки.


webDrv.get('адрес сайта') # Получаем данные с сайта

sHTML = webDrv.page_source # Записываем в переменную текст исходного кода страницы

## 4. Парсинг HTML

lxml - быстрая, скромная по потребностям памяти и постоянно развивающаяся библиотека для разбора XML и HTML. 

На сайте https://lxml.de/lxmlhtml.html можно получить полную информацию по ней. Она заняла достойное место в тесте библиотек для парсинга (https://habr.com/ru/post/163979/)

Устанавливается двумя командами

In [None]:
! pip3 install lxml

In [None]:
! pip3 install cssselect

In [None]:
# Подключение библиотеки 
import lxml.html as html

# Непосредственно парсинг
# Разбор HTML-текста, результат - объект типа lxml.html.HtmlElement
doc = html.document_fromstring('<a href="https://yandex.ru/">My <b>first</b> link</a>')

# Удобно сразу же превратить относительные ссылки в абсолютные. Иначе придется помнить про относительность ссылок и дополнять их при каждом использовании.
# Преобразование относительных ссылок внутри документа в абсолютные
doc.make_links_absolute('https://yandex.ru/')
tags = doc.cssselect('*')

# Выводим все тэги на экран
for t in tags:
    print(html.tostring(t))

## 4. Элементы HTML. Немного теории

Любая страница сайта состоит из HTML-элементов. Элементы делятся на два типа: элементы-контейнеры и пустые элементы.
Элементы-контейнеры влияют на форматирование контента, находящегося внутри них. Эти элементы описываются двумя тэгами, начальным (открывающим) и конечным (закрывающим).

Пример:
&lt;h1>Это самый крупный из заголовков&lt;/h1>

где &lt;h1> - начальный тэг
&lt;/h1> - конечный тэг

Пустые элементы не влияют на форматирование. Эти элементы добавляют на страницу какой-либо объект, например горизонтальную черту (элемент &lt;hr>).

Пример:
Текст до черты &lt;hr>Текст после черты

Текст до черты <hr>Текст после черты

Элементы могут быть вложены друг в друга (например, слово написанное курсивом входит в состав абзаца)

Пример:
&lt;p>Эта фраза содержит &lt;i>слово&lt;/i> написанное курсивом &lt;/p>

В начальном тэге могут содержаться атрибуты, расширяющие его возможности. Для атрибута указывается имя и значение, между которыми ставится знак равно (=). Значение заключается в кавычки

Пример:
  &lt;p align=”center”>Текст выровненный по центру&lt;/p>  
 - &lt;p> - начальный тэг
 - &lt;/p> - конечный тэг
 - align - атрибут
 - center - значение атрибута align

У тэга может быть несколько атрибутов одновременно, порядок их указания не имеет значения.
У атрибута может быть несколько значений, они отделяются пробелами.

Пример:
  &lt;p id=”main” align=”center” title=”мой текст” class=”MyClass1 MyClass2 OtherClass”>Текст&lt;/p>  
  
 - &lt;p> - начальный тэг
 - &lt;/p> - конечный тэг
 - id - атрибут
 - main - значение атрибута id
 - align - атрибут
 - center - значение атрибута align
 - title - атрибут
 - мой текст - значение атрибута title 
 - class - атрибут
 - MyClass1, MyClass2, OtherClass - значения атрибута class 

## 6. Навигация по lxml.html.HtmlElement

Итак, мы разобрали HTML, получили объект lxml.html.HtmlElement. Теперь нужно научится искать в нем нужные нам элементы.
Поиск возможен по тэгам и атрибутам. Некоторые (наиболее важные параметры - класс, ID) выделены в отдельные категории и поиск по ним максимально упрощен.

Для поиска элементов используется CSS Selector - нечто похожее на регулярные выражения.

Пример:

doc.cssselect('a') # Возвращает список ссылок из всего документа


<table class="table table-striped table-bordered">
<thead>
    <tr><th>CSS селектор</th><th>Пример</th><th>Описание</th></tr>
</thead>
<tr><td>Name</td><td>MyName1 </td><td>Выбирает все элементы с именем MyName1 (class="MyName1").</td></tr>
<tr><td>.class</td><td>.MyClass1</td><td>Выбирает все элементы с классом MyClass1 (class="MyClass1").</td></tr>
<tr><td>#id</td><td>#main</td><td>Выбирает элемент с идентификатором main (id="main").</td></tr>
<tr><td>*</td><td>*</td><td>Выбор всех элементов.</td></tr>
<tr><td>элемент</td><td>span</td><td>Выбор всех элементов <span>.</td></tr>
<tr><td>элемент,элемент</td><td>div,span</td><td>Выбор всех элементов <div> и всех элементов <span>.</td></tr>
<tr><td>[атрибут]</td><td>[title]</td><td>Выбирает все элементы с заданным атрибутом title.</td></tr>
<tr><td>[атрибут="значение"]</td><td>[title="мой текст"]</td><td>Выбирает все элементы с атрибутом title, значение которого в точности совпадает со значением указанным в селекторе (title="мой текст").</td></tr>
<tr><td>[атрибут~="значение"]</td><td>[title~="мой"]</td><td>Выбирает все элементы с атрибутом title, в значении которого (в любом месте) встречается подстрока (в виде отдельного слова, отделенного пробелами) "мой" (title="мой и чужой").</td></tr>
"<tr><td>[атрибут|=""значение""]</td><td>[title|="мой"]</td><td>Выбор всех элементов с атрибутом title, значение которого начинается со слова ""мой"".
Внимание: Отличие от конструкции “|=” - значение может быть не только отдельным словом, но и частью слова.</td></tr>"
<tr><td>[атрибут^="значение"]</td><td>p[title^="мой"]</td><td>Выбор каждого элемента <p> с атрибутом title, значение которого начинается с "мой".</td></tr>
<tr><td>[атрибут&#36;="значение"]</td><td>[title$="текст"]</td><td>Выбирает все элементы с атрибутом title, значение которого оканчивается на "текст" (title="мой текст").</td></tr>
"<tr><td>[атрибут*=""значение""]</td><td>[title*=""оди""]</td><td>Выбирает все элементы с атрибутом title, в значении которого (в любом месте) встречается подстрока (в виде отдельного слова или его части) "оди" 
Внимание: Отличие от конструкции “~=” - значение может быть не только отдельным словом, но и частью слова.</td></tr>"
"<tr><td>:contains(""значение"")</td><td>div:contains("один")</td><td>Выбирает все элементы, в тексте которых встречается подстрока (в виде отдельного слова или его части) "один". 
Именно в тексте, а не в атрибутах</td></tr>
</table>

Простые CSS селекторы можно объединять в сложные используя комбинаторы, которые указывают связь между простыми селекторами. 

<table class="table table-striped table-bordered">
<thead>
    <tr><th>Комбинатор</th><th>Пример</th><th>Описание</th></tr>
</thead>
<tr><td>элемент элемент</td><td>div p</td><td>Выбор всех элементов &lt;p> внутри &lt;div>.</td></tr>
<tr><td>элемент>элемент</td><td>div>p</td><td>Выбирает все дочерние элементы &lt;p>, у которых родитель - элемент &lt;div>.</td></tr>
<tr><td>элемент+элемент</td><td>div+p</td><td>Выбирает все элементы &lt;p>, которые расположены сразу после элементов &lt;div>.</td></tr>
<tr><td>элемент1~элемент2</td><td>p~div</td><td>Выбор всех элементов &lt;div>, которым предшествует элемент &lt;p>.</td></tr>
</table>

Немного примеров на основе HTML 

In [None]:
htmlText = '''
<label class="MyClass">Картинки для тестов</label>
    <div>
        <img id="pic1" width="310px" src="https://upload.wikimedia.org/wikipedia/commons/a/a2/Python_royal_35.JPG" 
                class="img-thumbnail MyClass" title="Королевский питон (Python regius)">
    </div>
        <img id="pic2" width="300px" src="https://upload.wikimedia.org/wikipedia/commons/0/05/HONDA_ASIMO.jpg" 
                class="img-circle" title="Робот-андроид ASIMO">
        '''

Вот что этот HTML из себя представляет

In [None]:
from IPython.core.display import display, HTML
display(HTML(htmlText))

In [None]:
# Подключение библиотеки 
import lxml.html as html


doc = html.document_fromstring(htmlText)
elList = doc.cssselect('img') # Поиск по тэгу 
len(elList) # находим 2 элемента


In [None]:
elList = doc.cssselect('.MyClass') # Поиск по классу
len(elList) # находим 2 элемента

In [None]:
elList = doc.cssselect('img.MyClass') # Поиск по тэгу и классу одновременно
len(elList) # находим 1 элемент

In [None]:
elList = doc.cssselect('div img') # Поиск по тэгу внутри другого тэга
len(elList) # находим 1 элемент

In [None]:
elList = doc.cssselect('div .MyClass') # Поиск по классу внутри тэга
len(elList) # находим 1 элемент

In [None]:
elList = doc.cssselect('#pic1') # Поиск по ID
len(elList) # находим 1 элемент

In [None]:
elList = doc.cssselect('[width="310px"]') # Поиск по значению атрибута
len(elList) # находим 1 элемент

In [None]:
elList = doc.cssselect('#pic789') # Поиск по ID
len(elList) # ничего не найдено

CSS Селектор всегда возвращает массив элементов. 
Если не найдено ни одного элемента - это будет пустой массив (не None!).
Если найден только один элемент - это будет массив из одного элемента. Обратится к нему можно по индексу 0 (elList[0]).

## 7. Получение данных из элементов

После поиска при помощи CSS Селектора проще и безопасней всего перебрать найденные элементы в цикле IN. 
Безопаснее - потому что поиск может не найти ни одного элемента по заданному запросу, тогда попытка обратится к элементу массива по номеру вызовет ошибку.

Проще - потому что не нужно проверять длину массива.

Чтобы получить текст элемента нужно использовать функцию text_content(). Если элемент не содержит текста, она вернет None.

Этот пример выведет нам текст из label:

In [None]:
elList = doc.cssselect('label')  
for el in elList : 
    print(el.text_content())


Чтобы получить значения атрибутов элемента нужно использовать get(). Если элемент не имеет такого атрибута, она вернет None.

In [None]:
elList = doc.cssselect('img')  
for el in elList : 
    print(el.get('src'))    
    print(el.get('alt'))    
    print(el.get('title'))    
    print('----------------')

Как видим, атрибут alt не задан, и его значение None.

Иногда бывает удобно найти определенный элемент, но взять данные нужно их элемента следующего за ним.

Например, удобно найти заголовок с определенным классом и взять данные из абзаца, который расположен после него. Для этого используется функция getnext()

In [None]:
import lxml.html as html
htmlText2 = '<div><h1 class="MyClass1">Текст заголовка</h1><p class="MyClass2">Текст абзаца</p></div>'
doc2 = html.document_fromstring(htmlText2)
elList = doc2.cssselect('.MyClass1')  
el = elList[0].getnext()
print(el.text_content())

Для обратной операции (получение предшествующего элемента) служит функция getprevious()

Еще возможная ситуация - нужно найти родительский элемент (абзац), содержащий текст, оформленный с использованием определенного класса. Для этого используется функция getparent()

Например, удобно найти заголовок с определенным классом и взять данные из абзаца, который расположен после него.

In [None]:
import lxml.html as html
htmlText2 = '''<p>Текст предыдущего абзаца.</p> 
    <p>Компания ООО Ромашка <span class="MyClass2">выиграла</span> торги по аукциону №789</p>. <p>Еще текст</p>'''
doc2 = html.document_fromstring(htmlText2)
elList = doc2.cssselect('.MyClass2')  
el = elList[0].getparent()
print(el.text_content())

## 8. Закрепление информации. Шаг 1. Получаем список ссылок с главной страницы Яндекса

In [None]:
import requests
import lxml.html as html

htmlText = requests.get('https://yandex.ru/').text  # Получаем текст страницы
doc = html.document_fromstring(htmlText)  # Разбираем текст
doc.make_links_absolute('https://yandex.ru') # Преобразовываем относительные ссылки в абсолютные
elList = doc.cssselect('a')  # Ищем все ссылки
for el in elList :  # Перебираем найденное в цикле
    print(el.get('href'))    # Выводим URL ссылки
    print(el.text_content()) # Выводим текст ссылки, видимый пользователю
    print('') # Добавляем пустую строку, чтобы визуально разделить ссылки между собой


##### Задание для самостоятельного выполнения:

    - Выведите список картинок, со страницы https://yandex.ru (атрибуты src и alt).

## 9. Закрепление информации. Шаг 2. Получаем список щелочных металлов из Википедии

Для начала зайдем на страницу https://ru.wikipedia.org/wiki/Щелочные_металлы и найдем нужную нам таблицу.

<img src="img/Task12_01.png">

Нажмем F12 и выберем нужную нам таблицу. Обычно, самый удобный способ - это кликнуть мышкой на правом нижнем углу таблицы.
Видим что это HTML-таблица (тэг table) c классом wikitable. CSS Скелектор для нее - 'table.wikitable'.

<img src="img/Task12_02.png">

Сколько всего таких таблиц на странице?

In [None]:
import requests
import lxml.html as html

htmlText = requests.get('https://ru.wikipedia.org/wiki/Щелочные_металлы').text  
doc = html.document_fromstring(htmlText)   
elTables = doc.cssselect('table.wikitable')   
print(len(elTables))

Отлично, у нас только одна такая таблица на странице, значит к ней можно будет обращаться как к элементу массива с номером ноль.

Таблица состоит из строк (тэг tr), а каждая строка из колонок (тэг td).<br/>
Т.к. в первой строке находятся заголовки, мы ее пропустим.<br/>
Чтобы начать цикл по строкам не с первой строки, используем не уже ставшую привычной нам  конструкцию цикла for...in, а цикл while.

In [None]:
import requests
import lxml.html as html

htmlText = requests.get('https://ru.wikipedia.org/wiki/Щелочные_металлы').text   
doc = html.document_fromstring(htmlText)   
doc.make_links_absolute('https://ru.wikipedia.org') 
elTables = doc.cssselect('table.wikitable')  # Ищем таблицы нужного нам класса  
elRows = elTables[0].cssselect('tr') # Берем первую из найденных и разбираем на строки

i = 1  # Начинаем цикл со второй строки (0 - индекс первой строки, 1 - индекс второй строки)
while i < len(elRows):
    r = elRows[i]  # Получаем строку таблицы из массива
    elCols = r.cssselect('td') # Разбираем ее на колонки
    print(elCols[0].text_content().strip(), ', ', elCols[1].text_content().strip(), sep='') # Выводим первые две ячейки          
    i = i + 1 # Увеличиваем индекс на 1 (переход к новой строке)


Вы заметили, что использован код .text_content().strip(), а не просто .text_content()?<br/>
Это связано с тем, что html-текст может содержать в себе невидимые символы, например перевод строки или несколько пробелов в конце строки, которые нам не нужны. Функция strip() их удаляет.

##### Задания для самостоятельного выполнения: 

- Выведите после названия элемента его атомную массу (колонка 4 из таблицы). Внимание. У элемента Унуненний нет колонки 4!
- Представьте ситуацию, что дизайн страницы изменился и теперь на ней нет таблицы 'table.wikitable'. Добавьте в код обработку этой ситуации.

## 10. Закрепление информации. Шаг 3. Получаем список ссылок при помощи Selenium

Некоторые сайты защищаются от роботов и при обращении через библиотеку requests вместо содержимого страницы возвращают код “404 Страница не найдена”.<br/>
В этом можно убедится, если зайти на страницу http://zakupki.gov.ru/epz/order/extendedsearch/results.html в браузере, а потом запустить скрипт


In [None]:
import requests

print(requests.get('http://zakupki.gov.ru/epz/order/extendedsearch/results.html').status_code) 

Браузер отобразит корректный вид страницы, а скрипт вернет ошибку 404.

Чтобы обойти эту форму защиты, следует использовать Selenium.

Запускаем установку библиотеки

In [None]:
!pip3 install selenium

Потом нужно скачать со страницы http://chromedriver.chromium.org/ последнюю версию ChromeDriver для вашей операционной системы и положить его в папку с файлом "12. Получение данных с сайтов.ipynb"

Проверим доступ через Selenium.

In [None]:
from selenium import webdriver # Подключаем библиотеку
import lxml.html as html

driver = webdriver.Chrome( ) # запускаем браузер

driver.get('http://zakupki.gov.ru/epz/order/extendedsearch/results.html')  # Загружаем страницу
htmlText = driver.page_source  # Получаем текст страницы
doc = html.document_fromstring(htmlText)  # Разбираем текст
doc.make_links_absolute('http://zakupki.gov.ru') # Преобразовываем относительные ссылки в абсолютные

In [None]:
elList = doc.cssselect('a')  # Ищем все ссылки 
for el in elList :  # Перебираем найденное в цикле
    print(el.text_content().strip().replace('\n', ''))    # Выводим текст ссылки
    print(el.get('href'))    # Выводим URL ссылки
    print('------------') 
driver.close()  # Закрываем браузер
driver.quit()   # Выходим из selenium

Как было сказано выше, Selenium не следует применять для работы с HTML-элементами, т.к. скорость операций будет чрезвычайно низкой. Оптимальный вариант - получить код страницы через Selenium, а разбирать его при помощи библиотеки lxml.

Вы заметили, что не все из выведенных ссылок действительно являются ссылками? У многих выведено None. Это значит, что в ссылке не указан атрибут 'href'. Такая ссылка не ведет на новую страницу, а вызывает javascript.

##### Задание для самостоятельного выполнения:

- Выведите только те ссылки, у которых есть атрибут href. Для выполнения следует пользоваться CSS Селекторами.


## 11. Чтение основных данных со страницы поиска

Переходим к задаче, приближенной к боевой.
Прочитаем с сайта zakupki.gov.ru информацию об аукционах Министерства Обороны РФ (ИНН 7704252261), которые размещены в период с 1 по 2 октября 2019 года.
Нам нужно получить данные:
    - Номер торгов
    - Ссылку на страницу аукциона
    - Предмет закупки
    - С какой цены начались торги
    - Какова сумма обеспечения
    - Когда размещена информация.


Первое, что нам нужно сделать - получить ссылку с уже внесенными поисковыми фильтрами.
Идем на сайт zakupki.gov.ru, в раздел “Закупки” ( http://zakupki.gov.ru/epz/order/extendedsearch/results.html ), жмем “Все параметры поиска”, заполняем необходимые поля и нажимает “Уточнить результаты”.

<img src="img/Task12_03.png">

Копируем из браузера ссылку, она и будет нашей отправной точкой.<br/>
Ссылка: http://zakupki.gov.ru/epz/order/extendedsearch/results.html?morphology=on&pageNumber=1&sortDirection=false&recordsPerPage=_10&showLotsInfoHidden=false&fz44=on&fz223=on&sortBy=UPDATE_DATE&af=on&ca=on&pc=on&pa=on&publishDateFrom=01.10.2019&publishDateTo=02.10.2019&currencyIdGeneral=-1&customerTitle=%D0%9C%D0%98%D0%9D%D0%98%D0%A1%D0%A2%D0%95%D0%A0%D0%A1%D0%A2%D0%92%D0%9E+%D0%9E%D0%91%D0%9E%D0%A0%D0%9E%D0%9D%D0%AB+%D0%A0%D0%9E%D0%A1%D0%A1%D0%98%D0%99%D0%A1%D0%9A%D0%9E%D0%99+%D0%A4%D0%95%D0%94%D0%95%D0%A0%D0%90%D0%A6%D0%98%D0%98&customerCode=01731000045&customerFz94id=727414&contractStageList_0=on&contractStageList_1=on&contractStageList_2=on&contractStageList_3=on&contractStageList=0%2C1%2C2%2C3&contractPriceCurrencyId=-1&extAttSearchEnable=false

Алгоритм дальнейших действий таков:
    - Выбираем метод скачивания данных - библиотека requests или Selenium
    - Анализируем страницу поисковой выдачи.
    - Какие из требуемых данных мы можем получить уже отсюда?
    - Как осуществляется переход на новую страницу поиска?
    - Анализируем страницу конкретного аукциона (товара, услуги или иного искомого элемента).
    - Какую информацию, отсутствующую на поисковой странице мы должны взять отсюда?
    - Куда сохраняем полученные данные?

Как мы уже узнали из предыдущего пункта, для сайта zakupki.gov.ru нужно использовать Selenium.

Анализируем поисковую страницу.
Наилучший вариант - это когда все данные есть на поисковой странице. Нам не нужно будет открывать, ждать загрузки и разбирать еще 20-40-50-100 страниц для каждой страницы с поисковой выдачей. 

При скачивании каталогов неконфигурируемых товаров (бытовой техники, например), если нас интересует только название, артикул и цена, можно обойтись загрузкой 20 страниц по 50 товаров на каждой, и не грузить 1000 (20*50) страниц с полным описанием товара.

В нашем задании почти все данные можно получить с поисковой страницы, на ней есть все, кроме суммы обеспечения.

<img src="img/Task12_04.png">

Смотрим, как перейти на следующую страницу с результатами поиска. Открывает отладочную консоль в Chrome (жмем F12), включаем режим “Выбор элемента” и нажимаем стрелку, предназначенную для перехода на следующую страницу.

Это ссылка (тэг a) с классом paginator-button-next. Адреса ссылки нет, атрибут href содержит вызов javascript. Значит, нам нужно нажимать эту стрелку в Selenium, вызывая функцию click().

Следует заметить, что этот способ перехода на новую страницу сработает и в том случае, если эта стрелка является настоящей ссылкой.

<img src="img/Task12_05.png">

Протестируем переход на вторую страницу

In [None]:
from selenium import webdriver  

driver = webdriver.Chrome( )  

driver.get('http://zakupki.gov.ru/epz/order/extendedsearch/results.html')   

elNextBtn = driver.find_elements_by_class_name('paginator-button-next')
print(len(elNextBtn))

In [None]:
elNextBtn[0].click()

Отлично, найдены две стрелки - это правда, стрелки расположены вверху и внизу страницы, переход прошел успешно. Можно закрывать окно браузера.

In [None]:
driver.close()  # Закрываем браузер
driver.quit()   # Выходим из selenium

Переходим к третьему пункту алгоритма - посмотрим, что нам нужно от страницы аукциона. Только сумма обеспечения. Откроем страницу аукциона, например http://zakupki.gov.ru/epz/order/notice/za44/view/common-info.html?regNumber=0173100004519000519

<img src="img/Task12_06.png">

Последний шаг алгоритма - куда сохраняем данные. Пойдем по самому простому пути - сохраним в массив, а потом через DataFrame сохраним в Excel.

Итак, приступаем к написанию программы.

Прежде всего нам понадобится функция, очищающая суммы от мусорных символов, лишних пробелов и тп.<br/>
Вот функция, которая родилась после скачивания информации с трех десятков сайтов.<br/>
Она удаляет пробелы (код 32), неразрывные пробелы (код 160), переводы строки (коды 10 и 13) и заменяет десятичный разделитель (запятую на точку).<br/>
В каких-то проектах она может потребовать корректировки, но для российский сайтов работает отлично.

In [3]:
def StringToFloat(S) :
    S = S.strip().replace(chr(13), '').replace(chr(10), '').replace(chr(160), '').replace(chr(32), '').replace(',', '.').replace(chr(8381), '') 
    return float(S)

Проверим работу функции StringToFloat

In [4]:
print(StringToFloat('12 345.01'))
print(StringToFloat('12345.02'))
print(StringToFloat('12345,03'))
print(StringToFloat('12345'))
print(StringToFloat('12345 ₽'))

12345.01
12345.02
12345.03
12345.0
12345.0


Для очистки текстовых данных от “мусора” из них следует убрать переводы строки (коды 10 и 13), заменив их на пробелы. Чтобы избавится от лишних пробелов, применим регулярное выражение 

In [5]:
import re

def ClearStr(S) :
    S = S.strip().replace(chr(13), ' ').replace(chr(10), ' ')
    
    S = re.sub(r'\s+', ' ', S) # Заменяем несколько пробелов подряд одним пробелом
    return S


Проверим работу функции ClearStr

In [6]:
print(ClearStr('Один    два'))
print(ClearStr('Один\n\rдва'))

Один два
Один два


Служебные функции готовы, приспупаем к анализу страниц для определения методов поиска требуемых нам данных.<br/>
Зайдем на страницу поиска
http://zakupki.gov.ru/epz/order/extendedsearch/results.html?morphology=on&pageNumber=1&sortDirection=false&recordsPerPage=_10&showLotsInfoHidden=false&fz44=on&fz223=on&sortBy=UPDATE_DATE&af=on&ca=on&pc=on&pa=on&publishDateFrom=01.10.2019&publishDateTo=02.10.2019&currencyIdGeneral=-1&customerTitle=%D0%9C%D0%98%D0%9D%D0%98%D0%A1%D0%A2%D0%95%D0%A0%D0%A1%D0%A2%D0%92%D0%9E+%D0%9E%D0%91%D0%9E%D0%A0%D0%9E%D0%9D%D0%AB+%D0%A0%D0%9E%D0%A1%D0%A1%D0%98%D0%99%D0%A1%D0%9A%D0%9E%D0%99+%D0%A4%D0%95%D0%94%D0%95%D0%A0%D0%90%D0%A6%D0%98%D0%98&customerCode=01731000045&customerFz94id=727414&contractStageList_0=on&contractStageList_1=on&contractStageList_2=on&contractStageList_3=on&contractStageList=0%2C1%2C2%2C3&contractPriceCurrencyId=-1&extAttSearchEnable=false

нажмем F12 и посмотрим, какие CSS Селекторы позволяют нам получить требуемые данные.

<img src="img/Task12_07.png">

Каждый блок с информацией по аукциону имеет класс search-registry-entry-block

Значит будет выбирать все элементы с этим классом, а внутри каждого элемента искать данные.

Изучаем цену - это div классом price-block__value (CSS Селектор “div.price-block__value”). 

<img src="img/Task12_08.png">

Ссылка на торги и номер аукциона - ссылка (тэг a) внутри div с классом registry-entry__header-top__number (CSS Селектор “div.registry-entry__header-top__number a”).

<img src="img/Task12_09.png">

Разберемся с наименованием объекта закупки - это div с классом registry-entry__body-value  (CSS Селектор “div.registry-entry__body-value”).

<img src="img/Task12_10.png">

С датой обновления придется чуть сложнее. Она находится внутри блока div с классом data-block__valueв, первом по счету. CSS Селектор “div.data-block__value”.

<img src="img/Task12_11.png">

Проверяем, получится ли у нас вытянуть данные со страницы

In [7]:
from selenium import webdriver  
import lxml.html as html
import re  

# Служебные функции
def StringToFloat(S) :
    S = S.strip().replace(chr(13), '').replace(chr(10), '').replace(chr(160), '').replace(chr(32), '').replace(',', '.').replace(chr(8381), '') 
    return float(S)

def ClearStr(S) :
    S = S.strip().replace(chr(13), ' ').replace(chr(10), ' ')
    
    S = re.sub(r'\s+', ' ', S) # Заменяем несколько пробелов подряд одним пробелом
    return S


URL = 'http://zakupki.gov.ru/epz/order/extendedsearch/results.html?morphology=on&pageNumber=1&sortDirection=false&recordsPerPage=_10&showLotsInfoHidden=false&fz44=on&fz223=on&sortBy=UPDATE_DATE&af=on&ca=on&pc=on&pa=on&publishDateFrom=01.10.2019&publishDateTo=02.10.2019&currencyIdGeneral=-1&customerTitle=%D0%9C%D0%98%D0%9D%D0%98%D0%A1%D0%A2%D0%95%D0%A0%D0%A1%D0%A2%D0%92%D0%9E+%D0%9E%D0%91%D0%9E%D0%A0%D0%9E%D0%9D%D0%AB+%D0%A0%D0%9E%D0%A1%D0%A1%D0%98%D0%99%D0%A1%D0%9A%D0%9E%D0%99+%D0%A4%D0%95%D0%94%D0%95%D0%A0%D0%90%D0%A6%D0%98%D0%98&customerCode=01731000045&customerFz94id=727414&contractStageList_0=on&contractStageList_1=on&contractStageList_2=on&contractStageList_3=on&contractStageList=0%2C1%2C2%2C3&contractPriceCurrencyId=-1&extAttSearchEnable=false'
driver = webdriver.Chrome( )  
driver.get(URL) 
htmlText = driver.page_source 

doc = html.document_fromstring(htmlText)  # Разбираем текст
doc.make_links_absolute('http://zakupki.gov.ru') # Преобразовываем относительные ссылки в абсолютные

In [8]:
elAuc = doc.cssselect('div.search-registry-entry-block')  # Ищем аукционы
for auc in elAuc :  # Перебираем аукционы
    elPrice = auc.cssselect('div.price-block__value')  # Получаем цену
    print(StringToFloat(elPrice[0].text_content()))  
 
    elAucLink = auc.cssselect('div.registry-entry__header-top__number a')  # Получаем ссылку на страницу аукциона
    print(elAucLink[0].text_content().strip())  # В ней номер аукциона
    print(elAucLink[0].get('href'))             # И адрес ссылки
 
    elObj = auc.cssselect('div.registry-entry__body-value')  
    print(ClearStr(elObj[0].text_content() )) # Объект закупки
    
    elX = auc.cssselect('div.data-block__value') # Получаем дату размещения
    d = elX[0] # Берем первый элемент
    print(d.text_content().strip()) 

    print('-----------------')

72900000.0
№ 0173100004519001970
http://zakupki.gov.ru/epz/order/notice/za44/view/common-info.html?regNumber=0173100004519001970
Закупка «Комплекс работ по обеспечению закупки медицинской техники и медицинского имущества по спецификации, утверждаемой Минобороны России: тест-система для определения содержания наркотических средств и психотропных веществ в организме».
02.10.2019
-----------------
46933287.22
№ 0173100004519001969
http://zakupki.gov.ru/epz/order/notice/za44/view/common-info.html?regNumber=0173100004519001969
Поставка документов аэронавигационной информации согласно перечню, утверждаемому Минобороны России: документы аэронавигационной информации.
02.10.2019
-----------------
26716970.0
№ 0173100004519001968
http://zakupki.gov.ru/epz/order/notice/za44/view/common-info.html?regNumber=0173100004519001968
Поставка средств вычислительной техники (ноутбуки, рабочие, графические и мультимедийные станции, плоттеры и программное обеспечение) и периферийного оборудования, в том числ

In [9]:
driver.close()  # Закрываем браузер
driver.quit()   # Выходим из selenium

Этот скрипт должен выводит на экран перечень данных по всем аукционам, представленным на странице.

## 12. Чтение данных со страницы аукциона

Со страницы аукциона нам нужен только один параметр - сумма обеспечения. Зайдем на страницу http://zakupki.gov.ru/epz/order/notice/za44/view/common-info.html?regNumber=0173100004519000519

Перед суммой стоит элемент td с классом noticeTdFirst, текст которого “Размер обеспечения заявки”. CSS Селектор “td.noticeTdFirst:contains("Размер")”. Нужно взять следующий за ним элемент.

<img src="img/Task12_12.png">

Пишем тестовый скрипт

In [1]:
from selenium import webdriver  
import lxml.html as html

URL = 'http://zakupki.gov.ru/epz/order/notice/za44/view/common-info.html?regNumber=0173100004519000519'
driver = webdriver.Chrome( )  
driver.get(URL) 
htmlText = driver.page_source 

docAuc = html.document_fromstring(htmlText)  # Разбираем текст

elData = docAuc.cssselect('td.noticeTdFirst:contains("Размер обеспечения исполнения")')  # Ищем предыдущий элемент
print(elData[0].getnext().text_content())


                        
                            
                            
                                10 064 987,77 Российский рубль

                                
                            
                        

                        
                    


Скрипт выводит нам сумму обеспечения с текстом “10 608,30 Российский рубль”

Вносим небольшую корректировку 

In [2]:
print(elData[0].getnext().text_content().replace('Российский рубль', '').strip())

10 064 987,77


Теперь у нас есть значение, пригодное для передачи в функцию StringToFloat

In [None]:
driver.close()  # Закрываем браузер
driver.quit()   # Выходим из selenium

## 13. Итоговая программа

Программа будет работать следующим образом:
1. Пройдет по всем аукционам на первой странице поиска
2. Возьмет данные и сохранит их в массиве. Вместо суммы обеспечения будет записано None.
3. Пока активна кнопка “Далее” будет перебирать страницы поисковой выдачи
4. При достижении конца выдачи начнет перебирать массив с данными и получать со страницы аукциона данные о сумме обеспечения. Эту сумму будет сохранят в тот же массив.
5. По завершении скачивания массив будет сохранен в Excel.

Т.к. эта версия будет многократно обращаться к сайту, а поставил паузу 5 секунд перед обращениям на сайт, чтобы избежать блокировки.


Для выгрузки в Excel установим библиотеки pandas и openpyxl

In [None]:
! pip3 install pandas
! pip3 install openpyxl

Ниже приведен итоговый код

In [10]:
import pandas as pd 
from selenium import webdriver  
import lxml.html as html
import time 
import re  


dt = []  # Массив для хранения результатов

# Служебные функции
def StringToFloat(S) :
    S = S.strip().replace(chr(13), '').replace(chr(10), '').replace(chr(160), '').replace(chr(32), '').replace(',', '.').replace(chr(8381), '') 
    return float(S)

def ClearStr(S) :  # Очистка строк
    S = S.strip().replace(chr(13), ' ').replace(chr(10), ' ')
    
    S = re.sub(r'\s+', ' ', S) # Заменяем несколько пробелов подряд одним пробелом
    return S

def AppendData(AucNum, AucLink, PurchaseObj, Price, UploadDate) : # Добавление нового аукциона в массив
    dt.append({'AucNum' : AucNum, 'AucLink' : AucLink, 'PurchaseObj' : PurchaseObj, 'Price' : Price, 'Insurance' : None, 'UploadDate' : UploadDate})

def SetInsurance(AucNum, Insurance) : # Проставление Insurance  
    for d in dt : # Перебираем все аукционы в массиве
        if d['AucNum'] == AucNum : # Ищем нужный номер
            d['Insurance'] = Insurance  # И проставляем сумму обеспечения
            
               
def UploadOnePage() : # Обработка одной страницы поисковой выдачи
    elAuc = doc.cssselect('div.search-registry-entry-block')  # Ищем аукционы
    for auc in elAuc :  # Перебираем аукционы
        elPrice = auc.cssselect('div.price-block__value')  # Получаем цену
        Price = StringToFloat(elPrice[0].text_content()) 

        elAucLink = auc.cssselect('div.registry-entry__header-top__number a')  # Получаем ссылку на страницу аукциона
        AucNum = elAucLink[0].text_content().replace('№', '').strip()  
        AucLink = elAucLink[0].get('href') 

        elObj = auc.cssselect('div.registry-entry__body-value') 
        PurchaseObj = ClearStr(elObj[0].text_content() ) # Объект закупки

        elX = auc.cssselect('div.data-block__value') # Получаем дату размещения
        d = elX[0] 
        UploadDate = d.text_content().strip()

        AppendData(AucNum, AucLink, PurchaseObj, Price, UploadDate)
  
def UploadInsurance(aURL, AucNum) :
    time.sleep(5) # Делаем паузу 5 секунд, чтобы не забанили по IP
    driver.get(aURL) 
    htmlText = driver.page_source 
    docAuc = html.document_fromstring(htmlText)
    elData = docAuc.cssselect('td.noticeTdFirst:contains("Размер")')  # Ищем предыдущий элемент
    Insurance = elData[0].getnext().text_content().replace('Российский рубль', '') 
    SetInsurance(AucNum, StringToFloat(Insurance))         

URL = 'http://zakupki.gov.ru/epz/order/extendedsearch/results.html?morphology=on&pageNumber=1&sortDirection=false&recordsPerPage=_10&showLotsInfoHidden=false&fz44=on&fz223=on&sortBy=UPDATE_DATE&af=on&ca=on&pc=on&pa=on&publishDateFrom=01.10.2019&publishDateTo=02.10.2019&currencyIdGeneral=-1&customerTitle=%D0%9C%D0%98%D0%9D%D0%98%D0%A1%D0%A2%D0%95%D0%A0%D0%A1%D0%A2%D0%92%D0%9E+%D0%9E%D0%91%D0%9E%D0%A0%D0%9E%D0%9D%D0%AB+%D0%A0%D0%9E%D0%A1%D0%A1%D0%98%D0%99%D0%A1%D0%9A%D0%9E%D0%99+%D0%A4%D0%95%D0%94%D0%95%D0%A0%D0%90%D0%A6%D0%98%D0%98&customerCode=01731000045&customerFz94id=727414&contractStageList_0=on&contractStageList_1=on&contractStageList_2=on&contractStageList_3=on&contractStageList=0%2C1%2C2%2C3&contractPriceCurrencyId=-1&extAttSearchEnable=false'
driver = webdriver.Chrome( )  

driver.get(URL) 

while True :
    htmlText = driver.page_source 

    doc = html.document_fromstring(htmlText)  # Разбираем текст
    doc.make_links_absolute('http://zakupki.gov.ru') # Преобразовываем относительные ссылки в абсолютные
    UploadOnePage() # Обрабатываем загруженную страницу с разультатами поиска
    
    try :
        elNextBtn = driver.find_elements_by_class_name('paginator-button-next') # Ищем внопку "Далее"
        time.sleep(5) # Делаем паузу 5 секунд, чтобы не забанили по IP
        elNextBtn[0].click() # Жмем кнопку "Далее" и обрабатываем следующую страницу
    except Exception as Ex:
        break # Нет кнопки "Далее" - это последняя страница, прерываем цикл

for d in dt : # Перебираем все аукционы в массиве       
    UploadInsurance(d['AucLink'], d['AucNum']) # Скачиваем для каждого из них данные по сумме обеспечения

driver.close()  # Закрываем браузер
driver.quit()   # Выходим из selenium

# Сохраняем полученную информацию в Excel
DF = pd.DataFrame(dt, columns=('AucNum', 'AucLink', 'PurchaseObj', 'Price', 'Insurance', 'UploadDate')) 
DF.to_excel("output.xlsx")
print('Данные сохранены')

Данные сохранены


## 14. Маленькие хитрости

Как можно облегчить себе задачу или ускорить парсинг?<br/>
Если вам нужно периодически скачивать данные с одного и того же сайта, а данные на страницах меняются редко, то можно применить кэширование. Т.е. сохранять содержимое страницы в файл и при повторном обращении к странице не скачивать ее, а читать данные из файла.<br/>
Не следует злоупотреблять этим способом, все-таки данные на страницах обновляются, а вы этого не заметите. 

Обязательно проанализируйте - нужно ли вам скачивать страницы с детальной информацией по аукционам/товарам/услугам или все нужные данные можно получить со страницы поиска.

Возможно, некоторые данные можно узнать, не загружая страницу с детальным описанием. Например, в поисковой выдаче нет ссылок на иллюстрации, но есть ID товара, а ссылка на иллюстрацию вычисляется по правилу https://имя-сайта.ру/images/ID-товара.jpg

Зная ID товара вы всегда сможете узнать ссылку на иллюстрацию.


## 15. Пути доработки программы

Как вы заметили, в нашей программе часто приходится скачивать страницы и разбирать их. Из-за этого код выглядит громоздко и объемно.

Можно вынести часто повторяющиеся действия в отдельную функцию.

In [None]:
# Универсальная функция загрузки страниц и их разбора
def UnDld(aURL, SiteAdr) : # В качестве аргументов принимает ссылку на страницу и домен сайта для исправления относительных ссылок
    time.sleep(5) # Делаем паузу 5 секунд, чтобы не забанили по IP
    driver.get(aURL)  # Загружаем данные
    hText = driver.page_source  # Получает текст страницы
    UnDoc = html.document_fromstring(hText)    # Разбтрем ее
    UnDoc.make_links_absolute(SiteAdr)  # Обновляем ссылки
    return UnDoc # Возвращаем разобранную страницу (объект lxml.html.HtmlElement)

##### Задание для самостоятельного выполнения: 

    - Перепишите код из п. 13 используя функцию UnDld, чтобы программа при этом осталась работоспособной.