# Урок 3

# Парсинг данных. HTML, Beautiful Soup

## На этом уроке 

- Познакомимся с библиотекой BeautifulSoup.
- Напишем парсер сайта с использованием этой библиотеки.

## Beautiful Soup для сбора данных в HTML

### Установка и начало работы

Парсить HTML мы будем с применением библиотеки Requests, а обрабатывать полученную структуру — с помощью библиотеки Beautiful Soup. Установим их, введя команды в терминале:

In [None]:
# !pip install bs4

<img src="https://i.ibb.co/PW9cfdH/1.jpg"  />

Чтобы посмотреть основные возможности Beautiful Soup, попробуем собрать все книги с первой страницы известного нам сайта [Books to Scrape](http://books.toscrape.com/). 

Для начала сделаем GET-запрос на сайт:

In [None]:
from bs4 import BeautifulSoup as bs
import requests

In [None]:
response = requests.get('http://books.toscrape.com/') 

Теперь передадим полученный ответ в Beautiful Soup и укажем, какой парсер нам нужен. Создадим объект «‎суп»:

In [None]:
soup = bs(response.content, 'html.parser')            

In [None]:
soup

<!DOCTYPE html>

<!--[if lt IE 7]>      <html lang="en-us" class="no-js lt-ie9 lt-ie8 lt-ie7"> <![endif]-->
<!--[if IE 7]>         <html lang="en-us" class="no-js lt-ie9 lt-ie8"> <![endif]-->
<!--[if IE 8]>         <html lang="en-us" class="no-js lt-ie9"> <![endif]-->
<!--[if gt IE 8]><!--> <html class="no-js" lang="en-us"> <!--<![endif]-->
<head>
<title>
    All products | Books to Scrape - Sandbox
</title>
<meta content="text/html; charset=utf-8" http-equiv="content-type"/>
<meta content="24th Jun 2016 09:29" name="created"/>
<meta content="" name="description"/>
<meta content="width=device-width" name="viewport"/>
<meta content="NOARCHIVE,NOCACHE" name="robots"/>
<!-- Le HTML5 shim, for IE6-8 support of HTML elements -->
<!--[if lt IE 9]>
        <script src="//html5shim.googlecode.com/svn/trunk/html5.js"></script>
        <![endif]-->
<link href="static/oscar/favicon.ico" rel="shortcut icon"/>
<link href="static/oscar/css/styles.css" rel="stylesheet" type="text/css"/>
<link href="s

### Дерево синтаксического разбора

Дерево синтаксического разбора — структуры данных Beautiful Soup, которые создаются по мере синтаксического разбора документа. Объект парсера (экземпляр класса BeautifulSoup) обладает большой глубиной вложенности связанных структур данных, соответствующих структуре документа XML или HTML. Объект парсера состоит из объектов двух других типов: 

- объектов Tag, которые соответствуют тегам, к примеру, \<div> и \<p>; 
- объекты NavigableString, соответствующие таким строкам, как In stock или Sapiens: A Brief History ....

### Атрибуты тегов

У тегов HTML есть атрибуты: например, у каждого тега \<img> в приведённом выше примере HTML есть атрибуты class, src и alt. К атрибутам тегов можно обращаться таким же образом, как если бы объект Tag был словарём:


In [None]:
images = soup.find_all('img')
for image in images:
    img_src = image['src']
    img_alt = image['alt']
    print(img_src, img_alt)

media/cache/2c/da/2cdad67c44b002e7ead0cc35693c0e8b.jpg A Light in the Attic
media/cache/26/0c/260c6ae16bce31c8f8c95daddd9f4a1c.jpg Tipping the Velvet
media/cache/3e/ef/3eef99c9d9adef34639f510662022830.jpg Soumission
media/cache/32/51/3251cf3a3412f53f339e42cac2134093.jpg Sharp Objects
media/cache/be/a5/bea5697f2534a2f86a3ef27b5a8c12a6.jpg Sapiens: A Brief History of Humankind
media/cache/68/33/68339b4c9bc034267e1da611ab3b34f8.jpg The Requiem Red
media/cache/92/27/92274a95b7c251fea59a2b8a78275ab4.jpg The Dirty Little Secrets of Getting Your Dream Job
media/cache/3d/54/3d54940e57e662c4dd1f3ff00c78cc64.jpg The Coming Woman: A Novel Based on the Life of the Infamous Feminist, Victoria Woodhull
media/cache/66/88/66883b91f6804b2323c8369331cb7dd1.jpg The Boys in the Boat: Nine Americans and Their Epic Quest for Gold at the 1936 Berlin Olympics
media/cache/58/46/5846057e28022268153beff6d352b06c.jpg The Black Maria
media/cache/be/f4/bef44da28c98f905a3ebec0b87be8530.jpg Starving Hearts (Triangula

Атрибуты есть только у объектов Tag. Объекты NavigableString не имеют атрибутов.

## Навигация по дереву синтаксического разбора

__Важно!__ Все объекты Tag содержат элементы, перечисленные ниже (тем не менее __фактическое значение элемента может равняться None__). Объекты NavigableString имеют все из них за исключением contents и string.

### parent

В примере выше родителем объекта \<HEAD> Tag будет объект \<HTML> Tag. Родитель объекта \<HTML> Tag — сам объект парсера BeautifulSoup.

In [None]:
soup.head.parent.name 

'html'

In [None]:
soup.head.parent.parent.__class__.__name__ 

'BeautifulSoup'

In [None]:
soup.parent == None 

True

### contents

Parent перемещает нас вверх по дереву синтаксического разбора. С помощью contents мы перемещаемся вниз по дереву синтаксического разбора. Сontents — упорядоченный список, состоящий —  из объектов Tag и NavigableString, содержащихся в элементе страницы (page element).

### string

Если у тега есть только один дочерний узел, который будет строкой, этот узел будет доступен через tag.string точно так же, как и через tag.contents[0].

### next_sibling и previous_sibling

Эти элементы позволяют переходить к следующему или предыдущему элементу на этом же уровне дерева синтаксического разбора. Эти способы перемещения довольно часто используются, когда у вас есть одинаковые элементы с абсолютно одинаковыми атрибутами, и вы точно знаете, что вам нужен именно второй.

### next и previous

Эти элементы позволяют передвигаться по элементам документа в том порядке, в котором они были обработаны парсером, а не в порядке появления в дереве.

Спарсим информацию о каждой книге с первой страницы. Для начала нам надо понять, где находится каждая книга. Нажимаем вот на этот значок в левом углу нашего инспектора и наводим на книгу. Видим, что вся информация о книге находится в теге article, родителем которого является тег li. Давайте посмотрим, сколько у нас всего элементов с тегом article на странице, для этого в строку поиска вводим article и нажимаем enter. Поиск показывает 20 элементов, и на самом верху страницы мы видим, что нам показано 20 элементов. Таким образом, чтобы выбрать все блоки с книгами с первой страницы, нам надо написать следующий код:

In [None]:
books_ed1 = soup.find_all('article')
books_ed2 = soup.select('article')

print(len(books_ed1), len(books_ed2))

20 20


Мы использовали оба метода, и итоговая длина списков у нас получилась одинаковой. Давайте посмотрим на первый элемент списка books — print(books[0]). Как видите, это элемент HTML, то есть, обращаясь к нему, мы можем применять все методы, которые доступны для супа.

Сохраним его в переменную book и протестируем для него получение названия, обложки, цены и наличия. Будем обращаться к элементу book и вызывать для него методы, доступные для супа. Рассмотрим разные способы получения информации.

Первое, что нам надо получить — название. Мы внутри тега article, так что всё, что выше, нас не интересует. Название находится в теге а, который вложен в тег h3. Возьмём этот тег за основу и спустимся вниз. Обратите внимание: если текст мы возьмём у тега a, то получим неполное название, так что нам надо брать атрибут title. Итак:


In [None]:
book = books_ed1[0]

In [None]:
title = book.find('h3').find('a')['title']
title

'A Light in the Attic'

Теперь найдём цену. Возвращаемся на сайт. Цена находится в теге p с классом price_color, который вложен в тег div. Внутри этого же тега лежит и информация о наличии книги в магазине. Сперва получим информацию о наличии товара. Мы можем сделать это двумя способами.

Первый — используя метод __find__:


In [None]:
instock = book.find('p', attrs={'class':['instock', 'availability']}).text
instock

'\n\n    \n        In stock\n    \n'

In [None]:
print(instock)



    
        In stock
    



In [None]:
print(instock.strip())

In stock


Метод __strip__ мы используем, чтобы избавиться от лишних пробелов и энтеров у текста.

Второй — используя метод __select_one__ и указание неполного класса. Этот метод удобен, когда вы точно знаете, что внутри html находится единственный тег с указанным классом или вам нужен первый тег из множества. Метод select_one выберёт первый элемент, который попадёт под ваше описание. Давайте проверим, что у нас на странице ровно 20 элементов с классом instock. Для этого в поиске пишем точкаi nstock. Да, всё верно, элементов ровно 20. В этом случае используем второй способ получения статуса о наличии.


In [None]:
instock = book.select_one('div[class=product_price] p[class*=instock]').text
instock

'\n\n    \n        In stock\n    \n'

In [None]:
print(instock)



    
        In stock
    



In [None]:
print(instock.strip())

In stock


Вы видите, что мы указали и родительский элемент. А для тега p — класс со звёздочкой, так как на странице у него есть ещё один класс — __availability__. Вообще, указывать точный путь до элементов довольно нудно и долго, но иногда только так вы можете получить нужную информацию.

Теперь попробуем получить цену. Самое простое решение — найти тег p с классом price_color, но лучше разобрать и другие методы BeautifulSoup. Так что давайте воспользуемся методом __find_previous_sibling()__, который позволяет искать предыдущие теги одного уровня, а __find_next_sibling()__ ищет следующие теги одного уровня. Внутри мы указываем, какой тег хотим найти. Это удобно в тех случаях, когда много одинаковых тегов, а классы ничем не отличаются. Если вы добавите s в конце — find_next_siblings() и find_previous_siblings() — то вам вернётся список. Итак, ищем цену. Копируем уже найденную сущность instock, убираем получение текста и добавляем find_previuos_sibling(). Внутри указываем тег p. Смотрим, что получилось.


In [None]:
instock = book.select_one('div[class=product_price] p[class*=instock]')
price = instock.find_previous_sibling('p')
print(price)

<p class="price_color">£51.77</p>


Как видите, мы нашли цену. Осталось найти изображение обложки. Оно лежит в теге img, вложенном в тег а, родителем которого является тег div с классом image_container.  У тега img нам надо получить атрибут src. Давайте всё это запишем.

In [None]:
image = soup.find('div', attrs={'class': 'image_container'}).find('img')['src']
print(image)

media/cache/2c/da/2cdad67c44b002e7ead0cc35693c0e8b.jpg


Обратите внимание, что ссылка у нас неполная. Желательно сохранять полные ссылки, чтобы вы могли воспользоваться ими без необходимости открывать сайт и вспоминать, как именно выглядит ссылка. Чтобы понять, какая ссылка полная, можно кликнуть на картинку и посмотреть, что будет в адресной строке. Копируем недостающую часть. Теперь сохраним переменную image_link таким образом.

In [None]:
image_link = 'https://books.toscrape.com/' + image
print(image_link)

https://books.toscrape.com/media/cache/2c/da/2cdad67c44b002e7ead0cc35693c0e8b.jpg


Последнее, что нам осталось сделать, чтобы спарсить все книги с первой страницы сайта, — создать цикл, в котором мы будем идти по каждой книге, извлекать название, цену, обложку и наличие, сохранять всё это в словарь, а словарь сохранять в список. Таким образом, в итоге у нас должен получиться список из 20 книг с первой страницы сайта.

Давайте объединим все участки кода, которые мы уже написали и добавим совсем немного.

In [None]:
from pprint import pprint

In [None]:
books_list = []
for book in books:
    title = book.find('h3').find('a')['title']
    instock = book.select_one('div[class=product_price] p[class*=instock]').text.strip()
    price = book.select_one('div[class=product_price] p[class*=instock]').find_previous_sibling('p').text.strip()
    image = soup.find('div', attrs={'class': 'image_container'}).find('img')['src']
    image_link = 'https://books.toscrape.com/'+image
    
    book_dict = {
        'Image': image_link,
        'Title': title,
        'Price': price,
        'Instock': instock
    }
    books_list.append(book_dict)

print(len(books_list))
pprint(books_list)

20
[{'Image': 'https://books.toscrape.com/media/cache/2c/da/2cdad67c44b002e7ead0cc35693c0e8b.jpg',
  'Instock': 'In stock',
  'Price': '£51.77',
  'Title': 'A Light in the Attic'},
 {'Image': 'https://books.toscrape.com/media/cache/2c/da/2cdad67c44b002e7ead0cc35693c0e8b.jpg',
  'Instock': 'In stock',
  'Price': '£53.74',
  'Title': 'Tipping the Velvet'},
 {'Image': 'https://books.toscrape.com/media/cache/2c/da/2cdad67c44b002e7ead0cc35693c0e8b.jpg',
  'Instock': 'In stock',
  'Price': '£50.10',
  'Title': 'Soumission'},
 {'Image': 'https://books.toscrape.com/media/cache/2c/da/2cdad67c44b002e7ead0cc35693c0e8b.jpg',
  'Instock': 'In stock',
  'Price': '£47.82',
  'Title': 'Sharp Objects'},
 {'Image': 'https://books.toscrape.com/media/cache/2c/da/2cdad67c44b002e7ead0cc35693c0e8b.jpg',
  'Instock': 'In stock',
  'Price': '£54.23',
  'Title': 'Sapiens: A Brief History of Humankind'},
 {'Image': 'https://books.toscrape.com/media/cache/2c/da/2cdad67c44b002e7ead0cc35693c0e8b.jpg',
  'Instock': 

В нашем итоговом списке 20 книг, как и должно быть. При просмотре этого списка мы видим, что он состоит из 20 словарей, в каждом из которых находится вся нужная информация о книге.
Так же в Beautiful Soup есть много других полезных методов: например, __find_parent()__, __find_next()__ и __find_previous()__, которые помогают найти родительский тег, следующий или предыдущий тег соответственно. При работе с любыми библиотеками полезно пользоваться их документацией или искать ответы на вопросы на сайте StackOverflow по тегу BeautifulSoup. 


## Глоссарий

__HTML (HyperText Markup Language)__ — язык гипертекстовой разметки. Интерпретируется браузерами, в результате чего форматированный текст отображается на экране. HTML-страницы передаются от сервера к клиенту по протоколу HTTP в виде обычного или зашифрованного текста.

__HTML-теги__ — используются для разграничения начала и конца элементов в разметке.

__Атрибуты__ — свойства тега, дающие дополнительные возможности форматирования текста.

__DOM (Document Object Model)__ — не зависящий от платформы и языка программный интерфейс, позволяющий программам и скриптам получить доступ к содержимому HTML-, XHTML- и XML-документов, а также изменять содержимое, структуру и оформление таких документов.

__Библиотека Beautiful Soup__ — парсер lxml, который преобразует наш HTML-код в DOM и обрабатывает полученную структуру.

__Дерево синтаксического разбора__ — структуры данных Beautiful Soup, которые создаются по мере синтаксического разбора документа.

## Используемая литература
1. [Базовая структура HTML.](https://www.htmlgoodies.com/html5/markup/working-with-html-styling-blocks.html)
2. [Элементы HTML/CSS.](https://www.w3schools.com/htmL/)
3. [Объектная модель документа. ](https://ru.wikipedia.org/wiki/Document_Object_Model)
4. [Стандарт HTML5. ](https://ru.wikipedia.org/wiki/HTML5)
5. [Документация Beautifull Soup. ](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)
6. [Документации Beautifull Soup на русском.](http://wiki.python.su/%25D0%2594%25D0%25BE%25D0%25BA%25D1%2583%25D0%25BC%25D0%25B5%25D0%25BD%25D1%2582%25D0%25B0%25D1%2586%25D0%25B8%25D0%25B8/BeautifulSoup)


## Дополнительный материал:

1. [Информация по CSS селекторам](https://msiter.ru/tutorials/css-nachalnogo-urovnya/selektory-svoistva-znacheniya)
2. [Дополнительные возможности CSS](https://naikom.ru/blog/archives/2306)
3. [CSS документация для web-разработчиков](https://developer.mozilla.org/ru/docs/Web/CSS/CSS_Selectors)

## Примеры с вебинара

In [1]:
!pip install bs4

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [59]:
from bs4 import BeautifulSoup as bs
import requests
import re

In [6]:
%%html
<html>
  <body>
    <div id='div1'>
      <div id='div2'>
        <a><p class='val1 val2'>Параграф 1</p></a>
        <a><p class='val1'>Параграф 2</p></a>
        <p class='val2'>Параграф 3</p>
      </div>
    </div>
    <div id='div3'>
        <p class='val1 val2 val3'>Параграф 4</p>
        <p class='val1 val2 val3'>Параграф 5</p>
        <p class='val1 val2 val3'>Параграф 6</p>
    </div>
  </body>
</html>

In [7]:
%%writefile example.html
<html>
  <body>
    <div id='div1'>
      <div id='div2'>
        <a><p class='val1 val2'>Параграф 1</p></a>
        <a><p class='val1'>Параграф 2</p></a>
        <p class='val2'>Параграф 3</p>
      </div>
    </div>
    <div id='div3'>
        <p class='val1 val2 val3'>Параграф 4</p>
        <p class='val1 val2 val3'>Параграф 5</p>
        <p class='val1 val2 val3'>Параграф 6</p>
    </div>
  </body>
</html>

Writing example.html


In [102]:
with open('/content/example.html', 'r') as f:
  response = f.read()

In [103]:
soup = bs(response, 'html.parser')

## find - находит первый попавшийся

In [104]:
tag_div = soup.find("div")
type(tag_div)

bs4.element.Tag

In [105]:
tag_div

<div id="div1">
<div id="div2">
<a><p class="val1 val2">Параграф 1</p></a>
<a><p class="val1">Параграф 2</p></a>
<p class="val2">Параграф 3</p>
</div>
</div>

In [106]:
tag_div.parent

<body>
<div id="div1">
<div id="div2">
<a><p class="val1 val2">Параграф 1</p></a>
<a><p class="val1">Параграф 2</p></a>
<p class="val2">Параграф 3</p>
</div>
</div>
<div id="div3">
<p class="val1 val2 val3">Параграф 4</p>
<p class="val1 val2 val3">Параграф 5</p>
<p class="val1 val2 val3">Параграф 6</p>
</div>
</body>

In [107]:
tag_div.parent.parent

<html>
<body>
<div id="div1">
<div id="div2">
<a><p class="val1 val2">Параграф 1</p></a>
<a><p class="val1">Параграф 2</p></a>
<p class="val2">Параграф 3</p>
</div>
</div>
<div id="div3">
<p class="val1 val2 val3">Параграф 4</p>
<p class="val1 val2 val3">Параграф 5</p>
<p class="val1 val2 val3">Параграф 6</p>
</div>
</body>
</html>

## find_all - находит список

In [19]:
tag_div_list = soup.find_all("div")
tag_div_list

[<div id="div1">
 <div id="div2">
 <a><p class="val1 val2">Параграф 1</p></a>
 <a><p class="val1">Параграф 2</p></a>
 <p class="val2">Параграф 3</p>
 </div>
 </div>, <div id="div2">
 <a><p class="val1 val2">Параграф 1</p></a>
 <a><p class="val1">Параграф 2</p></a>
 <p class="val2">Параграф 3</p>
 </div>, <div id="div3">
 <p class="val1 val2 val3">Параграф 4</p>
 <p class="val1 val2 val3">Параграф 5</p>
 <p class="val1 val2 val3">Параграф 6</p>
 </div>]

In [28]:
tag_div_list[1]

<div id="div2">
<a><p class="val1 val2">Параграф 1</p></a>
<a><p class="val1">Параграф 2</p></a>
<p class="val2">Параграф 3</p>
</div>

In [30]:
children_tag_div2 = list(tag_div_list[1].children)

In [31]:
len(children_tag_div2)

7

In [32]:
children_tag_div2

['\n',
 <a><p class="val1 val2">Параграф 1</p></a>,
 '\n',
 <a><p class="val1">Параграф 2</p></a>,
 '\n',
 <p class="val2">Параграф 3</p>,
 '\n']

In [35]:
children_tag_div2 = tag_div_list[1].findChildren()
len(children_tag_div2)

5

In [34]:
children_tag_div2

[<a><p class="val1 val2">Параграф 1</p></a>,
 <p class="val1 val2">Параграф 1</p>,
 <a><p class="val1">Параграф 2</p></a>,
 <p class="val1">Параграф 2</p>,
 <p class="val2">Параграф 3</p>]

In [37]:
children_tag_div2 = tag_div_list[1].findChildren(recursive=False)
len(children_tag_div2)

3

In [38]:
children_tag_div2

[<a><p class="val1 val2">Параграф 1</p></a>,
 <a><p class="val1">Параграф 2</p></a>,
 <p class="val2">Параграф 3</p>]

## Поиск по тегам

In [43]:
tag_div = soup.find("div", {'id': 'div3'})
tag_div

<div id="div3">
<p class="val1 val2 val3">Параграф 4</p>
<p class="val1 val2 val3">Параграф 5</p>
<p class="val1 val2 val3">Параграф 6</p>
</div>

In [45]:
tag_p = soup.find_all("p", {'class': 'val1'})
tag_p

[<p class="val1 val2">Параграф 1</p>,
 <p class="val1">Параграф 2</p>,
 <p class="val1 val2 val3">Параграф 4</p>,
 <p class="val1 val2 val3">Параграф 5</p>,
 <p class="val1 val2 val3">Параграф 6</p>]

In [48]:
tag_p = soup.find_all("p", {'class': 'val1 val2'})
tag_p

[<p class="val1 val2">Параграф 1</p>]

In [50]:
tag_p = soup.find_all("p", {'class': ['val1', 'val2']})
tag_p

[<p class="val1 val2">Параграф 1</p>,
 <p class="val1">Параграф 2</p>,
 <p class="val2">Параграф 3</p>,
 <p class="val1 val2 val3">Параграф 4</p>,
 <p class="val1 val2 val3">Параграф 5</p>,
 <p class="val1 val2 val3">Параграф 6</p>]

In [51]:
tag_p = soup.find_all("p", {'class': ['val1 val2', 'val1 val2 val3']})
tag_p

[<p class="val1 val2">Параграф 1</p>,
 <p class="val1 val2 val3">Параграф 4</p>,
 <p class="val1 val2 val3">Параграф 5</p>,
 <p class="val1 val2 val3">Параграф 6</p>]

In [52]:
tag_p = soup.select("p.val1.val2")
tag_p

[<p class="val1 val2">Параграф 1</p>,
 <p class="val1 val2 val3">Параграф 4</p>,
 <p class="val1 val2 val3">Параграф 5</p>,
 <p class="val1 val2 val3">Параграф 6</p>]

In [53]:
tag_p = soup.select("p.val2.val1")
tag_p

[<p class="val1 val2">Параграф 1</p>,
 <p class="val1 val2 val3">Параграф 4</p>,
 <p class="val1 val2 val3">Параграф 5</p>,
 <p class="val1 val2 val3">Параграф 6</p>]

## Поиск по тексту

In [55]:
string_tag_p = soup.find(text='Параграф 1')
string_tag_p

'Параграф 1'

In [58]:
string_tag_p.parent

<p class="val1 val2">Параграф 1</p>

In [62]:
string_tag_p = soup.find(lambda tag: tag.string and re.search(r'6', tag.text))
string_tag_p

<p class="val1 val2 val3">Параграф 6</p>

In [66]:
string_tag_p = soup.find_all(lambda tag: tag.name == 'p' and tag.string and re.search(r'Параграф', tag.text))
string_tag_p

[<p class="val1 val2">Параграф 1</p>,
 <p class="val1">Параграф 2</p>,
 <p class="val2">Параграф 3</p>,
 <p class="val1 val2 val3">Параграф 4</p>,
 <p class="val1 val2 val3">Параграф 5</p>,
 <p class="val1 val2 val3">Параграф 6</p>]

## Пример hh.ru

In [73]:
url = 'https://kazan.hh.ru/search/vacancy?area=1511&text=python&items_on_page=20'

params = {
    'area': 1511,
    'text': 'python',
    'items_on_page': 20,
}

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36',
}

In [75]:
response = requests.get(url=url, params=params, headers=headers)
response.status_code

200

In [78]:
soup = bs(response.text, 'html.parser')

In [83]:
vacancies = soup.find_all('div', {'class': 'serp-item'})

In [94]:
vacancies_list = []

for vacancy in vacancies:
  vacancy_name = vacancy.find('a', {'class': 'serp-item__title'}).getText()
  vacancy_link = vacancy.find('a', {'class': 'serp-item__title'})['href']
  vacancy_salary = vacancy.find('span', {'data-qa': 'vacancy-serp__vacancy-compensation'})
  if vacancy_salary is not None:
    vacancy_salary = vacancy_salary.getText()

  vacancy_dict = {
      'name': vacancy_name,
      'link': vacancy_link,
      'salary': vacancy_salary,
  }

  vacancies_list.append(vacancy_dict)

In [95]:
vacancies_list

[{'name': 'Программист middle python developer',
  'link': 'https://kazan.hh.ru/vacancy/69328736?from=vacancy_search_list&hhtmFrom=vacancy_search_list&query=python',
  'salary': 'до 150\u202f000 руб.'},
 {'name': 'Middle+ backend python',
  'link': 'https://kazan.hh.ru/vacancy/70089365?from=vacancy_search_list&hhtmFrom=vacancy_search_list&query=python',
  'salary': None},
 {'name': 'Python middle+ developer',
  'link': 'https://kazan.hh.ru/vacancy/70089376?from=vacancy_search_list&hhtmFrom=vacancy_search_list&query=python',
  'salary': None},
 {'name': 'Junior/Middle системный аналитик',
  'link': 'https://kazan.hh.ru/vacancy/69256275?from=vacancy_search_list&hhtmFrom=vacancy_search_list&query=python',
  'salary': 'от 50\u202f000 руб.'},
 {'name': 'Преподаватель взрослого направления компьютерных курсов.',
  'link': 'https://kazan.hh.ru/vacancy/69728748?from=vacancy_search_list&hhtmFrom=vacancy_search_list&query=python',
  'salary': None},
 {'name': 'Ведущий сетевой инженер в ЦОД',
  '