## Содержание:
- Извлечение данных из веб-страницы. Введение в HTML
- Один из возможных алгоритмов скрейпинга
- Cлучайный вопрос из базы вопросов ЧГК
- Парсим данные из Wikipedia
- Работа с API. JSON
- Работа с API Headhunter

# Извлечение данных из веб-страницы

## Введение в HTML

**HTML (HyperText Markup Language)** – язык разметки (для тех, кто работал с *RMarkdown*: *Markdown* ‒  тоже язык разметки, только попроще). Поэтому, любая html-страница в интернете – это обычный текст, в котором отмечено, какие части представляют собой заголовок, абзац, таблицу, картинку и так далее. Вообще, правилом хорошего тона считается включать в html-код только содержательные вещи с разметкой, а все оформление и интерактив выносить в отдельные файлы.

Обычно, за страницей в интернете кроется примерно следующее. На сервере лежит несколько папок. В одной папке лежат сами html-страницы с размеченным текстом. В другой – хранятся файлы *css* (*Cascading Style Sheets*), в которых заданы параметры оформления разных страниц (цвет заголовков, фона, меню, ширина рамочек вокруг текста и картинок и прочее). В третьей папке находятся файлы с кодом на *JavaScript*, которые отвечают за всевозможный интерактив: будь то всплывающий перевод слова при наведении курсора, увеличение картинки при просмотре, подсветка формы для заполнения, если формат даты неверный, и так далее. JavaScript ‒ тоже отдельный язык программирования (несмотря на название, с Java не связан), на котором пишется код, соответствующий интерактиву.

Все эти файлы связаны между собой: к каждому html-файлу присоединены с помощью ссылок css-файл с оформлением и код javascript. Иногда, к сожалению, html-страницы создаются не по стандартам, и в файле с текстом встречаются огромные куски, отвечающие за оформление, что значительно затрудняет работу.

Посмотрим что такое веб-скрейпинг и парсинг html-файлов. Обычно два этих процесса связаны, просто парсинг – более узкое понятие. Веб-скрейпинг (*web scraping*) – это вообще выгрузка данных с веб-страниц, а парсинг (*parsing*) – это выбор текста из файла с разметкой, например, из html или xml. Но прежде, чем разбирать работу с html-файлами, давайте познакомимся поближе с их структурой. Для этого зайдем на сайт [w3schools.com](https://www.w3schools.com/Html/) и откроем [раздел](https://www.w3schools.com/Html/tryit.asp?filename=tryhtml_default) *Try it yourself*.

Это удобный учебный инструмент для создания html-файлов (и да, вообще на сайте много документации и тьюториалов по html, css и веб-дизайну вообще). Давайте создадим свою страничку.

Для разметки используются тэги – служебные слова в треугольных скобках `<>`. Тэги бывают разными: открывающие и закрывающие. Закрывающие тэги начинаются с прямого слэша (`/`).

Вся страница заключается в тэг `<html></html>`. В начале обычно указывается какая-то мета-информация: язык страницы, кодировка, метки, название и прочее (в примере этого нет). "Тело" документа, собственно страница, которая отображается при просмотре, заключается в тэг `<body></body>`.

Для заголовков используются тэги с `h` (`h` – от *header*). Тэги `<h1></h1>`  ‒ для заголовков первого уровня, тэг `<h2></h2>` – для заголовков уровня, и так далее. В тэги `<p></p>` заключаются абзацы (`p` – от *paragraph*). Для начала внесем изменения в файл ‒ создадим страничку о себе. Можете скопировать код ниже в поле на странице *Try it Yourself* и нажать кнопку *Run*.

Ниже будет код *html* поэтому запустить в Jupyter Notebook его не получится.

In [None]:
<!DOCTYPE html>
<html>
<head>
<title>Page Title</title>
</head>
<body>

<h1>Моя первая html-страница</h1>
<h2>О себе</h2>
<p>Я учусь создавать html-страницы.</p>

</body>
</html>

![](html2.png)

Теперь добавим небольшую таблицу. Знания об устройстве таблиц понадобятся, потому что чаще всего при парсинге приходится «доставать» данные из таблиц на html-страницах.

Вся таблица заключается в тэги `<table></table>`. Далее таблица заполняется по строкам. Строка таблицы заключается в тэги `<tr></tr>` (от *table row*). Ячейки таблицы тоже имеют свои тэги. Если ячейка обычная, то есть не является названием столбца или строки, она окружена тэгом `<td></td>` (от *table data*), если является ‒ то `<th></th>` (от *table header*).

Создадим свою таблицу:

In [None]:
<table>
<tr>
<th>Дата</th>
<th>Имя</th>
<th>Возраст</th>
</tr>
<tr>
<td>Иванов</td>
<td>Иван</td>
<td>28</td>
</tr>
</table>

![](html3.png)

Можем добавить явные границы ячеек – добавить атрибут *border* и отрегулировать ширину.

In [None]:
<table border = "1">
<tr>
<th>Фамилия</th>
<th>Имя</th>
<th>Возраст</th>
</tr>
<tr>
<td>Иванов</td>
<td>Иван</td>
<td>28</td>
</tr>
</table>

![](html4.png)

Добавим заголовок.

In [None]:
<!DOCTYPE html>
<html>
<head>
<title>Page Title</title>
</head>
<body>

<h1>Моя первая html-страница</h1>
<h2>О себе</h2>
<p>Я учусь создавать html-страницы.</p>

<table border = "1">
<caption>Информация</caption>
<tr>
<th>Фамилия</th>
<th>Имя</th>
<th>Возраст</th>
</tr>
<tr>
<td>Иванов</td>
<td>Иван</td>
<td>28</td>
</tr>
</table>

</body>
</html>

# Один из возможных алгоритмов скрейпинга

Для этого используется библиотека requests.

- указать в коде адрес интересующего сайта: откуда вы хотите скачать данные?
- сохранить веб-страницу (html-код страницы)
- выбрать данные, которые нужно собрать (используется BeautifulSoup)
- записать данные в csv-файл.

Если нужно соскрейпить несколько страниц – повторяем процесс для каждой из них.

**Наша задача:** выгрузить недавние новости в датафрейм `pandas`, чтобы потом сохранить все в csv-файл.

Сначала сгрузим весь html-код страницы и сохраним его в отдельную переменную. Для этого нам понадобится библиотека `requests`. Документация: https://requests.readthedocs.io/en/latest/

Импортируем её:

In [None]:
import requests

Сохраним ссылку на главную страницу сайта в переменную `url` для удобства и выгрузим страницу. (Разумеется, это будет работать при подключении к интернету. Если соединение будет отключено, Python выдаст `NewConnectionError`).

In [None]:
url = 'https://nplus1.ru/'  # Сохраняем
page = requests.get(url)  # Загружаем страницу по ссылке

Если мы просто посмотрим на объект, мы ничего особенного не увидим:

In [None]:
page  # response 200 – страница загружена

**BeautifulSoup** – python-библиотека для синтаксического разбора файлов HTML/XML. В веб-разработке «суп из тегов» (tag soup) – это слово для синтаксически или структурно некорректного HTML, написанного для веб-страницы.

Документация: https://www.crummy.com/software/BeautifulSoup/bs4/doc/

Импортируем функцию `BeautifulSoup` из библиотеки `bs4` (от *beautifulsoup4*) и заберём со страницы `page` код html в виде текста.

Сохраним в переменную 'soup' весь HTML-код страницы. HTML-код – это "дерево тегов", формирующее контент страницы.

In [None]:
from bs4 import BeautifulSoup
# Название – отсылка к песне про суп из Алисы в стране чудес https://aliceinwonderland.fandom.com/wiki/Turtle_Soup

In [None]:
soup = BeautifulSoup(page.text, 'html')

Если выведем `soup` на экран, мы увидим то же самое, что в режиме разработчика или в режиме происмотра исходного кода (`view-source` через *Ctrl+U* в Google Chrome).

In [None]:
soup

Для просмотра выглядит не очень удобно.  Воспользуемся методом `.prettify()` в сочетании с функцией `print()`.

In [None]:
print(soup.prettify())

В такой выдаче ориентироваться гораздо удобнее (но при желании, то же можно увидеть в браузере, на большом экране).

Чтобы загрузить все новости с главной страницы сайта, нужно собрать все ссылки на страницы с этими новостями. Ссылки в html-файле всегда заключены в тэг `<a></a>` и имеют атрибут `href`.

**Функция `soup.find('a')`** найдёт первый в дереве тег \<a>.
Если нам нужно найти не только первый элемент, а все элементы по определенному признаку, следует использовать функцию **`soup.find_all('a')`**

In [None]:
soup.find('a')

In [None]:
soup.find_all('a')

In [None]:
soup.find_all('a')[0]

In [None]:
soup.find_all('a')[0].attrs

In [None]:
len(soup.find_all('a'))  # Всего элементов

In [None]:
soup.find_all('a')[0].get('href')

In [None]:
for link in soup.find_all('a'):
    print(link.get('href'))

Ссылок много. Нужны только новости – ссылки, которые начинаются со слова `/news`. Добавим условие: будем выбирать только те ссылки, в которых есть `/news`. Создадим пустой список `urls` и будем добавлять в него только ссылки, которые удовлетворяют этому условию.

In [None]:
urls = []

for link in soup.find_all('a'):
    if '/news' in link.get('href'):
        if 'https://' in link.get('href'):
            urls.append(link.get('href'))
urls

In [None]:
len(urls)

In [None]:
urls[0]

Теперь наша задача сводится к следующему: изучить одну страницу с новостью, научиться из нее вытаскивать текст и всю необходимую информацию, а потом применить весь набор действий к каждой ссылке из `full_urls` в цикле. Посмотрим на новость с индексом 0. Так как новости обновляются спустя какое-то время может быть другая страница.

In [None]:
url0 = urls[0]

page0 = requests.get(url0)
print(page0)

soup0 = BeautifulSoup(page0.text, 'html')
print(soup0)

В коде каждой страницы с новостью есть часть с мета-информацией: датой, именем автора и проч. Такая информация окружена тэгом `<meta></meta>`. Посмотрим:

In [None]:
soup0.find_all('meta')

In [None]:
soup0.find_all('meta')[1]

In [None]:
soup0.find_all('meta')[1].attrs

In [None]:
soup0.find_all('meta', {'name': 'viewport'})

In [None]:
soup0.find('meta', {'name': 'viewport'})

Найдём название статьи.

In [None]:
soup0.find('meta', {'property': 'og:title'})

In [None]:
soup0.find('meta', {'property': 'og:title'}).get('content')

In [None]:
soup0.find('meta', {'property': 'og:title'}).get('content').replace('\xa0', ' ')

Найдём дату публикации.

In [None]:
soup0.find_all('meta', {'itemprop': 'datePublished'})

In [None]:
soup0.find_all('meta', {'itemprop': 'datePublished'})[0]

In [None]:
soup0.find_all('meta', {'itemprop': 'datePublished'})[0].get('content')

Найдём автора и сохраним в переменную.

In [None]:
soup0.find_all('meta', {'name' : 'author'})

Теперь выберем единственный элемент полученного списка (с индексом 0):

In [None]:
soup0.find_all('meta', {'name' : 'author'})[0]

In [None]:
author = soup0.find('meta', {'name' : 'author'}).get('content')
author

Аналогичным образом извлечём дату, заголовок и описание.

In [None]:
date = soup0.find_all('meta', {'itemprop' : 'datePublished'})[0].get('content')
title = soup0.find_all('meta', {'property' : 'og:title'})[0].get('content').replace('\xa0', ' ')

In [None]:
title

In [None]:
date

Напишем готовую функцию для всех проделанных действий и применим её в цикле для всех ссылок в списке `full_urls`. Аргументом функции будет ссылка на новость, а возвращать она будет текст новости и всю необходимую информацию (дата, автор, сложность и проч.). Скопируем все строки кода выше.

In [None]:
def GetNews(url0):
    """
    Возвращает кортеж с url0, date, author, title.
    Параметры:

    url0 – ссылка на новость (строка).
    """
    page0 = requests.get(url0)
    soup0 = BeautifulSoup(page0.text, 'html')

    author = soup0.find_all('meta', {'name' : 'author'})[0].get('content')
    date = soup0.find_all('meta', {'itemprop' : 'datePublished'})[0].get('content')
    title = soup0.find_all('meta', {'property' : 'og:title'})[0].get('content').replace('\xa0', ' ')

    return url0, date, author, title

In [None]:
help(GetNews)

Осталось применить её в цикле.

Импортируем функцию `sleep` для задержки, чтобы на каждой итерации цикла, прежде чем перейти к следующей новости, Python ждал несколько секунд. Во-первых, это нужно, чтобы сайт «не понял», чтобы мы его парсим, да еще автоматически. Во-вторых, с небольшой задержкой всегда есть гарантия, что страница прогрузится (сейчас это пока не очень важно, но особенно актуально будет, когда будем обсуждать встраивание в браузер с Selenium).

In [None]:
from time import sleep

In [None]:
urls

In [None]:
news = []  # Это будет список из кортежей, в которых будут храниться данные по каждой новости

for link in urls[1:]:
    print(link)
    res = GetNews(link)
    news.append(res)

    sleep(1)  # Задержка в 1 секунду

In [None]:
def GetNews(url0):
    """
    Возвращает кортеж с url0, date, author, title.
    Параметры:

    url0 – ссылка на новость (строка).
    """
    page0 = requests.get(url0)
    soup0 = BeautifulSoup(page0.text, 'html')

    try:
        author = soup0.find_all('meta', {'name' : 'author'})[0].get('content')
    except:
        author = None
    date = soup0.find_all('meta', {'itemprop' : 'datePublished'})[0].get('content')
    title = soup0.find_all('meta', {'property' : 'og:title'})[0].get('content').replace('\xa0', ' ')

    return url0, date, author, title

In [None]:
news = []  # Это будет список из кортежей, в которых будут храниться данные по каждой новости
l = len(urls)  # Количество ссылок

for link in urls:
    print(f"Осталось {l}")
    print(link)
    res = GetNews(link)
    news.append(res)
    l -= 1

    sleep(1)  # Задержка в 1 секунду

In [None]:
news

Так теперь выглядит первый элемент списка:

In [None]:
news[0]

Импортируем `pandas` и создадим датафрейм из списка кортежей:

In [None]:
import pandas as pd

In [None]:
df = pd.DataFrame(news)

In [None]:
df.head(10)

Переименуем столбцы.

In [None]:
df.columns = ['link', 'date', 'author', 'title']

In [None]:
df.head()

Всё! Сохраняем датафрейм в файл. Для разнообразия сохраним в Excel:

In [None]:
df.to_excel('nplus-news.xlsx', index = False)

![](html5.png)

### Cлучайный вопрос из [базы вопросов ЧГК](https://db.chgk.info/)

In [None]:
import requests
from bs4 import BeautifulSoup

In [None]:
url = "https://db.chgk.info/tour/ovsch20.5_u"  # Возьмем конкретный турнир

page = requests.get(url)
page.encoding = 'utf-8'
soup = BeautifulSoup(page.text)

print(soup.prettify())

In [None]:
soup.find_all("div", {"class": "question"})[0]

In [None]:
questions = soup.find_all("div", {"class": "question"})
num_questions = len(questions)
num_questions

In [None]:
questions[0]

In [None]:
questions[0].find_all('p')[0]

In [None]:
questions[0].find_all('p')[0].text

In [None]:
questions[0].find_all('p')[0].text.strip()

Случайный вопрос.

In [None]:
from random import randint

In [None]:
num = randint(0, num_questions - 1)

q = questions[num].find_all('p')[0]
print(q.text)

In [None]:
# Добавим задержку между вопросом и ответом

from random import randint
import time

num = randint(0, num_questions - 1)

q = questions[num].find_all('p')[0]
a = questions[num].find_all('p')[1]

# attributes = []
# for i in range(2,7):
#     try:
#         attributes.append(questions[num].find_all('p')[i].text)
#     except:
#         pass

print(q.text)

time.sleep(10)  # 10 секунд

print(a.text)

# for a in attributes:
#     if a.strip().startswith('Зачёт'):
#         print(a)
#     if a.strip().startswith('Комментарий'):
#         print(a)

## Парсим данные из Wikipedia

In [None]:
page = requests.get('https://ru.wikipedia.org/wiki/Python')
page

In [None]:
soup = BeautifulSoup(page.text)
print(soup.prettify())

In [None]:
soup.find_all('p')

In [None]:
p = soup.find_all('p')

In [None]:
len(p)

In [None]:
p[:6]

In [None]:
p[:6][0].text

In [None]:
p_clean = [par.text for par in p[:6]]

In [None]:
print(p_clean[0])

In [None]:
with open('wikipedia.txt', 'w', encoding = 'utf-8') as infile:
    infile.writelines(p_clean)

In [None]:
page = requests.get('https://ru.wikipedia.org/wiki/Python')
soup = BeautifulSoup(page.text)
p = soup.find_all('p')
p_clean = [par.text for par in p[:6]]
with open('wikipedia.txt', 'w', encoding = 'utf-8') as infile:
    infile.writelines(p_clean)

# Работа с API

До этого сбор данных производился "вручную", обращаясь к html страницам, размеченным для отображения в браузере. Но данные также можно собирать и через API –  – application program interface. Обычный интерфейс – это способ взаимодействия человека с программой, а API – одной программы с другой. Например, вашего скрипта на Python с удалённым веб-сервером. 

Для хранения веб-страниц, которые читают люди, используется язык HTML. Для хранения произвольных структурированных данных, которыми обмениваются между собой программы, используются другие языки – в частности, язык XML, похожий на HTML. Вернее было бы сказать, что XML это метаязык, то есть способ описания языков. В отличие от HTML, набор тегов в XML-документе может быть произвольным (и определяется разработчиком конкретного диалекта XML). На текущий момент XML считается устаревшим, и чаще всего применяется JSON.

## JSON

Один из популярных формат, в котором сайт может отдать вам данные – json. JSON расшифровывается как JavaScript Object Notation и изначально возник как подмножество языка JavaScript (пусть вас не вводит в заблуждение название, этот язык ничего не имеет общего с Java), используемое для описания объектов, но впоследствии стал использоваться и в других языках программирования, включая Python. Различные API могут поддерживать либо XML, либо JSON, либо и то, и другое.

JSON очень похож на описание объекта в Python и смысл квадратных и фигурных скобок такой же. Правда, есть и отличия: например, в Python одинарные и двойные кавычки ничем не отличаются, а в JSON можно использовать только двойные. Мы видим, что полученный нами JSON представляет собой словарь, значения которого – строки или числа, а также списки или словари, значения которых в свою очередь также могут быть строками, числами, списками, словарями и т.д. То есть получается такая довольно сложная структура данных.

В данный момент тот факт, что перед нами сложная структура данных, видим только мы – с точки зрения Python, j.text это просто такая строка. Однако в модуле requests есть метод, позволяющий сразу выдать питоновский объект (словарь или список), если результат запроса возвращён в формате JSON. Так что нам не придётся использовать никакие дополнительные библиотеки.

Рассмотрим сайт https://kudago.com/msk/ с открытм API. Документацию по API можно найти по ссылке https://docs.kudago.com/api/

In [None]:
import requests

In [None]:
# Функция для запроса

def get_requests(subject, params):
    url = "https://kudago.com/"
    path = "/public-api"
    version = "/v1.4"
    request = url + path + version + subject
    print(request)
    return requests.get(request, params = params)

In [None]:
# Пример КАТЕГОРИИ СОБЫТИЙ:
# https://kudago.com/public-api/v1.2/event-categories/?lang=ru&order_by=id

event_categories = "/event-categories"
params = {"lang" : "ru", "order_by": "id"}

response = get_requests(event_categories, params = params)
print(response.url)
response.status_code

In [None]:
json_obj = response.json()
json_obj

In [None]:
# Пример КАТЕГОРИИ МЕСТ:
# https://kudago.com/public-api/v1.2/place-categories/?lang=ru&order_by=id

place = "/place-categories"
params = {"lang" : "ru", "order_by": "id"}

response = get_requests(place, params = params)
print(response.url)
response.status_code

In [None]:
json_obj = response.json()
json_obj

In [None]:
# Пример ГОРОДА
# https://kudago.com/public-api/v1.4/locations/?lang=ru&fields=slug%2Ctimezone%2Ccoords

place = "/locations"
params = {"lang" : "ru", "fields": "name, slug, timezone, coords"}

response = get_requests(place, params = params)
print(response.url)
response.status_code

In [None]:
json_obj_locations = response.json()
json_obj_locations

In [None]:
# На основе полученных данных обратимся к городам

place = "/locations/"
slag = json_obj_locations[0]["slug"]
params = {"lang" : "ru"}

response = get_requests(place + slag, params = params)
print(response.url)
response.status_code

In [None]:
json_obj = response.json()
json_obj

## Работа с API Headhunter

Проведем анализ вакансий Ростелекома на HeadHunter. Документация API hh: https://api.hh.ru/openapi/redoc

https://api.hh.ru/vacancies

https://api.hh.ru/vacancies?page=100

https://api.hh.ru/vacancies?text=%D1%80%D0%BE%D1%81%D1%82%D0%B5%D0%BB%D0%B5%D0%BA%D0%BE%D0%BC&search_field=company_name

In [None]:
import requests
import json
from tqdm import tqdm  # Время
import numpy as np
import pandas as pd
from time import sleep
from collections import Counter
import seaborn as sns
import matplotlib.pyplot as plt
plt.style.use('ggplot')

Запросы к API всегда выстраиваются в таком формате: 

URL API + нужный раздел + API-ключ (по требованию) + параметры

https://api.hh.ru/vacancies?employer_id=2748&only_with_salary=true&per_page=100&period=7

Что в этом запросе?

`https://api.hh.ru/vacancies` – запрос к БД с вакансиями

`?employer_id=2748` – прицепляем с помощью **?** первый параметр `employer_id` с ID [Ростелекома](https://hh.ru/employer/2748)

`&only_with_salary=true` – все следующие параметры прицепляем через **&**. Ищем вакансии только с указанной з/п

`&per_page=100` – используем пагинацию (на каждой странице по 100 вакансий). Ограничения по глубине запросов – 2000 вакансий

`&period=7` – смотрим только на вакансии, выложенные в течение недели.

Для начала посмотрим, сколько у нас всего вакансий по таким параметрам. Для этого делаем запрос через `requests.get()` к ссылке выше. С помощью библиотеки json загружаем данные (фактически преобразовываем их в словарь) и смотрим на ключ `'found'` (количество найденных вакансий).

In [None]:
test = requests.get('https://api.hh.ru/vacancies?employer_id=2748&only_with_salary=true&per_page=100&period=7')
print(json.loads(test.text).keys())
json.loads(test.text)['found']

Согласно ограничениям в документации мы не сможем выгрузить более 2000 вакансий. Поэтому остановимся на этой цифре. Будем перебирать страницы (на каждой по 100 вакансий) с помощью параметра `page`.

In [None]:
vacancies = []

for i in tqdm(range(0, 20)):
    vac = requests.get(f"https://api.hh.ru/vacancies?employer_id=2748&only_with_salary=true&per_page=100&period=7&page={i}")
    vacancies.extend(json.loads(vac.text)['items'])  # extend – объединение
    sleep(1)

In [None]:
vacancies[0]  # Первая выгруженная вакансия

In [None]:
vacancies[3]['snippet']

Анализировать все в формате json неудобно, поэтому соберем нужные данные в таблицу.

In [None]:
table = []

for v in vacancies:
    table.append((v['name'], v['salary']['from'], v['salary']['to'], v['area']['name'], v['url']))

In [None]:
df = pd.DataFrame(table, columns = ['vacancy', 'sal_from', 'sal_to', 'area', 'url'])
df

Чтобы сравнить, какие специалисты и навыки нужны в Абакане и Москве, отфильтруем таблицу и сделаем новые запросы к API уже по конкретным url вакансий.

In [None]:
msc_abk_rtc = df[(df['area'] == 'Москва') | (df['area'] == 'Абакан')]['url'].tolist()
len(msc_abk_rtc)

Вытащим из каждой вакансии описание и ключевые навыки (то, что мы не можем достать со страницы общего поиска).

In [None]:
mk_test = requests.get(msc_abk_rtc[0])
test0 = json.loads(mk_test.text)
test0

In [None]:
test0['description']

In [None]:
test0['key_skills']

In [None]:
[i['name'] for i in test0['key_skills']]

Соберем в одну таблицу.

In [None]:
info = []

for l in tqdm(msc_abk_rtc):
    v = requests.get(l)
    v_loaded = json.loads(v.text)

    name = v_loaded['name']
    area = v_loaded['area']['name']
    descr = v_loaded['description']
    skills = [i['name'] for i in v_loaded['key_skills']]
    money_from = v_loaded['salary'].get('from', np.nan)
    money_to = v_loaded['salary'].get('to', np.nan)
    url = v_loaded['alternate_url']

    info.append((name, area, descr, skills, money_from, money_to, url))
    sleep(1)

In [None]:
df_mk = pd.DataFrame(info, columns = ['name', 'area', 'description', 'key_skills', 'salary_from', 'salary_to', 'url'])

In [None]:
df_mk

In [None]:
plt.figure(figsize = (10, 10))
sns.boxplot(data = df_mk, y = 'salary_from', x = 'area');

In [None]:
plt.figure(figsize = (10, 10))
sns.boxplot(data = df_mk, y = 'salary_to', x = 'area');

In [None]:
df_mk[df_mk['salary_to'] == df_mk['salary_to'].max()]

In [None]:
df_mk[(df_mk['area'] == 'Абакан')].sort_values('salary_from', ascending = False).head(1)

In [None]:
df_mk[df_mk['area'] == 'Москва'][['salary_from', 'salary_to']].describe()

In [None]:
df_mk[df_mk['area'] == 'Абакан'][['salary_from', 'salary_to']].describe()

Теперь проанализируем, какие ключевые навыки нужны для вакансий в Москве и Абакане.

In [None]:
Counter(df_mk[df_mk['area'] == 'Абакан']['key_skills'].sum()).most_common(10)

In [None]:
Counter(df_mk[df_mk['area'] == 'Москва']['key_skills'].sum()).most_common(10)

Почистим описания вакансий от html-разметки. В этом нам помогут [регулярные выражения](https://regex101.com/).

In [None]:
import re

In [None]:
df_mk['description'].str.replace('</?\w+>', '', regex = True)

In [None]:
df_mk['description'] = df_mk['description'].str.replace('</?\w+>', '', regex = True)
df_mk