## **Парсинг**

### **Введение в парсинг**

**Парсинг** - процесс анализа и извлечения нужной информации из текста, чаще всего структурированного (HTML, XML, JSON и т.д.).

### **Протокол SOAP**

**SOAP** (Simple Object Access Protocol) - протокол обмена данными между сервисами. Используется для отправки запросов и получения ответов по сети. Основан на работе с форматом `XML`.

**XML** (eXtensible Markup Language) - текстовый файл, в котором данные структурированы с помощью **тегов**, очень похожих на `HTML`.

### **Библиотека BeautifulSoup**

**BeautifulSoup** - библиотека для удобного парсинга HTML и XML.

https://beautiful-soup-4.readthedocs.io/en/latest/ - официальная документация BeautifulSoup

`BeautifulSoup` является **сторонней** библиотекой, поэтому требуется дополнительная установка:

Также нам дополнительно понадобится библиотека `lxml` для более **быстрого** и **удобного** парсинга файлов.

Импортируем библиотеку BeautifulSoup:

Рассмотрим пример парсинга HTML-кода. Представим, что у нас уже есть выгруженный HTML-код с некоторой веб-страницы:

In [2]:
html_data = '''
<html>
 <head><title>Пример страницы</title></head>
 <body>
  <h1>Добро пожаловать!</h1>
  <p class="info">Сегодня отличная погода</p>
  <a href="https://example.com">Перейти</a>
 </body>
</html>
'''

Далее передадим строку c HTML-кодом в конструктор класса `BeautifulSoup`:

Посмотрим на основные **атрибуты**, которые есть у объекта `soup`:

`title` - поиск первого тега `<title>`

`text` - выгрузка **текста** из указанного тега

`h1` - поиск первого тега `<h1>`

`find()` – метод для поиска **первого** подходящего тега в HTML или XML-документе по заданным критериям

`attrs` - словарь, содержащий все атрибуты тега

Доступ к отдельным атрибутам тега:

Теперь рассмотрим пример парсинга XML-кода. Представим, что мы получили от веб-сервиса по протоколу SOAP следующий ответ:

In [11]:
soap_response = '''
<?xml version="1.0" encoding="utf-8"?>
<soap:Envelope xmlns:soap="http://schemas.xmlsoap.org/soap/envelope/">
  <soap:Body>
    <GetWeatherResponse xmlns="http://example.com/weather">
      <GetWeatherResult>
        <City>Москва</City>
        <Temperature>15</Temperature>
        <Condition>Облачно</Condition>
      </GetWeatherResult>
    </GetWeatherResponse>
  </soap:Body>
</soap:Envelope>
'''

Создадим объект `BeautifulSoup`, чтобы провести парсинг полученного XML-документа:

Найдем нужные **теги**, чтобы выгрузить данные о названии города, температуре и состоянии погоды:

Если мы попробуем указать другой парсер, то при поиске тегов произойдет **ошибка**:

Выведем на экран полученную информацию:

### **Парсинг курса валют с сайта Центробанка**

Сайт Центробанка России публикует ежедневные курсы валют в `XML`-формате. Эти данные можно получить по ссылке:

https://www.cbr.ru/scripts/XML_daily.asp

Наша задача - написать программу, которая:

1. Загружает `XML`-файл с сайта Центробанка
2. Извлекает информацию о валюте: **название**, **буквенный код**, **номинал** и **курс в рублях**.
3. Выводит на экран курс **доллара США** (USD), **евро** (EUR) и **норвежских крон** (NOK)
4. Строит **столбчатую диаграмму**, отображающую курс валют с номиналом = `1`

Начнем с того, что подключим нужные библиотеки:

Объявим строку, где будем хранить URL сайта Центробанка:

Отправляем `GET`-запрос и получаем ответ:

Парсим XML-ответ с помощью `BeautifulSoup`:

`find_all()` - метод для поиска всех тегов в `HTML` или `XML`-документе, которые соответствуют заданному условию.

Создаем **пустой словарь** для хранения информации о валютах:

Перебираем найденные валюты и извлекаем нужные данные:

Выводим данные для нужных валют (`USD`, `EUR`, `NOK`):

Перейдем к построению столбчатой диаграммы. Начнем с создания дата-фрейма на основании словаря `currency_data`:

`from_dict()` - метод для создания дата-фрейма из словаря 

Дата-фрейм готов, теперь оставим только те строки, где **номинал равен 1**:

Финальное действие - строим столбчатую диаграмму, где на оси `Х` отобразим название валюты, а по оси `Y` - ее курс в рублях: