<div style="background-color: #e0fff3; padding: 15px; color: black; width: 80%;">  Процесс получения/извлечения информации с веб-ресурсов в интернете называется web-scraping (рус. веб-скрейпинг/веб-скрапинг). Веб-скрапинг может быть проделан вручную пользователем компьютера, однако этот термин обычно связывают с автоматизированными процессами, реализованными с помощью кода.</div>

<div style="border: 1px solid white; padding: 5px; margin-right: auto;  width: 80%;">

Какие данные можно извлечь в процессе веб-скрапинга?

- цены на товары конкурентов для оптимизации своей стратегии ценообразования;
- сообщения в социальных медиа, по которым можно отслеживать тренды в той или иной области;
- отзывы о товарах/услугах компании на различных площадках, которые можно впоследствии анализировать;
- контактные данные пользователей соцсетей или форумов для дальнейшего взаимодействия с этими пользователями;
и т.д.

</div>

Для того чтобы веб-скрапинг был возможен, необходимо подключение компьютера, который будет задействован в этом процессе, к сети Интернет.

<div style="background-color: #e0fff3; padding: 15px; color: black; width: 80%;">  <b>Интернет</b> — это глобальная информационная сеть, которая позволяет компьютерам по всему миру обмениваться информацией. Один компьютер (называемый <b>клиентом</b>) отправляет запрос в определённом формате другому компьютеру (называемому <b>сервером</b>) и получает ответ (текст, изображение, видео и т. д.).</div>

<img src='../static/img/api_1.png' style="background-color: white; width: 500px;">

<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">Kлиент и сервер взаимодействуют между собой, обмениваясь одиночными сообщениями (не потоком данных) посредством сетевых протоколов, которые формализуют общение между ними. В настоящее время повсеместно используемый протокол в интернете, позволяющий клиенту получать различные ресурсы (например, HTML-документы), — это протокол <b>HTTP.</b</div>



Запрос, отправляемый клиентом с использованием протокола HTTP, состоит из нескольких элементов:

- адрес, по которому идёт обращение (например, www.google.com);
- техническая информация, например метод запроса;
- дополнительные данные, например если загружается (передаётся) изображение.

Адрес — это URL, Uniform Resource Locator (с англ. Унифицированный Указатель Ресурса).




Ответ, в свою очередь, состоит из следующих элементов:

- код статуса ответа: например, 200 («успешно»), 404 («не найден») и т. д. (более полный список кодов статуса ответа можете посмотреть, перейдя по ссылке);
- текст в запрошенном формате (HTML, XML, JSON и т. д.) или мультимедийные файлы;
- прочая техническая информация.



## Методы запросов в протоколе HTTP

Для того чтобы указать серверу на то, какое действие мы хотим произвести с ресурсом, в протоколе HTTP используются так называемые методы. В HTTP существует несколько методов, которые описывают действия с ресурсами. Чаще всего используются GET и POST.

### GET — получение ресурса

Метод GET запрашивает информацию из указанного источника и не может влиять на его содержимое. Запрос доступен для кэширования данных (то есть для сохранения, восстановления и дальнейшего использования) и добавления в закладки. Длина запроса ограничена (максимальная длина — 2048 символов).

Пример GET-запроса, отправляемого через адресную строку браузера:

<code> http://site.ru/page.php?name=dima&age=27</code>

### POST — создание ресурса

Метод POST используется для отправки данных, которые могут оказывать влияние на содержимое ресурса. В отличие от метода GET, запросы POST не могут быть кэшированы, они не остаются в истории браузера и их нельзя добавить в закладки. Длина запроса POST не ограничивается.

Пример POST-запроса, отправляемого через форму запроса:

<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">
POST / HTTP/1.0\r\n<br>
Host: www.site.ru\r\n<br>
Referer: http://www.site.ru/index.html\r\n<br>
Cookie: income=1\r\n<br>
Content-Type: application/x-www-form-urlencoded\r\n<br>
Content-Length: 35\r\n<br>
\r\n
login=Dima&password=12345<br>
</div>


<div style="border: 3px dotted white; padding: 5px; margin-right: auto;  width: 80%;"> 
ДОПОЛНИТЕЛЬНО

Подробнее про методы HTTP можете прочитать, перейдя по этой <a href="https://developer.mozilla.org/ru/docs/Web/HTTP/Methods">ссылке</a>.
</div>

<div style="border: 1px solid white; padding: 5px; margin-right: auto;  width: 80%;">✍ В стандартной библиотеке Python для отправки веб-запросов существует функция urllib2, но большинство разработчиков используют стороннюю библиотеку requests (c англ. запросы), потому что её работа более стабильна, а созданный с её помощью код получается проще. Поэтому мы будем работать с библиотекой requests, а urllib2 рассматривать не будем.</div>

Познакомимся с библиотекой requests, решив простую задачу — получить значения курсов валют. Курс валют — полезная и регулярно обновляемая информация, но каждый раз в ручном режиме получать информацию о курсе интересующей валюты трудоёмко.

<div style="background-color: #e0fff3; padding: 15px; color: black; width: 80%;">  Разработаем код, так называемый <b>скрипт</b> (англ. script, рус. сценарий), — небольшую программу, которая содержит последовательность действий для автоматического выполнения задачи.</div>

С помощью скрипта мы будем в удобном виде выгружать информацию по курсам валют с заранее выбранного сайта.

<div style="border: 3px dotted white; padding: 5px; margin-right: auto;  width: 80%;"> Один из сайтов в интернете, на котором информация о курсах валют дублирует информацию с <a href="https://www.cbr.ru">сайта Центрального Банка России</a>, — ресурс <a href="https://www.cbr-xml-daily.ru/">Курсы валют ЦБ РФ в XML и JSON</a>. На данном ресурсе информация о курсах валют представлена в разных форматах, в том числе и в структурированном JSON-формате, методы работы с которым мы изучили в одном из предыдущих модулей.</div>

Перед началом работы библиотеку requests потребуется установить. Например, в Jupyter Notebook это делается с помощью такой команды:

In [1]:
# Устанавливаем библиотеку requests

!pip install requests 

Collecting requests
  Using cached requests-2.31.0-py3-none-any.whl (62 kB)
Collecting urllib3<3,>=1.21.1
  Using cached urllib3-2.0.7-py3-none-any.whl (124 kB)
Collecting idna<4,>=2.5
  Using cached idna-3.4-py3-none-any.whl (61 kB)
Collecting certifi>=2017.4.17
  Using cached certifi-2023.7.22-py3-none-any.whl (158 kB)
Collecting charset-normalizer<4,>=2
  Using cached charset_normalizer-3.3.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (142 kB)
Installing collected packages: urllib3, idna, charset-normalizer, certifi, requests
Successfully installed certifi-2023.7.22 charset-normalizer-3.3.2 idna-3.4 requests-2.31.0 urllib3-2.0.7


Как только библиотека установлена, импортируем её и отправим наш первый запрос к ресурсу Курсы валют ЦБ РФ в XML и JSON. Используем метод get() из библиотеки requests, передав ему соответствующий URL —  https://www.cbr-xml-daily.ru/daily_json.js:

In [9]:
import requests  # Импортируем библиотеку requests

url = "https://www.cbr-xml-daily.ru/daily_json.js"  # Определяем значение URL страницы для запроса
response = requests.get(
    url
)  # Делаем GET-запрос к ресурсу и результат ответа сохраняем в переменной response

Проверим ответ сервера — содержимое переменной response:

In [3]:
print(response)  # Выводим значение response на экран как объект

<Response [200]>


Мы получили объект ответа Response, который содержит всю нужную нам информацию. По умолчанию в квадратных скобках на экран выводится код статуса ответа. В данном случае он равен 200 — то есть запрос был корректным и сервер отдал нам нужную информацию. Значение кода статуса 404 означало бы, что страница по указанному адресу не найдена, а значение 403 — что синтаксис GET-запроса неверный.

Код ответа в виде числовой переменной можно получить с помощью метода status_code:

In [4]:
print(response.status_code)  # Выводим числовое значение response на экран

200


###  Задание 3.1

Вы уже импортировали модуль requests в ваш код. Напишите строку кода, при выполнении которой будет сделан GET-запрос к ресурсу https://www.cbr-xml-daily.ru/daily.xml, а результат ответа будет сохранён в переменной response:

<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
 randint
</code>
</details>

In [8]:
response_xml = requests.get("https://www.cbr-xml-daily.ru/daily.xml")

### Работаем с ответом

Мы сделали запрос и получили корректный ответ (код статуса — 200). Дальнейшую работу производим с результатом запроса к ресурсу Курсы валют ЦБ РФ в XML и JSON.

?
Как получить доступ ко всей информации, которую содержит ответ?

Текст ответа хранится в атрибуте text. Выведем значение атрибута на экран и посмотрим на его содержимое:

In [12]:
print(response.text)  # Выводим содержимое атрибута text переменной response на экран

{
    "Date": "2023-11-11T11:30:00+03:00",
    "PreviousDate": "2023-11-10T11:30:00+03:00",
    "PreviousURL": "\/\/www.cbr-xml-daily.ru\/archive\/2023\/11\/10\/daily_json.js",
    "Timestamp": "2023-11-13T11:00:00+03:00",
    "Valute": {
        "AUD": {
            "ID": "R01010",
            "NumCode": "036",
            "CharCode": "AUD",
            "Nominal": 1,
            "Name": "Австралийский доллар",
            "Value": 58.5552,
            "Previous": 58.9801
        },
        "AZN": {
            "ID": "R01020A",
            "NumCode": "944",
            "CharCode": "AZN",
            "Nominal": 1,
            "Name": "Азербайджанский манат",
            "Value": 54.1491,
            "Previous": 54.0745
        },
        "GBP": {
            "ID": "R01035",
            "NumCode": "826",
            "CharCode": "GBP",
            "Nominal": 1,
            "Name": "Фунт стерлингов Соединенного королевства",
            "Value": 113.1061,
            "Previous": 113.0329
 

<div style="background-color: #e0fff3; padding: 15px; color: black; width: 80%;">  Как правило, при работе над реальным проектом на этапе получения данных мы уже понимаем, с какими форматами данных нам придётся работать. На предлагаемом для работы ресурсе информация есть как в JSON-формате, так и в XML. По нашему запросу ресурс возвращает информацию в JSON-формате, однако в настоящий момент результат хранится как единая строка. Проверить тип данных полученного ответа можно, воспользовавшись функцией type().</div>

Для того чтобы удобно было работать с полученной информацией, нам необходимо преобразовать строку в словарь. В объект ответа Response  из библиотеки requests уже встроен метод json() .

Импортируем функцию pprint(), применим к полученному ответу метод json() и выведем полученный результат на экран:

In [15]:
from pprint import pprint  # Импортируем функцию pprint()
import json  # Импортируем модуль json

currencies = response.json()  # Применяем метод json()
pprint(currencies)  # Выводим результат на экран

{'Date': '2023-11-11T11:30:00+03:00',
 'PreviousDate': '2023-11-10T11:30:00+03:00',
 'PreviousURL': '//www.cbr-xml-daily.ru/archive/2023/11/10/daily_json.js',
 'Timestamp': '2023-11-13T11:00:00+03:00',
 'Valute': {'AED': {'CharCode': 'AED',
                    'ID': 'R01230',
                    'Name': 'Дирхам ОАЭ',
                    'Nominal': 1,
                    'NumCode': '784',
                    'Previous': 25.0311,
                    'Value': 25.0656},
            'AMD': {'CharCode': 'AMD',
                    'ID': 'R01060',
                    'Name': 'Армянских драмов',
                    'Nominal': 100,
                    'NumCode': '051',
                    'Previous': 22.8287,
                    'Value': 22.8653},
            'AUD': {'CharCode': 'AUD',
                    'ID': 'R01010',
                    'Name': 'Австралийский доллар',
                    'Nominal': 1,
                    'NumCode': '036',
                    'Previous': 58.9801,
            

Теперь данные находятся в словаре и можно легко получать необходимые значения.

Например, по ключу Valute мы можем обратиться к вложенному словарю, который содержит информацию о мировых валютах. Выведем на экран, например, информацию о евро (EUR):

In [16]:
pprint(currencies["Valute"]["EUR"])  # Выводим на экран информацию о валюте евро

{'CharCode': 'EUR',
 'ID': 'R01239',
 'Name': 'Евро',
 'Nominal': 1,
 'NumCode': '978',
 'Previous': 98.4076,
 'Value': 98.3155}


###  Задание 3.2

Повторите запросы, описанные в этом юните, на своём компьютере. Что будет выведено на экран в результате выполнения следующего кода?
<code>print(currencies['Valute']['CZK']['Name'])</code>
<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
</code>
</details>

In [17]:
print(currencies["Valute"]["CZK"]["Name"])

Чешских крон
