# 45. PYT. Как получать данные из веб-источников и API 

## 45.1 Веб-запросы

**Веб-скрейпинг**, или веб-скрапинг (от англ. web-scraping) — процесс получения, извлечения информации с веб-ресурсов в интернете.

Какие данные можно извлечь в процессе веб-скрапинга?
- цены на товары конкурентов для оптимизации своей стратегии ценообразования;
- сообщения в социальных медиа, по которым можно отслеживать тренды в той или иной области;
- отзывы о товарах/услугах компании на различных площадках, которые можно впоследствии анализировать;
- контактные данные пользователей соцсетей или форумов для дальнейшего взаимодействия с этими пользователями и т. д.

#### Запрос
Запрос, отправляемый клиентом с использованием протокола http, состоит из нескольких элементов:   
- адрес, по которому идёт обращение (например, www.google.com);
- техническая информация (например, метод запроса);
- дополнительные данные (например, если загружается/передаётся изображение).

#### Ответ
Ответ, в свою очередь, состоит из следующих элементов:
- код статуса ответа: например, 200 («успешно»), 404 («не найден») и т. д.
- текст в запрошенном формате (html, xml, json и т. д.) или мультимедийные файлы;
- прочая техническая информация.

### МЕТОДЫ ЗАПРОСОВ В ПРОТОКОЛЕ HTTP
Для того чтобы указать серверу на то, какое действие мы хотим произвести с ресурсом, в протоколе http используются так называемые методы. В http существует несколько методов, которые описывают действия с ресурсами. Чаще всего используются **GET** и **POST**.

#### GET — получение ресурса
Метод GET запрашивает информацию из указанного источника и не может влиять на его содержимое. Запрос доступен для кэширования данных (то есть для сохранения, восстановления и дальнейшего использования) и добавления в закладки. Длина запроса ограничена (максимальная длина — 2048 символов).   
Пример GET-запроса, отправляемого через адресную строку браузера:
http://site.ru/page.php?name=dima&age=27

#### POST — создание ресурса
Метод POST используется для отправки данных, которые могут оказывать влияние на содержимое ресурса. В отличие от метода GET, запросы POST не могут быть кэшированы, они не остаются в истории браузера и их нельзя добавить в закладки. Длина запроса POST не ограничивается.   
Пример POST-запроса, отправляемого через форму запроса:   
POST / HTTP/1.0\r\n
Host: www.site.ru\r\n
Referer: http://www.site.ru/index.html\r\n
Cookie: income=1\r\n
Content-Type: application/x-www-form-urlencoded\r\n
Content-Length: 35\r\n
\r\n
login=Dima&password=12345

Методы HTTP запроса:  
https://developer.mozilla.org/ru/docs/Web/HTTP/Methods

**HEAD** запрашивает ресурс так же, как и метод GET, но без тела ответа.   
**PUT** заменяет все текущие представления ресурса данными запроса.   
**DELETE** удаляет указанный ресурс.   
**CONNECT** устанавливает "туннель" к серверу, определённому по ресурсу.   
**OPTIONS** используется для описания параметров соединения с ресурсом.   
**TRACE** выполняет вызов возвращаемого тестового сообщения с ресурса.   
**PATCH** используется для частичного изменения ресурса.   

## 45.2 Библиотека requests

В стандартной библиотеке Python для отправки веб-запросов существует функция urllib2, но большинство разработчиков используют стороннюю библиотеку requests (c англ. «запросы»), потому что её работа более стабильна, а созданный с её помощью код получается проще. Поэтому мы будем работать с библиотекой requests, а urllib2 рассматривать не будем.

Познакомимся с библиотекой requests, решив простую задачу — получить значения курсов валют. Курс валют — полезная и регулярно обновляемая информация, но каждый раз в ручном режиме получать информацию о курсе интересующей валюты трудоёмко.

Разработаем код, так называемый скрипт (от англ. script, сценарий), — небольшую программу, которая содержит последовательность действий для автоматического выполнения задачи.

С помощью скрипта мы будем в удобном виде выгружать информацию по курсам валют с заранее выбранного сайта — Курсы валют ЦБ РФ в XML и JSON.

Это один из интернет-ресурсов, на котором информация о курсах валют дублирует информацию с сайта Центрального Банка России. Здесь информация о курсах валют представлена в разных форматах, в том числе и в структурированном json-формате, методы работы с которым мы изучили в конце предыдущего раздела.

Библиотеку requests потребуется предварительно установить. Например, в Jupyter Notebook это делается с помощью такой команды:

In [None]:
# Устанавливаем библиотеку requests
!pip install requests 
# Чтобы установить пакет requests в Visual Studio Code (в терминале вводим):
py -m pip install requests

In [26]:
import requests # Импортируем библиотеку requests
import json # Импортируем модуль json
url = 'https://www.cbr-xml-daily.ru/daily_json.js' # Определяем значение URL страницы для запроса
response = requests.get(url) # Делаем GET-запрос к ресурсу и результат ответа сохраняем в переменной response

Как только библиотека установлена, импортируем её и отправим наш первый запрос к ресурсу Курсы валют ЦБ РФ в XML и JSON. Используем метод get() из библиотеки requests, передав ему соответствующий URL — https://www.cbr-xml-daily.ru/daily_json.js:

In [27]:
print(response) # Выводим значение response на экран как объект

<Response [200]>


Мы получили объект ответа Response, который содержит всю нужную нам информацию. По умолчанию в квадратных скобках на экран выводится код статуса ответа. В данном случае он равен 200 — то есть запрос был корректным и сервер отдал нам нужную информацию. Значение кода статуса 404 означало бы, что страница по указанному адресу не найдена, а значение 403 — что синтаксис GET-запроса неверный.

In [28]:
# Код ответа в виде числовой переменной можно получить с помощью метода status_code:
print(response.status_code) # Выводим числовое значение response на экран

200


In [None]:
"""Напишите строку кода, при выполнении которой будет сделан GET-запрос к ресурсу 
https://www.cbr-xml-daily.ru/daily.xml, а результат ответа будет сохранён в переменной response."""

response = requests.get('https://www.cbr-xml-daily.ru/daily.xml')

Мы сделали запрос и получили корректный ответ (код статуса — 200).   
Как получить доступ ко всей информации, которую содержит ответ? Текст ответа хранится в атрибуте text. Выведем значение атрибута на экран и посмотрим на его содержимое:

In [29]:
print(response.text) # Выводим содержимое атрибута text переменной response на экран

{
    "Date": "2021-12-21T11:30:00+03:00",
    "PreviousDate": "2021-12-18T11:30:00+03:00",
    "PreviousURL": "\/\/www.cbr-xml-daily.ru\/archive\/2021\/12\/18\/daily_json.js",
    "Timestamp": "2021-12-20T18:00:00+03:00",
    "Valute": {
        "AUD": {
            "ID": "R01010",
            "NumCode": "036",
            "CharCode": "AUD",
            "Nominal": 1,
            "Name": "Австралийский доллар",
            "Value": 52.7418,
            "Previous": 52.9034
        },
        "AZN": {
            "ID": "R01020A",
            "NumCode": "944",
            "CharCode": "AZN",
            "Nominal": 1,
            "Name": "Азербайджанский манат",
            "Value": 43.7285,
            "Previous": 43.3979
        },
        "GBP": {
            "ID": "R01035",
            "NumCode": "826",
            "CharCode": "GBP",
            "Nominal": 1,
            "Name": "Фунт стерлингов Соединенного королевства",
            "Value": 98.0987,
            "Previous": 98.2713
   

In [30]:
"""Для того чтобы удобно было работать с полученной информацией, нам необходимо преобразовать строку в словарь. В объект ответа Response из библиотеки requests уже встроен метод json().
Импортируем функцию pprint(), применим к полученному ответу метод json() и выведем полученный результат на экран:"""

from pprint import pprint # Импортируем функцию pprint()
currencies = response.json() # Применяем метод json()
pprint(currencies) # Выводим результат на экран)

{'Date': '2021-12-21T11:30:00+03:00',
 'PreviousDate': '2021-12-18T11:30:00+03:00',
 'PreviousURL': '//www.cbr-xml-daily.ru/archive/2021/12/18/daily_json.js',
 'Timestamp': '2021-12-20T18:00:00+03:00',
 'Valute': {'AMD': {'CharCode': 'AMD',
                    'ID': 'R01060',
                    'Name': 'Армянских драмов',
                    'Nominal': 100,
                    'NumCode': '051',
                    'Previous': 14.9681,
                    'Value': 15.0822},
            'AUD': {'CharCode': 'AUD',
                    'ID': 'R01010',
                    'Name': 'Австралийский доллар',
                    'Nominal': 1,
                    'NumCode': '036',
                    'Previous': 52.9034,
                    'Value': 52.7418},
            'AZN': {'CharCode': 'AZN',
                    'ID': 'R01020A',
                    'Name': 'Азербайджанский манат',
                    'Nominal': 1,
                    'NumCode': '944',
                    'Previous': 43.3979,


In [31]:
""" Теперь данные находятся в словаре и можно легко получать необходимые значения.
Например, по ключу Valute мы можем обратиться к вложенному словарю, который содержит
информацию о мировых валютах. Выведем на экран, например, информацию о евро (EUR):"""

pprint(currencies['Valute']['EUR']) # Выводим на экран информацию о валюте евро

{'CharCode': 'EUR',
 'ID': 'R01239',
 'Name': 'Евро',
 'Nominal': 1,
 'NumCode': '978',
 'Previous': 83.5026,
 'Value': 83.6187}


In [32]:
print(currencies['Valute']['CZK']['Name'])

Чешских крон
