# PYTHON-17. Как получать данные из веб-источников и API

## Веб-запросы

Процесс получения/извлечения информации с веб-ресурсов в интернете называется **web-scraping** (рус. веб-скрейпинг/веб-скрапинг). Веб-скрапинг может быть проделан вручную пользователем компьютера, однако этот термин обычно связывают с автоматизированными процессами, реализованными с помощью кода.

**Интернет** — это глобальная информационная сеть, которая позволяет компьютерам по всему миру обмениваться информацией. Один компьютер (называемый клиентом) отправляет запрос в определённом формате другому компьютеру (называемому сервером) и получает ответ (текст, изображение, видео и т. д.).

Клиент и сервер взаимодействуют между собой, обмениваясь одиночными сообщениями (не потоком данных) посредством сетевых протоколов, которые формализуют общение между ними. В настоящее время повсеместно используемый протокол в интернете, позволяющий клиенту получать различные ресурсы (например, *HTML*-документы), — это протокол **HTTP**.

**Запрос**, отправляемый клиентом с использованием протокола *HTTP*, состоит из нескольких элементов:

* адрес, по которому идёт обращение (например, *www.google.com*);
* техническая информация, например метод запроса;
* дополнительные данные, например если загружается (передаётся) изображение.

Адрес — это *URL, Uniform Resource Locator* (с англ. Унифицированный Указатель Ресурса).

**Ответ**, в свою очередь, состоит из следующих элементов:

* код статуса ответа: например, 200 («успешно»), 404 («не найден») и т. д. (более полный список кодов статуса ответа можете посмотреть, перейдя по [ссылке](https://ru.wikipedia.org/wiki/Список_кодов_состояния_HTTP));
* текст в запрошенном формате (*HTML, XML, JSON* и т. д.) или мультимедийные файлы;
* прочая техническая информация.

### Методы запросов в протоколе HTTP

Для того чтобы указать серверу на то, какое действие мы хотим произвести с ресурсом, в протоколе *HTTP* используются так называемые методы. В *HTTP* существует несколько методов, которые описывают действия с ресурсами. Чаще всего используются *GET* и *POST*.

**GET - ПОЛУЧЕНИЕ РЕСУРСА**

Метод *GET* запрашивает информацию из указанного источника и не может влиять на его содержимое. Запрос доступен для кэширования данных (то есть для сохранения, восстановления и дальнейшего использования) и добавления в закладки. Длина запроса ограничена (максимальная длина — 2048 символов).

Пример *GET*-запроса, отправляемого через адресную строку браузера:

```http
 http://site.ru/page.php?name=dima&age=27
```

**POST — СОЗДАНИЕ РЕСУРСА**

Метод *POST* используется для отправки данных, которые могут оказывать влияние на содержимое ресурса. В отличие от метода *GET*, запросы *POST* не могут быть кэшированы, они не остаются в истории браузера и их нельзя добавить в закладки. Длина запроса *POST* не ограничивается.

Пример *POST*-запроса, отправляемого через форму запроса:

```
POST / HTTP/1.0\r\n
Host: www.site.ru\r\n
Referer: http://www.site.ru/index.html\r\n
Cookie: income=1\r\n
Content-Type: application/x-www-form-urlencoded\r\n
Content-Length: 35\r\n
\r\n
login=Dima&password=12345
```

**ДОПОЛНИТЕЛЬНО**

Подробнее про методы HTTP можете прочитать, перейдя по этой [ссылке](https://developer.mozilla.org/ru/docs/Web/HTTP/Methods).

## Библиотека requests

В стандартной библиотеке Python для отправки веб-запросов существует функция `urllib2`, но большинство разработчиков используют стороннюю библиотеку `requests` (c англ. запросы), потому что её работа более стабильна, а созданный с её помощью код получается проще. Поэтому мы будем работать с библиотекой `requests`, а `urllib2` рассматривать не будем.

Познакомимся с библиотекой `requests`, решив простую задачу — получить значения курсов валют. Курс валют — полезная и регулярно обновляемая информация, но каждый раз в ручном режиме получать информацию о курсе интересующей валюты трудоёмко.

Разработаем код, так называемый скрипт (англ. `script`, рус. сценарий), — небольшую программу, которая содержит последовательность действий для автоматического выполнения задачи.

С помощью скрипта мы будем в удобном виде выгружать информацию по курсам валют с заранее выбранного сайта.

Один из сайтов в интернете, на котором информация о курсах валют дублирует информацию с сайта [Центрального Банка России](https://www.cbr.ru/), — ресурс [Курсы валют ЦБ РФ в XML и JSON](https://www.cbr-xml-daily.ru/). На данном ресурсе информация о курсах валют представлена в разных форматах, в том числе и в структурированном JSON-формате, методы работы с которым мы изучили в одном из предыдущих модулей.

Перед началом работы библиотеку `requests` потребуется установить. Например, в Jupyter Notebook это делается с помощью такой команды:

```python
# Устанавливаем библиотеку requests
!pip install requests 
```
Как только библиотека установлена, импортируем её и отправим наш первый запрос к ресурсу [Курсы валют ЦБ РФ в XML и JSON](https://www.cbr-xml-daily.ru/). Используем метод `get()` из библиотеки `requests`, передав ему соответствующий URL —  https://www.cbr-xml-daily.ru/daily_json.js:


In [35]:
import requests  # Импортируем библиотеку requests

# Определяем значение URL страницы для запроса
url = "https://www.cbr-xml-daily.ru/daily_json.js"

# Делаем GET-запрос к ресурсу и результат ответа сохраняем в переменной response
response = requests.get(url)

print(response)  # Выводим значение response на экран как объект


<Response [200]>


Мы получили объект ответа `response`, который содержит всю нужную нам информацию. По умолчанию в квадратных скобках на экран выводится код статуса ответа. В данном случае он равен 200 — то есть запрос был корректным и сервер отдал нам нужную информацию. Значение кода статуса 404 означало бы, что страница по указанному адресу не найдена, а значение 403 — что синтаксис GET-запроса неверный.

Код ответа в виде числовой переменной можно получить с помощью метода `status_code`:

In [36]:
print(response.status_code)  # Выводим числовое значение response на экран

200


### Задание 3.1

Вы уже импортировали модуль requests в ваш код. Напишите строку кода, при выполнении которой будет сделан GET-запрос к ресурсу https://www.cbr-xml-daily.ru/daily.xml, а результат ответа будет сохранён в переменной response:

In [37]:
# response = requests.get("https://www.cbr-xml-daily.ru/daily.xml")


### Работам с ответом

Мы сделали запрос и получили корректный ответ (код статуса — 200). Дальнейшую работу производим с результатом запроса к ресурсу Курсы валют ЦБ РФ в XML и JSON.

Как получить доступ ко всей информации, которую содержит ответ?

Текст ответа хранится в атрибуте text. Выведем значение атрибута на экран и посмотрим на его содержимое:

In [38]:
# Выводим содержимое атрибута text переменной response на экран
print(response.text)


{
    "Date": "2023-08-24T11:30:00+03:00",
    "PreviousDate": "2023-08-23T11:30:00+03:00",
    "PreviousURL": "\/\/www.cbr-xml-daily.ru\/archive\/2023\/08\/23\/daily_json.js",
    "Timestamp": "2023-08-23T20:00:00+03:00",
    "Valute": {
        "AUD": {
            "ID": "R01010",
            "NumCode": "036",
            "CharCode": "AUD",
            "Nominal": 1,
            "Name": "Австралийский доллар",
            "Value": 60.8302,
            "Previous": 60.3958
        },
        "AZN": {
            "ID": "R01020A",
            "NumCode": "944",
            "CharCode": "AZN",
            "Nominal": 1,
            "Name": "Азербайджанский манат",
            "Value": 55.5542,
            "Previous": 55.3638
        },
        "GBP": {
            "ID": "R01035",
            "NumCode": "826",
            "CharCode": "GBP",
            "Nominal": 1,
            "Name": "Фунт стерлингов Соединенного королевства",
            "Value": 120.2437,
            "Previous": 119.7846
 

Как правило, при работе над реальным проектом на этапе получения данных мы уже понимаем, с какими форматами данных нам придётся работать. На предлагаемом для работы ресурсе информация есть как в JSON-формате, так и в XML. По нашему запросу ресурс возвращает информацию в JSON-формате, однако в настоящий момент результат хранится как единая строка. Проверить тип данных полученного ответа можно, воспользовавшись функцией `type()`.

Для того чтобы удобно было работать с полученной информацией, нам необходимо преобразовать строку в словарь. В объект ответа `response`  из библиотеки `requests` уже встроен метод `json()` .

Импортируем функцию `pprint()`, применим к полученному ответу метод `json()` и выведем полученный результат на экран:

In [39]:
from pprint import pprint  # Импортируем функцию pprint()
currencies = response.json()  # Применяем метод json()
pprint(currencies)  # Выводим результат на экран)

{'Date': '2023-08-24T11:30:00+03:00',
 'PreviousDate': '2023-08-23T11:30:00+03:00',
 'PreviousURL': '//www.cbr-xml-daily.ru/archive/2023/08/23/daily_json.js',
 'Timestamp': '2023-08-23T20:00:00+03:00',
 'Valute': {'AED': {'CharCode': 'AED',
                    'ID': 'R01230',
                    'Name': 'Дирхам ОАЭ',
                    'Nominal': 1,
                    'NumCode': '784',
                    'Previous': 25.6244,
                    'Value': 25.7132},
            'AMD': {'CharCode': 'AMD',
                    'ID': 'R01060',
                    'Name': 'Армянских драмов',
                    'Nominal': 100,
                    'NumCode': '051',
                    'Previous': 24.3963,
                    'Value': 24.4163},
            'AUD': {'CharCode': 'AUD',
                    'ID': 'R01010',
                    'Name': 'Австралийский доллар',
                    'Nominal': 1,
                    'NumCode': '036',
                    'Previous': 60.3958,
            

Теперь данные находятся в словаре и можно легко получать необходимые значения.

Например, по ключу `Valute` мы можем обратиться к вложенному словарю, который содержит информацию о мировых валютах. Выведем на экран, например, информацию о евро (EUR):

In [40]:
# Выводим на экран информацию о валюте евро
pprint(currencies['Valute']['EUR'])

{'CharCode': 'EUR',
 'ID': 'R01239',
 'Name': 'Евро',
 'Nominal': 1,
 'NumCode': '978',
 'Previous': 102.753,
 'Value': 102.2452}


### Задание 3.2

Повторите запросы, описанные в этом юните, на своём компьютере. Что будет выведено на экран в результате выполнения следующего кода?

In [41]:
print(currencies["Valute"]["CZK"]["Name"])

Чешских крон


## Парсинг сайтов

Ресурс, с которым мы работали в предыдущем юните, возвращал ответ о текущем курсе валют в удобном, структурированном формате, из которого было легко извлечь необходимую информацию. Довольно часто для получения информации приходится обращаться напрямую к HTML-страницам.

Для примера рассмотрим [страницу](https://nplus1.ru/news/2021/10/11/econobel2021), содержащую статью с информацией о присуждении Нобелевской премии по экономике в 2021 году, и попробуем извлечь из неё заголовок статьи, опубликованной на странице, дату публикации, а также текст статьи.

Получить содержимое страницы в большинстве случаев несложно, гораздо труднее извлечь из HTML-кода нужную информацию.

### Основы HTML

HTML (англ. HyperText Markup Language, рус. язык гипертекстовой разметки) — стандартизированный язык разметки документов в интернете. Большинство веб-страниц содержат описание разметки на языке HTML. Язык HTML интерпретируется браузерами. Полученный в результате интерпретации текст отображается на экране монитора компьютера или мобильного устройства.

HTML позволяет создавать макет страницы, разбивая её на блоки: мы можем поместить содержимое посередине страницы, сбоку и т. п.

Кроме того, HTML используется для описания форматирования. Например, с его помощью мы можем указать, какая часть текста должна отображаться крупным шрифтом как заголовок, какая — курсивом, а какая — как обычный текст.

HTML является близким родственником уже знакомого вам формата XML. Разметка на языке HTML делается с помощью так называемых тегов, которые помещаются в угловые скобки, и применяется к элементам, заключённым внутри них. Посмотрите на примеры:


У корректной HTML-страницы есть заголовок и тело страницы. В заголовке (в тегах `<head>` … `</head>`)  размещается техническая информация, подключаются скрипты и стили. В теле `<body> … </body>` находятся текст и данные, которые непосредственно отображаются на странице в браузере.

Разметка небольшой страницы выглядит примерно так:


Вы можете сохранить этот код в текстовом файле с расширением .html и открыть этот файл в браузере.

Обратите внимание, что теги образуют иерархическую структуру, то есть одни теги расположены внутри других. В примере выше тег `<p> … </p>` находится внутри тега `<body> … </body>`.

Кроме того, у тегов могут быть атрибуты, которые пишутся внутри открывающегося тега. Самые популярные атрибуты — это `class` и `id`:


Изучение языка HTML находится вне рамок этого курса, но для того, чтобы собирать информацию с веб-страниц, нет необходимости хорошо знать HTML. Достаточно понимать, что:

* существуют теги с разными именами;
* у тегов бывают атрибуты, такие как `class` и `id`;
* теги образуют иерархическую структуру, то есть одни теги вложены в другие.

**ДОПОЛНИТЕЛЬНО**

Вы можете ознакомиться с информацией о HTML в справочнике, перейдя по [ссылке](http://htmlbook.ru/html).

### Получаем содержимое веб-страницы

Получим HTML-код интересующей нас страницы.

Для этого отправим GET-запрос с помощью библиотеки `requests` и метода `get()` и посмотрим на текст ответа на наш запрос (как мы помним, он содержится в атрибуте `text`):

In [42]:
import requests  # Импортируем библиотеку requests

# Определяем адрес страницы
url = "https://nplus1.ru/news/2021/10/11/econobel2021"
response = requests.get(url)  # Выполняем GET-запрос
print(response.text)  # Выводим содержимое атрибута text


<!DOCTYPE html>
<html prefix="og: http://ogp.me/ns#" lang="ru">
<head>
  <meta charset="utf-8">
  <meta name="viewport" content="width=device-width, initial-scale=1">
  <title>Премию Нобеля по экономике присудили за исследования экономики труда и причинно-следственных связей</title>
    <link rel="preload" href="https://staticn1.nplus1.ru/fonts/AeonikPro/AeonikPro-Regular.woff2" as="font" type="font/woff2" crossorigin />
    <link rel="preload" href="https://staticn1.nplus1.ru/fonts/Spectral/Spectral-Regular.woff" as="font" type="font/woff2" crossorigin />
  <link href="/front-build/css/main.css?id=c066269c9e31b8c5719ba747306ba601" rel="stylesheet">
  <link href="/front-build/css/app.css?id=09c66ab9053b6ee68d87437dc6b9d719" rel="stylesheet">
  

  <link rel="apple-touch-icon" sizes="180x180" href="/apple-touch-icon.png">
  <link rel="icon" type="image/png" sizes="32x32" href="/favicon-32x32.png">
  <link rel="icon" type="image/png" sizes="16x16" href="/favicon-16x16.png">
  <link rel="

Ответ содержит HTML-код страницы, к которой мы обратились.

В отличие от предыдущего примера, где ответ возвращался в JSON-формате, мы не можем так просто преобразовать HTML-код в словарь и извлечь необходимую нам информацию.

Для решения таких задач в Python существует специальная библиотека `BeautifulSoup`, о работе с которой мы поговорим в следующем юните.

## Библиотека BeautifulSoup

`BeautifulSoup` не является частью стандартной библиотеки, поэтому для начала её нужно установить. Например, в Jupyter Notebook это делается с помощью такой команды:

```python
# Устанавливаем библиотеку BeautifulSoup
!pip install beautifulsoup4 
```

После установки импортируем библиотеку в наш код:

In [1]:
from bs4 import BeautifulSoup  # Импортируем библиотеку BeautifulSoup


Теперь мы можем извлекать данные из любой веб-страницы.

Ранее мы уже получили содержимое страницы с помощью GET-запроса и сохранили информацию в переменной `response` , теперь создадим объект `BeautifulSoup` с именем `page`, указывая в качестве параметра `html.parser`.

Для примера получим информацию o `title` (с англ. заголовок) — это строка, которая отображается на вкладке браузера:

In [14]:
import requests  # Импортируем библиотеку requests
from bs4 import BeautifulSoup  # Импортируем библиотеку BeautifulSoup

url = "https://nplus1.ru/news/2021/10/11/econobel2021"  # Определяем адрес страницы
response = requests.get(
    url
)  # Выполняем GET-запрос, содержимое ответа присваивается переменной response
page = BeautifulSoup(
    response.text, "html.parser"
)  # Создаём объект BeautifulSoup, указывая html-парсер
print(page.title)  # Получаем тег title, отображающийся на вкладке браузера
print(
    page.title.text
)  # Выводим текст из полученного тега, который содержится в атрибуте text


<title>Премию Нобеля по экономике присудили за исследования экономики труда и причинно-следственных связей</title>
Премию Нобеля по экономике присудили за исследования экономики труда и причинно-следственных связей


Если при запросе к сайту, а затем при его разборе с помощью `BeautifulSoup` в тексте страницы не находится нужный тег, попробуйте вывести на печать пару тысяч символов текста страницы. Если там обнаружится нечто похожее на капчу, возможно, сайт посчитал вас роботом и отказывается выдавать содержимое. Чтобы получить его, попробуйте «притвориться» браузером при запросе из скрипта:

```python
requests.get(url, headers={'User-Agent': 'Mozilla/5.0'})
```

User-Agent своего браузера можно узнать [по этой ссылке](https://whatmyuseragent.com/).

### Извлекаем заголовок и время написания статьи

Выполним поставленную ранее задачу: получить информацию о [странице](https://nplus1.ru/news/2021/10/11/econobel2021) и извлечь заголовок статьи, опубликованной на этой странице, дату публикации, а также текст статьи.

Предположим, что мы знаем, что в HTML-коде рассматриваемой нами страницы заголовок статьи заключён в тег `<h1> … </h1>` (заголовок первого уровня).

Тогда мы можем получить его текст с помощью метода `find()` (с англ. найти) объекта `BeautifulSoup`, передав ему название интересующего нас тега:

In [15]:
# Применяем метод find() к объекту и выводим результат на экран
print(page.find("h1").text)



            Премию Нобеля по экономике присудили за исследования экономики труда и причинно-следственных связей
          


Но как же узнать, в каких именно тегах заключена необходимая информация?

Проще всего это сделать с помощью так называемого **инструмента разработчика**, который есть во всех современных браузерах. Покажем, как открыть данный инструмент на примере использования браузера Google Chrome.

Устанавливаем курсор на элементе [страницы](https://nplus1.ru/news/2021/10/11/econobel2021) (заголовок статьи), информацию о котором хотим получить, нажимаем на правую клавишу мыши и в выпадающем списке выбираем пункт «**Просмотреть код элемента**» или «**Посмотреть код**» в зависимости от браузера.

### Задание 5.4 (External resource)

Напишите функцию `wiki_header`, которая по адресу страницы возвращает заголовок первого уровня для статей на `Wikipedia`.

Функция `wiki_header` принимает один аргумент - `url`.

```python
wiki_header('https://en.wikipedia.org/wiki/Operating_system')
'Operating system'
```

In [11]:
import requests
from bs4 import BeautifulSoup


def wiki_header(url: str) -> str:
    """Возращает заголовок 1-го ур. страницы Википедии"""

    response = requests.get(url)
    page = BeautifulSoup(response.text, "html.parser")

    return page.find("h1").text


print(wiki_header("https://ru.wikipedia.org/wiki/Pink_Floyd"))

Pink Floyd


### Неуникальные теги: извлекаем текст и дату публикации статьи

Теперь получим сам текст статьи. Как вы уже знаете, первым делом необходимо определить, в какой тег он заключён. Применим, как и ранее, инструмент разработчика.

Видим, что искомый текст заключён в тег  `<div> … </div>` . Попробуем извлечь его уже известным нам способом — с помощью метода `find()` — и выведем его на экран.

In [16]:
print(page.find("div").text)  # Выводим содержимое атрибута text тега div





Мы увидели не то, что ожидали — кучу текста, не имеющего отношения к тому, что мы искали...

Дело в том, что теги `<div> … </div>` очень распространённые и на странице их очень много. Метод `find()` нашёл первый из них, но это не то, что нам надо.

Посмотрим на нашу страницу, используя инструмент разработчика, ещё раз. Можем заметить, что у искомого текста есть свой класс — `n1_material text-18`

Передадим название класса в метод `find()` с помощью аргумента `class_` и получим текст статьи:

In [17]:
print(
    page.find("div", class_="n1_material text-18").text
)  # Выводим содержимое атрибута text тега div класса n1_material text-18


Премия Шведского национального банка по экономическим наукам памяти Альфреда Нобеля за 2021 год присуждена Дэвиду Карду (David Card) за его вклад в эмпирические исследования экономики рынка труда, а также Джошуа Энгристу (Joshua Angrist) и Гвидо Имбенсу (Guido Imbens) за их вклад в методологию анализа причинно-следственных связей. Прямая трансляция церемонии объявления лауреатов шла на официальном сайте Нобелевской премии.


В данном случае происходит поиск точного строкового значения class атрибута, т. е. выполнение строк кода:

* ```python
    print(page.find('div', class_='n1_material').text)
    ```

* ```python
    print(page.find('div', class_='n1_material text-18').text)
    ```

даст одинаковый результат.

При выполнении строки кода

```python
print(page.find('div', class_='text-18 n1_material').text)
```

мы получим ошибку, так как такого строкового значения в области поиска нет.

Аналогично получим информации о теге, который содержит дату написания статьи, отображаемую в левом верхнем углу страницы.

Итак, нам нужен тег `<a> … </a>` с классом `"relative before:block before:w-px before:bg-current before:h-4 before:absolute before:left-0 group pl-2 flex inline-flex items-center"`. Для поиска достаточно указать в качестве класса `"relative"`, отбросив дополнительные настройки.

Теперь получим данные из него с помощью уже известного метода `find()`, передав название нужного тега:

In [18]:
# Выводим на экран содержимое атрибута text тега a с классом "relative"
print(page.find('a', class_="relative").text)


11.10.21



О поиске по классу можно узнать подробнее в [Beautiful Soup Documentation](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#searching-by-css-class).

Задача решена — мы извлекли из контента страницы заголовок статьи, опубликованной на странице, дату публикации, а также текст статьи.

### Сбор нескольких элементов: собираем все ссылки на странице

Рассмотрим ещё один сценарий: вы хотите собрать сразу несколько элементов со страницы. Например, представьте, что вы хотите получить названия всех языков программирования, упомянутых на [странице в Wikipedia](https://en.wikipedia.org/wiki/List_of_programming_languages) в статье про языки программирования.

Можно заметить, что все названия языков программирования на этой странице связаны ссылками c соответствующими статьями о них. Таким образом, нам необходимо собрать все ссылки на странице. Для ссылок в HTML предусмотрен тег `<a> … </a>`. Попробуем использовать `find()`:

In [19]:
# Задаём адрес ресурса
url = "https://en.wikipedia.org/wiki/List_of_programming_languages"
response = requests.get(url)  # Делаем GET-запрос к ресурсу
# Создаём объект BeautifulSoup
page = BeautifulSoup(response.text, "html.parser")
print(page.find("a"))  # Ищем ссылку по тегу <a> и выводим её на экран

<a class="mw-jump-link" href="#bodyContent">Jump to content</a>


Мы получили только одну ссылку, хотя на странице их явно больше.

Это происходит, потому что метод `find()` возвращает только первый подходящий элемент. Если требуется получить больше элементов, необходимо воспользоваться методом` find_all()` (с англ. найти все):

In [20]:
links = page.find_all('a') # Ищем все ссылки на странице и сохраняем в переменной links в виде списка
print(len(links)) # Выводим количество найденных ссылок

955


Итак, на момент создания этих учебных материалов на странице содержалось 928 ссылок. Посмотрим на некоторые из них:

In [21]:
print(
    [link.text for link in links[500:510]]
)  # Выводим ссылки с 500 по 509 включительно

['MAD', 'MAD/I', 'Magik', 'Magma', 'Máni', 'Maple', 'MAPPER', 'MARK-IV', 'Mary', 'MATLAB']


Не все ссылки соответствуют названиям языков программирования — страница содержит также «служебные» ссылки, такие, например, как *Jump to navigation* (с англ. Перейти к навигации) или *Alphabetical* (с англ. По алфавиту):

In [22]:
print([link.text for link in links[0:10]])  # Выводим ссылки с 1 по 9 включительно

['Jump to content', 'Main page', 'Contents', 'Current events', 'Random article', 'About Wikipedia', 'Contact us', 'Donate', 'Help', 'Learn to edit']


Для обработки полученных данных и исключения «лишней» информации можно, например, использовать подходы, которые вы изучили [в модуле PYTHON-14](https://lms.skillfactory.ru/courses/course-v1:SkillFactory+DSPR-2.0+14JULY2021/jump_to_id/c988abcb7a6d4ebeb22cf03b00e8118e).

В заключение заметим, что `BeautifulSoup` — достаточно мощная библиотека. Мы рассмотрели её базовые возможности, но их полный список гораздо шире. С ним можно ознакомиться [в официальной документации](https://www.crummy.com/software/BeautifulSoup/bs4/doc/).

## Работа с API

В предыдущих разделах мы собирали полезную информацию с различных сайтов.

Вы могли убедиться, что поиск необходимой информации с выделением правильных тегов — довольно трудоёмкая задача. Кроме того, подобные программы могут ломаться в случаях, когда меняется дизайн сайта, его разметка или владельцы сайтов защищаются от ботов капчей.

К счастью, многие крупные сайты предоставляют доступ к так называемым **API** (англ. *Application Programming Interface*, рус. Интерфейс Прикладного Программирования).

К примеру, мы уже видели, как ресурс [Курсы валют ЦБ РФ в XML и JSON](https://www.cbr-xml-daily.ru/) возвращает данные о валютах в JSON-формате. Это пример API.

Рассмотрим на примере социальной сети ВКонтакте особенности API, характерные для более крупных сайтов.

### Ключ авторизации

Для того чтобы начать работать с *API*, обычно необходимо получить сервисный ключ авторизации — **токен**.

**Токен** — это средство идентификации пользователя или отдельного сеанса работы в компьютерных сетях и приложениях. Различают **программные** и **аппаратные** токены.
Мы будем использовать программный токен, который обычно представляет собой зашифрованную последовательность символов, позволяющую точно идентифицировать объект и определить уровень его привилегий. Он генерируется системой авторизации и привязывается к конкретному сеансу работы, клиенту сети или пакету данных.

Авторизация применяется практически во всех *API*, чтобы отдавать данные только их владельцу или контролировать количество запросов в единицу времени.

Сервисный токен для *API* ВКонтакте для нашей задачи создаётся вместе с новым приложением. Приложение мы делать, конечно, не будем. Оно нужно только для получения токена, чтобы сделать необходимые выгрузки.

Зайдите на страницу, чтобы создать приложение (вы должны быть авторизованы ВКонтакте). Дайте приложению любое название и в разделе Платформа поставьте отметку выбора напротив значения Standalone-приложение:

Подтвердив создание приложения на сайте в приложении ВКонтакте или по СМС, зайдите в Настройки. Нужный нам токен лежит в поле Сервисный ключ доступа.

### Первые запросы к API

Чтобы познакомиться с работой *API*, мы будем получать данные для статистических отчётов произвольной группы, например данные о соотношении мужчин и женщин, статистику географии пользователей и т. п.

Сначала рассмотрим работу *API* на простом примере, на основе которого работают многие системы.

Сделаем наш первый запрос из браузера.

Перейдите по следующей ниже ссылке в браузере, подставив вместо слова **TOKEN** ваш персональный сервисный ключ доступа (токен), полученный на предыдущем шаге:

```
https://api.vk.com/method/users.get?user_id=1&v=5.95&access_token=TOKEN
```

Примечание: адресная строка в браузере будет выглядеть примерно так:  *https://api.vk.com/method/users.get?user_id=1&v=5.95&access_token=8b3341297d3341297d334129917d5e4be377d337d33412920ba951f8120284cd53ff3bd*

Итак, мы сделали GET-запрос к API ВКонтакте, который состоит из следующих элементов:

* *https://api.vk.com/method* — домен и URL запроса API; обычно не меняется;
* *users.get* — название метода, который отдаёт определённый отчёт, в нашем случае это метод для получения информации о пользователе;
* *user_id* и *v* — параметры запроса: идентификатор пользователя, о котором хотим получить информацию (в нашем примере мы запрашиваем информацию о первом пользователе), и номер версии API;
* *token* — токен, который выдаётся только пользователям, имеющим право просматривать определённые данные, например показания счётчиков Яндекс.Метрики вашего проекта; на все остальные запросы без корректного токена система отвечает отказом.

Если мы обратимся к [документации метода users.get](https://vk.com/dev/users.get), то увидим, что в ней описано множество других параметров, которые можно получить о пользователе (дата рождения, пол, родной город и другие) — словом, всё то, что мы видим на странице пользователя в интерфейсе или приложении ВКонтакте (конечно, если пользователь их указал).

Добавим к запросу дату рождения и пол (согласно документации, эти параметры надо перечислять в поле fields):

```
https://api.vk.com/method/users.get?user_id=1&v=5.95&fields=sex,bdate&access_token=TOKEN
```

Примечание: значение 2 у параметра sex означает мужской пол.

До этого момента мы делали запросы в браузере — теперь давайте выполним запросы из кода.

### Запрос к API из кода

Продолжаем пользоваться всё той же библиотекой `requests`.

In [1]:
import requests  # Импортируем модуль requests

token = " ... "  # Указываем свой сервисный токен
url = "https://api.vk.com/method/users.get"  # Указываем адрес страницы к которой делаем запрос
params = {
    "user_id": 1,
    "v": 5.95,
    "fields": "sex,bdate",
    "access_token": "e92b87e2e92b87e2e92b87e2e5ea3ef246ee92be92b87e28dc76b304b9e52c7d587641a",
    "lang": "ru",
}  # Перечисляем параметры нашего запроса в словаре params
response = requests.get(url, params=params)  # Отправляем запрос
print(response.text)  # Выводим текст ответа на экран

{"response":[{"id":1,"bdate":"10.10.1984","sex":2,"first_name":"Павел","last_name":"Дуров","can_access_closed":true,"is_closed":false}]}


Мы получили строку в JSON-формате, которую можно преобразовать в словарь с помощью метода `json()`, после чего можно с лёгкостью обращаться к различным полям.

Словари нагляднее выводить с помощью функции `pprint()`, которую мы уже использовали ранее:

In [2]:
from pprint import pprint  # Импортируем функцию pprint()

pprint(response.json())  # Выводим содержимое словаря, содержащего ответ, на экран

{'response': [{'bdate': '10.10.1984',
               'can_access_closed': True,
               'first_name': 'Павел',
               'id': 1,
               'is_closed': False,
               'last_name': 'Дуров',
               'sex': 2}]}


Как вы видите, по ключу `response` мы можем получить список, в котором хранятся словари, содержащие информацию о запрошенных нами пользователях. Мы запросили информацию лишь об одном из них, поэтому список содержит только один элемент. Извлечём его:

In [3]:
# Извлекаем из словаря по ключу response информацию о первом пользователе
user = response.json()["response"][0]

# Выводим дату рождения первого пользователя на экран
print(user["bdate"])

10.10.1984


#### Задание 6.1

Мы вывели на экран дату рождения пользователя. Напишите строку кода, которая выведет на экран имя пользователя:

In [4]:
print(user["first_name"])

Павел



Метод `users.get()` позволяет запрашивать информацию о множестве (до 1 000) пользователей одновременно. Для этого нужно использовать параметр `user_ids` и передавать `id` через запятую в строковом формате. Например, чтобы получить информацию о пользователях с `id=1`, `id=2`, `id=3`, необходимо передать значение параметра `user_ids='1,2,3'`.

Попробуем это сделать:

In [8]:
ids = ",".join(
    map(str, range(1, 4))
)  # Формируем строку, содержащую информацию о поле id первых трёх пользователей
params = {
    "user_ids": ids,
    "v": 5.95,
    "fields": "bdate",
    "access_token": "e92b87e2e92b87e2e92b87e2e5ea3ef246ee92be92b87e28dc76b304b9e52c7d587641a",
    "lang": "ru",
}  # Формируем строку параметров
pprint(
    requests.get(url, params=params).json()
)  # Посылаем запрос, полученный ответ в формате JSON-строки преобразуем в словарь и выводим на экран его содержимое, используя функцию pprint()

{'response': [{'can_access_closed': True,
               'first_name': 'Павел',
               'id': 1,
               'is_closed': False,
               'last_name': 'Дуров',
               'sex': 2},
              {'can_access_closed': False,
               'first_name': 'Александра',
               'id': 2,
               'is_closed': True,
               'last_name': 'Владимирова',
               'sex': 1},
              {'can_access_closed': True,
               'deactivated': 'deleted',
               'first_name': 'DELETED',
               'id': 3,
               'is_closed': False,
               'last_name': '',
               'sex': 0}]}


### Задание 6.2

Используя API, определите долю женщин (sex=1) среди пользователей с id от 1 до 500. Иногда будут попадаться пользователи, у которых пол не указан (sex=0), — таких пользователей не нужно учитывать в общем числе.

В ответе укажите число, округлив до двух знаков после точки-разделителя, например, 0.55.

In [10]:
ids = ",".join(map(str, range(1, 501)))

params = {
    "user_ids": ids,
    "v": 5.95,
    "fields": "sex",
    "access_token": "e92b87e2e92b87e2e92b87e2e5ea3ef246ee92be92b87e28dc76b304b9e52c7d587641a",
    "lang": "ru",
}

users = requests.get(url, params=params).json()

num_users_with_sex = 0
num_female = 0
for user in users["response"]:
    if user["sex"] != 0:
        num_users_with_sex += 1
        if user["sex"] == 1:
            num_female += 1
            
print(f"Доля пользователей женского пола {num_female/num_users_with_sex:.2f}")

Доля пользователей женского пола 0.49
