# Работа с API

### В предыдущих разделах мы собирали полезную информацию с различных сайтов.

### Вы могли убедиться, что поиск необходимой информации с выделением правильных тегов — довольно трудоёмкая задача. Кроме того, подобные программы могут ломаться в случаях, когда меняется дизайн сайта, его разметка или владельцы сайтов защищаются от ботов капчей.

### К счастью, многие крупные сайты предоставляют доступ к так называемым API (англ. Application Programming Interface, рус. Интерфейс Прикладного Программирования).

## API — это специальные разделы сайта, где информацию можно получать без разметки, а формат запросов и ответов зафиксирован. API созданы для того, чтобы облегчить взаимодействие с сайтом для сторонних разработчиков.

### К примеру, мы уже видели, как ресурс Курсы валют ЦБ РФ в XML и JSON возвращает данные о валютах в JSON-формате. Это пример API.

### Рассмотрим на примере социальной сети ВКонтакте особенности API, характерные для более крупных сайтов.

## КЛЮЧ АВТОРИЗАЦИИ

### Для того чтобы начать работать с API, обычно необходимо получить сервисный ключ авторизации — токен.

### Токен — это средство идентификации пользователя или отдельного сеанса работы в компьютерных сетях и приложениях. Различают программные и аппаратные токены.
   ### Мы будем использовать программный токен, который обычно представляет собой зашифрованную последовательность символов, позволяющую точно идентифицировать объект и определить уровень его привилегий. Он генерируется системой авторизации и привязывается к конкретному сеансу работы, клиенту сети или пакету данных.

### Авторизация применяется практически во всех API, чтобы отдавать данные только их владельцу или контролировать количество запросов в единицу времени.

### Сервисный токен для API ВКонтакте для нашей задачи создаётся вместе с новым приложением. Приложение мы делать, конечно, не будем. Оно нужно только для получения токена, чтобы сделать необходимые выгрузки.

### Зайдите на страницу, чтобы создать приложение (вы должны быть авторизованы ВКонтакте). Дайте приложению любое название и в разделе Платформа поставьте отметку выбора напротив значения Standalone-приложение:

![Alt text](https://lms-cdn.skillfactory.ru/assets/courseware/v1/f82c440554ddf1bb53c532f5092a4766/asset-v1%3ASkillFactory%2BDSPR-2.0%2B14JULY2021%2Btype%40asset%2Bblock/Python_17_22.jpg)

### В отличие от многих других социальных сетей, ВК предоставляет API для парсинга данных — это открывает огромные возможности для аналитиков и дата-сайентистов. На хакатонах порой бывают задачи найти какие-то интересные закономерности именно в информации из ВК.

### Для работы с данными этой социальной сети достаточно создать базовый профиль с минимумом личной информации, а при регистрации потребуется ввести только номер телефона и адрес электронной почты.

### Безусловно, регистрация в ВК — ваше личное дело. Однако, отказавшись от неё, вы лишите себя возможности исследовать огромные объёмы актуальных данных.

### Подтвердив создание приложения на сайте в приложении ВКонтакте или по СМС, зайдите в Настройки. Нужный нам токен лежит в поле Сервисный ключ доступа:

![Alt text](https://lms-cdn.skillfactory.ru/assets/courseware/v1/d751786d3ae76105c314a9511f58e186/asset-v1%3ASkillFactory%2BDSPR-2.0%2B14JULY2021%2Btype%40asset%2Bblock/Python_17_23.jpg)

## ПЕРВЫЕ ЗАПРОСЫ К API

### Чтобы познакомиться с работой API, мы будем получать данные для статистических отчётов произвольной группы, например данные о соотношении мужчин и женщин, статистику географии пользователей и т. п.

### Сначала рассмотрим работу API на простом примере, на основе которого работают многие системы.

### Сделаем наш первый запрос из браузера.

### Перейдите по следующей ниже ссылке в браузере, подставив вместо слова TOKEN ваш персональный сервисный ключ доступа (токен), полученный на предыдущем шаге:

### https://api.vk.com/method/users.get?user_id=1&v=5.95&access_token=TOKEN
### Примечание: адресная строка в браузере будет выглядеть примерно так:  https://api.vk.com/method/users.get?user_id=1&v=5.95&access_token=8b3341297d3341297d334129917d5e4be377d337d33412920ba951f8120284cd53ff3bd

### Итак, мы сделали GET-запрос к API ВКонтакте, который состоит из следующих элементов:

* ### https://api.vk.com/method — домен и URL запроса API; обычно не меняется;
* ### users.get — название метода, который отдаёт определённый отчёт, в нашем случае это метод для получения информации о пользователе;
* ### user_id и v — параметры запроса: идентификатор пользователя, о котором хотим получить информацию (в нашем примере мы запрашиваем информацию о первом пользователе), и номер версии API;
* ### token — токен, который выдаётся только пользователям, имеющим право просматривать определённые данные, например показания счётчиков Яндекс.Метрики вашего проекта; на все остальные запросы без корректного токена система отвечает отказом.
### Если мы обратимся к документации метода users.get, то увидим, что в ней описано множество других параметров, которые можно получить о пользователе (дата рождения, пол, родной город и другие) — словом, всё то, что мы видим на странице пользователя в интерфейсе или приложении ВКонтакте (конечно, если пользователь их указал).

### Добавим к запросу дату рождения и пол (согласно документации, эти параметры надо перечислять в поле fields):

### https://api.vk.com/method/users.get?user_id=1&v=5.95&fields=sex,bdate&access_token=TOKEN

## ЗАПРОС К API ИЗ КОДА

### Продолжаем пользоваться всё той же библиотекой requests.


In [6]:
import requests # Импортируем модуль requests
token = '9eb791479eb791479eb791476b9da3d7a899eb79eb79147fac338ce259cba201d748fbc' # Указываем свой сервисный токен
url = 'https://api.vk.com/method/users.get' # Указываем адрес страницы к которой делаем запрос
params = {'user_id': 1, 'v': 5.95, 'fields': 'sex,bdate', 'access_token': token, 'lang': 'ru'} # Перечисляем параметры нашего запроса в словаре params
response = requests.get(url, params=params) # Отправляем запрос
print(response.text) # Выводим текст ответа на экран

{"response":[{"id":1,"bdate":"10.10.1984","sex":2,"first_name":"Павел","last_name":"Дуров","can_access_closed":true,"is_closed":false}]}


### Мы получили строку в JSON-формате, которую можно преобразовать в словарь с помощью метода json(), после чего можно с лёгкостью обращаться к различным полям.

### Словари нагляднее выводить с помощью функции pprint(), которую мы уже использовали ранее:

In [7]:
from pprint import pprint # Импортируем функцию pprint()
pprint(response.json()) # Выводим содержимое словаря, содержащего ответ, на экран

{'response': [{'bdate': '10.10.1984',
               'can_access_closed': True,
               'first_name': 'Павел',
               'id': 1,
               'is_closed': False,
               'last_name': 'Дуров',
               'sex': 2}]}


### Как вы видите, по ключу response мы можем получить список, в котором хранятся словари, содержащие информацию о запрошенных нами пользователях. Мы запросили информацию лишь об одном из них, поэтому список содержит только один элемент. Извлечём его:

In [8]:
user = response.json()['response'][0] # Извлекаем из словаря по ключу response информацию о первом пользователе
print(user['bdate']) # Выводим дату рождения первого пользователя на экран

10.10.1984


### Метод users.get() позволяет запрашивать информацию о множестве (до 1 000) пользователей одновременно. Для этого нужно использовать параметр user_ids и передавать id через запятую в строковом формате. Например, чтобы получить информацию о пользователях с id=1, id=2, id=3, необходимо передать значение параметра user_ids='1,2,3'.

### Попробуем это сделать:

In [9]:
ids = ",".join(map(str, range(1, 4))) # Формируем строку, содержащую информацию о поле id первых трёх пользователей
params = {'user_ids': ids, 'v': 5.95, 'fields': 'bdate', 'access_token': token, 'lang': 'ru'} # Формируем строку параметров
 # Посылаем запрос, полученный ответ в формате JSON-строки преобразуем в словарь и выводим на экран его содержимое, используя функцию pprint()

{'response': [{'bdate': '10.10.1984',
               'can_access_closed': True,
               'first_name': 'Павел',
               'id': 1,
               'is_closed': False,
               'last_name': 'Дуров'},
              {'bdate': '14.2',
               'can_access_closed': False,
               'first_name': 'Александра',
               'id': 2,
               'is_closed': True,
               'last_name': 'Владимирова'},
              {'can_access_closed': True,
               'deactivated': 'deleted',
               'first_name': 'DELETED',
               'id': 3,
               'is_closed': False,
               'last_name': ''}]}


In [22]:
from pprint import pprint # Импортируем функцию pprint()н
ids = ",".join(map(str, range(1, 501))) # Формируем строку, содержащую информацию о поле id первых трёх пользователей
params = {'user_ids': ids, 'v': 5.95, 'fields': 'sex,bdate', 'access_token': token, 'lang': 'ru'} # Формируем строку параметров
pprint(requests.get(url, params='sex=1').json())


{'error': {'error_code': 5,
           'error_msg': 'User authorization failed: no access_token passed.',
           'request_params': [{'key': 'sex', 'value': '1'},
                              {'key': 'method', 'value': 'users.get'},
                              {'key': 'oauth', 'value': '1'}]}}


## СБОР ИНФОРМАЦИИ ИЗ ГРУПП

### В одном из предыдущих юнитов в качестве примера мы собрали информацию о небольшом количестве пользователей. Теперь перейдём к более реальной задаче — сбору данных о пользователях группы ВКонтакте.

### Стоит отметить, что есть много сервисов, которые выгружают похожую статистику из соцсетей. Однако им свойственны недостатки универсальных решений:

* не учитываются все особенности вашего проекта;
* используется фиксированный набор метрик, дополнительную обработку данных приходится делать вам;
* не всегда бесплатны и вряд ли позволят работать с большими объёмами данных.

### Теперь мы научимся считать произвольные метрики групп, собирая данные из API и работая с двумя ограничениями, которые свойственны практически всем системам:

* ограничение на количество вызовов в единицу времени;
* ограничение на количество выгружаемых строк за один запрос.

### Ограничение на количество запросов в единицу времени сделано для того, чтобы избежать чрезмерной нагрузки на серверы системы. В ряде случаев небольшое количество отчётов можно выгрузить и уложиться в действующий лимит.

### Однако второе ограничение не удастся обойти в случае выгрузки больших отчётов. Например, чтобы получить список всех пользователей популярной группы, серверу, возможно, придётся отправить ответ, содержащий миллионы записей.

### Давайте рассмотрим, как работать с этими ограничениями на примере выгрузки списка пользователей группы https://vk.com/vk социальной сети ВКонтакте.

### Обратимся к документации, чтобы узнать, какие методы нам доступны для групп, — для получения списка пользователей группы доступен метод groups.getMembers.

### Согласно документации, обязательным параметром данного метода является group_id — идентификатор, или короткое имя, группы. В нашем случае это vk: https://vk.com/vk. Протестируем, как работает метод в самом простом случае, — получим id участников группы:

In [23]:
import requests # Импортируем модуль requests
token = '9eb791479eb791479eb791476b9da3d7a899eb79eb79147fac338ce259cba201d748fbc' # Указываем свой сервисный токен
url = 'https://api.vk.com/method/groups.getMembers' # Указываем адрес обращения
params = {'group_id': 'vk', 'v': 5.95, 'access_token': token} # Формируем строку параметров
response = requests.get(url, params = params) # Посылаем запрос
data = response.json() # Ответ сохраняем в переменной data в формате словаря
print(data) # Выводим содержимое переменной data на экран (отображён фрагмент)

{'response': {'count': 13262879, 'items': [6, 19, 47, 54, 79, 177, 198, 212, 219, 239, 243, 345, 407, 421, 450, 467, 485, 510, 550, 619, 640, 690, 702, 721, 804, 809, 831, 832, 834, 847, 900, 905, 907, 914, 930, 943, 952, 958, 966, 976, 979, 1000, 1018, 1023, 1032, 1033, 1038, 1039, 1059, 1097, 1131, 1139, 1140, 1159, 1174, 1185, 1188, 1301, 1333, 1334, 1336, 1351, 1381, 1386, 1388, 1406, 1411, 1418, 1432, 1494, 1503, 1531, 1550, 1568, 1586, 1590, 1593, 1598, 1610, 1615, 1632, 1634, 1650, 1679, 1690, 1697, 1698, 1699, 1700, 1721, 1740, 1754, 1796, 1814, 1820, 1829, 1834, 1839, 1840, 1843, 1858, 1863, 1869, 1887, 1889, 1917, 1943, 1947, 1955, 1969, 2019, 2028, 2050, 2051, 2052, 2059, 2077, 2103, 2136, 2150, 2195, 2201, 2230, 2236, 2273, 2281, 2296, 2298, 2376, 2389, 2395, 2403, 2412, 2436, 2456, 2466, 2470, 2484, 2512, 2513, 2515, 2539, 2571, 2576, 2592, 2601, 2622, 2644, 2654, 2692, 2706, 2745, 2755, 2767, 2787, 2797, 2827, 2858, 2909, 2919, 2922, 2953, 2962, 2982, 3001, 3006, 3041, 31

### По ключу count мы можем получить общее число участников группы, а список по ключу items хранит их id. Посмотрим на него поближе:

In [24]:
print(len(data['response']['items'])) # Выводим на экран количество элементов словаря

1000


### Мы видим, что всего пользователей в группе больше 11 миллионов, а получили мы только первую тысячу пользователей группы. По информации, указанной в документации о параметре count, это максимум, который может отдать API за один раз.

### Для получения следующей тысячи пользователей можно воспользоваться параметром offset (с англ. смещение), который передвинет начало отсчёта. Для выгрузки всех пользователей группы будем в цикле выгружать по 1000 пользователей (count будет всегда равен 1000), увеличивая смещение offset на величину count.

### Для тренировки напишем цикл выгрузки первых 20 пользователей со значением count=5. Иными словами, мы будем выгружать по пять пользователей за запрос до тех пор, пока не получим информацию о 20 пользователях.

### Давайте выведем на экран первые 20 пользователей из нашей первой попытки получить информацию о 1000 пользователей, чтобы мы могли сверить результат выгрузки из 20 пользователей:

In [25]:
users_for_checking = data['response']['items'][:20] # Загружаем в переменную информацию об id первых 20 пользователей в виде списка
print(users_for_checking) # Выводим перечень id первых 20 пользователей

[6, 19, 47, 54, 79, 177, 198, 212, 219, 239, 243, 345, 407, 421, 450, 467, 485, 510, 550, 619]


### Теперь используем count и offset, чтобы получить те же id по пять за раз:

In [26]:
import requests # Импортируем модуль requests
token = '9eb791479eb791479eb791476b9da3d7a899eb79eb79147fac338ce259cba201d748fbc' # Указываем свой сервисный токен
url = 'https://api.vk.com/method/groups.getMembers' # Указываем адрес обращения
count = 5 
offset = 0 
user_ids = [] 
max_count = 20 
while offset < max_count: 
    # Будем выгружать по count=5 пользователей, 
    # начиная с того места, где закончили на предыдущей итерации (offset) 
    print('Выгружаю {} пользователей с offset = {}'.format(count, offset))   
    params = {'group_id': 'vk', 'v': 5.95, 'count': count, 'offset': offset, 'access_token': token} 
    response = requests.get(url, params = params) 
    data = response.json() 
    user_ids += data['response']['items'] 
    # Увеличиваем смещение на количество строк, которое мы уже выгрузили 
    offset += count 
print(user_ids) 

Выгружаю 5 пользователей с offset = 0
Выгружаю 5 пользователей с offset = 5
Выгружаю 5 пользователей с offset = 10
Выгружаю 5 пользователей с offset = 15
[6, 19, 47, 54, 79, 177, 198, 212, 219, 239, 243, 345, 407, 421, 450, 467, 485, 510, 550, 619]


### Сравним списки, полученные двумя способами:

In [27]:
print(user_ids == users_for_checking) 

True


### Так как результат сравнения — True, списки идентичны. Значит, второй способ работает корректно. Теперь мы можем получить данные обо всех пользователях, выставив count = 1000 и max_count = data['response']['count'].

## ОГРАНИЧЕНИЕ ПО ЧАСТОТЕ ЗАПРОСОВ

### → В API часто добавляют ограничение по частоте запросов, чтобы отдельно взятые пользователи слишком сильно не перегружали сервер. Подобное ограничение есть и у ВКонтакте — в документации указано, что можно делать не более трёх запросов в секунду.

### Чтобы не следить за частотой отправки запросов с секундомером в руках, мы можем после каждого запроса делать паузу. В этом случае, даже если код будет выполняться на самом быстром компьютере, мы не нарушим установленное ограничение, так как периодичность отправки запросов будет искусственно замедлена.

### Воспользуемся библиотекой time и методом sleep, с помощью которого мы можем добавить паузу, например в 0.5 секунд, после каждого запроса:

In [28]:
import requests # Импортируем модуль requests
import time # Импортируем модуль time
token = '9eb791479eb791479eb791476b9da3d7a899eb79eb79147fac338ce259cba201d748fbc' # Указываем свой сервисный токен
url = 'https://api.vk.com/method/groups.getMembers' # Указываем адрес страницы, к которой делаем запрос
count = 1000 
offset = 0  
user_ids = []  
while offset < 5000: 
    params = {'group_id': 'vk', 'v': 5.95, 'count': count, 'offset': offset, 'access_token': token} 
    response = requests.get(url, params = params) 
    data = response.json() 
    user_ids += data['response']['items'] 
    offset += count 
    print('Ожидаю 0.5 секунды...') 
    time.sleep(0.5) 
print('Цикл завершен, offset =',offset) 

Ожидаю 0.5 секунды...
Ожидаю 0.5 секунды...
Ожидаю 0.5 секунды...
Ожидаю 0.5 секунды...
Ожидаю 0.5 секунды...
Цикл завершен, offset = 5000


## ЛАЙКИ, РЕПОСТЫ И КОММЕНТАРИИ

### Через API новостной ленты ВКонтакте мы можем получить информацию о взаимодействии с сообщениями в ленте.

### Для примера продолжим работать с группой https://vk.com/vk и рассмотрим последние 100 сообщений в новостной ленте.

### Примечание: обратите внимание, что т.к. сообщения в новостной ленте непрерывно обновляются, то ваш результат выполнения кода ниже будет отличаться от нашего варианта.

### Для получения информации о сообщениях на стене в API ВКонтакте предусмотрен метод wall.get. Применим его:

In [30]:
import requests # Импортируем модуль requests
from pprint import pprint # Импортируем функцию pprint()
token = '9eb791479eb791479eb791476b9da3d7a899eb79eb79147fac338ce259cba201d748fbc' # Указываем свой сервисный токен
url = 'https://api.vk.com/method/wall.get' # Указываем адрес страницы, к которой делаем запрос
params = {'domain': 'vk', 'filter': 'owner', 'count': 1000, 'offset': 0, 'access_token': token, 'v': 5.95} 
response = requests.get(url, params = params) 
pprint(response.json()) 

{'response': {'count': 606,
              'items': [{'attachments': [{'photo': {'access_key': 'eee6b5df2f3a4e326f',
                                                    'album_id': -7,
                                                    'date': 1685431609,
                                                    'id': 457342322,
                                                    'owner_id': -22822305,
                                                    'post_id': 1409271,
                                                    'sizes': [{'height': 42,
                                                               'type': 's',
                                                               'url': 'https://sun1-90.userapi.com/impg/DDXSlKM4NA8zBUpmjl47PUHp5AF3TdJjxooMKw/4pL1dn6NbRI.jpg?size=75x42&quality=95&sign=58bc7776e80c41d0639ba79350f3d40c&c_uniq_tag=qBJvUxOVPWUKJ-RZRdCUpjRzIS5vVlpmrmjnk4Wxkdc&type=album',
                                                               'width': 75},
           

### Посмотрим на количество результатов:

In [31]:
len(response.json()['response']['items'])

100

### Посмотрим на информацию об отдельном сообщении:

In [34]:
response.json()['response']['items'][0] 

{'comments': {'can_post': 1, 'count': 172, 'groups_can_post': True},
 'marked_as_ads': 0,
 'hash': 'e2IWKmpx0GqHX8DpMw',
 'type': 'post',
 'attachments': [{'type': 'photo',
   'photo': {'album_id': -7,
    'date': 1685431609,
    'id': 457342322,
    'owner_id': -22822305,
    'access_key': 'eee6b5df2f3a4e326f',
    'post_id': 1409271,
    'sizes': [{'height': 42,
      'type': 's',
      'width': 75,
      'url': 'https://sun1-90.userapi.com/impg/DDXSlKM4NA8zBUpmjl47PUHp5AF3TdJjxooMKw/4pL1dn6NbRI.jpg?size=75x42&quality=95&sign=58bc7776e80c41d0639ba79350f3d40c&c_uniq_tag=qBJvUxOVPWUKJ-RZRdCUpjRzIS5vVlpmrmjnk4Wxkdc&type=album'},
     {'height': 73,
      'type': 'm',
      'width': 130,
      'url': 'https://sun1-90.userapi.com/impg/DDXSlKM4NA8zBUpmjl47PUHp5AF3TdJjxooMKw/4pL1dn6NbRI.jpg?size=130x73&quality=95&sign=94d39e9feb972e2cd152cd17d666abd4&c_uniq_tag=I-SStLqDKvNxN--rXgmvFSIQVzVnQk7mfWxmR93wHTk&type=album'},
     {'height': 340,
      'type': 'x',
      'width': 604,
      'url': 

### В полях comments, likes и reposts содержится статистика по взаимодействию с сообщением пользователей (на момент получения информации) — число комментариев, лайков и репостов.

### Давайте соберём итоговую статистику для последних десяти непустых сообщений в словарь stats. В качестве ключа будем использовать начало сообщения (если начало сообщения пустое, то информацию о таком сообщении проигнорируем), в качестве значения — список с тремя интересующими нас метриками и временем публикации (комментарии, лайки, репосты, дата публикации):

In [35]:
stats = {} 
count_post = 0 # Счётчик «непустых» сообщений
for record in response.json()['response']['items'][:]:
    title = record['text'][:30] 
    if title: 
        stats[title] = [record['comments']['count'], record['likes']['count'], record['reposts']['count'], record['date']] 
        count_post += 1 
    if count_post < 10: 
        continue 
    else: 
        break 
pprint(stats)

{'Где посмотреть все записи, кот': [445, 2439, 1252, 1683897508],
 'Если будете в Петербурге 27 ма': [59, 609, 161, 1684838994],
 'Запомнить правила поведения в ': [125, 607, 84, 1684240479],
 'Заходите в профиль одним нажат': [203, 584, 80, 1685114100],
 'Знаете ли вы, кто такие моушен': [172, 346, 49, 1685451540],
 'Много лет мы масштабно проводи': [115, 461, 69, 1684568340],
 'Подводим итоги продажи нашей п': [139, 500, 73, 1683803971],
 'Попробуйте сессионные залы в V': [27, 340, 64, 1685444358],
 'Собрали в карточках пять инстр': [163, 1289, 693, 1684505015],
 'Что нового произошло ВКонтакте': [306, 476, 60, 1684324455]}


### Мы рассмотрели базовое взаимодействие с пользователями и группами. ВКонтакте предоставляет достаточно широкие возможности в своём API: всё, что можно делать вручную через браузер, доступно и в API.

## ДОПОЛНИТЕЛЬНО

### Если вы размещаете рекламу во ВКонтакте, то можно выгружать всю статистику через ads API https://vk.com/dev/ads.

### Полный список методов ВКонтакте можно посмотреть в документации https://vk.com/dev/methods.

## ДРУГИЕ API

### Вы познакомились с интерфейсами прикладного программирования — API (на примере API социальной сети ВКонтакте).

### API для разработчиков предоставляют и многие другие платформы. Вот список, пожалуй, самых популярных из них:

* Google Maps API https://developers.google.com/maps/
* YouTube API https://developers.google.com/youtube/
* Twitter API https://dev.twitter.com/overview/documentation
* Facebook API https://developers.facebook.com/docs/

### Информацию о сторонних API можно найти в каталоге Web API https://www.programmableweb.com/category/all/apis. Также можно воспользоваться интернет-поиском, указав в строке поиска, например, «курсы валют API» или «прогноз погоды api», — среди первых результатов выдачи чаще всего с лёгкостью можно найти ссылки на необходимый функционал.