# Лекция 11. Получение данных с помощью API

Проанализировать данные – это полдела, зачастую самое сложное это собрать данные для обработки. Мы с вами уже научились считывать данные из файлов и извлекать их из веб-страниц с помощью парсинга. Однако бывают случаи, что данные, которые вам необходимы, можно получить с помощью API. Это самый приоритетный и удобный метод, поскольку API специально сделаны для того, чтобы разработчики или аналитики данных могли с помощью несложных скриптов получить нужную информацию.

## Что же такое API

API расшифровывается как Application Programming Interface или программный интерфейс приложения. Простыми словами это набор методов, которые автор сервиса предоставляет в свободное (или условно свободное) использование для сторонних разработчиков. Представьте, например, что вы – разработчик социальной сети, и вы хотите, чтобы с вашим сервисом могли интегрироваться другие приложения. Но для этого таким приложениям понадобятся данные о ваших пользователях, блогах и других сущностях.

Чтобы разработчикам сторонних приложений было удобно, вы делаете для них специальные методы, например – получить всех пользователей, получить все группы, получить все фотографии пользователя или всех его друзей. Они, разрабывая свои приложения, могут приходить на ваш сервис и "дергать" эти методы, чтобы получить нужные данные.

Чтобы было еще понятнее, можно сказать так: обычный интерфейс – способ взаимодействия человека с программой, а API – способ взаимодействия двух программ.

_**Что значит "дернуть"? Это как?**_

Это просто сленг :) На самом деле API подразумевает работу по какому-то протоколу, например, по HTTP. То есть ваша программа для получения данных должна сделать HTTP-запрос на какой-то адрес и передав нужную информацию.

_**А зачем нам это, можно же написать парсер?**_

Да, парсер действительно написать можно. Но запросить данные через API гораздо проще и надежнее, чем разбирать код HTML-страницы. К тому же никто не хочет, чтобы их сайт парсили, поэтому многие ресурсы ставят разные защиты от парсинга, но при этом предоставляют открытый API.

## Получение данных из ВКонтакте

Давайте для примера разберемся, как получить данные о пользователях какой-нибудь группы соцсети ВКонтакте. Работа с любым API начинается с изучения документации. И этот случай не исключение – давайте посмотрим на [документацию](https://vk.com/dev/manuals).

Для работы с API ВКонтакте нам понадобится сначала получить ключ доступа. Без него мы не сможем запрашивать информацию. Как это сделать, конечно же, написано в документации – вот [тут](https://vk.com/dev/access_token). У ВК существует несколько видов ключей доступа с разными возможностями, мы с вами сегодня будем использовать вот [этот](https://vk.com/dev/authcode_flow_user).

### Получение ключа доступа

#### Создание приложения

Согласно документации, сначала необходимо создать так называемое приложение и получить его идентификатор. Чтобы это сделать, откройте вкладку "Мои Приложения" на [главной странице документации](https://vk.com/dev/web_how_to_start) и нажмите на кнопку "Создать".

Дальше вас попросят заполнить некоторую информацию и подтвердить номер телефона с помощью кода из СМС. После всего этого вы попадете на страницу настроек, где в самом верху увидите надпись ID приложения. Именно этот идентификатор вам и нужен, скопируйте его.

#### Получение ключа

Итак, в документации написано, что сначала нам нужно перейти по адресу: `https://oauth.vk.com/authorize`, передав туда в качестве параметров некоторую информацию. А именно `client_id` (тот самый ID приложения) и `redirect_uri` – адрес, на который нас перебросит после авторизации. Параметры передаются как `query` – что это, можете почитать [тут](https://ru.qaz.wiki/wiki/Query_string). Как правило в адресе для редиректа указывается страница вашего сайта, но поскольку у нас ее нет, то давайте укажем просто vk.com, мы же только тестируем API.

Итого правильный адрес будет таким: `https://oauth.vk.com/authorize?client_id=<ВАШ CLIENT ID>&redirect_uri=vk.com`. Откройте его в браузере.

Когда вы направите браузер по этому адресу, произойдет редирект на указанный вами URL и в адресной строке добавится параметр `code`.

Там будет что-то такое:

`https://api.vk.com/blank.html#code=123fkff884j4j4`

Нам нужно то, что стоит после `code=`. Скопируйте этот код.

Ну а дальше нам нужно, используя этот код, получить ключ доступа. Для этого необходимо направить браузер по адресу `https://oauth.vk.com/access_token`, передав параметры `client_id`, `client_secret`, `redirect_uri` и `code`. Что они обозначают, хорошо расписано в документации, поэтому копировать сюда их описание смысла нет.

Та-дааам! В ответ вы получите JSON, у которого в поле `access_token` будет лежать ваш ключ доступа.

### Пара слов про JSON

Не пугайтесь незнакомому слову, сейчас разберемся. JSON или JavaScript Object Notation – популярный формат представления данных, которым часто обмениваются компьютеры в сети. Устроен он очень просто и очень похож на обычный питоновский словарь – у него есть _уникальные_ ключи и неуникальные значения.

Получить какое-то значение можно по ключу.

Вся эта штука записывается в фигурных скобках. Ключами могут быть только строки, значениями – строки, целые и вещественные числа, булевы значения, списки или другие объекты. Вот пример представления данных в формате JSON:

```
{
	"firstName": "John",
	"lastName": "Lennon",
	"bornAge": 1940,
	"band": "Beatles"
}
```

Сейчас большинство API работают именно с JSON, так что с ним вы будете встречаться очень часто. Про JSON, кстати, даже [написано](https://vk.com/dev/json_schema) и в документации ВК.

### Получение информации о группе

Ну что, у нас теперь есть ключ доступа, давайте же потестируем, что умеет API ВК. Раз уж речь пошла про Джона Леннопа, давайте поработаем с популярной (когда-то по крайней мере) группой [E:\music](https://vk.com/e_music).

Смотрим [документацию](https://vk.com/dev/api_requests) о том, как делать запросы к API. Еще лазаем немного по документации и находим, например, метод `groups.getById`, с помощью которого можно получить информацию о сообществе. Давайте попробуем.

Итак, чтобы "дернуть" этот метод, нам нужно отправить HTTP-запрос на правильный адрес. Мы с вами уже умеем это делать, так давайте же сделаем:

In [1]:
import requests

In [2]:
# запишем тут данные, которые мы наверняка еще будем использовать в переменные

api_url = 'https://api.vk.com/method/'
access_token = '<YOUR ACCESS TOKEN>'
group_id = 'e_music'

In [3]:
# собираем URL

group_by_id_url = api_url + 'groups.getById' + '?access_token=' + access_token + '&group_id=' + group_id + '&v=5.126'

In [4]:
group_by_id_url

'https://api.vk.com/method/groups.getById?access_token=76203ec7a7aa97052ffab88553874cd9c7d60f6f65d5e2fddfd8247a2c89d207a9898df3e5179b1280d60&group_id=e_music&v=5.126'

In [5]:
# делаем запрос

r = requests.get(group_by_id_url)
r.ok

True

Давайте теперь посмотрим, что мы получили. У объекта <Response> есть специальный метод `.json()`, который превращает его в питоновскиц словарь.

In [6]:
r.json()

{'response': [{'id': 23995866,
   'name': 'E:\\music\\',
   'screen_name': 'e_music',
   'is_closed': 0,
   'type': 'page',
   'photo_50': 'https://sun6-22.userapi.com/impf/c631624/v631624520/5572b/fMp2tfj0tvc.jpg?size=50x0&quality=96&crop=90,90,720,720&sign=84b726a4ab6913875a9578b5cde6b4cf&c_uniq_tag=_d63-6W9SbNioHt1rmmwO5nH0pCkGDh5yAOGpyBFIwM&ava=1',
   'photo_100': 'https://sun6-22.userapi.com/impf/c631624/v631624520/5572b/fMp2tfj0tvc.jpg?size=100x0&quality=96&crop=90,90,720,720&sign=56243ff0e9713c101bcfd4252e9c2278&c_uniq_tag=9B-aCRWZs1hB8bZAQ26NC7DVEp-Gzd8uv0CK1A1jOHk&ava=1',
   'photo_200': 'https://sun6-22.userapi.com/impf/c631624/v631624520/5572b/fMp2tfj0tvc.jpg?size=200x0&quality=96&crop=90,90,720,720&sign=2536841ed966f6c97939a92f97823aa3&c_uniq_tag=eZKsfkHhYOkwv9LcY3jkL7q36ZMHz7mgzdqvhTkSfAc&ava=1'}]}

Мы получили какую-то информацию, теперь можем с ней работать как с обычным словарем Python. Например, можем посмотреть какой-то парамер по ключу.

In [7]:
json = r.json()
response = json['response']

response[0]['name']

'E:\\music\\'

Но информации как-то маловато :(

Хорошо, что в документации написано, что можно запросить и дополнительные поля, давайте попробуем,

В прошлый раз мы с вами долго и кропотливо конкатенировали строки, чтобы сделать правильную query string для запроса. Но библиотека `requests` позволяет все сделать проще – в качестве параметров можно передать обычный словарь.

In [8]:
# созлдаем словарь с параметрами
query = {
    'access_token': access_token,
    'v': 5.126,
    'group_id': group_id,
    'fields': 'members_count,age_limits,can_see_all_posts' # дополнительные поля, которые мы хотим запросить
}

# передает наш словарь в аргументах как params=
r = requests.get(api_url+'/groups.getById', params=query)

In [9]:
json = r.json()
json

{'response': [{'id': 23995866,
   'name': 'E:\\music\\',
   'screen_name': 'e_music',
   'is_closed': 0,
   'type': 'page',
   'members_count': 228055,
   'age_limits': 1,
   'can_see_all_posts': 1,
   'photo_50': 'https://sun6-22.userapi.com/impf/c631624/v631624520/5572b/fMp2tfj0tvc.jpg?size=50x0&quality=96&crop=90,90,720,720&sign=84b726a4ab6913875a9578b5cde6b4cf&c_uniq_tag=_d63-6W9SbNioHt1rmmwO5nH0pCkGDh5yAOGpyBFIwM&ava=1',
   'photo_100': 'https://sun6-22.userapi.com/impf/c631624/v631624520/5572b/fMp2tfj0tvc.jpg?size=100x0&quality=96&crop=90,90,720,720&sign=56243ff0e9713c101bcfd4252e9c2278&c_uniq_tag=9B-aCRWZs1hB8bZAQ26NC7DVEp-Gzd8uv0CK1A1jOHk&ava=1',
   'photo_200': 'https://sun6-22.userapi.com/impf/c631624/v631624520/5572b/fMp2tfj0tvc.jpg?size=200x0&quality=96&crop=90,90,720,720&sign=2536841ed966f6c97939a92f97823aa3&c_uniq_tag=eZKsfkHhYOkwv9LcY3jkL7q36ZMHz7mgzdqvhTkSfAc&ava=1'}]}

О, данных уже побольше. А если бы у нас был, например, список групп, мы могли бы пробежаться по нему в цикле и собрать информацию о разных группах и количестве участников в них. Или какую-нибудь еще информацию.

А пока давайте посмотрим, какие еще методы можно вызвать. Например, есть интересный метод [getMembers](https://vk.com/dev/groups.getMembers), с помощью которого можно получить участников группы. Давайте попробуем.

In [11]:
query = {
    'access_token': access_token,
    'v': 5.126,
    'group_id': 'hseofficial',
    'fields': 'sex, bdate, city, country, photo_50, photo_100, photo_200_orig, photo_200, photo_400_orig, photo_max, photo_max_orig, online, online_mobile, lists, domain, has_mobile, contacts, connections, site, education, universities, schools, can_post, can_see_all_posts, can_see_audio, can_write_private_message, status, last_seen, common_count, relation, relatives',
    'count': 100
}

r = requests.get(api_url+'groups.getMembers', params=query)

In [20]:
group_members_response = r.json()
group_members_response

{'response': {'count': 50737,
  'items': [{'first_name': 'Светочек',
    'id': 19,
    'last_name': 'Аленький',
    'can_access_closed': True,
    'is_closed': False,
    'sex': 1,
    'photo_50': 'https://sun6-21.userapi.com/impf/-qFC0O8MbH9bnC5PBh-uldxOZg--KJNzUz2yQQ/8ACIu48ujDk.jpg?size=50x0&quality=96&crop=0,535,828,828&sign=4d69a6a28bf656c7a11a845aaa805255&c_uniq_tag=EbbQ1SdTKgjy92JWoZiWw8QZ0I3mfg4VWLfaoP9hfzk&ava=1',
    'photo_100': 'https://sun6-21.userapi.com/impf/-qFC0O8MbH9bnC5PBh-uldxOZg--KJNzUz2yQQ/8ACIu48ujDk.jpg?size=100x0&quality=96&crop=0,535,828,828&sign=b139348c352813fe003062cb50e97386&c_uniq_tag=YExn3a0tKlmsTG3gv6-QiuaB5sOqGywN-tmp0dGOXpU&ava=1',
    'online': 0,
    'domain': 'id19',
    'bdate': '12.12',
    'city': {'id': 2, 'title': 'Санкт-Петербург'},
    'country': {'id': 1, 'title': 'Россия'},
    'photo_200': 'https://sun6-21.userapi.com/impf/-qFC0O8MbH9bnC5PBh-uldxOZg--KJNzUz2yQQ/8ACIu48ujDk.jpg?size=200x0&quality=96&crop=0,535,828,828&sign=4467d3fe7f0b34a7

Мы запросили информацию о 100 пользователях этой группы, но при необходимости можем написать программу, которая будет в цикле выкачивать всех пользователей.

Теперь можем что-то с этой информацией сделать. Например, отфильтровать только пользователей, которые не живут в России:

In [41]:
members = group_members_response['response']['items']

foreigners = []
for member in members:
    if 'country' in member and member['country'] is not None:
        if member['country']['id'] != 1:
            foreigners.append(member)
            
foreigners

[{'first_name': 'Алёна',
  'id': 509,
  'last_name': 'Вершинина',
  'can_access_closed': True,
  'is_closed': False,
  'sex': 1,
  'photo_50': 'https://sun6-20.userapi.com/impf/c849432/v849432639/1bcb25/NM1gGk5lQkM.jpg?size=50x0&quality=96&crop=308,17,1506,1506&sign=1572d5d02b1bf9cb53ab985627d1f017&c_uniq_tag=8myhN1ou0IpWWH5qs3vc-_1zLRyIAtYMfjyBXcp1e0Q&ava=1',
  'photo_100': 'https://sun6-20.userapi.com/impf/c849432/v849432639/1bcb25/NM1gGk5lQkM.jpg?size=100x0&quality=96&crop=308,17,1506,1506&sign=e48be93f18046f3e0a4f62afc8f67fa6&c_uniq_tag=juhGImXxo9Pxaaivk7iNrRcMQ4MlIAowlDofMwFu7jA&ava=1',
  'online': 0,
  'domain': 'alyonka',
  'bdate': '14.7.1989',
  'city': {'id': 1951986, 'title': 'München'},
  'country': {'id': 65, 'title': 'Германия'},
  'photo_200': 'https://sun6-20.userapi.com/impf/c849432/v849432639/1bcb25/NM1gGk5lQkM.jpg?size=200x0&quality=96&crop=308,17,1506,1506&sign=9afee31818ae9337a4b45af5a95ae69f&c_uniq_tag=LX8gyrmp7ygt1g12W-BRmvg_aE7hJsmNJ1OvQ8Gh-jE&ava=1',
  'photo_m

Или найти, пользователи из каких стран вообще пользуются группой:

In [42]:
countries = {}

for member in members:
        if 'country' in member and member['country'] is not None:
            country_name = member['country']['title']
            
            if country_name in countries:
                countries[country_name] += 1
            else:
                countries[country_name] = 1
                
print(countries)

{'Россия': 75, 'Германия': 1, 'США': 2, 'Швейцария': 1, 'Израиль': 1, 'Литва': 1, 'Финляндия': 1, 'Сингапур': 1, 'Португалия': 1}


In [44]:
import pandas as pd

In [48]:
df = pd.DataFrame()
df.from_dict(countries, orient='index', columns=['Количество пользователей'])

Unnamed: 0,Количество пользователей
Россия,75
Германия,1
США,2
Швейцария,1
Израиль,1
Литва,1
Финляндия,1
Сингапур,1
Португалия,1


На самом деле документация по API ВК очень обширна и хорошо написана. Сам API скрывает множество разных методов, которые позволяют доставать огромное количество информации или писать сложных ботов. Теперь мы с вами знакомы с тем, как она работает.

Попробуйте на досуге поделать к API другие запросы и посмотреть, что они возвращают :)