In [2]:
# API — это специальные разделы сайта, где информацию можно получать без разметки, а формат запросов и ответов зафиксирован.
# API созданы для того, чтобы облегчить взаимодействие с сайтом для сторонних разработчиков.

# Для того чтобы начать работать с API, обычно необходимо получить сервисный ключ авторизации — токен. 
# Токен — это средство идентификации пользователя или отдельного сеанса работы в компьютерных сетях и приложениях.
# Различают программные и аппаратные токены. Мы будем использовать программный токен, который обычно представляет собой
# зашифрованную последовательность символов, позволяющую точно идентифицировать объект и определить уровень его привилегий.
# Он генерируется системой авторизации и привязывается к конкретному сеансу работы, клиенту сети или пакету данных.

In [3]:
import requests # Импортируем модуль requests
token = 'c217551fc217551fc217551fd6c1018e17cc217c217551fa788b5832313c21fb87e948e' # Указываем свой сервисный токен
url = 'https://api.vk.com/method/users.get' # Указываем адрес страницы к которой делаем запрос
params = {'user_id': 1, 'v': 5.95, 'fields': 'sex,bdate', 'access_token': token, 'lang': 'ru'} # Перечисляем параметры нашего запроса в словаре params
response = requests.get(url, params=params) # Отправляем запрос
print(response.text) # Выводим текст ответа на экран

{"response":[{"id":1,"bdate":"10.10.1984","sex":2,"first_name":"Павел","last_name":"Дуров","can_access_closed":true,"is_closed":false}]}


In [4]:
from pprint import pprint # Импортируем функцию pprint()
pprint(response.json()) # Выводим содержимое словаря, содержащего ответ, на экран

{'response': [{'bdate': '10.10.1984',
               'can_access_closed': True,
               'first_name': 'Павел',
               'id': 1,
               'is_closed': False,
               'last_name': 'Дуров',
               'sex': 2}]}


In [5]:
user = response.json()['response'][0] # Извлекаем из словаря по ключу response информацию о первом пользователе
print(user['bdate']) # Выводим дату рождения первого пользователя на экран

10.10.1984


In [6]:
ids = ",".join(map(str, range(1, 4))) # Формируем строку, содержащую информацию о поле id первых трёх пользователей
params = {'user_ids': ids, 'v': 5.95, 'fields': 'bdate', 'access_token': token, 'lang': 'ru'} # Формируем строку параметров
pprint(requests.get(url, params=params).json()) # Посылаем запрос, полученный ответ в формате JSON-строки преобразуем 
# в словарь и выводим на экран его содержимое, используя функцию pprint()

{'response': [{'bdate': '10.10.1984',
               'can_access_closed': True,
               'first_name': 'Павел',
               'id': 1,
               'is_closed': False,
               'last_name': 'Дуров'},
              {'bdate': '14.2',
               'can_access_closed': False,
               'first_name': 'Александра',
               'id': 2,
               'is_closed': True,
               'last_name': 'Владимирова'},
              {'can_access_closed': True,
               'deactivated': 'deleted',
               'first_name': 'DELETED',
               'id': 3,
               'is_closed': False,
               'last_name': ''}]}


In [7]:
# Используя API, определите долю женщин (sex=1) среди пользователей с id от 1 до 500. Иногда будут попадаться пользователи,
# у которых пол не указан (sex=0), — таких пользователей не нужно учитывать в общем числе. В ответе укажите число, округлив
# до двух знаков после точки-разделителя, например, 0.55.
# Пример: если у нас будет 300 пользователей с sex=1, 100 пользователей с sex=2 и 100 пользователей с sex=0,
# то в ответе должно быть 0.75.
ids = ",".join(map(str, range(1, 501))) 
params = {'user_ids': ids, 'v': 5.95, 'fields': 'sex,bdate', 'access_token': token, 'lang': 'ru'} 
response = requests.get(url, params=params).json()['response'] 
men=women=0 
for elem in response:
    if elem['sex'] == 2:
        men+=1 
    elif elem['sex'] == 1: 
        women+=1 
    else: 
        continue 
print(round(women/(men+women),2))

0.49


In [8]:
url = 'https://api.vk.com/method/groups.getMembers' # Указываем адрес обращения
params = {'group_id': 'vk', 'v': 5.95, 'access_token': token} # Формируем строку параметров
response = requests.get(url, params = params) # Посылаем запрос
data = response.json() # Ответ сохраняем в переменной data в формате словаря
print(data) # Выводим содержимое переменной data на экран (отображён фрагмент)
# По ключу count мы можем получить общее число участников группы, 
# а список по ключу items хранит их id. Посмотрим на него поближе:

{'response': {'count': 13420288, 'items': [6, 19, 47, 54, 79, 177, 198, 212, 219, 239, 243, 345, 407, 421, 431, 450, 467, 485, 510, 550, 619, 640, 690, 702, 721, 804, 809, 831, 832, 834, 847, 900, 905, 907, 914, 930, 943, 952, 958, 966, 976, 979, 997, 1000, 1018, 1023, 1032, 1033, 1038, 1039, 1059, 1097, 1131, 1139, 1140, 1159, 1174, 1185, 1188, 1301, 1333, 1334, 1351, 1381, 1386, 1388, 1406, 1411, 1418, 1432, 1494, 1503, 1531, 1550, 1568, 1586, 1590, 1593, 1598, 1610, 1615, 1632, 1634, 1650, 1679, 1690, 1697, 1698, 1699, 1700, 1721, 1740, 1754, 1796, 1814, 1820, 1829, 1834, 1839, 1840, 1843, 1858, 1863, 1869, 1887, 1889, 1917, 1943, 1947, 1955, 1969, 2019, 2028, 2050, 2051, 2052, 2059, 2077, 2103, 2136, 2150, 2195, 2201, 2230, 2236, 2273, 2281, 2296, 2298, 2376, 2389, 2395, 2403, 2412, 2436, 2456, 2466, 2470, 2484, 2512, 2513, 2515, 2539, 2571, 2576, 2592, 2601, 2622, 2644, 2654, 2692, 2706, 2745, 2755, 2767, 2787, 2797, 2827, 2858, 2909, 2919, 2922, 2932, 2953, 2962, 2982, 3001, 3006

In [9]:
print(len(data['response']['items'])) # Выводим на экран количество элементов словаря
# Мы видим, что всего пользователей в группе больше 11 миллионов, а получили мы только первую тысячу пользователей группы.
# По информации, указанной в документации о параметре count, это максимум, который может отдать API за один раз.

1000


In [10]:
# Давайте выведем на экран первые 20 пользователей из нашей первой попытки получить информацию о 1000 пользователей,
# чтобы мы могли сверить результат выгрузки из 20 пользователей:
users_for_checking = data['response']['items'][:20] # Загружаем в переменную информацию об id первых 20 пользователей в виде списка
print(users_for_checking) # Выводим перечень id первых 20 пользователей

[6, 19, 47, 54, 79, 177, 198, 212, 219, 239, 243, 345, 407, 421, 431, 450, 467, 485, 510, 550]


In [11]:
# Теперь используем count и offset, чтобы получить те же id по пять за раз:
count = 5 
offset = 0 
user_ids = [] 
max_count = 20 
while offset < max_count: 
    # Будем выгружать по count=5 пользователей, 
    # начиная с того места, где закончили на предыдущей итерации (offset) 
    print('Выгружаю {} пользователей с offset = {}'.format(count, offset))   
    params = {'group_id': 'vk', 'v': 5.95, 'count': count, 'offset': offset, 'access_token': token} 
    response = requests.get(url, params = params) 
    data = response.json() 
    user_ids += data['response']['items'] 
    # Увеличиваем смещение на количество строк, которое мы уже выгрузили 
    offset += count 
print(user_ids) 

Выгружаю 5 пользователей с offset = 0
Выгружаю 5 пользователей с offset = 5
Выгружаю 5 пользователей с offset = 10
Выгружаю 5 пользователей с offset = 15
[6, 19, 47, 54, 79, 177, 198, 212, 219, 239, 243, 345, 407, 421, 431, 450, 467, 485, 510, 550]


In [12]:
# Сравним списки, полученные двумя способами:
print(user_ids == users_for_checking) 
# Так как результат сравнения — True, списки идентичны. Значит, второй способ работает корректно. Теперь мы можем получить
# данные обо всех пользователях, выставив count = 1000 и max_count = data['response']['count'].

True


In [13]:
# Воспользуемся библиотекой time и методом sleep, с помощью которого мы можем добавить паузу, например в 0.5 секунд,
# после каждого запроса:
import time # Импортируем модуль time
count = 1000 
offset = 0  
user_ids = []  
while offset < 5000: 
    params = {'group_id': 'vk', 'v': 5.95, 'count': count, 'offset': offset, 'access_token': token} 
    response = requests.get(url, params = params) 
    data = response.json() 
    user_ids += data['response']['items'] 
    offset += count 
    print('Ожидаю 0.5 секунды...') 
    time.sleep(0.5) 
print('Цикл завершен, offset =',offset) 

Ожидаю 0.5 секунды...
Ожидаю 0.5 секунды...
Ожидаю 0.5 секунды...
Ожидаю 0.5 секунды...
Ожидаю 0.5 секунды...
Цикл завершен, offset = 5000


In [17]:
# Для примера продолжим работать с группой https://vk.com/vk и рассмотрим последние 100 сообщений в новостной ленте.
from pprint import pprint # Импортируем функцию pprint()
url = "https://api.vk.com/method/wall.get"
params = {'domain': 'vk', 'filter': 'owner', 'count': 1000, 'offset': 0, 'access_token': token, 'v': 5.95} 
response = requests.get(url, params = params) 
pprint(response.json()) 

{'response': {'count': 676,
              'items': [{'attachments': [{'type': 'video',
                                          'video': {'access_key': 'd51776f9e40e070544',
                                                    'can_add': 1,
                                                    'can_add_to_faves': 0,
                                                    'can_dislike': 1,
                                                    'can_like': 1,
                                                    'can_repost': 1,
                                                    'can_subscribe': 1,
                                                    'comments': 160,
                                                    'date': 1705160174,
                                                    'description': '',
                                                    'duration': 63,
                                                    'first_frame_1280': 'https://i.mycdn.me/getVideoPreview?id=5873937812168&i

In [18]:
len(response.json()['response']['items'])
## 100

100

In [19]:
# Давайте соберём итоговую статистику для последних десяти непустых сообщений в словарь stats.
# В качестве ключа будем использовать начало сообщения (если начало сообщения пустое, то информацию о таком сообщении
# проигнорируем), в качестве значения — список с тремя интересующими нас метриками и временем публикации
# (комментарии, лайки, репосты, дата публикации):
stats = {} 
count_post = 0 # Счётчик «непустых» сообщений
for record in response.json()['response']['items'][:]:
    title = record['text'][:30] 
    if title: 
        stats[title] = [record['comments']['count'], record['likes']['count'], record['reposts']['count'], record['date']] 
        count_post += 1 
    if count_post < 10: 
        continue 
    else: 
        break 
pprint(stats)

{'А вы знали, что ВКонтакте можн': [102, 439, 105, 1705042801],
 'В нашем зимнем городке с итога': [65, 461, 85, 1703764500],
 'Встречаем новогодние праздники': [61, 665, 122, 1703847600],
 'Всё ещё успеваете застолбить с': [431, 934, 290, 1703859707],
 'Как прошли ваши новогодние пра': [113, 441, 23, 1705064403],
 'Крайне актуальный вопрос после': [164, 464, 181, 1704873840],
 'Куручу-верчу, удачу хочу! Илья': [42, 551, 68, 1703836801],
 'На дворе старый Новый год — от': [161, 578, 53, 1705161602],
 'Поздравьте всех-всех-всех ВКон': [101, 792, 265, 1703680800],
 'Собрали новогодние желания все': [151, 555, 58, 1703586600]}
