### Методы запросов в протоколе HTTP

***Метод GET*** запрашивает информацию из указанного источника и не может влиять на его содержимое. Запрос доступен для кэширования данных (то есть для сохранения, восстановления и дальнейшего использования) и добавления в закладки. Длина запроса ограничена (максимальная длина — 2048 символов).

Пример GET-запроса, отправляемого через адресную строку браузера:
http://site.ru/page.php?name=dima&age=27

***Метод POST*** используется для отправки данных, которые могут оказывать влияние на содержимое ресурса. В отличие от метода GET, запросы POST не могут быть кэшированы, они не остаются в истории браузера и их нельзя добавить в закладки. Длина запроса POST не ограничивается.

Пример POST-запроса, отправляемого через форму запроса:

    POST / HTTP/1.0\r\n
    Host: www.site.ru\r\n
    Referer: http://www.site.ru/index.html\r\n
    Cookie: income=1\r\n
    Content-Type: application/x-www-form-urlencoded\r\n
    Content-Length: 35\r\n
    \r\n
    login=Dima&password=12345

In [3]:
# Как только библиотека установлена, импортируем её и отправим наш первый запрос 
# к ресурсу Курсы валют ЦБ РФ в XML и JSON. Используем метод get() из библиотеки requests, 
# передав ему соответствующий URL —  https://www.cbr-xml-daily.ru/daily_json.js:

import requests # Импортируем библиотеку requests
from pprint import pprint # Импортируем функцию pprint()
import json

url = 'https://www.cbr-xml-daily.ru/daily_json.js' # Определяем значение URL страницы для запроса
response = requests.get(url) # Делаем GET-запрос к ресурсу и результат ответа сохраняем в переменной response
print(response) # Выводим значение response на экран как объект
print(response.status_code) # Выводим числовое значение response на экран

<Response [200]>
200


Мы получили объект ответа Response, который содержит всю нужную нам информацию. По умолчанию в квадратных скобках на экран выводится код статуса ответа. В данном случае он равен 200 — то есть запрос был корректным и сервер отдал нам нужную информацию. Значение кода статуса 404 означало бы, что страница по указанному адресу не найдена, а значение 403 — что синтаксис GET-запроса неверный.

### Задание 3.1
Вы уже импортировали модуль requests в ваш код. Напишите строку кода, при выполнении которой будет сделан GET-запрос к ресурсу https://www.cbr-xml-daily.ru/daily.xml, а результат ответа будет сохранён в переменной response

In [4]:
response3 = requests.get('https://www.cbr-xml-daily.ru/daily.xml')

print(response3) # Выводим значение response на экран как объект
print(response3.status_code) # Выводим числовое значение response на экран

<Response [200]>
200


### Работаем с ответом

In [5]:
pprint(response.text) # Выводим содержимое атрибута text переменной response на экран

('{\n'
 '    "Date": "2022-03-15T11:30:00+03:00",\n'
 '    "PreviousDate": "2022-03-12T11:30:00+03:00",\n'
 '    "PreviousURL": '
 '"\\/\\/www.cbr-xml-daily.ru\\/archive\\/2022\\/03\\/12\\/daily_json.js",\n'
 '    "Timestamp": "2022-03-14T23:00:00+03:00",\n'
 '    "Valute": {\n'
 '        "AUD": {\n'
 '            "ID": "R01010",\n'
 '            "NumCode": "036",\n'
 '            "CharCode": "AUD",\n'
 '            "Nominal": 1,\n'
 '            "Name": "Австралийский доллар",\n'
 '            "Value": 83.5173,\n'
 '            "Previous": 85.6374\n'
 '        },\n'
 '        "AZN": {\n'
 '            "ID": "R01020A",\n'
 '            "NumCode": "944",\n'
 '            "CharCode": "AZN",\n'
 '            "Nominal": 1,\n'
 '            "Name": "Азербайджанский манат",\n'
 '            "Value": 67.9384,\n'
 '            "Previous": 68.8557\n'
 '        },\n'
 '        "GBP": {\n'
 '            "ID": "R01035",\n'
 '            "NumCode": "826",\n'
 '            "CharCode": "GBP",\n'
 '  

In [6]:
currencies = response.json() # Применяем метод json()
pprint(currencies) # Выводим результат на экран)

{'Date': '2022-03-15T11:30:00+03:00',
 'PreviousDate': '2022-03-12T11:30:00+03:00',
 'PreviousURL': '//www.cbr-xml-daily.ru/archive/2022/03/12/daily_json.js',
 'Timestamp': '2022-03-14T23:00:00+03:00',
 'Valute': {'AMD': {'CharCode': 'AMD',
                    'ID': 'R01060',
                    'Name': 'Армянских драмов',
                    'Nominal': 100,
                    'NumCode': '051',
                    'Previous': 22.5229,
                    'Value': 22.3221},
            'AUD': {'CharCode': 'AUD',
                    'ID': 'R01010',
                    'Name': 'Австралийский доллар',
                    'Nominal': 1,
                    'NumCode': '036',
                    'Previous': 85.6374,
                    'Value': 83.5173},
            'AZN': {'CharCode': 'AZN',
                    'ID': 'R01020A',
                    'Name': 'Азербайджанский манат',
                    'Nominal': 1,
                    'NumCode': '944',
                    'Previous': 68.8557,


In [7]:
# Выведем на экран, например, информацию о евро (EUR):
pprint(currencies['Valute']['EUR']) # Выводим на экран информацию о валюте евро

{'CharCode': 'EUR',
 'ID': 'R01239',
 'Name': 'Евро',
 'Nominal': 1,
 'NumCode': '978',
 'Previous': 128.9523,
 'Value': 127.2343}


In [8]:
print(currencies['Valute']['CZK']['Name'])

Чешских крон


### Парсинг сайтов / содержимое веб-страницы / HTML

In [9]:
import requests # Импортируем библиотеку requests
url = 'https://nplus1.ru/news/2021/10/11/econobel2021' # Определяем адрес страницы
response = requests.get(url)  # Выполняем GET-запрос
print(response.text)  # Выводим содержимое атрибута text

<!doctype html>
<html class="no-js bg-fixed _no-bg" style="background-image:url(https://nplus1.ru/images/2021/10/11/9c6bcb5f7c01c6d88d49410e16ebc003.jpg)" lang="">
<head>
    
    <meta charset="utf-8">
    <meta http-equiv="x-ua-compatible" content="ie=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1">
        <meta name="apple-mobile-web-app-capable" content="yes">
    <meta name="apple-mobile-web-app-status-bar-style" content="black">
                <meta name='wmail-verification' content='7991d7eb02d759f05b9050e111a7e3eb' />

    <link rel="canonical" href="https://nplus1.ru/news/2021/10/11/econobel2021" />

    <link rel="icon" href="/i/favicon-bw.png" />


        <title>Премию Нобеля по экономике присудили за исследования экономики труда и причинно-следственных связей</title>

    	    <meta itemprop="datePublished" content="2021-10-11"/>
	
	    <meta name="mediator_author" content="Илья Ферапонтов"/> 
	
        <!-- amp page -->
    <link rel="amph

### Библиотека BeautifulSoup

In [10]:
# Устанавливаем библиотеку BeautifulSoup
!pip install beautifulsoup4 



In [11]:
from bs4 import BeautifulSoup # Импортируем библиотеку BeautifulSoup

In [12]:
import requests # Импортируем библиотеку requests
from bs4 import BeautifulSoup # Импортируем библиотеку BeautifulSoup
url = 'https://nplus1.ru/news/2021/10/11/econobel2021' # Определяем адрес страницы
response = requests.get(url) # Выполняем GET-запрос, содержимое ответа присваивается переменной response
page = BeautifulSoup(response.text, 'html.parser') # Создаём объект BeautifulSoup, указывая html-парсер
print(page.title) # Получаем тег title, отображающийся на вкладке браузера
print(page.title.text) # Выводим текст из полученного тега, который содержится в атрибуте text

<title>Премию Нобеля по экономике присудили за исследования экономики труда и причинно-следственных связей</title>
Премию Нобеля по экономике присудили за исследования экономики труда и причинно-следственных связей


In [13]:
# Извлечем заголовок статьи, опубликованной на этой странице, дату публикации, а также текст статьи.
# Предположим, что мы знаем, что в HTML-коде рассматриваемой нами страницы заголовок статьи заключён 
# в тег <h1> … </h1> (заголовок первого уровня). Тогда мы можем получить его текст с помощью 
# метода find() (с англ. найти) объекта BeautifulSoup, передав ему название интересующего нас тега:

print(page.find('h1').text) # Применяем метод find() к объекту и выводим результат на экран
print(page.find('time').text) # Выводим на экран содержимое атрибута text тега time

Премию Нобеля по экономике присудили за исследования экономики труда и причинно-следственных связей

13:04
11 Окт. 2021



###  Задание 5.4
Напишите функцию wiki_header, которая по адресу страницы возвращает заголовок для статей на Wikipedia.

In [14]:
import requests
from bs4 import BeautifulSoup

def wiki_header(url):
    response5 = requests.get(url)
    page5 = BeautifulSoup(response5.text, 'html.parser')
    return page5.find('h1').text

wiki_header('https://en.wikipedia.org/wiki/Operating_system')
# 'Operating system'

'Operating system'

### Неуникальные теги: извлекаем текст статьи

In [15]:
#  текст заключён в тег  <div> … </div> . Попробуем извлечь его уже известным нам способом — 
# с помощью метода find() — и выведем его на экран.
print(page.find('div').text) # Выводим содержимое атрибута text тега div




In [16]:
# Посмотрим на нашу страницу, используя инструмент разработчика, ещё раз. Можем заметить, 
# что у искомого текста есть свой класс — body js-mediator-article
print(page.find('div', class_='body').text) # Выводим содержимое атрибута text тега div класса body js-mediator-article









Премия Шведского национального банка по экономическим наукам памяти Альфреда Нобеля за 2021 год присуждена Дэвиду Карду (David Card) за его вклад в эмпирические исследования экономики рынка труда, а также Джошуа Энгристу (Joshua Angrist) и Гвидо Имбенсу (Guido Imbens) за их вклад в методологию анализа причинно-следственных связей. Прямая трансляция церемонии объявления лауреатов шла на официальном сайте Нобелевской премии.









Слева направо: Дэвид Карт, Джошуа Энгрист и Гвидо Имбенс.
Niklas Elmehed © Nobel Prize Outreach



Поделиться

















Премия по экономике, в отличие от Нобелевских премий по физиологии и медицине, физике, химии и литературе, а также премии мира, была учреждена не самим Альфредом Нобелем, а Банком Швеции в 1968 году. Ее размер равен размеру остальных премий.Лауреаты этого года награждены за их исследования причинно-следственных связей в области социальных наук. В частности, Дэвид Кард из университета Калифорнии в Беркли начиная с 1990-х годов

### Сбор нескольких элементов: собираем все ссылки на странице
Рассмотрим ещё один сценарий: вы хотите собрать сразу несколько элементов со страницы. Например, представьте, что вы хотите получить названия всех языков программирования, упомянутых на странице в Wikipedia в статье про языки программирования.

Можно заметить, что все названия языков программирования на этой странице связаны ссылками c соответствующими статьями о них. Таким образом, нам необходимо собрать все ссылки на странице. Для ссылок в HTML предусмотрен тег <a> … </a>.

In [17]:
url = 'https://en.wikipedia.org/wiki/List_of_programming_languages' # Задаём адрес ресурса
response = requests.get(url) # Делаем GET-запрос к ресурсу
page = BeautifulSoup(response.text, 'html.parser') # Создаём объект BeautifulSoup
print(page.find('a')) # Ищем ссылку по тегу <a> и выводим её на экран

<a id="top"></a>


In [18]:
# Мы получили только одну ссылку, хотя на странице их явно больше.
# Это происходит, потому что метод find() возвращает только первый подходящий элемент. 
# Если требуется получить больше элементов, необходимо воспользоваться методом find_all() (с англ. найти все):

links = page.find_all('a') # Ищем все ссылки на странице и сохраняем в переменной links в виде списка
print(len(links)) # Выводим количество найденных ссылок

936


In [19]:
print([link.text for link in links[500:510]]) # Выводим ссылки с 500 по 509 включительно
print([link.text for link in links[0:10]]) # Выводим ссылки с 1 по 9 включительно

['Opal', 'Open Programming Language', 'OpenCL', 'OpenEdge Advanced Business Language', 'OpenVera', 'OPS5', 'OptimJ', 'Orc', 'ORCA/Modula-2', 'Oriel']
['', 'Jump to navigation', 'Jump to search', 'Programming languagelists', 'Alphabetical', 'Categorical', 'Chronological', 'Generational', 'v', 't']


### Работа с API

In [23]:
import requests # Импортируем модуль requests
token = '80459d3d80459d3d80459d3d81803e3bbe8804580459d3de275f5e80908a66ed891a8d3' # Указываем свой сервисный токен
url = 'https://api.vk.com/method/users.get' # Указываем адрес страницы к которой делаем запрос
params = {'user_id': 1, 'v': 5.95, 'fields': 'sex,bdate', 'access_token': token, 'lang': 'ru'} # Перечисляем параметры нашего запроса в словаре params
response = requests.get(url, params=params) # Отправляем запрос
print(response.text) # Выводим текст ответа на экран

{"response":[{"id":1,"first_name":"Павел","last_name":"Дуров","can_access_closed":true,"is_closed":false,"sex":2,"bdate":"10.10.1984"}]}


In [24]:
# Словари нагляднее выводить с помощью функции pprint(), которую мы уже использовали ранее:
from pprint import pprint # Импортируем функцию pprint()
pprint(response.json()) # Выводим содержимое словаря, содержащего ответ, на экран

{'response': [{'bdate': '10.10.1984',
               'can_access_closed': True,
               'first_name': 'Павел',
               'id': 1,
               'is_closed': False,
               'last_name': 'Дуров',
               'sex': 2}]}


In [25]:
user = response.json()['response'][0] # Извлекаем из словаря по ключу response информацию о первом пользователе
print(user['bdate']) # Выводим дату рождения первого пользователя на экран

10.10.1984


In [26]:
print(user['first_name']) # Выводим имя первого пользователя на экран

Павел


Метод users.get() позволяет запрашивать информацию о множестве (до 1 000) пользователей одновременно. Для этого нужно использовать параметр user_ids и передавать id через запятую в строковом формате. Например, чтобы получить информацию о пользователях с id=1, id=2, id=3, необходимо передать значение параметра user_ids='1,2,3'.

In [27]:
ids = ",".join(map(str, range(1, 4))) # Формируем строку, содержащую информацию о поле id первых трёх пользователей
params = {'user_ids': ids, 'v': 5.95, 'fields': 'bday', 'access_token': token, 'lang': 'ru'} # Формируем строку параметров
pprint(requests.get(url, params=params).json()) # Посылаем запрос, полученный ответ в формате JSON-строки преобразуем в словарь и выводим на экран его содержимое, используя функцию pprint()

{'response': [{'can_access_closed': True,
               'first_name': 'Павел',
               'id': 1,
               'is_closed': False,
               'last_name': 'Дуров'},
              {'can_access_closed': False,
               'first_name': 'Александра',
               'id': 2,
               'is_closed': True,
               'last_name': 'Владимирова'},
              {'deactivated': 'deleted',
               'first_name': 'DELETED',
               'id': 3,
               'last_name': ''}]}


###  Задание 6.2
Используя API, определите долю женщин (sex=1) среди пользователей с id от 1 до 500. Иногда будут попадаться пользователи, у которых пол не указан (sex=0), — таких пользователей не нужно учитывать в общем числе.

В ответе укажите число, округлив до двух знаков после точки-разделителя, например, 0.55.

Пример: если у нас будет 300 пользователей с sex=1, 100 пользователей с sex=2 и 100 пользователей с sex=0, то в ответе должно быть 0.75.

In [59]:
ids = ",".join(map(str, range(1, 500)))
params = {'user_ids': ids, 'v': 5.95, 'fields': 'sex', 'access_token': token, 'lang': 'ru'}
response6 = requests.get(url, params=params).json()
female = 0
no_gender = 0
for i in range(500-1):
    user_sex = response6['response'][i]['sex']
    if user_sex == 1: female += 1
    if user_sex == 0: no_gender += 1
#print(female,no_gender)
print(round(female / (500 - no_gender),2))

0.49


### Сбор информации из групп
Обратимся к документации, чтобы узнать, какие методы нам доступны для групп, — для получения списка пользователей группы доступен метод groups.getMembers.

Согласно документации, обязательным параметром данного метода является group_id — идентификатор, или короткое имя, группы. В нашем случае это vk: https://vk.com/vk. Протестируем, как работает метод в самом простом случае, — получим id участников группы:

In [60]:
import requests # Импортируем модуль requests
token = '80459d3d80459d3d80459d3d81803e3bbe8804580459d3de275f5e80908a66ed891a8d3' # Указываем свой сервисный токен
url = 'https://api.vk.com/method/groups.getMembers' # Указываем адрес обращения
params = {'group_id': 'vk', 'v': 5.95, 'access_token': token} # Формируем строку параметров
response = requests.get(url, params = params) # Посылаем запрос
data = response.json() # Ответ сохраняем в переменной data в формате словаря
print(data) # Выводим содержимое переменной data на экран (отображён фрагмент)

{'response': {'count': 12385420, 'items': [6, 19, 47, 54, 79, 177, 198, 212, 219, 239, 243, 345, 407, 467, 485, 510, 550, 619, 640, 690, 702, 721, 804, 809, 831, 832, 834, 847, 900, 905, 907, 914, 943, 952, 958, 966, 976, 979, 1000, 1018, 1023, 1032, 1033, 1038, 1039, 1059, 1097, 1131, 1139, 1140, 1159, 1174, 1185, 1188, 1290, 1301, 1333, 1334, 1336, 1351, 1381, 1386, 1388, 1406, 1411, 1418, 1432, 1494, 1531, 1550, 1568, 1586, 1590, 1593, 1598, 1610, 1615, 1632, 1634, 1650, 1679, 1690, 1697, 1698, 1699, 1700, 1721, 1740, 1754, 1796, 1814, 1820, 1829, 1834, 1839, 1840, 1843, 1858, 1863, 1869, 1887, 1889, 1917, 1943, 1947, 1955, 1969, 2019, 2028, 2050, 2051, 2052, 2059, 2077, 2103, 2145, 2150, 2195, 2201, 2202, 2230, 2236, 2273, 2281, 2294, 2296, 2298, 2376, 2389, 2395, 2403, 2412, 2436, 2456, 2466, 2470, 2484, 2515, 2539, 2571, 2576, 2592, 2601, 2622, 2644, 2654, 2692, 2706, 2745, 2755, 2767, 2787, 2797, 2827, 2858, 2896, 2909, 2919, 2922, 2953, 2962, 2982, 3001, 3006, 3041, 3130, 3135,

In [62]:
# По ключу count мы можем получить общее число участников группы, а список по ключу items хранит их id. 
print(len(data['response']['items'])) # Выводим на экран количество элементов словаря

1000


Мы видим, что всего пользователей в группе больше 11 миллионов, а получили мы только первую тысячу пользователей группы. По информации, указанной в документации о параметре count, это максимум, который может отдать API за один раз.

Для получения следующей тысячи пользователей можно воспользоваться параметром offset (с англ. смещение), который передвинет начало отсчёта. Для выгрузки всех пользователей группы будем в цикле выгружать по 1000 пользователей (count будет всегда равен 1000), увеличивая смещение offset на величину count.

Для тренировки напишем цикл выгрузки первых 20 пользователей со значением count=5. Иными словами, мы будем выгружать по пять пользователей за запрос до тех пор, пока не получим информацию о 20 пользователях.

In [63]:
# Давайте выведем на экран первые 20 пользователей из нашей первой попытки получить информацию о 1000 пользователей, 
# чтобы мы могли сверить результат выгрузки из 20 пользователей
users_for_checking = data['response']['items'][:20] # Загружаем в переменную информацию об id первых 20 пользователей в виде списка
print(users_for_checking) # Выводим перечень id первых 20 пользователей

[6, 19, 47, 54, 79, 177, 198, 212, 219, 239, 243, 345, 407, 467, 485, 510, 550, 619, 640, 690]


In [65]:
# Теперь используем count и offset, чтобы получить те же id по пять за раз:

import requests # Импортируем модуль requests
token = '80459d3d80459d3d80459d3d81803e3bbe8804580459d3de275f5e80908a66ed891a8d3' # Указываем свой сервисный токен
url = 'https://api.vk.com/method/groups.getMembers' # Указываем адрес обращения
count = 5 
offset = 0 
user_ids = [] 
max_count = 20 
while offset < max_count: 
    # Будем выгружать по count=5 пользователей, 
    # начиная с того места, где закончили на предыдущей итерации (offset) 
    print('Выгружаю {} пользователей с offset = {}'.format(count, offset))   
    params = {'group_id': 'vk', 'v': 5.95, 'count': count, 'offset': offset, 'access_token': token} 
    response = requests.get(url, params = params) 
    data = response.json() 
    user_ids += data['response']['items'] 
    # Увеличиваем смещение на количество строк, которое мы уже выгрузили 
    offset += count 
print(user_ids) 

Выгружаю 5 пользователей с offset = 0
Выгружаю 5 пользователей с offset = 5
Выгружаю 5 пользователей с offset = 10
Выгружаю 5 пользователей с offset = 15
[6, 19, 47, 54, 79, 177, 198, 212, 219, 239, 243, 345, 407, 467, 485, 510, 550, 619, 640, 690]


In [66]:
# Сравним списки, полученные двумя способами:
print(user_ids == users_for_checking) 

True


### Ограничение по частоте запросов
В API часто добавляют ограничение по частоте запросов, чтобы отдельно взятые пользователи слишком сильно не перегружали сервер. Подобное ограничение есть и у ВКонтакте — в документации указано, что можно делать не более трёх запросов в секунду.

Чтобы не следить за частотой отправки запросов с секундомером в руках, мы можем после каждого запроса делать паузу. В этом случае, даже если код будет выполняться на самом быстром компьютере, мы не нарушим установленное ограничение, так как периодичность отправки запросов будет искусственно замедлена.

Воспользуемся библиотекой time и методом sleep, с помощью которого мы можем добавить паузу, например в 0.5 секунд, после каждого запроса

In [68]:
import requests # Импортируем модуль requests
import time # Импортируем модуль time
token = '80459d3d80459d3d80459d3d81803e3bbe8804580459d3de275f5e80908a66ed891a8d3' # Указываем свой сервисный токен
url = 'https://api.vk.com/method/groups.getMembers' # Указываем адрес страницы, к которой делаем запрос
count = 1000 
offset = 0  
user_ids = []  
while offset < 5000: 
    params = {'group_id': 'vk', 'v': 5.95, 'count': count, 'offset': offset, 'access_token': token} 
    response = requests.get(url, params = params) 
    data = response.json() 
    user_ids += data['response']['items'] 
    offset += count 
    print('Ожидаю 0.5 секунды...') 
    time.sleep(0.5) 
print('Цикл завершен, offset =',offset) 
print(user_ids) 

Ожидаю 0.5 секунды...
Ожидаю 0.5 секунды...
Ожидаю 0.5 секунды...
Ожидаю 0.5 секунды...
Ожидаю 0.5 секунды...
Цикл завершен, offset = 5000
[6, 19, 47, 54, 79, 177, 198, 212, 219, 239, 243, 345, 407, 467, 485, 510, 550, 619, 640, 690, 702, 721, 804, 809, 831, 832, 834, 847, 900, 905, 907, 914, 943, 952, 958, 966, 976, 979, 1000, 1018, 1023, 1032, 1033, 1038, 1039, 1059, 1097, 1131, 1139, 1140, 1159, 1174, 1185, 1188, 1290, 1301, 1333, 1334, 1336, 1351, 1381, 1386, 1388, 1406, 1411, 1418, 1432, 1494, 1531, 1550, 1568, 1586, 1590, 1593, 1598, 1610, 1615, 1632, 1634, 1650, 1679, 1690, 1697, 1698, 1699, 1700, 1721, 1740, 1754, 1796, 1814, 1820, 1829, 1834, 1839, 1840, 1843, 1858, 1863, 1869, 1887, 1889, 1917, 1943, 1947, 1955, 1969, 2019, 2028, 2050, 2051, 2052, 2059, 2077, 2103, 2145, 2150, 2195, 2201, 2202, 2230, 2236, 2273, 2281, 2294, 2296, 2298, 2376, 2389, 2395, 2403, 2412, 2436, 2456, 2466, 2470, 2484, 2515, 2539, 2571, 2576, 2592, 2601, 2622, 2644, 2654, 2692, 2706, 2745, 2755, 2767

### Лайки, репосты и комментарии

Через API новостной ленты ВКонтакте мы можем получить информацию о взаимодействии с сообщениями в ленте.

Для примера продолжим работать с группой https://vk.com/vk и рассмотрим последние 1000 сообщений в новостной ленте.

Для получения информации о сообщениях на стене в API ВКонтакте предусмотрен метод wall.get.

In [71]:
import requests # Импортируем модуль requests
from pprint import pprint # Импортируем функцию pprint()
token = '80459d3d80459d3d80459d3d81803e3bbe8804580459d3de275f5e80908a66ed891a8d3' # Указываем свой сервисный токен
url = 'https://api.vk.com/method/wall.get' # Указываем адрес страницы, к которой делаем запрос
params = {'domain': 'vk', 'filter': 'owner', 'count': 1000, 'offset': 0, 'access_token': token, 'v': 5.95} 
response = requests.get(url, params = params) 
pprint(response.json()) 

{'response': {'count': 471,
              'items': [{'attachments': [{'photo': {'access_key': 'c3dca019da428da0f5',
                                                    'album_id': -7,
                                                    'date': 1647352615,
                                                    'id': 457329430,
                                                    'owner_id': -22822305,
                                                    'post_id': 1281405,
                                                    'sizes': [{'height': 122,
                                                               'type': 'm',
                                                               'url': 'https://sun9-54.userapi.com/sun9-21/impg/NhImWyiOVZYP2Upg-TzHD1bcDcOaA4TKqzvIqQ/Fop7D01HAtE.jpg?size=130x122&quality=96&sign=2c044396476b10c798f34929f758ae06&c_uniq_tag=7xeVurWNqxQsCuTSHP6qbbzrYzX1h7dZ6_tkO0fqA9Q&type=album',
                                                               'width': 130},

KeyboardInterrupt: 

In [72]:
# Анализируя ответ, понимаем, что по ключу count можно найти общее количество сообщений в новостной ленте, 
# а по ключу items — сами сообщения.
response.json()['response']['items'][0] 

{'id': 1281405,
 'from_id': -22822305,
 'owner_id': -22822305,
 'date': 1647352647,
 'marked_as_ads': 0,
 'post_type': 'post',
 'text': 'В личном кабинете VK ID появился Центр управления безопасностью: id.vk.com/account/#/main. В нём можно оценить уровень защиты своего аккаунта и узнать, как её усилить. Система даст персональные советы: например, если пора сменить пароль.\n\nЭто обновление — часть нашей программы VK Protect. Она объединяет технические решения, которые обеспечивают безопасность во всех сервисах VK, и понятное руководство в личном кабинете. Рекомендации, подсказки и FAQ помогут выбрать и настроить все инструменты защиты: надёжный пароль, подтверждение входа и другие.',
 'attachments': [{'type': 'photo',
   'photo': {'album_id': -7,
    'date': 1647352615,
    'id': 457329430,
    'owner_id': -22822305,
    'access_key': 'c3dca019da428da0f5',
    'post_id': 1281405,
    'sizes': [{'height': 122,
      'url': 'https://sun9-54.userapi.com/sun9-21/impg/NhImWyiOVZYP2Upg-TzHD1

In [73]:
# В полях comments, likes и reposts содержится статистика по взаимодействию с сообщением пользователей 
# (на момент получения информации) — число комментариев, лайков и репостов. Давайте соберём итоговую статистику 
# для последних десяти непустых сообщений в словарь stats. В качестве ключа будем использовать начало сообщения 
# (если начало сообщения пустое, то информацию о таком сообщении проигнорируем), 
# в качестве значения — список с тремя интересующими нас метриками и временем публикации 
# (комментарии, лайки, репосты, дата публикации)

stats = {} 
count_post = 0 # Счётчик «непустых» сообщений
for record in response.json()['response']['items'][:]:
    title = record['text'][:30] 
    if title: 
        stats[title] = [record['comments']['count'], record['likes']['count'], record['reposts']['count'], record['date']] 
        count_post += 1 
    if count_post < 10: 
        continue 
    else: 
        break 
pprint(stats)

{'[https://vk.com/checkback#snow': [1596, 3449, 2013, 1642084584],
 'В личном кабинете VK ID появил': [42, 202, 56, 1647352647],
 'ВКонтакте объединяет тысячи та': [226, 758, 227, 1647014396],
 'ВКонтакте стала лидером по объ': [257, 1091, 192, 1647277497],
 'День святого Валентина — повод': [202, 824, 192, 1644840943],
 'Запускаем собственное шоу в пе': [112, 2686, 1532, 1640940328],
 'Нейросети на страже высокого к': [588, 3299, 1044, 1644258069],
 'Обидно терять доступ к своим ф': [560, 4770, 7659, 1647194688],
 'Продолжаем борьбу со спамом — ': [1085, 3033, 1429, 1645442003],
 'Хотите узнать, что в мире прои': [367, 981, 169, 1645013076]}


### Как настроить регулярную выгрузку данных, скрипты

In [74]:
# Устанавливаем библиотеку schedule
!pip install schedule

Collecting schedule
  Downloading schedule-1.1.0-py2.py3-none-any.whl (10 kB)
Installing collected packages: schedule
Successfully installed schedule-1.1.0


In [75]:
import schedule # Импортируем модуль schedule

In [76]:
# Рассмотрим вариант автоматического запуска простой функции, которая выводит на экран короткое сообщение:

def task(): 
    print('Hello! I am a task!') 
    return 

In [77]:
# Предположим, что мы хотим, чтобы функция запускалась через определённые интервалы времени, а именно каждые 15 минут.
schedule.every(15).minutes.do(task)

Every 15 minutes do task() (last run: [never], next run: 2022-03-15 18:42:33)

In [79]:
# Если бы мы хотели запускать задачу, например, каждый час, то могли бы написать:
schedule.every(1).hour.do(task) 

Every 1 hour do task() (last run: [never], next run: 2022-03-16 15:36:56)

Мы можем запустить наш менеджер расписания (schedule). Для этого надо создать бесконечный цикл. Скрипт должен выполняться постоянно, чтобы постоянно проверять, не пришло ли время снова выполнить задачу.

Внутри цикла мы будем вызывать особый метод run_pending() для объекта schedule, который будет проверять, нет ли задачи, которую пора выполнить.

После вызова метода run_pending() нужно будет сделать небольшую паузу, после которой можно будет снова проверять, не пришло ли время для выполнения какой-либо функции.

Для создания паузы мы будем использовать метод sleep из модуля time, поэтому наш код начнётся с импорта данного модуля:

In [80]:
# итоговый код
import schedule

def task(): 
    print('Hello! I am a task!') 
    return

schedule.every(15).minutes.do(task)

import time 
while True: 
    schedule.run_pending() 
    time.sleep(1)
    
# Этот код будет каждую секунду проверять, не надо ли выполнить какую-то задачу, и раз в 15 минут 
# будет выводить на экран фразу: "Hello! I am a task!" Вывод сообщения будет повторяться до тех пор, 
# пока вы не остановите выполнение скрипта

Hello! I am a task!
Hello! I am a task!


KeyboardInterrupt: 