# <center>Веб-запросы</center>

Процесс получения/извлечения информации с веб-ресурсов в интернете называется **web-scraping**. Веб-скрапинг может быть проделан вручную пользователем компьютера, однако этот термин обычно связывают с автоматизированными процессами, реализованными с помощью кода.

**Интернет** — это глобальная информационная сеть, которая позволяет компьютерам по всему миру обмениваться информацией. Один компьютер (называемый клиентом) отправляет запрос в определённом формате другому компьютеру (называемому сервером) и получает ответ (текст, изображение, видео и т. д.).

Клиент и сервер взаимодействуют между собой, обмениваясь одиночными сообщениями (не потоком данных) посредством сетевых протоколов, которые формализуют общение между ними. В настоящее время повсеместно используемый протокол в интернете, позволяющий клиенту получать различные ресурсы (например, *HTML*-документы), — это протокол *HTTP*.

<u>Запрос</u>, отправляемый клиентом с использованием протокола HTTP, состоит из нескольких элементов:
* адрес, по которому идёт обращение (например, www.google.com);
* техническая информация, например метод запроса;
* дополнительные данные, например если загружается (передаётся) изображение.

**Адрес** — это *URL*, *Uniform Resource Locator* (с англ. Унифицированный Указатель Ресурса).

<u>Ответ</u>, в свою очередь, состоит из следующих элементов:
* код статуса ответа: например, 200 («успешно»), 404 («не найден») и т. д.;
* текст в запрошенном формате (*HTML*, *XML*, *JSON* и т. д.) или мультимедийные файлы;
* прочая техническая информация.

# <center>Методы запросов в протоколе HTTP</center>

Для того чтобы указать серверу на то, какое действие мы хотим произвести с ресурсом, в протоколе *HTTP* используются так называемые методы. В *HTTP* существует несколько методов, которые описывают действия с ресурсами. Чаще всего используются **GET** и **POST**.

## <center>GET - получение ресурса</center>

Метод **GET** запрашивает информацию из указанного источника и не может влиять на его содержимое. Запрос доступен для кэширования данных (то есть для сохранения, восстановления и дальнейшего использования) и добавления в закладки. Длина запроса ограничена (максимальная длина — 2048 символов).

Пример *GET*-запроса, отправляемого через адресную строку браузера:

`http://site.ru/page.php?name=dima&age=27`

## <center>POST - создание ресурса</center>

Метод **POST** используется для отправки данных, которые могут оказывать влияние на содержимое ресурса. В отличие от метода *GET*, запросы *POST* не могут быть кэшированы, они не остаются в истории браузера и их нельзя добавить в закладки. Длина запроса *POST* не ограничивается.

Пример *POST*-запроса, отправляемого через форму запроса:
```
POST / HTTP/1.0\r\n
Host: www.site.ru\r\n
Referer: http://www.site.ru/index.html\r\n
Cookie: income=1\r\n
Content-Type: application/x-www-form-urlencoded\r\n
Content-Length: 35\r\n
\r\n
login=Dima&password=12345
```

# <center>Библиотека requests</center>

В стандартной библиотеке *Python* для отправки веб-запросов существует функция `urllib2`, но большинство разработчиков используют стороннюю библиотеку `requests`, потому что её работа более стабильна, а созданный с её помощью код получается проще. 

Разработаем код, так называемый **скрипт** — небольшую программу, которая содержит последовательность действий для автоматического выполнения задачи.

Перед началом работы библиотеку `requests` потребуется установить. Например, в **Jupyter Notebook** это делается с помощью такой команды:

In [1]:
!pip install requests 



Как только библиотека установлена, импортируем её и отправим наш первый запрос к ресурсу *Курсы валют ЦБ РФ в XML и JSON*. Используем метод `get()` из библиотеки `requests`, передав ему соответствующий *URL* —  `https://www.cbr-xml-daily.ru/daily_json.js`:

In [2]:
# Импортируем библиотеку requests
import requests 
# Определяем значение URL страницы для запроса
url = 'https://www.cbr-xml-daily.ru/daily_json.js' 
# Делаем GET-запрос к ресурсу и результат ответа сохраняем в переменной response
response = requests.get(url) 
# Выводим значение response на экран как объект
print(response) 

<Response [200]>


Мы получили объект ответа *Response*, который содержит всю нужную нам информацию. По умолчанию в квадратных скобках на экран выводится код статуса ответа. В данном случае он равен `200` — то есть запрос был корректным и сервер отдал нам нужную информацию. Значение кода статуса `404` означало бы, что страница по указанному адресу не найдена, а значение `403` — что синтаксис *GET*-запроса неверный.

Код ответа в виде числовой переменной можно получить с помощью метода `status_code`:

In [3]:
# Выводим числовое значение response на экран
print(response.status_code) 

200


In [4]:
# Задание 3.1

response = requests.get('https://www.cbr-xml-daily.ru/daily.xml')
print(response)

<Response [200]>


Текст ответа хранится в атрибуте `text`. Выведем значение атрибута на экран и посмотрим на его содержимое:

In [5]:
url = 'https://www.cbr-xml-daily.ru/daily_json.js' 
response = requests.get(url)
print(response.text) 

{
    "Date": "2024-04-28T11:30:00+03:00",
    "PreviousDate": "2024-04-27T11:30:00+03:00",
    "PreviousURL": "\/\/www.cbr-xml-daily.ru\/archive\/2024\/04\/27\/daily_json.js",
    "Timestamp": "2024-04-28T13:00:00+03:00",
    "Valute": {
        "AUD": {
            "ID": "R01010",
            "NumCode": "036",
            "CharCode": "AUD",
            "Nominal": 1,
            "Name": "Австралийский доллар",
            "Value": 60.0144,
            "Previous": 60.1676
        },
        "AZN": {
            "ID": "R01020A",
            "NumCode": "944",
            "CharCode": "AZN",
            "Nominal": 1,
            "Name": "Азербайджанский манат",
            "Value": 53.9877,
            "Previous": 54.1255
        },
        "GBP": {
            "ID": "R01035",
            "NumCode": "826",
            "CharCode": "GBP",
            "Nominal": 1,
            "Name": "Фунт стерлингов Соединенного королевства",
            "Value": 114.6229,
            "Previous": 114.9155
 

По нашему запросу ресурс возвращает информацию в *JSON*-формате, однако в настоящий момент результат хранится как единая строка. Проверить тип данных полученного ответа можно, воспользовавшись функцией `type()`.

Для того чтобы удобно было работать с полученной информацией, нам необходимо преобразовать строку в словарь. В объект ответа `Response` из библиотеки `requests` уже встроен метод `json()`.

Импортируем функцию `pprint()`, применим к полученному ответу метод `json()` и выведем полученный результат на экран:

In [6]:
from pprint import pprint
currencies = response.json()
pprint(currencies)

{'Date': '2024-04-28T11:30:00+03:00',
 'PreviousDate': '2024-04-27T11:30:00+03:00',
 'PreviousURL': '//www.cbr-xml-daily.ru/archive/2024/04/27/daily_json.js',
 'Timestamp': '2024-04-28T13:00:00+03:00',
 'Valute': {'AED': {'CharCode': 'AED',
                    'ID': 'R01230',
                    'Name': 'Дирхам ОАЭ',
                    'Nominal': 1,
                    'NumCode': '784',
                    'Previous': 25.0547,
                    'Value': 24.9909},
            'AMD': {'CharCode': 'AMD',
                    'ID': 'R01060',
                    'Name': 'Армянских драмов',
                    'Nominal': 100,
                    'NumCode': '051',
                    'Previous': 23.7099,
                    'Value': 23.6495},
            'AUD': {'CharCode': 'AUD',
                    'ID': 'R01010',
                    'Name': 'Австралийский доллар',
                    'Nominal': 1,
                    'NumCode': '036',
                    'Previous': 60.1676,
            

Например, по ключу `Valute` мы можем обратиться к вложенному словарю, который содержит информацию о мировых валютах. Выведем на экран, например, информацию о евро (`EUR`):

In [7]:
pprint(currencies['Valute']['EUR'])

{'CharCode': 'EUR',
 'ID': 'R01239',
 'Name': 'Евро',
 'Nominal': 1,
 'NumCode': '978',
 'Previous': 98.7187,
 'Value': 98.027}


In [8]:
# Задание 3.2

print(currencies['Valute']['CZK']['Name'])

Чешских крон


# <center>Основы HTML</center>

**HTML** (англ. *HyperText Markup Language*, рус. язык гипертекстовой разметки) — стандартизированный язык разметки документов в интернете. Большинство веб-страниц содержат описание разметки на языке *HTML*. Язык *HTML* интерпретируется браузерами. Полученный в результате интерпретации текст отображается на экране монитора компьютера или мобильного устройства.

У корректной *HTML*-страницы есть заголовок и тело страницы. В заголовке (в тегах `<head> … </head>`)  размещается техническая информация, подключаются скрипты и стили. В теле `<body> … </body>` находятся текст и данные, которые непосредственно отображаются на странице в браузере.

Теги образуют иерархическую структуру, то есть одни теги расположены внутри других. В примере тег `<p> … </p>` находится внутри тега `<body> … </body>`.

Кроме того, у тегов могут быть атрибуты, которые пишутся внутри открывающегося тега. Самые популярные атрибуты — это `class` и `id`.

# <center>Получение содержимого веб-страницы</center>

Отправим *GET*-запрос с помощью библиотеки `requests` и метода `get()` и посмотрим на текст ответа на наш запрос (как мы помним, он содержится в атрибуте `text`):

In [9]:
url = 'https://nplus1.ru/news/2021/10/11/econobel2021' 
response = requests.get(url) 
print(response.text) 

<!DOCTYPE html>
<html prefix="og: http://ogp.me/ns#" lang="ru">
<head>
  <meta charset="utf-8">
  <meta name="viewport" content="width=device-width, initial-scale=1">
  <title>Премию Нобеля по экономике присудили за исследования экономики труда и причинно-следственных связей</title>
    <link rel="preload" href="https://staticn1.nplus1.ru/fonts/AeonikPro/AeonikPro-Regular.woff2" as="font" type="font/woff2" crossorigin />
    <link rel="preload" href="https://staticn1.nplus1.ru/fonts/Spectral/Spectral-Regular.woff" as="font" type="font/woff2" crossorigin />
  <link href="/front-build/css/main.css?id=9b496fbb252428c03791da99722528ab" rel="stylesheet">
  <link href="/front-build/css/app.css?id=116ee51fc89adfd59429b373ba12b060" rel="stylesheet">
  

  <link rel="apple-touch-icon" sizes="180x180" href="/apple-touch-icon.png">
  <link rel="icon" type="image/png" sizes="32x32" href="/favicon-32x32.png">
  <link rel="icon" type="image/png" sizes="16x16" href="/favicon-16x16.png">
  <link rel="

В отличие от предыдущего примера, где ответ возвращался в *JSON*-формате, мы не можем так просто преобразовать *HTML*-код в словарь и извлечь необходимую нам информацию.

Для решения таких задач в *Python* существует специальная библиотека `BeautifulSoup`.

## <center>Библиотека BeautifulSoup</center>

`BeautifulSoup` не является частью стандартной библиотеки, поэтому для начала её нужно установить. Например, в *Jupyter Noteboo*k это делается с помощью такой команды:

In [10]:
!pip install beautifulsoup4 



In [11]:
# Импортируем библиотеку BeautifulSoup
from bs4 import BeautifulSoup

Ранее мы уже получили содержимое страницы с помощью *GET*-запроса и сохранили информацию в переменной `response`, теперь создадим объект *BeautifulSoup* с именем `page`, указывая в качестве параметра `html.parser`.

Для примера получим информацию o `title` — это строка, которая отображается на вкладке браузера:

In [12]:
url = 'https://nplus1.ru/news/2021/10/11/econobel2021'
response = requests.get(url) 
# Создаём объект BeautifulSoup, указывая html-парсер
page = BeautifulSoup(response.text, 'html.parser') 
# Получаем тег title, отображающийся на вкладке браузера
print(page.title) 
# Выводим текст из полученного тега, который содержится в атрибуте text
print(page.title.text) 

<title>Премию Нобеля по экономике присудили за исследования экономики труда и причинно-следственных связей</title>
Премию Нобеля по экономике присудили за исследования экономики труда и причинно-следственных связей


Выполним поставленную ранее задачу: получить информацию о странице и извлечь заголовок статьи, опубликованной на этой странице, дату публикации, а также текст статьи.

Предположим, что мы знаем, что в *HTML*-коде рассматриваемой нами страницы заголовок статьи заключён в тег `<h1> … </h1>` (заголовок первого уровня).

Тогда мы можем получить его текст с помощью метода `find()` объекта `BeautifulSoup`, передав ему название интересующего нас тега:

In [13]:
print(page.find('h1').text) 


            Премию Нобеля по экономике присудили за исследования экономики труда и причинно-следственных связей
          


Теперь получим сам текст статьи. Как вы уже знаете, первым делом необходимо определить, в какой тег он заключён. Применим, как и ранее, *инструмент разработчика*.

Видим, что искомый текст заключён в тег `<div> … </div>`. Попробуем извлечь его уже известным нам способом — с помощью метода `find()` — и выведем его на экран.

In [14]:
print(page.find('div').text)




Дело в том, что теги `<div> … </div>` очень распространённые и на странице их очень много. Метод `find()` нашёл первый из них, но это не то, что нам надо.

Посмотрим на нашу страницу, используя инструмент разработчика, ещё раз. Можем заметить, что у искомого текста есть свой класс — `n1_material text-18`.

Передадим название класса в метод `find()` с помощью аргумента `class_` и получим текст статьи:

In [15]:
print(page.find('div', class_='n1_material text-18').text)

Премия Шведского национального банка по экономическим наукам памяти Альфреда Нобеля за 2021 год присуждена Дэвиду Карду (David Card) за его вклад в эмпирические исследования экономики рынка труда, а также Джошуа Энгристу (Joshua Angrist) и Гвидо Имбенсу (Guido Imbens) за их вклад в методологию анализа причинно-следственных связей. Прямая трансляция церемонии объявления лауреатов шла на официальном сайте Нобелевской премии.


```python
print(page.find('div', class_='n1_material').text)
print(page.find('div', class_='n1_material text-18').text)
```

Даст одинаковый результат.

Аналогично получим информации о теге, который содержит дату написания статьи, отображаемую в левом верхнем углу страницы.

Итак, нам нужен тег `<a> … </a>` с классом "`relative before:block before:w-px before:bg-current before:h-4 before:absolute before:left-0 group pl-2 flex inline-flex items-center`". Для поиска достаточно указать в качестве класса "`relative`", отбросив дополнительные настройки.

In [16]:
print(page.find('a', class_= "relative").text)


11.10.21



## <center>Сбор нескольких элементов</center>

`find()` возвращает только первый подходящий элемент. Если требуется получить больше элементов, необходимо воспользоваться методом `find_all()`:

In [17]:
url = 'https://en.wikipedia.org/wiki/List_of_programming_languages' 
response = requests.get(url) 
page = BeautifulSoup(response.text, 'html.parser')
# Ищем все ссылки на странице и сохраняем в переменной links в виде списка
links = page.find_all('a') 
# Выводим количество найденных ссылок
print(len(links)) 

960


In [18]:
# Посмотрим на некоторые из них
# Выводим ссылки с 500 по 509 включительно
print([link.text for link in links[500:510]])

['M#', 'Machine code', 'MAD', 'MAD/I', 'Magik', 'Magma', 'Maple', 'MAPPER', 'MARK-IV', 'Mary']


# <center>Работа с API</center>

**API** — это специальные разделы сайта, где информацию можно получать без разметки, а формат запросов и ответов зафиксирован. *API* созданы для того, чтобы облегчить взаимодействие с сайтом для сторонних разработчиков.

К примеру, мы уже видели, как ресурс *Курсы валют ЦБ РФ в XML и JSON* возвращает данные о валютах в *JSON*-формате. Это пример *API*.

Для того чтобы начать работать с *API*, обычно необходимо получить сервисный ключ авторизации — **токен**.

**Токен** — это средство идентификации пользователя или отдельного сеанса работы в компьютерных сетях и приложениях. Различают *программные* и *аппаратные* токены.
Мы будем использовать программный токен, который обычно представляет собой зашифрованную последовательность символов, позволяющую точно идентифицировать объект и определить уровень его привилегий. Он генерируется системой авторизации и привязывается к конкретному сеансу работы, клиенту сети или пакету данных.

Сделаем наш первый запрос из браузера.

Перейдём по следующей ниже ссылке в браузере, подставив вместо слова *TOKEN* ваш персональный сервисный ключ доступа (токен), полученный на предыдущем шаге:

`https://api.vk.com/method/users.get?user_id=1&v=5.95&access_token=TOKEN`

Итак, мы сделали *GET*-запрос к *API ВКонтакте*, который состоит из следующих элементов:

* `https://api.vk.com/method` — домен и *URL* запроса *API*; обычно не меняется;
* `users.get `— название метода, который отдаёт определённый отчёт, в нашем случае это метод для получения информации о пользователе;
* `user_id` и `v` — параметры запроса: идентификатор пользователя, о котором хотим получить информацию (в нашем примере мы запрашиваем информацию о первом пользователе), и номер версии *API*;
* `token` — токен, который выдаётся только пользователям, имеющим право просматривать определённые данные, например показания счётчиков *Яндекс.Метрики* вашего проекта; на все остальные запросы без корректного токена система отвечает отказом.

Добавим к запросу дату рождения и пол (согласно документации, эти параметры надо перечислять в поле `fields`):

`https://api.vk.com/method/users.get?user_id=1&v=5.95&fields=sex,bdate&access_token=TOKEN`

Мы делали запросы в браузере — теперь давайте выполним запросы из кода.

## <center>Запрос к API из кода</center>

Продолжаем пользоваться всё той же библиотекой `requests`.

```python
import requests # Импортируем модуль requests

token = ' ... ' # Указываем свой сервисный токен
url = 'https://api.vk.com/method/users.get' # Указываем адрес страницы к которой делаем запрос
params = {'user_id': 1, 'v': 5.95, 'fields': 'sex,bdate', 'access_token': token, 'lang': 'ru'} # Перечисляем параметры нашего запроса в словаре params
response = requests.get(url, params=params) # Отправляем запрос
print(response.text) # Выводим текст ответа на экран
```

Мы получим строку в *JSON*-формате, которую можно преобразовать в словарь с помощью метода `json()`, после чего можно с лёгкостью обращаться к различным полям. Словари нагляднее выводить с помощью функции `pprint()`, которую мы уже использовали ранее.

По ключу `response` мы можем получить список, в котором хранятся словари, содержащие информацию о запрошенных нами пользователях. Мы запросили информацию лишь об одном из них, поэтому список содержит только один элемент. Извлечём его:

```python
user = response.json()['response'][0] # Извлекаем из словаря по ключу response информацию о первом пользователе
print(user['bdate']) # Выводим дату рождения первого пользователя на экран
```

Метод `users.get()` позволяет запрашивать информацию о множестве (до 1 000) пользователей одновременно. Для этого нужно использовать параметр `user_ids` и передавать `id` через запятую в строковом формате. Например, чтобы получить информацию о пользователях с `id=1, id=2, id=3`, необходимо передать значение параметра `user_ids='1,2,3'`.

Попробуем это сделать:

```python
ids = ",".join(map(str, range(1, 4))) # Формируем строку, содержащую информацию о поле id первых трёх пользователей
params = {'user_ids': ids, 'v': 5.95, 'fields': 'bdate', 'access_token': token, 'lang': 'ru'} # Формируем строку параметров
pprint(requests.get(url, params=params).json()) # Посылаем запрос, полученный ответ в формате JSON-строки преобразуем в словарь и выводим на экран его содержимое
```

```python
# Задание 6.2

import requests

#token = '...'
url = 'https://api.vk.com/method/users.get'
ids = ",".join(map(str, range(1, 501)))
params = {'user_ids': ids, 'v': 5.95, 'fields': 'sex,bdate', 'access_token': token, 'lang': 'ru'}
response = requests.get(url, params=params).json()['response']
men=women=0

for elem in response:
    if elem['sex'] == 2:
        men+=1
    elif elem['sex'] == 1:
        women+=1
    else:
        continue

print(round(women/(men+women),2))
```

## <center>Сбор информации из групп</center>

Протестируем, как работает метод в самом простом случае, — получим `id` участников группы:

```python
import requests # Импортируем модуль requests

token = ' ... ' # Указываем свой сервисный токен
url = 'https://api.vk.com/method/groups.getMembers' # Указываем адрес обращения
params = {'group_id': 'vk', 'v': 5.95, 'access_token': token} # Формируем строку параметров
response = requests.get(url, params = params) # Посылаем запрос
data = response.json() # Ответ сохраняем в переменной data в формате словаря
print(data) # Выводим содержимое переменной data на экран (отображён фрагмент)
```

По ключу `count` мы можем получить общее число участников группы, а список по ключу `items` хранит их `id`. Посмотрим на него поближе:

```python
print(len(data['response']['items'])) # Выводим на экран количество элементов словаря
```

Всего пользователей в группе больше 11 миллионов, а получили мы только первую тысячу пользователей группы. По информации, указанной в документации о параметре `count`, это максимум, который может отдать *API* за один раз.

Для получения следующей тысячи пользователей можно воспользоваться параметром `offset`, который передвинет начало отсчёта. Для выгрузки всех пользователей группы будем в цикле выгружать по 1000 пользователей (`count` будет всегда равен 1000), увеличивая смещение `offset` на величину `count`.

Для тренировки напишем цикл выгрузки первых 20 пользователей со значением `count=5`.

```python
users_for_checking = data['response']['items'][:20] # Загружаем в переменную информацию об id первых 20 пользователей в виде списка
print(users_for_checking) # Выводим перечень id первых 20 пользователей
```

Теперь используем `count` и `offset`, чтобы получить те же `id` по пять за раз:

```python
import requests # Импортируем модуль requests

token = ' ... ' # Указываем свой сервисный токен
url = 'https://api.vk.com/method/groups.getMembers' # Указываем адрес обращения
count = 5 
offset = 0 
user_ids = [] 
max_count = 20 

while offset < max_count: 
    # Будем выгружать по count=5 пользователей, 
    # начиная с того места, где закончили на предыдущей итерации (offset) 
    print('Выгружаю {} пользователей с offset = {}'.format(count, offset))   
    params = {'group_id': 'vk', 'v': 5.95, 'count': count, 'offset': offset, 'access_token': token} 
    response = requests.get(url, params = params) 
    data = response.json() 
    user_ids += data['response']['items'] 
    # Увеличиваем смещение на количество строк, которое мы уже выгрузили 
    offset += count 
print(user_ids) 
```

Сравним списки, полученные двумя способами:

```python
print(user_ids == users_for_checking) 
# True
```

Значит, второй способ работает корректно. Теперь мы можем получить данные обо всех пользователях, выставив `count = 1000` и `max_count = data['response']['count']`.

## <center>Ограничение по частоте запросов</center>

В *API* часто добавляют ограничение по частоте запросов, чтобы отдельно взятые пользователи слишком сильно не перегружали сервер.

Воспользуемся библиотекой `time` и методом `sleep`, с помощью которого мы можем добавить паузу, например в 0.5 секунд, после каждого запроса:

```python
import requests # Импортируем модуль requests
import time # Импортируем модуль time

token = ' ... ' # Указываем свой сервисный токен
url = 'https://api.vk.com/method/groups.getMembers' # Указываем адрес страницы, к которой делаем запрос
count = 1000 
offset = 0  
user_ids = []  

while offset < 5000: 
    params = {'group_id': 'vk', 'v': 5.95, 'count': count, 'offset': offset, 'access_token': token} 
    response = requests.get(url, params = params) 
    data = response.json() 
    user_ids += data['response']['items'] 
    offset += count 
    print('Ожидаю 0.5 секунды...') 
    time.sleep(0.5) 

print('Цикл завершен, offset =',offset) 

## <center>Лайки, репосты и комментарии</center>

Для получения информации о сообщениях на стене в *API ВКонтакте* предусмотрен метод `wall.get`. Применим его:

```python
import requests # Импортируем модуль requests
from pprint import pprint # Импортируем функцию pprint()

token = ' ... ' # Указываем свой сервисный токен
url = 'https://api.vk.com/method/wall.get' # Указываем адрес страницы, к которой делаем запрос
params = {'domain': 'vk', 'filter': 'owner', 'count': 1000, 'offset': 0, 'access_token': token, 'v': 5.95} 
response = requests.get(url, params = params) 
pprint(response.json()) 
```

Посмотрим на количество результатов:

```python
len(response.json()['response']['items'])
## 100
```

Посмотрим на информацию об отдельном сообщении:

```python
response.json()['response']['items'][0] 
```

В полях `comments`, `likes` и `reposts` содержится статистика по взаимодействию с сообщением пользователей (на момент получения информации) — число комментариев, лайков и репостов.

Давайте соберём итоговую статистику для последних десяти непустых сообщений в словарь `stats`. В качестве ключа будем использовать начало сообщения (если начало сообщения пустое, то информацию о таком сообщении проигнорируем), в качестве значения — список с тремя интересующими нас метриками и временем публикации (комментарии, лайки, репосты, дата публикации):

```python
stats = {} 
count_post = 0 # Счётчик «непустых» сообщений

for record in response.json()['response']['items'][:]:
    title = record['text'][:30] 
    if title: 
        stats[title] = [record['comments']['count'], record['likes']['count'], record['reposts']['count'], record['date']] 
        count_post += 1 
    if count_post < 10: 
        continue 
    else: 
        break 
pprint(stats)
```

# <center>Регулярная выгрузка данных</center>

**Скриптом** принято называть небольшую компьютерную программу, которая автоматизирует выполнение некоторой задачи. Программы, которые мы создаём на языке *Python*, также являются скриптами.

Скрипт можно использовать разными способами:

* Если вам нужно выполнить код один раз или выполнять его очень редко (от случая к случаю), вы можете запустить скрипт вручную из командной строки.
* Если вы, например, написали на *Python* серверную часть веб-сайта и хотите, чтобы ваш код мог в любое время обрабатывать запросы, вы захотите запустить его как фоновый процесс.

А что делать, если вам нужно, чтобы ваш скрипт запускался *иногда*? Каждую пятницу, 13-го?

В этом случае вам нужен автоматический запуск скриптов, или, как часто его называют программисты, **запуск по крону** — от английского акронима *Cron* (англ. *Command Run ON*) — названия системы для автоматического запуска программ и скриптов на сервере в определённое время.

## <center>Настройка автоматического запуска</center>

Исполняемый по расписанию код часто называют задачей (англ. *task*). Для планирования задач в *Python* есть несколько библиотек, среди которых — популярный и простой в использовании модуль `schedule` (c англ. расписание). Он позволяет запускать код как с определённым интервалом, так и в заданное время.

Модуль `schedule` не входит в стандартную библиотеку *Python*, поэтому его необходимо установить:

In [19]:
!pip install schedule 



In [20]:
import schedule

## <center>Постановка задачи</center>

Рассмотрим вариант автоматического запуска простой функции, которая выводит на экран короткое сообщение:

In [21]:
def task(): 
    print('Hello! I am a task!') 
    return 

Для запуска задачи через определённые интервалы времени в модуле `schedule` используется метод `every()`, который получает в качестве единственного аргумента число, указывающее, как часто следует запускать код.

In [22]:
# schedule.every(15).minutes.do(task)
# schedule.every(1).hour.do(task) 

## <center>Выполнение функции</center>

После того как мы создали нашу функцию и определились со временем её запуска, мы можем запустить наш менеджер расписания (`schedule`). Для этого надо создать *бесконечный цикл*. 

Внутри цикла мы будем вызывать особый метод `run_pending()` для объекта `schedule`, который будет проверять, нет ли задачи, которую пора выполнить.

После вызова метода `run_pending()` нужно будет сделать небольшую паузу, после которой можно будет снова проверять, не пришло ли время для выполнения какой-либо функции.

Для создания паузы мы будем использовать метод `sleep` из модуля `time`, поэтому наш код начнётся с импорта данного модуля:

In [23]:
import schedule

def task(): 
    print('Hello! I am a task!') 
    return

schedule.every(15).minutes.do(task)

import time 

while True: 
    schedule.run_pending() 
    time.sleep(1)

KeyboardInterrupt: 

Этот код будет каждую секунду проверять, не надо ли выполнить какую-то задачу, и раз в 15 минут будет выводить на экран фразу: *"Hello! I am a task!"* Вывод сообщения будет повторяться до тех пор, пока вы не остановите выполнение скрипта.