## Юнит 7. Основные алгоритмы машинного обучения. Часть II 
### Skillfactory: DSPR-19
### PYTHON-16. Работа с HTML-страницами и API 

#### Введение

В предыдущих модулях вы видели, как работать с данными. В реальных проектах данные зачастую не лежат в готовом виде, и для анализа вам нужно сначала их собрать, например, скопировав со сторонних веб-сайтов.

В этом модуле мы рассмотрим, как Python позволяет упростить подобный сбор информации и даже получить доступ к данным, которые руками собрать невозможно. В частности, мы рассмотрим:

- в каком виде информация обычно располагается в интернете;
- напишем скрипты, которые собирают данные с веб-сайтов, используя библиотеки requests и BeautifulSoup;
- разберёмся, что такое программный интерфейс веб-сервисов (API) и как его использовать; для примера мы будем забирать данные из ВКонтакте.

К концу модуля вы сможете писать программы, которые могут избавить вас от многих часов монотонной работы и расширят спектр собираемой информации.

### 1. Web-запросы


Начнем с основ автоматизированных веб-запросов на примере задачи получения курсов валют. Курс валют – полезная и регулярно обновляемая информация, но залезать каждый раз на сайт за ней – трудоёмко. Значит, вам нужен скрипт, который будет в удобном виде выгружать информацию по курсам валют.

Будем использовать сервис cbr-xml-daily.ru. Он возвращает информацию о курсах валют в структурированном формате JSON, и в дальнейшем мы расширим этот подход на произвольные html страницы.

Итак, нам необходима функция, возвращающая курс заданной валюты в двух форматах:

1. Только значение курса валюты.

2. Полную информацию о валюте: курс, название, номинал и другие характеристики.

#### Протокол HTTP
Запрос в http состоит из нескольких частей:

адрес, по которому мы обращаемся (это то, что вы вводите в строке браузера, например, www.google.com);
техническая информация, вроде кукисов и метода запроса;
иногда ещё дополнительные данные, например, если вы сами загружаете картинку.
Ответ содержит:

статус ответа: 200 для успешного ответа; 404, если адрес не найден и т.д.; полный список http статусов можно посмотреть здесь ;
текст в запрошенном формате (html, xml, json...) или мультимедийные файлы; 
техническую информацию.
В протоколе HTTP запросы могут делаться с помощью одного из так называемых методов. Самые популярные — это GET и POST .

Метод GET просто получает текстовую информацию или мультимедийный файл по адресу. Вы как бы говорите: "Хочу получить страницу по адресу www.google.com" , и сервер вам отвечает: "200, ок, держи вот html". Это самый базовый метод.
Метод POST служит для отправки форм; помимо адреса он может "заворачивать" в себя дополнительные данные, вроде полей формы или картинок. Вы как бы "заворачиваете" посылку и отдаёте её почтальону. 
Обычно всю эту работу делает браузер, но мы можем делать эти же запросы из кода. Мы могли бы даже написать свой маленький браузер на python, но в этом модуле мы сосредоточимся на автоматическом сборе информации.

### Задание 1 - Клиент-сервер
Выберите корректные утверждения

Ответ:  
- Компьютер, подключенный к сети
- POST-запрос служит для отправки форм
- Обычно клиент-серверное взаимодействие начинает клиент


### Задание 2 - Методы HTTP
Выберите правильные названия базовых методов HTTP

Ответ:  
- GET
- POST

In [8]:
import requests  
response = requests.get('https://www.cbr-xml-daily.ru/daily_json.js')  


In [9]:
print(response)  



<Response [200]>


In [10]:
print(response.status_code)  

200


### Задание 1 - Первый запрос
Допустим, вы уже импортировали модуль requests в ваш код. Какая команда сделает GET запрос к сайту https://www.cbr-xml-daily.ru/daily.xml и положит результат в переменную response?

response = requests.get('https://www.cbr-xml-daily.ru/daily.xml')  

### 3. Читаем результат
Мы сделали запрос и получили ответ. Давайте теперь посмотрим, как считывать текст. 

Адрес, по которому мы обращались, возвращает результат в json формате. Эти данные уже лежат в атрибуте text в полученном ответе response:

In [11]:
import requests    
response = requests.get('https://www.cbr-xml-daily.ru/daily_json.js')    
print(response.text)  

{
    "Date": "2021-05-01T11:30:00+03:00",
    "PreviousDate": "2021-04-30T11:30:00+03:00",
    "PreviousURL": "\/\/www.cbr-xml-daily.ru\/archive\/2021\/04\/30\/daily_json.js",
    "Timestamp": "2021-05-03T23:00:00+03:00",
    "Valute": {
        "AUD": {
            "ID": "R01010",
            "NumCode": "036",
            "CharCode": "AUD",
            "Nominal": 1,
            "Name": "Австралийский доллар",
            "Value": 58.1546,
            "Previous": 57.8546
        },
        "AZN": {
            "ID": "R01020A",
            "NumCode": "944",
            "CharCode": "AZN",
            "Nominal": 1,
            "Name": "Азербайджанский манат",
            "Value": 44.0524,
            "Previous": 43.78
        },
        "GBP": {
            "ID": "R01035",
            "NumCode": "826",
            "CharCode": "GBP",
            "Nominal": 1,
            "Name": "Фунт стерлингов Соединенного королевства",
            "Value": 104.1694,
            "Previous": 103.7782
   

Сейчас текст хранится просто в строковой переменной. Далее мы можем превратить эту строку в словарь. Сделать это можно с помощью JSON-парсера python, либо воспользовавшись методом json, который уже встроен в объект ответа response:

In [12]:
currencies = response.json()  
print(currencies)  

{'Date': '2021-05-01T11:30:00+03:00', 'PreviousDate': '2021-04-30T11:30:00+03:00', 'PreviousURL': '//www.cbr-xml-daily.ru/archive/2021/04/30/daily_json.js', 'Timestamp': '2021-05-03T23:00:00+03:00', 'Valute': {'AUD': {'ID': 'R01010', 'NumCode': '036', 'CharCode': 'AUD', 'Nominal': 1, 'Name': 'Австралийский доллар', 'Value': 58.1546, 'Previous': 57.8546}, 'AZN': {'ID': 'R01020A', 'NumCode': '944', 'CharCode': 'AZN', 'Nominal': 1, 'Name': 'Азербайджанский манат', 'Value': 44.0524, 'Previous': 43.78}, 'GBP': {'ID': 'R01035', 'NumCode': '826', 'CharCode': 'GBP', 'Nominal': 1, 'Name': 'Фунт стерлингов Соединенного королевства', 'Value': 104.1694, 'Previous': 103.7782}, 'AMD': {'ID': 'R01060', 'NumCode': '051', 'CharCode': 'AMD', 'Nominal': 100, 'Name': 'Армянских драмов', 'Value': 14.3761, 'Previous': 14.3095}, 'BYN': {'ID': 'R01090B', 'NumCode': '933', 'CharCode': 'BYN', 'Nominal': 1, 'Name': 'Белорусский рубль', 'Value': 29.2398, 'Previous': 29.076}, 'BGN': {'ID': 'R01100', 'NumCode': '97

Теперь данные лежат в словаре, и мы можем легко получать необходимые нам значения:



In [13]:
currencies['Valute']['UAH']  


{'ID': 'R01720',
 'NumCode': '980',
 'CharCode': 'UAH',
 'Nominal': 10,
 'Name': 'Украинских гривен',
 'Value': 26.9783,
 'Previous': 26.8362}

### Задание 1
Повторите запросы, описанные в этой части, на своём компьютере. Что выведет на экран следующий код?

In [14]:
print(currencies['Valute']['CZK']['Name'])

Чешских крон


### 4. Оформляем функцию


В завершение давайте оформим наши вычисления в отдельную функцию, которой будет удобно пользоваться. На вход она должна принимать два параметра:

1. Название валюты currency. Например, 'EUR' или 'USD'.

2. Формат ответа format. При значении 'full' будем отдавать все, что знаем о валюте. Например, для currency = 'USD':



In [15]:
{'CharCode': 'USD',  
   'ID': 'R01235',  
   'Name': 'Доллар США',  
   'Nominal': 1,  
   'NumCode': '840',  
   'Previous': 68.2505,  
   'Value': 69.0286}  

{'CharCode': 'USD',
 'ID': 'R01235',
 'Name': 'Доллар США',
 'Nominal': 1,
 'NumCode': '840',
 'Previous': 68.2505,
 'Value': 69.0286}

А при значении format = 'value' только значение ключа 'Value', т. е. курс: 69.0286.

Оформим наши требования в коде:

In [16]:
def exchange_rates(currency, format='full'):    
    url = 'https://www.cbr-xml-daily.ru/daily_json.js'  
    response = requests.get(url).json()['Valute']    
    data = response[currency]     
    if format == 'full':    
        return data      
    elif format == 'value':    
        return data['Value']    

### Задание 1
Напишите функцию currency_name, которая по ID валюты возвращает ее название на русском языке.

currency_name('R01700J')
#=> 'Турецких лир' 

In [17]:
def currency_name(currency_id):
    url = 'https://www.cbr-xml-daily.ru/daily_json.js'
    response = requests.get(url).json()['Valute']
    
    for currency in response:
        if response[currency]['ID'] == currency_id:
            return response[currency]['Name']

In [18]:
currency_name('R01700J')

'Турецких лир'

### 5. HTML-страницы
Довольно часто приходится добывать информацию не из удобно форматированного json-файла, а прямо с HTML-страниц. Получить содержимое страницы в большинстве случаев несложно, труднее извлечь из HTML-кода нужную информацию. В качестве примера мы рассмотрим страницу новости, из которой будем доставать полезную информацию: 1) заголовок страницы; 2) дату публикации; 3) текст публикации; 4) ссылки на странице.

Получаем данные
Получить html страницу можно так же, как мы получали до этого json: используем библиотеку requests и метод GET:  

In [19]:
import requests  

url = 'https://nplus1.ru/news/2019/06/04/slothbot'   
  
response = requests.get(url)  
  
# Убедимся, что мы успешно получили ответ     
print(response.status_code)    
# => 200   
  
# Выведем полученные данные    
print(response.text)   

200
<!doctype html>
<html class="no-js bg-fixed _no-bg" style="background-image:url(https://nplus1.ru/images/2019/06/04/b32b62189fb87cce895e229e1d6d27b4.jpeg)" lang="">
<head>
    
    <meta charset="utf-8">
    <meta http-equiv="x-ua-compatible" content="ie=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1">
        <meta name="apple-mobile-web-app-capable" content="yes">
    <meta name="apple-mobile-web-app-status-bar-style" content="black">
                <meta name='wmail-verification' content='7991d7eb02d759f05b9050e111a7e3eb' />

    <link rel="canonical" href="https://nplus1.ru/news/2019/06/04/slothbot" />

        <title>Робота-ленивца научили лазать по паутине из тросов</title>

    	    <meta itemprop="datePublished" content="2019-06-04"/>
	
	    <meta name="mediator_author" content="Григорий Копиев"/> 
	
        <!-- amp page -->
    <link rel="amphtml" href="https://nplus1.ru/news/2019/06/04/slothbot/amp">
    

        <!-- for Google -->
     

Мы получили большую строку с текстом в формате html, который используется для визуальной разметки. Это позволяет делать информацию более наглядной для людей, но в отличие от json, мы не можем просто преобразовать его напрямую в словарь. Далее мы посмотрим, как извлекать информацию из подобных страниц

### Задание 1 - Форматы на стиле
Какие из этих форматов используются для визуальной разметки данных

Ответ:  
- html
- docx


### 6. Основы HTML


Прежде чем перейти к поиску информации в html, давайте вспомним, что он из себя представляет.

HTML – формат разметки страниц, созданный специально для интернета. Он позволяет разбивать страницу на блоки: мы размечаем, что окажется в боковой колонке, а что – посередине  и т.д.  Также он используется для описания стилей отображения: например, что будет отображаться как заголовок с большим текстом, а что – как обычный текст.

HTML является близким родственником XML. Разметка делается с помощью так называемых тэгов, которые помещаются в угловые скобки, и сами, в свою очередь, являются как бы скобками для текста внутри.

<h2> Это заголовок </h2>  
<div> А это обычный текст </div>  

У корректной html страницы есть заголовок (head) и тело страницы (body). В заголовке заключается техническая информация, подключаются скрипты и стили. В теле находится текст и данные, которые непосредственно  отображаются на странице в браузере. 

Разметка небольшой страницы выглядит примерно так:



In [None]:
<!DOCTYPE html>  
<html lang="ru">  
    <header>  
        <title>Название страницы</title>  
        <meta charset="UTF-8">  
    </header>  
  
    <body>  
        <h1>Заголовок страницы</h1>  
        <p>Какой-то текст</p>  
    </body>  
</html> 

Тут стоит заметить, что тэги образуют иерархическую структуру, т.е. одни тэги расположены внутри других. В примере выше тэг <p> находится внутри тэга <body>

Кроме того, у тэгов могут быть атрибуты, они пишутся внутри открывающегося тэга. Самые популярные атрибуты – это class и id.

In [None]:
<h1 id="big-title">Заголовок страницы</h1>  
<p class="red-back">Какой-то текст</p>  

К счастью, нам и не нужно как-то подробно знать html, чтобы забирать информацию. Достаточно понимать, что:

есть тэги с разными именами;
у тэгов бывают атрибуты, вроде class и id;
тэги образуют иерархическую структуру, то есть одни тэги вложены в другие.

### 7. Библиотека BeautifulSoup


Для поиска данных на странице воспользуемся библиотекой BeautifulSoup. Она позволяет по названию тэгов и их атрибутов получать содержащийся в них текст.

Она не является частью стандартной библиотеки, поэтому для начала её нужно установить с помощью пакетного менеджера, например, введя в консоли:

In [22]:
pip install beautifulsoup4  

Note: you may need to restart the kernel to use updated packages.


Теперь мы можем получать данные из страницы. Давайте получим title (это строка, отображающая в браузерах на закладках)



In [23]:
# Импортируем наши библиотеки    
from bs4 import BeautifulSoup    
import requests    
    
# Получаем данные, как и ранее    
url = 'https://nplus1.ru/news/2019/06/04/slothbot'   
response = requests.get(url)    
    
# Теперь создадим объект BeautifulSoup, указывая html парсер    
page = BeautifulSoup(response.text, 'html.parser')    
    
# Всё готово, чтобы получать данные из страницы    
# Для начала получим title, отображающийся на закладках браузера    
print(page.title)  
# => <title>Робота-ленивца научили лазать по паутине из тросов</title>  
    
# Мы получили тэг. Чтобы достать из него текст, вызовем атрибут text    
page.title.text    
# => 'Робота-ленивца научили лазать по паутине из тросов'  
 

<title>Робота-ленивца научили лазать по паутине из тросов</title>


'Робота-ленивца научили лазать по паутине из тросов'

### Задание 1 - Готовим суп
Что из этого корректно создаёт объект BeautifulSoup из html-страницы?

Ответ:  
- soup = BeautifulSoup(html_str, 'html.parser') 

 




### Задание 2 - Текст тайтла
У вас переменная soup с объектом BeautifulSoup для html-страницы. Введите строку, которая вернёт текст для тайтла (title) страницы

Ответ:  
- soup.title.text

### 8. Данные со страницы


Мы получили данные из title, но как нам забрать текст с самой страницы? Мы можем сделать это, запросив содержимое определённых тэгов. 

Пусть мы знаем, что заголовок статьи находится в тэге h1. Тогда мы можем получить его текст с помощью метода find

In [24]:
print(page.find('h1').text)   


Робота-ленивца научили лазать по паутине из тросов


Как узнать, какой именно тэг нужен? Проще всего это сделать с помощью "инструментов разработчика", которые есть во всех современных браузерах. Открыть их можно двумя способами:

1. Можно нажать на желаемый элемент правой кнопкой мыши и выбрать "Inspect" из выпадающего списка. 
2.  Нажать горячие клавиши (ctrl-shift-i в chrome или ctrl-shift-c в firefox), которые откроют эту же панель и дальше найти элемент.

Воспользовавшись этим подходом, давайте получим время написания статьи. Смотрим, в каком она тэге

Видим, что это тэг time. Получим данные.




In [25]:
print(page.find('time').text)   


18:27
04 Июнь 2019



### Задание 1 - Заголовок в Википедии
Используя инструменты для разработчиков в браузере, определите, в каком тэге лежит большой заголовок на странице в википедии

Ответ:
- h1

### Задание 2 - Автоматический сбор заголовков
Напишите функцию wiki_header, которая по адресу страницы возвращает заголовок для статей на википедии



In [26]:
def wiki_header(page_url):
    response = requests.get(page_url)
    page = BeautifulSoup(response.text, 'html.parser')
    return page.find('h1').text

In [27]:
wiki_header('https://en.wikipedia.org/wiki/Operating_system')

'Operating system'

### 9. Больше данных


Мы рассмотрели базовый поиск конкретного элемента. Могут встречаться другие вариации:

- когда нам нужно получить много похожих элементов; 
- когда тэг атрибута неуникальный, тогда нам нужно использовать атрибуты (id, class), либо использовать вложенность.

Посмотрим на практике, что делать в случае, когда тэг элемента неуникальный. Пусть мы хотим получить сам текст статьи. Мы видим, что он находится в тэге `div`.  
Тэги `div` очень распространённые, их много на странице. Если мы просто используем `find`, то получим первый попавшийся, но это не то, что нам надо.  

In [28]:
print(page.find('div').text)  




Тут мы можем заметить, что у искомого текста есть свой класс GeneralMaterial-body. Воспользуемся этим:  в метод find можно передать аргумент class_



In [29]:
print(page.find('div', class_='body').text)  







Allison Carter, Georgia Tech





Американские инженеры разработали робота-ленивца, способного лазать по тросам и перемещаться с одного троса на другой. Благодаря относительно малому потреблению энергии и использованию солнечных панелей подобного робота можно практически неограниченное время использовать для наблюдений на деревьях в лесу, рассказывают авторы статьи, представленной на конференции ICRA 2019.
Создание роботов, способных лазать по тросам — важная технологическая задача, наработки из которой потенциально применимы во многих областях. К примеру, в 2016 году в России создали робота для проверки высоковольтных линий электропередачи. Дрон спускает такого робота на грозозащитный трос, после чего тот самостоятельно перемещается вдоль основных проводов и осматривает их. Кроме того, потенциально таких роботов можно применять для исследований в густых лесах, в которых ветки соседних деревьев соприкасаются.
Инженеры из Технологического института Джорджии под руководством Магнус

Отлично, сработало. Аналогично работает и с id, мы могли бы написать что-то вроде page.find('div', id='maincontent')



### Задание 1. Поиск элемента
У вас есть переменная `page`, в которой хранится содержимое html-страницы. На странице есть элемент в тэге `span`, у которого атрибут `id` равен `'target'`. Напишите строчку кода, которая присвоит текст этого элемента переменной `value`.

Запишите ваш код в одну строку без пробелов. Используйте апострофы для передачи параметров, содержащих значение тэга и его `id`.

In [None]:
value=page.find('span',id='target').text

### 10. Сбор нескольких элементов


### Собираем все ссылки на странице
Рассмотрим случай, когда нам нужно сразу много элементов. Пусть мы хотим получить название всех ссылок на странице в википедии про языки программирования.

Для ссылок существует тэг `<a></a>`.  Давайте попробуем использовать `find`  
```python
url = 'https://en.wikipedia.org/wiki/List_of_programming_languages'  
  
response = requests.get(url)  
page = BeautifulSoup(response.text, 'html.parser')  
page.find('a')  
```

In [31]:
url = 'https://en.wikipedia.org/wiki/List_of_programming_languages'  

response = requests.get(url)  
page = BeautifulSoup(response.text, 'html.parser')  
page.find('a') 

<a id="top"></a>

Что-то пошло не так, и мы получили только одну ссылку, хотя на странице их явно больше. Это происходит, потому что метод `find` возвращает только первый подходящий элемент. Если нам надо их больше, нужно воспользоваться методом `find_all`

In [32]:
links = page.find_all('a')  
# Посмотрим, сколько всего мы получили  
print(len(links))

927


In [33]:
# Посмотрим на некоторые из ссылок  
print([link.text for link in links[500:510]])  

['Orwell', 'Oxygene', 'Oz', 'edit', 'P', 'P4', 'P′′', 'ParaSail (programming language)', 'PARI/GP', 'Pascal']


**Ещё одна полезная вещь:**  последовательный поиск, т.е. мы можем найти сначала один элемент, а потом сделать внутри него второй поиск. Давайте выведем названия всех ссылок для языков программирования, которые начинаются на литеру "A".

In [34]:
# Получаем все элементы с тегом 'div' и классом 'div-col'  
all_blocks = page.find_all('div', class_='div-col')  
  
# Выбираем первый по счету блок  
first_block = all_blocks[0]  
# Берём оттуда ссылки (ограничимся первыми десятью)
links = first_block.find_all('a')
print([link.text for link in links[:10]])

['A.NET (A#/A sharp)', 'A-0 System', 'A+ (A (plus)', 'ABAP', 'ABC', 'ABC ALGOL', 'ACC', 'Accent (Rational Synergy)', 'Ace DASL (Distributed Application Specification Language)', 'Action!']


В заключение заметим, что `BeautifulSoup` – достаточно мощная библиотека. Мы рассмотрели базовые возможности, но полный список гораздо шире. С ним можно ознакомиться в [официальной документации](https://www.crummy.com/software/BeautifulSoup/bs4/doc/).

### Задание 1 - Актёры
Напишите функцию `get_actors`, которая по ссылке на страницу фильма на кинопоиске возвращает список актёров из колонки справа

### NB: Если делать запросы слишком часто, Кинопоиск начинает выдавать капчу, поэтому старайтесь при отладке не делать больше одного запроса в секунду.

#### <span style="color:red">ВНИМАНИЕ! В настоящий момент времени на сайте Кинопоиска изменилась стукртура контента и применяется более интеллектуальная капча. Задание находится на стадии доработки и не обязательно для выполнения.</span>




In [36]:
import requests
from bs4 import BeautifulSoup
def get_actors(url): 
    response = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'})
    page = BeautifulSoup(response.text, 'html.parser')
    actors = page.find_all('li', itemprop='actors')
    return ([i.text for i in actors])

get_actors('https://www.kinopoisk.ru/film/42326/')
# => ['Мария Виноградова', 'Олег Табаков', 'Лев Дуров', 'Борис Новиков', 'Герман Качин', 'Валентина Талызина']
  
get_actors('https://www.kinopoisk.ru/film/326/')
# => ['Тим Роббинс', 'Морган Фриман', 'Боб Гантон', 'Уильям Сэдлер', 'Клэнси Браун', 'Джил Беллоуз', 'Марк Ролстон', 'Джеймс Уитмор', 'Джеффри ДеМанн', 'Ларри Бранденбург', '...', 'Диомид Виноградов', 'Игорь Старосельцев', 'Никита Прозоровский', 'Олег Вирозуб', 'Василий Дахненко', '...']

[]

### 11. HTML-таблицы


### Постановка задачи
При работе с web-страницами было бы здорово получать содержимое  таблиц в виде датафрейма. Рассмотрим страницу Центрального банка РФ cbr.ru. Наша задача будет состоять в том, чтобы получить одну из таблиц виджетов в виде датафрейма. Например, таблицу цен на драгоценные металлы.

Метод `read_html` из pandas умеет автоматически находить на HTML-странице таблицы и возвращать их списком из датафреймов:

In [37]:
import pandas as pd  
url = 'https://www.cbr.ru/key-indicators/'  
# Таблица с драгметаллами оказалась второй по счёту  
pd.read_html(url)[1]  

Unnamed: 0,0,1,2
0,рублей за грамм,30.04.2021,01.05.2021
1,Золото Au,"4 243,98","4 256,31"
2,Серебро Ag,6286,6226
3,Платина Pt,"2 905,61","2 909,25"
4,Палладий Pd,"7 004,54","7 178,06"


Если этого не происходит, но вы уверены в том, что порядок таблиц на странице неизменен, то можно вручную найти нужную таблицу на странице. Этому случаю посвящены следующие шаги.

### Задание 1 - Курсы валют через read_html
Попробуйте запустить pandas для заданного выше url. Какая строчка вернёт таблицу с курсами валют?

In [38]:
pd.read_html(url)[0] 

Unnamed: 0,0,1,2
0,валюта,01.05.2021,05.05.2021
1,Доллар США USD,748451,752567
2,Евро EUR,905850,904510


### Поиск таблицы с помощью BeautifulSoup
Более надёжным решением является сначала получить только текст таблицы и передавать в `pandas` только её. Так же, как и в предыдущем разделе, используем `requests` и `BeautifulSoup`, чтобы получить данные со страницы.

А теперь — внимание! В случае работы с сайтом Центробанка нам нужно будет учесть ещё один нюанс. С недавнего времени администраторы стали блокировать обращения к сайту, поступающие не от «живых» пользователей, а от компьютерных программ (в том числе от той, которую мы собираемся написать прямо сейчас). Есть ли шанс в таких условиях всё-таки получить данные, не открывая страницу в браузере?

Безусловно, это возможно. Безвыходных положений вообще не бывает, особенно в программировании! Один из способов справиться с ситуацией — «притвориться» браузером :).

Каждый запрос, отправляемый с помощью команды get, имеет заголовок. Если заголовок не задан явно, то он создаётся автоматически, и туда добавляется информация в том числе о том, кто является субъектом (или источником) запроса — человек или программа. Чтобы «притвориться» браузером, нам просто нужно вручную дописать нужные сведения в этот заголовок. Подробнее о таком подходе можно почитать в [этой статье](https://habr.com/ru/company/ods/blog/346632/).

Итоговый вариант кода после добавления заголовка должен выглядеть так:
```python
from bs4 import BeautifulSoup  
import pandas as pd  
import requests  
  
url = 'https://www.cbr.ru/key-indicators/'
soup = BeautifulSoup(requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}).text, 'html.parser')  
```

In [39]:
from bs4 import BeautifulSoup  
import pandas as pd  
import requests  

url = 'https://www.cbr.ru/key-indicators/'
soup = BeautifulSoup(requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}).text, 'html.parser')  

Далее нажимаем 'Исследовать элемент' в меню браузера на виджете с драгоценными металлами:

![](https://lms.skillfactory.ru/assets/courseware/v1/a2e35fa184cf7d6bbf2aac9a70f5fa71/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/metals_2.png)

Видим, что виджету соответствует следующая разметка:

![](https://lms.skillfactory.ru/assets/courseware/v1/1ed8cdbe78a85aa99b12651bf3044a89/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/metals_3.png)

Нам необходимо добраться до кода таблицы, который начинается с тэга <table>. Таблиц на странице много, поэтому указываем путь к таблице виджета драгоценных металлов применяя знания полученные ранее:

In [40]:
all_blocks = soup.find_all('div', class_='key-indicator_content offset-md-2')
# Данные таблицы с драгметаллами находятся во втором блоке
data = all_blocks[1].find('table') 

In [41]:
pd.read_html(str(data))[0]

Unnamed: 0,0,1,2
0,рублей за грамм,30.04.2021,01.05.2021
1,Золото Au,"4 243,98","4 256,31"
2,Серебро Ag,6286,6226
3,Платина Pt,"2 905,61","2 909,25"
4,Палладий Pd,"7 004,54","7 178,06"


### Задание 2 - Рейтинг банков
Напишите программу, которая забирает данные из таблицы рейтинга банков с https://www.banki.ru/banks/ratings/, делает из него датафрейм и сохраняет его в переменую df.

In [42]:
url = 'https://www.banki.ru/banks/ratings/'

In [43]:
# response = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}).text
# page = BeautifulSoup(response, 'html.parser')

# page

In [44]:
df = pd.read_html('https://www.banki.ru/banks/ratings/')[0]

In [45]:
df

Unnamed: 0_level_0,место,"название банка лицензия №, Регион","показатель, тыс. рублей","показатель, тыс. рублей",изменение,изменение
Unnamed: 0_level_1,место,"название банка лицензия №, Регион","Апрель, 2021 Март, 2021 Февраль, 2021 Январь, 2021 Декабрь, 2020 Ноябрь, 2020 Октябрь, 2020 Сентябрь, 2020 Август, 2020 Июль, 2020 Июнь, 2020 Май, 2020 Апрель, 2020 Март, 2020 Февраль, 2020 Январь, 2020 Декабрь, 2019 Ноябрь, 2019 Октябрь, 2019 Сентябрь, 2019 Август, 2019 Июль, 2019 Июнь, 2019 Май, 2019 Апрель, 2019 Март, 2019 Февраль, 2019 Январь, 2019 Декабрь, 2018 Ноябрь, 2018 Октябрь, 2018 Сентябрь, 2018 Август, 2018 Июль, 2018 Июнь, 2018 Май, 2018 Апрель, 2018 Март, 2018 Февраль, 2018 Январь, 2018 Декабрь, 2017 Ноябрь, 2017 Октябрь, 2017 Сентябрь, 2017 Август, 2017 Июль, 2017 Июнь, 2017 Май, 2017 Апрель, 2017 Март, 2017 Февраль, 2017 Январь, 2017 Декабрь, 2016 Ноябрь, 2016 Октябрь, 2016 Сентябрь, 2016 Август, 2016 Июль, 2016 Июнь, 2016 Май, 2016 Апрель, 2016 Март, 2016 Февраль, 2016 Январь, 2016 Декабрь, 2015 Ноябрь, 2015 Октябрь, 2015 Сентябрь, 2015 Август, 2015 Июль, 2015 Июнь, 2015 Май, 2015 Апрель, 2015 Март, 2015 Февраль, 2015 Январь, 2015 Декабрь, 2014 Ноябрь, 2014 Октябрь, 2014 Сентябрь, 2014 Август, 2014 Июль, 2014 Июнь, 2014 Май, 2014 Апрель, 2014 Март, 2014 Февраль, 2014 Январь, 2014 Декабрь, 2013 Ноябрь, 2013 Октябрь, 2013 Сентябрь, 2013 Август, 2013 Июль, 2013 Июнь, 2013 Май, 2013 Апрель, 2013 Март, 2013 Февраль, 2013 Январь, 2013 Декабрь, 2012 Ноябрь, 2012 Октябрь, 2012 Сентябрь, 2012 Август, 2012 Июль, 2012 Июнь, 2012 Май, 2012 Апрель, 2012 Март, 2012 Февраль, 2012 Январь, 2012 Декабрь, 2011 Ноябрь, 2011 Октябрь, 2011 Сентябрь, 2011 Август, 2011 Июль, 2011 Июнь, 2011 Май, 2011 Апрель, 2011 Март, 2011 Февраль, 2011 Январь, 2011 Декабрь, 2010 Ноябрь, 2010 Октябрь, 2010 Сентябрь, 2010 Август, 2010 Июль, 2010 Июнь, 2010 Май, 2010 Апрель, 2010 Март, 2010 Февраль, 2010 Январь, 2010 Декабрь, 2009 Ноябрь, 2009 Октябрь, 2009 Сентябрь, 2009 Август, 2009 Июль, 2009 Июнь, 2009 Май, 2009 Апрель, 2009 Март, 2009 Февраль, 2009 Январь, 2009 Декабрь, 2008 Ноябрь, 2008 Октябрь, 2008 Сентябрь, 2008 Август, 2008 Июль, 2008 Июнь, 2008 Май, 2008 Апрель, 2008 Март, 2008","Апрель, 2021 Март, 2021 Февраль, 2021 Январь, 2021 Декабрь, 2020 Ноябрь, 2020 Октябрь, 2020 Сентябрь, 2020 Август, 2020 Июль, 2020 Июнь, 2020 Май, 2020 Апрель, 2020 Март, 2020 Февраль, 2020 Январь, 2020 Декабрь, 2019 Ноябрь, 2019 Октябрь, 2019 Сентябрь, 2019 Август, 2019 Июль, 2019 Июнь, 2019 Май, 2019 Апрель, 2019 Март, 2019 Февраль, 2019 Январь, 2019 Декабрь, 2018 Ноябрь, 2018 Октябрь, 2018 Сентябрь, 2018 Август, 2018 Июль, 2018 Июнь, 2018 Май, 2018 Апрель, 2018 Март, 2018 Февраль, 2018 Январь, 2018 Декабрь, 2017 Ноябрь, 2017 Октябрь, 2017 Сентябрь, 2017 Август, 2017 Июль, 2017 Июнь, 2017 Май, 2017 Апрель, 2017 Март, 2017 Февраль, 2017 Январь, 2017 Декабрь, 2016 Ноябрь, 2016 Октябрь, 2016 Сентябрь, 2016 Август, 2016 Июль, 2016 Июнь, 2016 Май, 2016 Апрель, 2016 Март, 2016 Февраль, 2016 Январь, 2016 Декабрь, 2015 Ноябрь, 2015 Октябрь, 2015 Сентябрь, 2015 Август, 2015 Июль, 2015 Июнь, 2015 Май, 2015 Апрель, 2015 Март, 2015 Февраль, 2015 Январь, 2015 Декабрь, 2014 Ноябрь, 2014 Октябрь, 2014 Сентябрь, 2014 Август, 2014 Июль, 2014 Июнь, 2014 Май, 2014 Апрель, 2014 Март, 2014 Февраль, 2014 Январь, 2014 Декабрь, 2013 Ноябрь, 2013 Октябрь, 2013 Сентябрь, 2013 Август, 2013 Июль, 2013 Июнь, 2013 Май, 2013 Апрель, 2013 Март, 2013 Февраль, 2013 Январь, 2013 Декабрь, 2012 Ноябрь, 2012 Октябрь, 2012 Сентябрь, 2012 Август, 2012 Июль, 2012 Июнь, 2012 Май, 2012 Апрель, 2012 Март, 2012 Февраль, 2012 Январь, 2012 Декабрь, 2011 Ноябрь, 2011 Октябрь, 2011 Сентябрь, 2011 Август, 2011 Июль, 2011 Июнь, 2011 Май, 2011 Апрель, 2011 Март, 2011 Февраль, 2011 Январь, 2011 Декабрь, 2010 Ноябрь, 2010 Октябрь, 2010 Сентябрь, 2010 Август, 2010 Июль, 2010 Июнь, 2010 Май, 2010 Апрель, 2010 Март, 2010 Февраль, 2010 Январь, 2010 Декабрь, 2009 Ноябрь, 2009 Октябрь, 2009 Сентябрь, 2009 Август, 2009 Июль, 2009 Июнь, 2009 Май, 2009 Апрель, 2009 Март, 2009 Февраль, 2009 Январь, 2009 Декабрь, 2008 Ноябрь, 2008 Октябрь, 2008 Сентябрь, 2008 Август, 2008 Июль, 2008 Июнь, 2008 Май, 2008 Апрель, 2008 Март, 2008.1",тыс. рублей,%
0,1,"СберБанк лицензия № 1481, Москва и обл.",34 592 297 090,33 574 517 718,+1 017 779 372,"+3,03%"
1,2,"ВТБ лицензия № 1000, Санкт-Петербург и обл.",16 853 939 652,16 652 160 403,+201 779 249,"+1,21%"
2,3,"Газпромбанк лицензия № 354, Москва и обл.",7 540 430 332,7 335 003 565,+205 426 767,"+2,80%"
3,4,Национальный Клиринговый Центр лицензия № 3466...,5 717 062 349,5 164 370 346,+552 692 003,"+10,70%"
4,5,"Альфа-Банк лицензия № 1326, Москва и обл.",4 891 144 828,4 757 361 103,+133 783 725,"+2,81%"
5,6,"Россельхозбанк лицензия № 3349, Москва и обл.",3 928 740 620,3 811 922 924,+116 817 696,"+3,06%"
6,7,"Московский Кредитный Банк лицензия № 1978, Мос...",3 165 357 536,3 084 345 823,+81 011 713,"+2,63%"
7,8,"Банк Открытие лицензия № 2209, Москва и обл.",2 754 227 662,2 657 990 453,+96 237 209,"+3,62%"
8,9,"Совкомбанк лицензия № 963, Костромская обл.",1 596 643 638,1 591 816 817,+4 826 821,"+0,30%"
9,10,"Райффайзенбанк лицензия № 3292, Москва и обл.",1 444 225 516,1 421 903 293,+22 322 223,"+1,57%"


### 12. Введение в API


В предыдущих разделах мы собирали полезную информацию с различных сайтов с выделением правильных тэгов – это довольно трудоёмкая задача. Кроме того, подобные программы могут ломаться в случаях, когда меняется дизайн сайта, его разметка, или владельцы сайтов защищаются от ботов капчей. 

К счастью, многие крупные сайты предоставляют доступ к так называемым API (application programming interface, программный интерфейс приложения). Это специальные разделы сайта, где информацию можно получать без разметки, формат запросов – ответов зафиксирован, и они созданы специально, чтобы облегчить жизнь сторонним разработчикам.

Мы уже видели, как https://www.cbr-xml-daily.ru возвращает данные о валютах в json-формате, и это может считаться API. В этом разделе мы на примере ВКонтакте посмотрим особенности API, характерные для более крупных сайтов.

### Сервисный токен
Для того чтобы начать работать с API ВКонтакте, необходимо получить сервисный токен (ключ) авторизации. 

Авторизация применяется практически во всех API, чтобы отдавать данные только их владельцу или контролировать количество запросов в единицу времени. Сервисный токен для нашей задачи создается вместе с новым приложением. Приложение мы делать, конечно, не будем. Оно нужно только для получения токена, чтобы сделать необходимые выгрузки.

Зайдите на страницу https://vk.com/editapp?act=create, чтобы создать приложение (вы должны быть авторизованы ВКонтакте). Дайте приложению любое название и оставьте значение платформы "Standalone-приложение":

После подтверждения создания приложения в приложении ВК или по СМС зайдите в настройки:



### Задание 1 - Создание токена
Создайте свой токен для доступа к API вконтакте. Для ответа в этом задании введите первые его 10 символов.

In [46]:
token = '63fbecbb63fbecbb63fbecbb33638f7e1d663fb63fbecbb3c6f9fb9664c2428f44fef5e'
token[:10]

'63fbecbb63'

### 13 Запрос к API
Для примера работы с API мы будем получать данные для статистических отчетов произвольной группы, например:

- соотношение мужчин и женщин в группе;
- статистика географии пользователей;
- другие данные для аналитики групп конкурентов.
Сначала рассмотрим работу API на простом примере, на основе которого работают многие системы. 

Перейдите по следующей ссылке в браузере, подставив вместо слова "TOKEN" сервисный токен из прошлого шага:

https://api.vk.com/method/users.get?user_id=1&v=5.95&access_token=TOKEN

Результат:

[запрос 1](https://api.vk.com/method/users.get?user_id=1&v=5.95&access_token=63fbecbb63fbecbb63fbecbb33638f7e1d663fb63fbecbb3c6f9fb9664c2428f44fef5e)

{"response":[{"id":1,"first_name":"Павел","last_name":"Дуров","is_closed":false,"can_access_closed":true}]}

Сейчас мы сделали GET-запрос к API ВКонтакте, который состоит из следующих частей:

- `https://api.vk.com/method` — домен и URL запроса API: обычно не меняется; 
- `users.get` — название метода, который отдает определенный отчет; нашем случае это метод для получения информации о пользователе; 
- `user_id` и `v` — параметры запроса: идентификатор пользователя, о котором хотим получить информацию, и номер версии API; 
- `token`, который выдается только пользователям, имеющим право просматривать определенные данные, например, показания счетчиков Яндекс, метрики вашего проекта: на все остальные запросы без корректного токена система отвечает отказом.

Если мы посмотрим [документацию метода users.get](https://vk.com/dev/users.get), то увидим, что в ней описано множество других параметров, которые можно получить о пользователе: дата рождения, пол, родной город и другие.

Словом, всё то, что мы видим на странице пользователя в интерфейсе или приложении ВКонтакте (конечно, если пользователь их указал). Добавим к запросу дату рождения и пол (согласно документации, эти параметры надо перечислять в поле fields):

`https://api.vk.com/method/users.get?user_id=1&v=5.95&fields=sex,bdate&access_token=TOKEN`
Результат:

[запрос 2](https://api.vk.com/method/users.get?user_id=1&v=5.95&fields=sex,bdate&access_token=63fbecbb63fbecbb63fbecbb33638f7e1d663fb63fbecbb3c6f9fb9664c2428f44fef5e)

{"response":[{"id":1,"first_name":"Павел","last_name":"Дуров","is_closed":false,"can_access_closed":true,"sex":2,"bdate":"10.10.1984"}]}

### Задание 1 - ID страны
Какое значение ID у страны, указанной в профиле Павла Дурова (ID отдается вместе с названием страны)? Укажите ответ в виде целого числа.

In [None]:
https://api.vk.com/method/users.get?user_id=1&v=5.95&fields=country&access_token=63fbecbb63fbecbb63fbecbb33638f7e1d663fb63fbecbb3c6f9fb9664c2428f44fef5e

{"response":[{"id":1,"first_name":"Павел","last_name":"Дуров","is_closed":false,"can_access_closed":true,"country":{"id":1,"title":"Россия"}}]}

### 14 Запрос к API из кода
### Запрос из кода
Мы делали запрос в браузере, теперь давайте сделаем запрос из кода. Будем пользоваться всё той же библиотекой requests.
```python
import requests  
  
url = 'https://api.vk.com/method/users.get'   
params = {'user_id': 1, 'v': 5.95, 'fields': 'sex,bdate', 'access_token': token, 'lang': 'ru'}  
  
# Мы можем выставить параметры запроса через аргумент params  
response = requests.get(url, params=params)  
response.text  
```

In [47]:
import requests  
  
url = 'https://api.vk.com/method/users.get'   
params = {'user_id': 1, 'v': 5.95, 'fields': 'sex,bdate', 'access_token': token, 'lang': 'ru'}  
  
# Мы можем выставить параметры запроса через аргумент params  
response = requests.get(url, params=params)  
response.text  

'{"response":[{"first_name":"Павел","id":1,"last_name":"Дуров","can_access_closed":true,"is_closed":false,"sex":2,"bdate":"10.10.1984"}]}'

Мы получили строку в формате JSON. Как мы помним по первому разделу, её можно преобразовать в словарь методом json и после этого обращаться к различным полям. Кроме того, такие большие вложенные словари нагляднее выводить с помощью функции pprint (~pretty print, красивый вывод), которым мы и воспользуемся

```python
from pprint import pprint  
  
pprint(response.json())  
```

In [48]:
from pprint import pprint  

pprint(response.json()) 

{'response': [{'bdate': '10.10.1984',
               'can_access_closed': True,
               'first_name': 'Павел',
               'id': 1,
               'is_closed': False,
               'last_name': 'Дуров',
               'sex': 2}]}


In [49]:
user = response.json()['response'][0]  
  
# Выведем дату рождения  
print(user['bdate'])  

10.10.1984


In [50]:
# Выведем имя  
print(user['first_name'])  

Павел


Данный метод позволяет запрашивать сразу много пользователей (до 1000).  Для этого нужно использовать параметр user_ids и передавать id через запятую в строковом формате, например: '1,2,3'.
```python
ids = ",".join(map(str, range(1, 4)))  
print(ids)  
```

In [51]:
ids = ",".join(map(str, range(1, 4)))  
print(ids)  

1,2,3


In [52]:
params = {'user_ids': ids, 'v': 5.95, 'fields': 'bday', 'access_token': token, 'lang': 'ru'} 
params = {'user_ids': ids, 'v': 5.95, 'fields': 'bday', 'access_token': token} 

# params = {'user_ids': ids, 'v': 5.95, 'fields': 'sex', 'access_token': token, 'lang': 'ru'} 
pprint(requests.get(url, params=params).json()) 

{'response': [{'can_access_closed': True,
               'first_name': 'Pavel',
               'id': 1,
               'is_closed': False,
               'last_name': 'Durov'},
              {'can_access_closed': False,
               'first_name': 'Alexandra',
               'id': 2,
               'is_closed': True,
               'last_name': 'Vladimirova'},
              {'deactivated': 'deleted',
               'first_name': 'DELETED',
               'id': 3,
               'last_name': ''}]}


### Задание 1 - Гендерный баланс
Используя API, определите долю женщин(sex=1) среди пользователей с id от 1 до 500. Иногда вам будут попадать пользователи, у которых пол не указан (sex=0), их не нужно учитывать в общем числе.

В ответе укажите число, округлив до двух знаков после запятой, например, 0.55

Пример: если у нас будет 300 пользователей sex=1, 100 пользователей с sex=2 и 100 пользователей с sex=0, то в ответе должно быть 0.75

In [53]:
ids = ",".join(map(str, range(1, 501)))
params = {'user_ids': ids, 'v': 5.95, 'fields': 'sex', 'access_token': token} 

response = requests.get(url, params=params).json()

In [54]:
users_data = response['response']

from collections import Counter
counter = Counter()

for user in users_data:
    counter[(user['sex'])] += 1

round(counter[1]/(counter[1]+counter[2]),2)

0.48

### 15. Ограничения API


В прошлом блоке мы собрали информацию о небольшом наборе пользователей. Теперь перейдем к более реальной задаче — сбору данных о пользователях группы ВКонтакте. 

Стоит отметить, что есть много сервисов, которые выгружают похожую статистику из соцсетей. Однако им свойственны недостатки универсальных решений:

- не могут учитывать всех особенностей вашего проекта;
- считают фиксированный набор метрик, дополнительную обработку данных приходится делать вам;
- не всегда бесплатны и вряд ли позволят работать с большими объемами данных.

### В этом разделе мы научимся считать произвольные метрики групп, собирая данные из API. 

В текущем шаге мы научимся работать с двумя ограничениями, которые свойственны практически всем системам:

- ограничение на количество вызовов в единицу времени;
- ограничение на количество выгружаемых строк за один запрос.

Ограничение на количество запросов в секунду сделано для того, чтобы избежать чрезмерной нагрузки на серверы системы. В ряде случаев небольшое количество отчетов можно выгрузить, уложившись в этот лимит (например, как мы получили информацию о 500 пользователях в прошлом упражнении). Однако второе ограничение не удастся «обойти» в случае выгрузки больших отчетов. Например, чтобы получить список всех пользователей очень популярной группы, серверу, возможно, придется отправить вам разом лист из миллионов записей.

***Давайте рассмотрим, как работать с этими ограничениями на примере выгрузки списка пользователей группы*** https://vk.com/mountelbrus.

Посмотрим в документации, [какие методы нам доступны для групп](https://vk.com/dev/groups). Для получения списка пользователей группы видим метод [groups.getMembers](https://vk.com/dev/groups.getMembers).

Согласно документации, обязательным параметром является ID или короткое имя группы. В нашем случае это `mountelbrus: https://vk.com/mountelbrus`. Тестируем, как работает метод в самом простом случае:
```python
import requests  
url = 'https://api.vk.com/method/groups.getMembers'  
params = {  
    'group_id': 'mountelbrus',  
    'v': 5.95,  
    'access_token': token  
}  
response = requests.get(url, params = params)  
data = response.json()  
print(data) 
```

In [57]:
import requests  
url = 'https://api.vk.com/method/groups.getMembers'  
params = {  
    'group_id': 'vk',  
    'v': 5.95,  
    'access_token': token  
}  
response = requests.get(url, params = params)  
data = response.json()  
print(data)  
# => {'response': {'count': 11240724, 'items': [5, 6, 10, 19, 34, 47, 54, 79, 177, 193, 205, 219... 
  
len(data['response']['items'])  


{'response': {'count': 11527872, 'items': [5, 6, 10, 19, 34, 47, 54, 79, 177, 193, 198, 205, 219, 239, 243, 254, 345, 404, 406, 407, 467, 485, 510, 550, 619, 628, 640, 643, 690, 702, 720, 721, 724, 744, 804, 809, 831, 832, 847, 900, 905, 907, 914, 943, 952, 958, 966, 976, 979, 1000, 1018, 1023, 1032, 1033, 1038, 1039, 1059, 1097, 1131, 1139, 1140, 1159, 1174, 1188, 1290, 1301, 1333, 1334, 1336, 1351, 1359, 1386, 1388, 1406, 1411, 1418, 1432, 1494, 1500, 1531, 1543, 1568, 1586, 1590, 1593, 1598, 1610, 1615, 1632, 1634, 1650, 1679, 1690, 1697, 1698, 1699, 1700, 1721, 1740, 1754, 1796, 1814, 1820, 1829, 1834, 1839, 1840, 1843, 1858, 1863, 1868, 1869, 1889, 1917, 1943, 1947, 1955, 1969, 2019, 2028, 2050, 2051, 2052, 2059, 2077, 2103, 2145, 2150, 2195, 2201, 2202, 2230, 2236, 2273, 2281, 2294, 2296, 2298, 2376, 2389, 2395, 2403, 2412, 2436, 2456, 2466, 2470, 2484, 2515, 2527, 2539, 2571, 2576, 2592, 2601, 2622, 2644, 2654, 2692, 2706, 2745, 2755, 2767, 2787, 2797, 2827, 2858, 2896, 2909, 29

1000

In [58]:
len(data['response']['items'])  


1000

### Получаем всех пользователей
Мы видим, что всего пользователей в группе больше 65 000, а получили мы только первую тысячу пользователей группы. Судя по описанию параметра count в документации, это максимум, который может отдать API за один раз.

Для получения следующей тысячи пользователей воспользуемся параметрами `count` и `offset`: будем в цикле выгружать по 1000 пользователей (`count` будет всегда равен 1000), а в каждом следующем шаге цикла увеличим смещение `offset` на величину count.

Сначала напишем цикл выгрузки первых 20 пользователей со значением `count` = 5. Т.е. цикл будет выгружать за 1 запрос по 5 пользователей, пока не выгрузит первые 20. Это позволит нам проверить корректность работы цикла перед тем, как делать большие и долгие выгрузки.

Давайте выведем на экран первые 20 пользователей из нашей первой попытки с 1000 пользователей, чтобы было с чем сверить результат выгрузки из 20 пользователей:
```python
users_for_checking = data['response']['items'][:20]  
print(users_for_checking)  
```

In [59]:
users_for_checking = data['response']['items'][:20]  
print(users_for_checking) 

[5, 6, 10, 19, 34, 47, 54, 79, 177, 193, 198, 205, 219, 239, 243, 254, 345, 404, 406, 407]


Теперь используем `count` и `offset`, чтобы получить те же id по 5 за раз
```python
count = 5  
offset = 0  
user_ids = []
max_count = 20  
while offset < max_count:  
    print('Выгружаю {} пользователей с offset = {}'.format(count, offset))     
    params = {  
        'group_id': 'mountelbrus',  
        'v': 5.95,  
        'count': count,  
        'offset': offset,  
        'access_token': token  
    }     
    # такой же запрос как в прошлый раз  
    r = requests.get(url, params = params)  
    data = r.json()     
    user_ids += data['response']['items']   
  
    # увеличиваем смещение на количество строк выгрузки  
    offset += count  
```

In [61]:
count = 5  
offset = 0  
user_ids = []
max_count = 20  
while offset < max_count:  
    print('Выгружаю {} пользователей с offset = {}'.format(count, offset))     
    params = {  
        'group_id': 'vk',  
        'v': 5.95,  
        'count': count,  
        'offset': offset,  
        'access_token': token  
    }     
    # такой же запрос как в прошлый раз  
    r = requests.get(url, params = params)  
    data = r.json()     
    user_ids += data['response']['items']   
  
    # увеличиваем смещение на количество строк выгрузки  
    offset += count  
      
# Выгружаю 5 пользователей с offset = 0  
# Выгружаю 5 пользователей с offset = 5  
# Выгружаю 5 пользователей с offset = 10  
# Выгружаю 5 пользователей с offset = 15  
print(user_ids)  
# => [5, 6, 10, 19, 34, 47, 54, 79, 177, 193, 205, 219, 239, 243, 345, 404, 406, 407, 467, 485]
  
user_ids == users_for_checking  

Выгружаю 5 пользователей с offset = 0
Выгружаю 5 пользователей с offset = 5
Выгружаю 5 пользователей с offset = 10
Выгружаю 5 пользователей с offset = 15
[5, 6, 10, 19, 34, 47, 54, 79, 177, 193, 198, 205, 219, 239, 243, 254, 345, 404, 406, 407]


True

Видим, что подход корректно работает. Теперь мы можем получить всех пользователей, выставив `count = 1000` и `max_count = data['response']['count']`.

### Задание 1 - Юбилейный пользователь
Используя API, определите id пятидесятитысячного пользователя в группе `mountelbrus` . Т.е. если бы у нас не было ограничения на размер запроса, то мы бы запросили `data['response']['items'][49999]` .

In [66]:
 params = {  
        'group_id': 'mountelbrus',  
        'v': 5.95,  
        'count': 1,  
        'offset': 99999,  
        'access_token': token}

In [67]:
response = requests.get(url, params = params)  
anniv_user_data = response.json()

In [None]:
anniv_user_id = anniv_user_data['response']['items'][0]
anniv_user_id

### 16 Ограничение по частоте запросов
В API частот добавляют ограничение по частоте запросов, чтобы отдельно взятые пользователи слишком сильно не перегружали  сервер. Подобное ограничение есть и у ВКонтакте, в документации которой указано, что можно делать не более 3-х запросов в секунду. 

Чтобы не следить за частотой отправки запросов с секундомером в руках, мы можем после каждого запроса делать паузу. В этом случае, даже если код будет выполняться на самом быстром компьютере, мы не нарушим установленное ограничение, т.к. периодичность отправки запросов будет искусственно замедлена. Воспользуемся библиотекой `time` и методом `sleep` (пауза в 0.5 секунды добавлена в конце цикла):
```python
import time  
  
count = 1000  
offset = 0  
user_ids = []  
while offset < 10000:  
    print('Выгружаю {} пользователей с offset = {}'.format(count, offset))     
    params = {  
        'group_id': 'mountelbrus',  
        'v': 5.95,  
        'count': count,  
        'offset': offset,  
        'access_token': token  
    }    
    # такой же запрос, как в прошлый раз  
    r = requests.get(url, params = params)  
    data = r.json()     
    user_ids += data['response']['items']    
  
    # увеличиваем смещение на количество строк выгрузки  
    offset += count  
    
    print('Ожидаю 0.5 секунды...')  
    time.sleep(0.5)  
```

In [69]:
import time  
  
count = 1000  
offset = 0  
user_ids = []  
while offset < 10000:  
    print('Выгружаю {} пользователей с offset = {}'.format(count, offset))     
    params = {  
        'group_id': 'vk',  
        'v': 5.95,  
        'count': count,  
        'offset': offset,  
        'access_token': token  
    }    
    # такой же запрос, как в прошлый раз  
    r = requests.get(url, params = params)  
    data = r.json()     
    user_ids += data['response']['items']    
  
    # увеличиваем смещение на количество строк выгрузки  
    offset += count  
    
    print('Ожидаю 0.5 секунды...')  
    time.sleep(0.5)  

Выгружаю 1000 пользователей с offset = 0
Ожидаю 0.5 секунды...
Выгружаю 1000 пользователей с offset = 1000
Ожидаю 0.5 секунды...
Выгружаю 1000 пользователей с offset = 2000
Ожидаю 0.5 секунды...
Выгружаю 1000 пользователей с offset = 3000
Ожидаю 0.5 секунды...
Выгружаю 1000 пользователей с offset = 4000
Ожидаю 0.5 секунды...
Выгружаю 1000 пользователей с offset = 5000
Ожидаю 0.5 секунды...
Выгружаю 1000 пользователей с offset = 6000
Ожидаю 0.5 секунды...
Выгружаю 1000 пользователей с offset = 7000
Ожидаю 0.5 секунды...
Выгружаю 1000 пользователей с offset = 8000
Ожидаю 0.5 секунды...
Выгружаю 1000 пользователей с offset = 9000
Ожидаю 0.5 секунды...


In [70]:
len(user_ids)

10000

### 17 Лайки, репосты и комментарии
Лайки, репосты и комментарии
Ещё одна полезная вещь, которую можно получить,  —  это количество взаимодействий с постами через **API новостной ленты**. На данном этапе будем использовать самый простой вариант: берем последние 10 постов группы. Мы продолжаем работать с группой `https://vk.com/mountelbrus`.

Начнем с  формирования запроса к **API ВКонтакте** методом `wall.get()`:
```python
import requests  
from pprint import pprint  
  
url = 'https://api.vk.com/method/wall.get'  
params = {  
    'domain': 'mountelbrus',  
    'filter': 'owner',  
    'count': 10,  
    'offset': 0,  
    'access_token': token,  
    'v': 5.95  
}  
response = requests.get(url, params = params)  
response.json()
```

In [71]:
import requests  
from pprint import pprint  
  
url = 'https://api.vk.com/method/wall.get'  
params = {  
    'domain': 'vk',  
    'filter': 'owner',  
    'count': 10,  
    'offset': 0,  
    'access_token': token,  
    'v': 5.95  
}  
response = requests.get(url, params = params)  
response.json()

{'response': {'count': 430,
  'items': [{'id': 1167538,
    'from_id': -22822305,
    'owner_id': -22822305,
    'date': 1617262100,
    'marked_as_ads': 0,
    'post_type': 'post',
    'text': '',
    'copy_history': [{'id': 362,
      'owner_id': 92933,
      'from_id': 92933,
      'date': 1617261054,
      'post_type': 'post',
      'text': 'Наша команда любит шутить на 1 апреля. Каждый год мы делаем на сайте или в приложении какие-нибудь забавные мелочи. В этот раз поднимем настроение абсолютно серьёзной новостью: спустя пять лет ВКонтакте обновляет приложение для iPad. Это не шутка! \n\nМы видели, с каким энтузиазмом многие ждали этого момента, ожидание даже стало мемом. И хотя планшетами пользуются несоизмеримо реже, чем смартфонами или ноутбуками, мы всегда учитываем отзывы и пожелания, которые получаем. Это помогает запускать действительно востребованные продукты. Обновлённое приложение поможет общаться и решать повседневные вопросы — будь то быт, работа или учёба — с любого у

Видим, что сначала идёт общее количество постов, а по ключу `'items'`  —  сами посты. Посмотрим на отдельный пост:

```python
response.json()['response']['items'][0]  
```

In [72]:
response.json()['response']['items'][0] 

{'id': 1167538,
 'from_id': -22822305,
 'owner_id': -22822305,
 'date': 1617262100,
 'marked_as_ads': 0,
 'post_type': 'post',
 'text': '',
 'copy_history': [{'id': 362,
   'owner_id': 92933,
   'from_id': 92933,
   'date': 1617261054,
   'post_type': 'post',
   'text': 'Наша команда любит шутить на 1 апреля. Каждый год мы делаем на сайте или в приложении какие-нибудь забавные мелочи. В этот раз поднимем настроение абсолютно серьёзной новостью: спустя пять лет ВКонтакте обновляет приложение для iPad. Это не шутка! \n\nМы видели, с каким энтузиазмом многие ждали этого момента, ожидание даже стало мемом. И хотя планшетами пользуются несоизмеримо реже, чем смартфонами или ноутбуками, мы всегда учитываем отзывы и пожелания, которые получаем. Это помогает запускать действительно востребованные продукты. Обновлённое приложение поможет общаться и решать повседневные вопросы — будь то быт, работа или учёба — с любого устройства.\n\nВ прошлом году мы масштабно обновили приложение на смартфонах 

Нужная нам статистика находится в полях `'comments'`, `'likes'` и `'reposts'`. Соберем итоговую статистику для каждого поста в словарь `stats`.  
В качестве ключа будем использовать начало статьи, в качестве значения — список с тремя интересующими нас метриками и временем публикации: `[комментарии, лайки, репосты, дата публикации]`
```python
stats = {}  
              
for record in response.json()['response']['items'][:]:  
    title = record['text'][:30]  
    if title:  
        stats[title] = [record['comments']['count'], record['likes']['count'], record['reposts']['count'], record['date'] ]  
pprint(stats)  
```

In [73]:
stats = {}  
              
for record in response.json()['response']['items'][:]:  
    title = record['text'][:30]  
    if title:  
        stats[title] = [record['comments']['count'], record['likes']['count'], record['reposts']['count'], record['date'] ]  
pprint(stats)  

{'Благодаря форс-мажорному 2020-': [6071, 2538, 660, 1608903643],
 'В наступающий год — со свежим ': [3244, 4877, 1689, 1608033618],
 'В этом году у нас было много т': [266, 1792, 191, 1607943610],
 'Вот уже четвёртый год мы подде': [3097, 4352, 679, 1608897114],
 'Встречайте музыкальных куратор': [2097, 2691, 542, 1603796912],
 'Мы решили не ждать курантов и ': [961, 2846, 244, 1607689227],
 'Сообщества были и остаются одн': [766, 2246, 306, 1608105691],
 'Что поможет найти лучший автос': [1118, 13063, 9888, 1608548489]}


### Задание 1 - SMM index
Напишите функцию `get_smm_index(group_name, token)`, которая по имени группы и авторизационному токену API возвращает `smm_index` группы - ***сумму лайков, комментариев и репостов для последних 10 постов, поделённую на количество участников в группе***.

In [74]:
def get_smm_index(group_name, token):
    # определеям параметры запросов
    url_getMembers = 'https://api.vk.com/method/groups.getMembers'  
    url_wall_get = 'https://api.vk.com/method/wall.get'
    params_getMembers = {  
        'group_id': group_name,  
        'v': 5.95,  
        'access_token': token  
    }
    params_wall_get = {  
        'domain': group_name,  
        'filter': 'owner',  
        'count': 10,  
        'offset': 0,  
        'access_token': token,  
        'v': 5.95  
    }
    
    # получаем количество участников группы
    response_getMembers = requests.get(url_getMembers, params = params_getMembers)  
    data_getMembers = response_getMembers.json()  
    
    members_count = data_getMembers['response']['count']
    
    # получаем сумму лайков, комментариев и репостов для последних 10 постов
    response_wall_get = requests.get(url_wall_get, params = params_wall_get)  
    data_wall_get = response_wall_get.json()
    
    reaction_sum = 0 
    for i in range(10):
        reaction_sum += (data_wall_get['response']['items'][i]['comments']['count'] +
                         data_wall_get['response']['items'][i]['likes']['count'] +
                         data_wall_get['response']['items'][i]['reposts']['count'])
    
    # вычисляем smm_index
    smm_index = reaction_sum / members_count
    
    return smm_index

In [None]:
get_smm_index('mountelbrus', token)

0.08946540413784915


### 18 Возможности API
Мы рассмотрели базовое взаимодействие с пользователями и группами. ВКонтакте предоставляет достаточно широкие возможности в своём API: по сути, всё, что можно делать руками через браузер, доступно и в API. Обратим внимание: если вы размещаете рекламу в Вконтакте, то можно выгружать всю статистику через [ads API](https://vk.com/dev/ads).

Полный список методов можно посмотреть в документации - https://vk.com/dev/methods

### Итоговый тест

### Задание 1 - Статус запроса
Какая строчка вернёт номер статуса для get-запроса к www.google.com

Ответ: requests.get("http://www.google.com").status_code 

### Задание 2 - Аргументированный суп
У вас есть строковая переменная html_page, которая содержит html страницу. Что нужно указать вторым аргументом?

Ответ:  
page = BeautifulSoup(html_page, html.parser)


### Задание 3 - Рекламный метод
Воспользовавшись документацией , найдите метод, который возвращает статистику показателей эффективности по рекламным объявлениям. В ответ запишите название этого метода

Ответ:  
ads.getStatistics

### Задание 4 - Информативные блоки
У вас есть переменная page, которая представляет собой объект BeautifulSoup. Что из этого вернёт все элементы div с классом 'info-block'?

Ответ:  
page.find_all('div', class_='info-block') 

