In [190]:
import requests  

from pprint import pprint

отправим запрос к сервису с помощью метода GET к сервису с курсами валют:

In [191]:
response = requests.get('https://www.cbr-xml-daily.ru/daily_json.js')  

Посмотрим, что получили в ответ:

In [192]:
print(response)  

<Response [200]>


Мы получили объект ответа, который содержит всю нужную нам информацию. По умолчанию на экран выводится HTTP-код ответа 200. Это означает, что запрос был корректным, и сервер отдал нам нужную информацию.

Код ответа в виде числа можно получить с помощью метода status_code:

In [193]:
print(response.status_code)  

200


## Задание 1 - Первый запрос
Допустим, вы уже импортировали модуль `requests` в ваш код. Какая команда сделает **GET запрос** к сайту https://www.cbr-xml-daily.ru/daily.xml и положит результат в переменную **response**?

In [194]:
response = requests.get('https://www.cbr-xml-daily.ru/daily.xml')

Мы сделали запрос и получили ответ. Давайте теперь посмотрим, как считывать текст. 

Адрес, по которому мы обращались, возвращает результат в `json` формате. Эти данные уже лежат в атрибуте `text` в полученном ответе `response`:

In [195]:
response = requests.get('https://www.cbr-xml-daily.ru/daily_json.js')    
print(response.text)  

{
    "Date": "2021-12-31T11:30:00+03:00",
    "PreviousDate": "2021-12-30T11:30:00+03:00",
    "PreviousURL": "\/\/www.cbr-xml-daily.ru\/archive\/2021\/12\/30\/daily_json.js",
    "Timestamp": "2022-01-02T23:00:00+03:00",
    "Valute": {
        "AUD": {
            "ID": "R01010",
            "NumCode": "036",
            "CharCode": "AUD",
            "Nominal": 1,
            "Name": "Австралийский доллар",
            "Value": 53.9141,
            "Previous": 53.2573
        },
        "AZN": {
            "ID": "R01020A",
            "NumCode": "944",
            "CharCode": "AZN",
            "Nominal": 1,
            "Name": "Азербайджанский манат",
            "Value": 43.7273,
            "Previous": 43.3499
        },
        "GBP": {
            "ID": "R01035",
            "NumCode": "826",
            "CharCode": "GBP",
            "Nominal": 1,
            "Name": "Фунт стерлингов Соединенного королевства",
            "Value": 100.0573,
            "Previous": 98.8254
  

Сейчас текст хранится просто в строковой переменной. Далее мы можем превратить эту строку в словарь. Сделать это можно с помощью **JSON-парсера python**, либо воспользовавшись методом `json`, который уже встроен в объект ответа `response`:

In [196]:
currencies = response.json()  
pprint(currencies)  

{'Date': '2021-12-31T11:30:00+03:00',
 'PreviousDate': '2021-12-30T11:30:00+03:00',
 'PreviousURL': '//www.cbr-xml-daily.ru/archive/2021/12/30/daily_json.js',
 'Timestamp': '2022-01-02T23:00:00+03:00',
 'Valute': {'AMD': {'CharCode': 'AMD',
                    'ID': 'R01060',
                    'Name': 'Армянских драмов',
                    'Nominal': 100,
                    'NumCode': '051',
                    'Previous': 14.9576,
                    'Value': 15.5164},
            'AUD': {'CharCode': 'AUD',
                    'ID': 'R01010',
                    'Name': 'Австралийский доллар',
                    'Nominal': 1,
                    'NumCode': '036',
                    'Previous': 53.2573,
                    'Value': 53.9141},
            'AZN': {'CharCode': 'AZN',
                    'ID': 'R01020A',
                    'Name': 'Азербайджанский манат',
                    'Nominal': 1,
                    'NumCode': '944',
                    'Previous': 43.3499,


Теперь данные лежат в словаре, и мы можем легко получать необходимые нам значения:

In [197]:
currencies['Valute']['UAH']  

{'ID': 'R01720', 'NumCode': '980', 'CharCode': 'UAH', 'Nominal': 10, 'Name': 'Украинских гривен', 'Value': 27.2584, 'Previous': 27.0902}

## Задание 1
Повторите запросы, описанные в этой части, на своём компьютере. Что выведет на экран следующий код?
```python
print(currencies['Valute']['CZK']['Name'])
```


In [198]:
print(currencies['Valute']['CZK']['Name'])

Чешских крон


## Оформляем функцию
В завершение давайте оформим наши вычисления в отдельную функцию, которой будет удобно пользоваться. На вход она должна принимать два параметра:
1. Название валюты currency. Например, 'EUR' или 'USD'.
2. Формат ответа format. При значении 'full' будем отдавать все, что знаем о валюте. Например, для `currency = 'USD'`:
```
{'CharCode': 'USD',  
   'ID': 'R01235',  
   'Name': 'Доллар США',  
   'Nominal': 1,  
   'NumCode': '840',  
   'Previous': 68.2505,  
   'Value': 69.0286}  
```
А при значении `format = 'value'` только значение ключа 'Value', т. е. курс: 69.0286.

In [199]:
def exchange_rates(currency, format='full'):    
    url = 'https://www.cbr-xml-daily.ru/daily_json.js'  
    response = requests.get(url).json()['Valute']    
    data = response[currency]     
    if format == 'full':    
        return data      
    elif format == 'value':    
        return data['Value']    

In [200]:
exchange_rates('USD')

{'ID': 'R01235', 'NumCode': '840', 'CharCode': 'USD', 'Nominal': 1, 'Name': 'Доллар США', 'Value': 74.2926, 'Previous': 73.6514}

## Задание 1
Напишите функцию `currency_name`, которая по **ID** валюты возвращает ее название на русском языке.

currency_name('R01700J')
#=> 'Турецких лир' 

In [201]:
def currency_name(id):
    url = 'https://www.cbr-xml-daily.ru/daily_json.js'  
    response = requests.get(url).json()['Valute']
    
    for val in response.values():
        if (val['ID'] == id):
            return(val['Name'])

In [202]:
currency_name('R01700J')

'Турецких лир'

# HTML-страницы
Довольно часто приходится добывать информацию не из удобно форматированного json-файла, а прямо с HTML-страниц. Получить содержимое страницы в большинстве случаев несложно, труднее извлечь из HTML-кода нужную информацию. В качестве примера мы рассмотрим страницу новости, из которой будем доставать полезную информацию: 
1) заголовок страницы;  
2) дату публикации;  
3) текст публикации;  
4) ссылки на странице.  

## Получаем данные
Получить **html** страницу можно так же, как мы получали до этого **json**: используем библиотеку `requests` и метод `GET`:  

In [203]:
url = 'https://nplus1.ru/news/2019/06/04/slothbot'   
  
response = requests.get(url)  

In [204]:
# Убедимся, что мы успешно получили ответ     
print(response.status_code)     

200


In [205]:
# Выведем полученные данные    
print(response.text[:999])

<!doctype html>
<html class="no-js bg-fixed _no-bg" style="background-image:url(https://nplus1.ru/images/2019/06/04/b32b62189fb87cce895e229e1d6d27b4.jpeg)" lang="">
<head>
    
    <meta charset="utf-8">
    <meta http-equiv="x-ua-compatible" content="ie=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1">
        <meta name="apple-mobile-web-app-capable" content="yes">
    <meta name="apple-mobile-web-app-status-bar-style" content="black">
                <meta name='wmail-verification' content='7991d7eb02d759f05b9050e111a7e3eb' />

    <link rel="canonical" href="https://nplus1.ru/news/2019/06/04/slothbot" />

        <title>Робота-ленивца научили лазать по паутине из тросов</title>

    	    <meta itemprop="datePublished" content="2019-06-04"/>
	
	    <meta name="mediator_author" content="Григорий Копиев"/> 
	
        <!-- amp page -->
    <link rel="amphtml" href="https://nplus1.ru/news/2019/06/04/slothbot/amp">
    

        <!-- for Google -->
        


Мы получили большую строку с текстом в формате **html**, который используется для визуальной разметки. Это позволяет делать информацию более наглядной для людей, но в отличие от **json**, мы не можем просто преобразовать его напрямую в словарь. Далее мы посмотрим, как извлекать информацию из подобных страниц

# Библиотека BeautifulSoup
Для поиска данных на странице воспользуемся библиотекой BeautifulSoup. Она позволяет по названию тэгов и их атрибутов получать содержащийся в них текст.

BeautifulSoup – достаточно мощная библиотека. Мы рассмотим базовые возможности, но полный список гораздо шире. С ним можно ознакомиться в [официальной документации.](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)

In [206]:
# Импортируем наши библиотеки    
from bs4 import BeautifulSoup    
import requests    

Теперь мы можем получать данные из страницы. Давайте получим title (это строка, отображающая в браузерах на закладках)

In [207]:
# Получаем данные, как и ранее    
url = 'https://nplus1.ru/news/2019/06/04/slothbot'   
response = requests.get(url)    
    
# Теперь создадим объект BeautifulSoup, указывая html парсер    
page = BeautifulSoup(response.text, 'html.parser')    
    
# Всё готово, чтобы получать данные из страницы    
# Для начала получим title, отображающийся на закладках браузера    
print(page.title)  

<title>Робота-ленивца научили лазать по паутине из тросов</title>


In [208]:
# Мы получили тэг. Чтобы достать из него текст, вызовем атрибут text    
page.title.text    

'Робота-ленивца научили лазать по паутине из тросов'

# Библиотека BeautifulSoup

## Задание 2 - Текст тайтла
У вас переменная `soup` с объектом `BeautifulSoup` для **html-страницы**. Введите строку, которая вернёт текст для тайтла (title) страницы

In [209]:
soup = page
soup.title.text

'Робота-ленивца научили лазать по паутине из тросов'

# Данные со страницы

## Задание 2 - Автоматический сбор заголовков
Напишите функцию `wiki_header`, которая по адресу страницы возвращает заголовок для статей на википедии
```python
wiki_header('https://en.wikipedia.org/wiki/Operating_system')
# => 'Operating system'
```

In [210]:
def wiki_header(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    return soup.h1.text

In [211]:
wiki_header('https://en.wikipedia.org/wiki/Operating_system')

'Operating system'

# Больше данных
Мы рассмотрели базовый поиск конкретного элемента. Могут встречаться другие вариации:
- когда нам нужно получить много похожих элементов; 
- когда тэг атрибута неуникальный, тогда нам нужно использовать атрибуты (id, class), либо использовать вложенность.

Посмотрим на практике, что делать в случае, когда тэг элемента неуникальный. Пусть мы хотим получить сам текст статьи. Мы видим, что он находится в тэге **div**
Тэги **div** очень распространённые, их много на странице. Если мы просто используем `find`, то получим первый попавшийся, но это не то, что нам надо.

In [212]:
page.find('div')

<div class="shadow-overlay"></div>

Тут мы можем заметить, что у искомого текста есть свой класс `body js-mediator-article`. Воспользуемся этим:  в метод `find` можно передать аргумент `class_`. Стоит обратить внимание на то, что поиск идет **по вхождению** (а **не полному совпадению = равенству**) текста в реальный атрибут.

In [213]:
print(page.find('div', class_='body').text[:230])







Allison Carter, Georgia Tech





Американские инженеры разработали робота-ленивца, способного лазать по тросам и перемещаться с одного троса на другой. Благодаря относительно малому потреблению энергии и использованию солне


Отлично, сработало. Аналогично работает и с **id**, мы могли бы написать что-то вроде `page.find('article', id='article').text`

## Задание 1. Поиск элемента
У вас есть переменная `page`, в которой хранится содержимое **html-страницы**. На странице есть элемент в тэге `span`, у которого атрибут `id` равен `'target'`. Напишите строчку кода, которая присвоит текст этого элемента переменной `value`.

Запишите ваш код в одну строку без пробелов. Используйте апострофы для передачи параметров, содержащих значение тэга и его id.

In [214]:
value=page.find('span',id='target')

# Сбор нескольких элементов
Рассмотрим случай, когда нам нужно сразу много элементов. Пусть мы хотим получить название всех ссылок на странице в википедии про языки программирования.

Для ссылок существует тэг `<a></a>`.  Давайте попробуем использовать find  

In [215]:
url = 'https://en.wikipedia.org/wiki/List_of_programming_languages'  
  
response = requests.get(url)  
page = BeautifulSoup(response.text, 'html.parser')  
page.find('a')  

<a id="top"></a>

Что-то пошло не так, и мы получили только одну ссылку, хотя на странице их явно больше. Это происходит, потому что метод `find `возвращает только первый подходящий элемент. Если нам надо их больше, нужно воспользоваться методом `find_all`

In [216]:
links = page.find_all('a')  
# Посмотрим, сколько всего мы получили  
print(len(links))

930


In [217]:
# Посмотрим на некоторые из ссылок  
print([link.text for link in links[500:510]])  

['OptimJ', 'Orc', 'ORCA/Modula-2', 'Oriel', 'Orwell', 'Oxygene', 'Oz', 'edit', 'P', 'P4']


Ещё одна полезная вещь:  последовательный поиск, т.е. мы можем найти сначала один элемент, а потом сделать внутри него второй поиск. Давайте выведем названия всех ссылок для языков программирования, которые начинаются на литеру "A".

In [218]:
# Получаем все элементы с тегом 'div' и классом 'div-col'  
all_blocks = page.find_all('div', class_='div-col')  
  
# Выбираем первый по счету блок  
first_block = all_blocks[0]  

In [219]:
# Берём оттуда ссылки (ограничимся первыми десятью)
links = first_block.find_all('a')
print([link.text for link in links[:10]])

['A.NET (A#/A sharp)', 'A-0 System', 'A+ (A plus)', 'ABAP', 'ABC', 'ABC ALGOL', 'ACC', 'Accent (Rational Synergy)', 'Ace DASL (Distributed Application Specification Language)', 'Action!']


## Задание 1 - Актёры
Напишите функцию `get_actors`, которая по ссылке на страницу фильма на [кинопоиске](https://www.kinopoisk.ru/lists/films/?is-redirected=1) возвращает список актёров из колонки справа.

In [220]:
# url = 'https://www.kinopoisk.ru/film/42326/'
# response = requests.get(url + 'cast/')

# url ='https://www.kinopoisk.ru/film/435/'
# cast_url = url + 'cast/'
# response = requests.get(cast_url)

In [221]:
# def get_actors(url):
#     response = requests.get(url) 
#     page = BeautifulSoup(response.text, 'html.parser')  
#     cast_tag = page.find('ul', class_="styles_list__I97eu")  
#     name_tags = cast_tag.find_all('a', class_ = "styles_link__1dkjp") 
#     return [name_tag.text for name_tag in name_tags] 

# HTML-таблицы

Постановка задачи
При работе с web-страницами было бы здорово получать содержимое  таблиц в виде датафрейма. Рассмотрим страницу ключевых показателей ***Центрального банка РФ*** [cbr.ru](https://www.cbr.ru/). Наша задача будет состоять в том, чтобы получить одну из таблиц виджетов в виде датафрейма. Например, таблицу цен на драгоценные металлы.

Метод `read_html` из `pandas` умеет автоматически находить на HTML-странице таблицы и возвращать их списком из датафреймов:

In [222]:
import pandas as pd  
url = 'https://www.cbr.ru/key-indicators/'  
# Таблица с драгметаллами оказалась третьей по счёту  
pd.read_html(url)[2]  

Unnamed: 0,0,1,2
0,рублей за грамм,30.12.2021,31.12.2021
1,Золото Au,"4 253,66","4 297,62"
2,Серебро Ag,5367,5454
3,Платина Pt,"2 299,28","2 309,74"
4,Палладий Pd,"4 653,01","4 724,57"


## Задание 1 - Курсы валют через read_html
Попробуйте запустить `pandas` для заданного выше `url`. Какая строчка вернёт таблицу с курсами валют?

In [223]:
pd.read_html(url)[1]

Unnamed: 0,0,1,2
0,валюта,30.12.2021,31.12.2021
1,Доллар США USD,736514,742926
2,Евро EUR,832040,840695


**А теперь — внимание!** В случае работы с сайтом Центробанка нам нужно будет учесть ещё один нюанс. С недавнего времени администраторы стали блокировать обращения к сайту, поступающие не от «живых» пользователей, а от компьютерных программ (в том числе от той, которую мы собираемся написать прямо сейчас). Есть ли шанс в таких условиях всё-таки получить данные, не открывая страницу в браузере?

Каждый запрос, отправляемый с помощью команды get, имеет заголовок. Если заголовок не задан явно, то он создаётся автоматически, и туда добавляется информация в том числе о том, кто является субъектом (или источником) запроса — человек или программа. Чтобы «притвориться» браузером, нам просто нужно вручную дописать нужные сведения в этот заголовок. Подробнее о таком подходе можно почитать в [этой](https://habr.com/ru/company/ods/blog/346632/) статье.

Итоговый вариант кода после добавления заголовка должен выглядеть так:

```python
url = 'https://www.cbr.ru/key-indicators/'
soup = BeautifulSoup(requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}).text, 'html.parser')  
```

## Задание 2 - Рейтинг банков
Напишите программу, которая забирает данные из таблицы рейтинга банков с https://www.banki.ru/banks/ratings/, делает из него датафрейм и сохраняет его в переменую df.

In [224]:
url = 'https://www.banki.ru/banks/ratings/'
response = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'})

page = BeautifulSoup(response.text, 'html.parser')

data = page.find_all('div',class_="layout-column-full")[2].find('table')

df =  pd.read_html(str(data))[0]  

# Введение в API
В предыдущих разделах мы собирали полезную информацию с различных сайтов с выделением правильных тэгов – это довольно трудоёмкая задача. Кроме того, подобные программы могут ломаться в случаях, когда меняется дизайн сайта, его разметка, или владельцы сайтов защищаются от ботов капчей. 

К счастью, многие крупные сайты предоставляют доступ к так называемым **API** (***application programming interface***, программный интерфейс приложения). Это специальные разделы сайта, где информацию можно получать без разметки, формат запросов – ответов зафиксирован, и они созданы специально, чтобы облегчить жизнь сторонним разработчикам.

Мы уже видели, как https://www.cbr-xml-daily.ru возвращает данные о валютах в `json`-формате, и это может считаться **API**. В этом разделе мы на примере ***ВКонтакте*** посмотрим особенности **API**, характерные для более крупных сайтов.

Для примера работы с **API** мы будем получать данные для статистических отчетов произвольной группы, например:
- соотношение мужчин и женщин в группе;
- статистика географии пользователей;
- другие данные для аналитики групп конкурентов.
Сначала рассмотрим работу **API** на простом примере, на основе которого работают многие системы. 

Перейдите по следующей ссылке в браузере, подставив вместо слова "TOKEN" сервисный токен из вашего придложения:

`https://api.vk.com/method/users.get?user_id=1&v=5.95&access_token=TOKEN`

https://api.vk.com/method/users.get?user_id=1&v=5.95&access_token=30ee232d30ee232d30ee232d073094976d330ee30ee232d513c275be4ec7c32b92aec54

Результат: `{"response":[{"id":1,"first_name":"Павел","last_name":"Дуров","can_access_closed":true,"is_closed":false}]}`


Сейчас мы сделали **GET-запрос** к **API ВКонтакте**, который состоит из следующих частей:

- https://api.vk.com/method — домен и URL запроса API: обычно не меняется; 
- users.get — название метода, который отдает определенный отчет; нашем случае это метод для получения информации о пользователе; 
- user_id и v — параметры запроса: идентификатор пользователя, о котором хотим получить информацию, и номер версии API; 
- token, который выдается только пользователям, имеющим право просматривать определенные данные, например, показания счетчиков Яндекс, метрики вашего проекта: на все остальные запросы без корректного токена система отвечает отказом.  

Если мы посмотрим [документацию метода `users.get`](https://vk.com/dev/users.get), то увидим, что в ней описано множество других параметров, которые можно получить о пользователе: дата рождения, пол, родной город и другие.

Словом, всё то, что мы видим на странице пользователя в интерфейсе или приложении ВКонтакте (конечно, если пользователь их указал). Добавим к запросу дату рождения и пол (согласно документации, эти параметры надо перечислять в поле `fields`):

https://api.vk.com/method/users.get?user_id=1&v=5.95&fields=sex,bdate&access_token=30ee232d30ee232d30ee232d073094976d330ee30ee232d513c275be4ec7c32b92aec54

Результат:

`{"response":[{"id":1,"first_name":"Павел","last_name":"Дуров","is_closed":false,"can_access_closed":true,"sex":2,"bdate":"10.10.1984"}]}`     
Примечание: значение 2 у параметра 'sex' означает мужской пол.  

## Задание 1 - ID страны
Какое значение **ID** у страны, указанной в профиле Павла Дурова (**ID** отдается вместе с названием страны)? Укажите ответ в виде целого числа.

https://api.vk.com/method/users.get?user_id=1&v=5.95&fields=country&access_token=30ee232d30ee232d30ee232d073094976d330ee30ee232d513c275be4ec7c32b92aec54   

Результат:   
`{"response":[{"id":1,"first_name":"Павел","last_name":"Дуров","can_access_closed":true,"is_closed":false,"country":{"title":"Россия","id":1}}]}`

# Запрос к API из кода
Мы делали запрос в браузере, теперь давайте сделаем запрос из кода. Будем пользоваться всё той же библиотекой requests.

```python
import requests  
  
url = 'https://api.vk.com/method/users.get'   
params = {'user_id': 1, 'v': 5.95, 'fields': 'sex,bdate', 'access_token': token, 'lang': 'ru'}  
  
# Мы можем выставить параметры запроса через аргумент params  
response = requests.get(url, params=params)  
response.text  
```

In [225]:
url = 'https://api.vk.com/method/users.get'   
params = {'user_id': 1, 
          'v': 5.95, 
          'fields': 'sex,bdate',
          'access_token': '30ee232d30ee232d30ee232d073094976d330ee30ee232d513c275be4ec7c32b92aec54', 
          'lang': 'ru'}  

# Мы можем выставить параметры запроса через аргумент params  
response = requests.get(url, params=params)  
response.text  

'{"response":[{"id":1,"first_name":"Павел","last_name":"Дуров","can_access_closed":true,"is_closed":false,"sex":2,"bdate":"10.10.1984"}]}'

Мы получили строку в формате **JSON**. Как мы помним по первому разделу, её можно преобразовать в словарь методом `json` и после этого обращаться к различным полям. Кроме того, такие большие вложенные словари нагляднее выводить с помощью функции `pprint` (***~pretty print***, красивый вывод), которым мы и воспользуемсяm

In [226]:
from pprint import pprint 

pprint(response.json())  

{'response': [{'bdate': '10.10.1984',
               'can_access_closed': True,
               'first_name': 'Павел',
               'id': 1,
               'is_closed': False,
               'last_name': 'Дуров',
               'sex': 2}]}


In [227]:
response.json()

{'response': [{'id': 1, 'first_name': 'Павел', 'last_name': 'Дуров', 'can_access_closed': True, 'is_closed': False, 'sex': 2, 'bdate': '10.10.1984'}]}

In [228]:
user = response.json()['response'][0]  

# Выведем дату рождения  
print(user['bdate'])  
  
# Выведем имя  
print(user['first_name'])  

10.10.1984
Павел


Данный метод позволяет запрашивать сразу много пользователей (до 1000).  Для этого нужно использовать параметр `user_ids` и передавать `id` через запятую в строковом формате, например: `'1,2,3'`.

In [229]:
ids = ",".join(map(str, range(1, 4)))  
print(ids)  

1,2,3


In [230]:
params = {'user_ids': ids, 
          'v': 5.95, 
          'fields': 'bday', 
          'access_token': '30ee232d30ee232d30ee232d073094976d330ee30ee232d513c275be4ec7c32b92aec54', 
          'lang': 'ru'}  
  
pprint(requests.get(url, params=params).json()) 

{'response': [{'can_access_closed': True,
               'first_name': 'Павел',
               'id': 1,
               'is_closed': False,
               'last_name': 'Дуров'},
              {'can_access_closed': False,
               'first_name': 'Александра',
               'id': 2,
               'is_closed': True,
               'last_name': 'Владимирова'},
              {'deactivated': 'deleted',
               'first_name': 'DELETED',
               'id': 3,
               'last_name': ''}]}


## Задание 1 - Гендерный баланс
Используя **API**, определите долю женщин(sex=1) среди пользователей с **id** от **1 до 500**. Иногда вам будут попадать пользователи, у которых пол не указан (sex=0), их не нужно учитывать в общем числе.

В ответе укажите число, округлив до двух знаков после запятой, например, 0.55

Пример: если у нас будет 300 пользователей sex=1, 100 пользователей с sex=2 и 100 пользователей с sex=0, то в ответе должно быть 0.75

In [231]:
url = 'https://api.vk.com/method/users.get'
ids = ",".join(map(str, range(1, 501)))
params = {'user_ids': ids, 
          'v': 5.95, 
          'fields': 'sex', 
          'access_token': '30ee232d30ee232d30ee232d073094976d330ee30ee232d513c275be4ec7c32b92aec54', 
          'lang': 'ru'}  

response = requests.get(url, params=params)
gender = [x['sex'] for x in response.json()['response']]
ans = gender.count(1)/(gender.count(1) + gender.count(2)) 
round(ans,2)

0.48

# Ограничения API
В текущем шаге мы научимся работать с двумя ограничениями, которые свойственны практически всем системам:
- ограничение на количество вызовов в единицу времени;
- ограничение на количество выгружаемых строк за один запрос.   

Ограничение на количество запросов в секунду сделано для того, чтобы избежать чрезмерной нагрузки на серверы системы. В ряде случаев небольшое количество отчетов можно выгрузить, уложившись в этот лимит (например, как мы получили информацию о 500 пользователях в прошлом упражнении). Однако второе ограничение не удастся «обойти» в случае выгрузки больших отчетов. Например, чтобы получить список всех пользователей очень популярной группы, серверу, возможно, придется отправить вам разом лист из миллионов записей.   
Давайте рассмотрим, как работать с этими ограничениями на примере выгрузки списка пользователей группы https://vk.com/vk.

Посмотрим в документации, какие методы нам доступны для групп. Для получения списка пользователей группы видим метод `groups.getMembers`.

Согласно документации, обязательным параметром является `ID` или короткое имя группы. В нашем случае это **vk**: https://vk.com/vk. Тестируем, как работает метод в самом простом случае:

In [232]:
url = 'https://api.vk.com/method/groups.getMembers'  
token = '30ee232d30ee232d30ee232d073094976d330ee30ee232d513c275be4ec7c32b92aec54'
params = {  
    'group_id': 'vk',  
    'v': 5.95,  
    'access_token': token  
}  
response = requests.get(url, params = params)  
data = response.json()  
print(data)  

{'response': {'count': 12211118, 'items': [5, 6, 19, 34, 47, 54, 79, 177, 193, 198, 212, 219, 239, 243, 254, 345, 404, 406, 407, 467, 485, 510, 550, 619, 628, 640, 643, 690, 702, 720, 721, 724, 744, 804, 809, 831, 832, 834, 847, 900, 905, 907, 914, 943, 952, 958, 966, 976, 979, 1000, 1018, 1023, 1032, 1033, 1038, 1039, 1059, 1097, 1131, 1139, 1140, 1159, 1174, 1185, 1188, 1290, 1301, 1333, 1334, 1336, 1351, 1359, 1381, 1386, 1388, 1406, 1411, 1418, 1432, 1494, 1531, 1543, 1568, 1586, 1590, 1593, 1598, 1610, 1615, 1632, 1634, 1650, 1679, 1690, 1697, 1698, 1699, 1700, 1721, 1740, 1754, 1796, 1814, 1820, 1829, 1834, 1839, 1840, 1843, 1858, 1863, 1868, 1869, 1887, 1889, 1917, 1943, 1947, 1955, 1969, 2019, 2028, 2050, 2051, 2052, 2059, 2077, 2103, 2145, 2150, 2195, 2201, 2202, 2230, 2236, 2273, 2281, 2294, 2296, 2298, 2376, 2389, 2395, 2403, 2412, 2436, 2456, 2466, 2470, 2484, 2515, 2527, 2539, 2571, 2576, 2592, 2601, 2622, 2644, 2654, 2692, 2706, 2745, 2755, 2767, 2787, 2797, 2827, 2858, 2

In [233]:
len(data['response']['items'])  

1000

Получаем всех пользователей
Мы видим, что всего пользователей в группе больше 11 000 000, а получили мы только первую тысячу пользователей группы. Судя по описанию параметра count в документации, это максимум, который может отдать API за один раз.

Для получения следующей тысячи пользователей воспользуемся параметрами `count` и `offset`: будем в цикле выгружать по 1000 пользователей (count будет всегда равен 1000), а в каждом следующем шаге цикла увеличим смещение offset на величину count.

Сначала напишем цикл выгрузки первых 20 пользователей со значением `count` = 5. Т.е. цикл будет выгружать за 1 запрос по 5 пользователей, пока не выгрузит первые 20. Это позволит нам проверить корректность работы цикла перед тем, как делать большие и долгие выгрузки.

Давайте выведем на экран первые 20 пользователей из нашей первой попытки с 1000 пользователей, чтобы было с чем сверить результат выгрузки из 20 пользователей:

In [234]:
users_for_checking = data['response']['items'][:20]  
print(users_for_checking)  

[5, 6, 19, 34, 47, 54, 79, 177, 193, 198, 212, 219, 239, 243, 254, 345, 404, 406, 407, 467]


Теперь используем `count` и `offset`, чтобы получить те же `id` по 5 за раз

In [240]:
count = 5  
offset = 0  
user_ids = []
max_count = 20  
while offset < max_count:  
    print('Выгружаю {} пользователей с offset = {}'.format(count, offset))     
    params = {  
        'group_id': 'vk',  
        'v': 5.95,  
        'count': count,  
        'offset': offset,  
        'access_token': token  
    }     
    # такой же запрос как в прошлый раз  
    r = requests.get(url, params = params)  
    data = r.json()     
    user_ids += data['response']['items']   
  
    # увеличиваем смещение на количество строк выгрузки  
    offset += count  

print(user_ids)  

Выгружаю 5 пользователей с offset = 0
Выгружаю 5 пользователей с offset = 5
Выгружаю 5 пользователей с offset = 10
Выгружаю 5 пользователей с offset = 15
[5, 6, 19, 34, 47, 54, 79, 177, 193, 198, 212, 219, 239, 243, 254, 345, 404, 406, 407, 467]


Видим, что подход корректно работает. Теперь мы можем получить всех пользователей, выставив `count = 1000` и `max_count = data['response']['count']`.

## Задание 1 - Юбилейный пользователь
Используя **API**, определите **id** стотысячного пользователя в группе vk . Т.е. если бы у нас не было ограничения на размер запроса, то мы бы запросили data['response']['items'][99999] .

In [243]:
import time 

count = 1000  
offset = 0  
user_ids = []
max_count = 99999  
while offset < max_count:  
    if offset%5000 == 0:
        print('Выгружаю {} пользователей с offset = {}'.format(count, offset))     
    params = {  
        'group_id': 'vk',  
        'v': 5.95,  
        'count': count,  
        'offset': offset,  
        'access_token': token  
    }     
    # такой же запрос как в прошлый раз  
    r = requests.get(url, params = params)  
    data = r.json()     
    user_ids += data['response']['items']   
  
    # увеличиваем смещение на количество строк выгрузки  
    offset += count  
    time.sleep(0.5) 
    
    
print(user_ids[99999])  

Выгружаю 1000 пользователей с offset = 0
Выгружаю 1000 пользователей с offset = 5000
Выгружаю 1000 пользователей с offset = 10000
Выгружаю 1000 пользователей с offset = 15000
Выгружаю 1000 пользователей с offset = 20000
Выгружаю 1000 пользователей с offset = 25000
Выгружаю 1000 пользователей с offset = 30000
Выгружаю 1000 пользователей с offset = 35000
Выгружаю 1000 пользователей с offset = 40000
Выгружаю 1000 пользователей с offset = 45000
Выгружаю 1000 пользователей с offset = 50000
Выгружаю 1000 пользователей с offset = 55000
Выгружаю 1000 пользователей с offset = 60000
Выгружаю 1000 пользователей с offset = 65000
Выгружаю 1000 пользователей с offset = 70000
Выгружаю 1000 пользователей с offset = 75000
Выгружаю 1000 пользователей с offset = 80000
Выгружаю 1000 пользователей с offset = 85000
Выгружаю 1000 пользователей с offset = 90000
Выгружаю 1000 пользователей с offset = 95000
6056444


# Лайки, репосты и комментарии
Ещё одна полезная вещь, которую можно получить,  —  это количество взаимодействий с постами через **API** новостной ленты. На данном этапе будем использовать самый простой вариант: берем последние 10 постов группы. Мы продолжаем работать с группой https://vk.com/vk.

Начнем с  формирования запроса к **API ВКонтакте** методом `wall.get()`:

In [244]:
url = 'https://api.vk.com/method/wall.get'  
params = {  
    'domain': 'vk',  
    'filter': 'owner',  
    'count': 10,  
    'offset': 0,  
    'access_token': token,  
    'v': 5.95  
}  
response = requests.get(url, params = params)  
response.json()

{'response': {'count': 464, 'items': [{'id': 1251019, 'from_id': -22822305, 'owner_id': -22822305, 'date': 1639138500, 'marked_as_ads': 0, 'post_type': 'post', 'text': 'Этот год оказался богатым на события — всем нам было что обсудить. Начинаем подводить итоги 2021-го. Сегодня делимся списком тем и персон, о которых чаще всего говорили пользователи ВКонтакте. \n\nСамой волнующей темой в 2021 году остаётся пандемия COVID-19. Пользователи писали не только про коронавирус, но и про вакцинацию, удалённую работу, осенний локдаун и систему QR-кодов. Суммарно все эти вопросы обсуждались 68,5 млн раз. Также большой интерес вызывали общественно-политические новости. Уже несколько лет подряд рейтинг самых упоминаемых персон возглавляет Владимир Путин. В топе и лидеры других стран: Владимир Зеленский, Александр Лукашенко, 45-й президент США Дональд Трамп. \n\nПользователей ВКонтакте увлекали музыканты: они заняли почти половину позиций в топ-15 самых упоминаемых персон. К примеру, на третьем мест

Видим, что сначала идёт общее количество постов, а по ключу `'items'`  —  сами посты. Посмотрим на отдельный пост:

In [246]:
pprint(response.json()['response']['items'][0])

{'attachments': [{'link': {'caption': 'vk.com',
                           'description': 'ВКонтакте подвела итоги 2021-го '
                                          'года. Музыка. Персоны и темы. '
                                          'Клипы. Сервисы. E-commerce. Авторы '
                                          'и лента. Технологии. Мемы.',
                           'photo': {'album_id': -27,
                                     'date': 1639167016,
                                     'id': 457369521,
                                     'owner_id': 2000003133,
                                     'sizes': [{'height': 480,
                                                'type': 'k',
                                                'url': 'https://sun9-1.userapi.com/sun9-82/impg/0JJbWnpBTU-mcpFCGGL5hYdrGzF15BMkwYM-3g/CB1UFU84GLk.jpg?size=1074x480&quality=96&sign=12ce3f412b98acc603ea8d84df2d5990&c_uniq_tag=2B9srmQppUGthIZEFlOXOmh9-ceHKOGkoIaPd0ZyEzc&type=share',
                

Нужная нам статистика находится в полях `'comments'`, `'likes'` и `'reposts'`. Соберем итоговую статистику для каждого поста в словарь `stats`. В качестве ключа будем использовать начало статьи, в качестве значения — список с тремя интересующими нас метриками и временем публикации: `[комментарии, лайки, репосты, дата публикации]`

In [247]:
stats = {}  
              
for record in response.json()['response']['items'][:]:  
    title = record['text'][:30]  
    if title:  
        stats[title] = [record['comments']['count'], record['likes']['count'], record['reposts']['count'], record['date'] ]  
pprint(stats)  

{'А если взглянуть в целом, то к': [268, 806, 246, 1640094467],
 'ВКонтакте всегда есть что посм': [191, 835, 84, 1640017040],
 'Запускаем собственное шоу в пе': [58, 708, 86, 1640940328],
 'Каким был ваш 2021-й ВКонтакте': [585, 2024, 9696, 1640174402],
 'Мы приготовили для вас целую г': [160, 3296, 273, 1640712137],
 'Объявляем итоги первого розыгр': [438, 822, 98, 1640871560],
 'Приближаем праздники вместе — ': [6998, 1107, 658, 1639590427],
 'Эти каникулы будут особенными ': [121, 1056, 147, 1640171709],
 'Этот год оказался богатым на с': [1040, 1875, 1612, 1639138500]}


## Задание 1 - SMM index
Напишите функцию `get_smm_index(group_name, token)`, которая по **имени группы** и авторизационному токену **API** возвращает **smm_index** группы - сумму **лайков**, **комментариев** и **репостов** для **последних 10 постов**, поделённую на **количество участников** в группе.

In [294]:
group_name = 'vk'

In [297]:
def get_smm_index(group_name, token):
    url_getmembers = 'https://api.vk.com/method/groups.getMembers'
    params = {  
        'group_id': group_name,  
        'v': 5.95,  
        'access_token': token}  
    response_getmembers = requests.get(url_getmembers, params = params)  
    members_count = response_getmembers.json()['response']['count']

    url_wall = 'https://api.vk.com/method/wall.get'  
    params = {  
        'domain': group_name,  
        'filter': 'owner',  
        'count': 10,  
        'offset': 0,  
        'access_token': token,  
        'v': 5.95}
    response_wall = requests.get(url_wall, params = params)  

    smm = 0
    for record in response_wall.json()['response']['items']:
        smm += (record['likes']['count'] + record['comments']['count'] + record['reposts']['count'])
    smm_index = smm/members_count
    
    return smm_index

In [298]:
get_smm_index('vk', token)

0.0029958368317109297

# =======================================================

In [None]:
def get_actors(url):
    response = requests.get(url) # запрос страницы
    page = BeautifulSoup(response.text, 'html.parser')  # получение обьекта BeautifulSoup
    cast_tag = page.find('ul', class_="styles_list__I97eu") #
    name_tags = cast_tag.find_all('a', class_ = "styles_link__1dkjp") #
    return [name_tag.text for name_tag in name_tags] #