# 45. PYT. Как получать данные из веб-источников и API 

## 45.1 Веб-запросы

**Веб-скрейпинг**, или веб-скрапинг (от англ. web-scraping) — процесс получения, извлечения информации с веб-ресурсов в интернете.

Какие данные можно извлечь в процессе веб-скрапинга?
- цены на товары конкурентов для оптимизации своей стратегии ценообразования;
- сообщения в социальных медиа, по которым можно отслеживать тренды в той или иной области;
- отзывы о товарах/услугах компании на различных площадках, которые можно впоследствии анализировать;
- контактные данные пользователей соцсетей или форумов для дальнейшего взаимодействия с этими пользователями и т. д.

#### Запрос
Запрос, отправляемый клиентом с использованием протокола http, состоит из нескольких элементов:   
- адрес, по которому идёт обращение (например, www.google.com);
- техническая информация (например, метод запроса);
- дополнительные данные (например, если загружается/передаётся изображение).

#### Ответ
Ответ, в свою очередь, состоит из следующих элементов:
- код статуса ответа: например, 200 («успешно»), 404 («не найден») и т. д.
- текст в запрошенном формате (html, xml, json и т. д.) или мультимедийные файлы;
- прочая техническая информация.

### МЕТОДЫ ЗАПРОСОВ В ПРОТОКОЛЕ HTTP
Для того чтобы указать серверу на то, какое действие мы хотим произвести с ресурсом, в протоколе http используются так называемые методы. В http существует несколько методов, которые описывают действия с ресурсами. Чаще всего используются **GET** и **POST**.

#### GET — получение ресурса
Метод GET запрашивает информацию из указанного источника и не может влиять на его содержимое. Запрос доступен для кэширования данных (то есть для сохранения, восстановления и дальнейшего использования) и добавления в закладки. Длина запроса ограничена (максимальная длина — 2048 символов).   
Пример GET-запроса, отправляемого через адресную строку браузера:
http://site.ru/page.php?name=dima&age=27

#### POST — создание ресурса
Метод POST используется для отправки данных, которые могут оказывать влияние на содержимое ресурса. В отличие от метода GET, запросы POST не могут быть кэшированы, они не остаются в истории браузера и их нельзя добавить в закладки. Длина запроса POST не ограничивается.   
Пример POST-запроса, отправляемого через форму запроса:   
POST / HTTP/1.0\r\n
Host: www.site.ru\r\n
Referer: http://www.site.ru/index.html\r\n
Cookie: income=1\r\n
Content-Type: application/x-www-form-urlencoded\r\n
Content-Length: 35\r\n
\r\n
login=Dima&password=12345

Методы HTTP запроса:  
https://developer.mozilla.org/ru/docs/Web/HTTP/Methods

**HEAD** запрашивает ресурс так же, как и метод GET, но без тела ответа.   
**PUT** заменяет все текущие представления ресурса данными запроса.   
**DELETE** удаляет указанный ресурс.   
**CONNECT** устанавливает "туннель" к серверу, определённому по ресурсу.   
**OPTIONS** используется для описания параметров соединения с ресурсом.   
**TRACE** выполняет вызов возвращаемого тестового сообщения с ресурса.   
**PATCH** используется для частичного изменения ресурса.   

## 45.2 Библиотека requests

В стандартной библиотеке Python для отправки веб-запросов существует функция urllib2, но большинство разработчиков используют стороннюю библиотеку requests (c англ. «запросы»), потому что её работа более стабильна, а созданный с её помощью код получается проще. Поэтому мы будем работать с библиотекой requests, а urllib2 рассматривать не будем.

Познакомимся с библиотекой requests, решив простую задачу — получить значения курсов валют. Курс валют — полезная и регулярно обновляемая информация, но каждый раз в ручном режиме получать информацию о курсе интересующей валюты трудоёмко.

Разработаем код, так называемый скрипт (от англ. script, сценарий), — небольшую программу, которая содержит последовательность действий для автоматического выполнения задачи.

С помощью скрипта мы будем в удобном виде выгружать информацию по курсам валют с заранее выбранного сайта — Курсы валют ЦБ РФ в XML и JSON.

Это один из интернет-ресурсов, на котором информация о курсах валют дублирует информацию с сайта Центрального Банка России. Здесь информация о курсах валют представлена в разных форматах, в том числе и в структурированном json-формате, методы работы с которым мы изучили в конце предыдущего раздела.

Библиотеку requests потребуется предварительно установить. Например, в Jupyter Notebook это делается с помощью такой команды:

In [7]:
# Устанавливаем библиотеку requests
#!pip install requests 
# Чтобы установить пакет requests в Visual Studio Code (в терминале вводим):
#py -m pip install requests

In [8]:
import requests # Импортируем библиотеку requests
import json # Импортируем модуль json
url = 'https://www.cbr-xml-daily.ru/daily_json.js' # Определяем значение URL страницы для запроса
response = requests.get(url) # Делаем GET-запрос к ресурсу и результат ответа сохраняем в переменной response

Как только библиотека установлена, импортируем её и отправим наш первый запрос к ресурсу Курсы валют ЦБ РФ в XML и JSON. Используем метод get() из библиотеки requests, передав ему соответствующий URL — https://www.cbr-xml-daily.ru/daily_json.js:

In [9]:
print(response) # Выводим значение response на экран как объект

<Response [200]>


Мы получили объект ответа Response, который содержит всю нужную нам информацию. По умолчанию в квадратных скобках на экран выводится код статуса ответа. В данном случае он равен 200 — то есть запрос был корректным и сервер отдал нам нужную информацию. Значение кода статуса 404 означало бы, что страница по указанному адресу не найдена, а значение 403 — что синтаксис GET-запроса неверный.

In [10]:
# Код ответа в виде числовой переменной можно получить с помощью метода status_code:
print(response.status_code) # Выводим числовое значение response на экран

200


In [11]:
"""Напишите строку кода, при выполнении которой будет сделан GET-запрос к ресурсу 
https://www.cbr-xml-daily.ru/daily.xml, а результат ответа будет сохранён в переменной response."""

response2 = requests.get('https://www.cbr-xml-daily.ru/daily.xml')

Мы сделали запрос и получили корректный ответ (код статуса — 200).   
Как получить доступ ко всей информации, которую содержит ответ? Текст ответа хранится в атрибуте text. Выведем значение атрибута на экран и посмотрим на его содержимое:

In [12]:
print(response.text) # Выводим содержимое атрибута text переменной response на экран

{
    "Date": "2021-12-22T11:30:00+03:00",
    "PreviousDate": "2021-12-21T11:30:00+03:00",
    "PreviousURL": "\/\/www.cbr-xml-daily.ru\/archive\/2021\/12\/21\/daily_json.js",
    "Timestamp": "2021-12-21T18:00:00+03:00",
    "Valute": {
        "AUD": {
            "ID": "R01010",
            "NumCode": "036",
            "CharCode": "AUD",
            "Nominal": 1,
            "Name": "Австралийский доллар",
            "Value": 52.5603,
            "Previous": 52.7418
        },
        "AZN": {
            "ID": "R01020A",
            "NumCode": "944",
            "CharCode": "AZN",
            "Nominal": 1,
            "Name": "Азербайджанский манат",
            "Value": 43.1548,
            "Previous": 43.7285
        },
        "GBP": {
            "ID": "R01035",
            "NumCode": "826",
            "CharCode": "GBP",
            "Nominal": 1,
            "Name": "Фунт стерлингов Соединенного королевства",
            "Value": 97.768,
            "Previous": 98.0987
    

In [13]:
"""Для того чтобы удобно было работать с полученной информацией, нам необходимо преобразовать строку в словарь. В объект ответа Response из библиотеки requests уже встроен метод json().
Импортируем функцию pprint(), применим к полученному ответу метод json() и выведем полученный результат на экран:"""

from pprint import pprint # Импортируем функцию pprint()
currencies = response.json() # Применяем метод json()
pprint(currencies) # Выводим результат на экран)

{'Date': '2021-12-22T11:30:00+03:00',
 'PreviousDate': '2021-12-21T11:30:00+03:00',
 'PreviousURL': '//www.cbr-xml-daily.ru/archive/2021/12/21/daily_json.js',
 'Timestamp': '2021-12-21T18:00:00+03:00',
 'Valute': {'AMD': {'CharCode': 'AMD',
                    'ID': 'R01060',
                    'Name': 'Армянских драмов',
                    'Nominal': 100,
                    'NumCode': '051',
                    'Previous': 15.0822,
                    'Value': 14.989},
            'AUD': {'CharCode': 'AUD',
                    'ID': 'R01010',
                    'Name': 'Австралийский доллар',
                    'Nominal': 1,
                    'NumCode': '036',
                    'Previous': 52.7418,
                    'Value': 52.5603},
            'AZN': {'CharCode': 'AZN',
                    'ID': 'R01020A',
                    'Name': 'Азербайджанский манат',
                    'Nominal': 1,
                    'NumCode': '944',
                    'Previous': 43.7285,
 

In [14]:
""" Теперь данные находятся в словаре и можно легко получать необходимые значения.
Например, по ключу Valute мы можем обратиться к вложенному словарю, который содержит
информацию о мировых валютах. Выведем на экран, например, информацию о евро (EUR):"""

pprint(currencies['Valute']['EUR']) # Выводим на экран информацию о валюте евро

{'CharCode': 'EUR',
 'ID': 'R01239',
 'Name': 'Евро',
 'Nominal': 1,
 'NumCode': '978',
 'Previous': 83.6187,
 'Value': 83.3213}


In [15]:
print(currencies['Valute']['CZK']['Name'])

Чешских крон


## 45.3 Парсинг сайтов

**HTML** (англ. HyperText Markup Language, рус. язык гипертекстовой разметки) — стандартизированный язык разметки документов в интернете.

Большинство веб-страниц содержат описание разметки на языке html. Язык html интерпретируется браузерами. Полученный в результате интерпретации текст отображается на экране монитора компьютера или мобильного устройства.  
Html позволяет создавать макет страницы, разбивая её на блоки: мы можем поместить содержимое посередине страницы, сбоку и т. п.  
Кроме того, html используется для описания форматирования.

Html является близким родственником уже знакомого вам формата xml. Разметка на языке html делается с помощью так называемых тегов, которые помещаются в угловые скобки, и применяется к элементам, заключённым внутри них.   
Посмотрите на примеры:   
   <h2> Это заголовок второго уровня </h2>
   <div> А это обычный текст </div>

У корректной html-страницы есть заголовок и тело страницы. В заголовке (в тегах <head> … </head> размещается техническая информация, подключаются скрипты и стили. В теле <body> … </body> находятся текст и данные, которые непосредственно отображаются на странице в браузере.

Разметка небольшой страницы выглядит примерно так:
<!DOCTYPE html>
<html lang="ru">
    <header>
        <title>Название страницы</title>
        <meta charset="UTF-8">
    </header>
    <body>
        <h1> Это заголовок страницы </h1>
        <p> Какой-то текст </p>
    </body>
</html>

Обратите внимание, что теги образуют иерархическую структуру, то есть одни теги расположены внутри других. В примере выше тег <p> … </p> находится внутри тега <body> … </body>.
Кроме того, у тегов могут быть атрибуты, которые пишутся внутри открывающегося тега. Самые популярные атрибуты — это class и id:
    <h1 id="big-title"> Заголовок страницы </h1>
    <p class="red-back"> Какой-то текст </p>

справочник по html: 
http://htmlbook.ru/html

для того, чтобы собирать информацию с веб-страниц, нет необходимости хорошо знать html. Достаточно понимать, что:
- существуют теги с разными именами;
- у тегов бывают атрибуты, такие как class и id;
- теги образуют иерархическую структуру, то есть одни теги вложены в другие.

In [16]:
"""Получим html-код интересующей нас страницы. Для этого отправим GET-запрос с помощью 
библиотеки requests и метода get() и посмотрим на текст ответа на наш запрос (как мы помним, 
он содержится в атрибуте text):"""

import requests # Импортируем библиотеку requests
url = 'https://nplus1.ru/news/2021/10/11/econobel2021' # Определяем адрес страницы
response = requests.get(url)  # Выполняем GET-запрос
print(response.text)  # Выводим содержимое атрибута text

"""Ответ содержит html-код страницы, к которой мы обратились. В отличие от предыдущего примера, 
где ответ возвращался в json-формате, мы не можем так просто преобразовать html-код в словарь и 
извлечь необходимую нам информацию."""

<!doctype html>
<html class="no-js bg-fixed _no-bg" style="background-image:url(https://nplus1.ru/images/2021/10/11/9c6bcb5f7c01c6d88d49410e16ebc003.jpg)" lang="">
<head>
    
    <meta charset="utf-8">
    <meta http-equiv="x-ua-compatible" content="ie=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1">
        <meta name="apple-mobile-web-app-capable" content="yes">
    <meta name="apple-mobile-web-app-status-bar-style" content="black">
                <meta name='wmail-verification' content='7991d7eb02d759f05b9050e111a7e3eb' />

    <link rel="canonical" href="https://nplus1.ru/news/2021/10/11/econobel2021" />

        <title>Премию Нобеля по экономике присудили за исследования экономики труда и причинно-следственных связей</title>

    	    <meta itemprop="datePublished" content="2021-10-11"/>
	
	    <meta name="mediator_author" content="Илья Ферапонтов"/> 
	
        <!-- amp page -->
    <link rel="amphtml" href="https://nplus1.ru/news/2021/10/11/econob

'Ответ содержит html-код страницы, к которой мы обратились. В отличие от предыдущего примера, \nгде ответ возвращался в json-формате, мы не можем так просто преобразовать html-код в словарь и \nизвлечь необходимую нам информацию.'

Для решения таких задач в Python существует специальная библиотека BeautifulSoup

**парсинг помогает аналитикам делать следующее:**
- cобирать актуальную информацию о конкурентах — их продуктах, ценах и т. д.;
- собирать актуальную информацию о поставщиках и ценах на приобретаемые услуги и товары (так, 
экономия в два рубля на каждой ручке иногда может сэкономить компании полмиллиона в год);
- собирать воедино все отзывы о вашей компании с разных сайтов и многое другое.

https://www.plerdy.com/ru/blog/5-way-application-parsing-for/

## 45.4 Библиотека BeautifulSoup

Для поиска необходимых нам данных мы будем использовать библиотеку BeautifulSoup, которая позволяет по названию тегов и их атрибутов получать содержащийся в них текст.   
BeautifulSoup не является частью стандартной библиотеки, поэтому для начала её нужно установить.
Например, в Jupyter Notebook это делается с помощью такой команды:   

Чтобы установить пакет requests в Visual Studio Code (в терминале вводим):  
py -m pip install beautifulsoup4

In [17]:
from bs4 import BeautifulSoup # Импортируем библиотеку BeautifulSoup

Теперь мы можем извлекать данные из любой веб-страницы.

Ранее мы уже получили содержимое страницы с помощью GET-запроса и сохранили информацию в переменной response, теперь создадим объект BeautifulSoup с именем page, указывая в качестве параметра html.parser.

Для примера получим информацию o title (с англ. «заголовок») — это строка, которая отображается на вкладке браузера:

In [18]:
import requests # Импортируем библиотеку requests
from bs4 import BeautifulSoup # Импортируем библиотеку BeautifulSoup
url = 'https://nplus1.ru/news/2021/10/11/econobel2021' # Определяем адрес страницы
response = requests.get(url) # Выполняем GET-запрос, содержимое ответа присваивается переменной response
page = BeautifulSoup(response.text, 'html.parser') # Создаём объект BeautifulSoup, указывая html-парсер
print(page.title) # Получаем тег title, отображающийся на вкладке браузера
print(page.title.text) # Выводим текст из полученного тега, который содержится в атрибуте text

<title>Премию Нобеля по экономике присудили за исследования экономики труда и причинно-следственных связей</title>
Премию Нобеля по экономике присудили за исследования экономики труда и причинно-следственных связей


In [19]:
"""Предположим, что мы знаем, что в html-коде рассматриваемой нами страницы заголовок статьи 
заключён в тег <h1> … </h1> (заголовок первого уровня).
Тогда мы можем получить его текст с помощью метода find() (с англ. «найти») объекта 
BeautifulSoup, передав ему название интересующего нас тега:"""

print(page.find('h1').text) # Применяем метод find() к объекту и выводим результат на экран

Премию Нобеля по экономике присудили за исследования экономики труда и причинно-следственных связей


Но как же узнать, в каких именно тегах заключена необходимая информация?   
Проще всего это сделать с помощью так называемого инструмента разработчика, который есть во всех современных браузерах. Покажем, как открыть данный инструмент на примере использования браузера Google Chrome.   
Устанавливаем курсор на элементе страницы (заголовок статьи), информацию о котором хотим получить, нажимаем на правую клавишу мыши и в выпадающем списке выбираем пункт Посмотреть код.

In [20]:
print(page.find('time').text) # Выводим на экран содержимое атрибута text тега time


13:04
11 Окт. 2021



In [21]:
"""Напишите функцию wiki_header, которая по адресу страницы возвращает заголовок для статей на Wikipedia."""
def wiki_header(url):
    response = requests.get(url)
    page = BeautifulSoup(response.text, 'html.parser')
    return page.find('h1').text
    

In [22]:
wiki_header('https://en.wikipedia.org/wiki/Operating_system')

'Operating system'

In [23]:
print(page.find('div', class_='body').text) # Выводим содержимое атрибута text тега div класса body js-mediator-article









Премия Шведского национального банка по экономическим наукам памяти Альфреда Нобеля за 2021 год присуждена Дэвиду Карду (David Card) за его вклад в эмпирические исследования экономики рынка труда, а также Джошуа Энгристу (Joshua Angrist) и Гвидо Имбенсу (Guido Imbens) за их вклад в методологию анализа причинно-следственных связей. Прямая трансляция церемонии объявления лауреатов шла на официальном сайте Нобелевской премии.









Слева направо: Дэвид Карт, Джошуа Энгрист и Гвидо Имбенс.
Niklas Elmehed © Nobel Prize Outreach



Поделиться

















Премия по экономике, в отличие от Нобелевских премий по физиологии и медицине, физике, химии и литературе, а также премии мира, была учреждена не самим Альфредом Нобелем, а Банком Швеции в 1968 году. Ее размер равен размеру остальных премий.Лауреаты этого года награждены за их исследования причинно-следственных связей в области социальных наук. В частности, Дэвид Кард из университета Калифорнии в Беркли начиная с 1990-х годов

СБОР НЕСКОЛЬКИХ ЭЛЕМЕНТОВ: СОБИРАЕМ ВСЕ ССЫЛКИ НА СТРАНИЦЕ   
Рассмотрим ещё один сценарий: вы хотите собрать сразу несколько элементов со страницы. Например, вам нужно получить названия всех языков программирования, упомянутых на странице в Wikipedia в статье про языки программирования.

Можно заметить, что все названия языков программирования на этой странице связаны ссылками c соответствующими статьями о них. Таким образом, нам необходимо собрать все ссылки на странице. Для ссылок в html предусмотрен тег <a> … </a>. Попробуем использовать find():

In [24]:
url = 'https://en.wikipedia.org/wiki/List_of_programming_languages' # Задаём адрес ресурса
response = requests.get(url) # Делаем GET-запрос к ресурсу
page = BeautifulSoup(response.text, 'html.parser') # Создаём объект BeautifulSoup
print(page.find('a')) # Ищем ссылку по тегу <a> и выводим её на экран

<a id="top"></a>


In [25]:
links = page.find_all('a') # Ищем все ссылки на странице и сохраняем в переменной links в виде списка
print(len(links)) # Выводим количество найденных ссылок

930


In [26]:
print([link.text for link in links[500:510]]) # Выводим ссылки с 500 по 509 включительно

['OptimJ', 'Orc', 'ORCA/Modula-2', 'Oriel', 'Orwell', 'Oxygene', 'Oz', 'edit', 'P', 'P4']


In [27]:
print([link.text for link in links[0:10]]) # Выводим ссылки с первой по девятую включительно

['', 'Jump to navigation', 'Jump to search', 'Programming languagelists', 'Alphabetical', 'Categorical', 'Chronological', 'Generational', 'v', 't']


Официальная документация по библиотеке BeautifulSoup https://www.crummy.com/software/BeautifulSoup/bs4/doc/

## 45.5 Работа с API

**API** — это специальные разделы сайта, где информацию можно получать без разметки, а формат запросов и ответов зафиксирован.

**Токен** — это средство идентификации пользователя или отдельного сеанса работы в компьютерных сетях и приложениях.   
Различают программные и аппаратные токены.

программный токен, обычно представляет собой зашифрованную последовательность символов, позволяющую точно идентифицировать объект и определить уровень его привилегий. Он генерируется системой авторизации и привязывается к конкретному сеансу работы, клиенту сети или пакету данных.   
Авторизация применяется практически во всех API, чтобы отдавать данные только их владельцу или контролировать количество запросов в единицу времени.

ПЕРВЫЕ ЗАПРОСЫ К API
Чтобы познакомиться с работой API, мы будем получать данные для статистических отчётов произвольной группы, например данные о соотношении мужчин и женщин, статистику географии пользователей и т. п.

Сначала рассмотрим работу API на простом примере, на основе которого работают многие системы.

Сделаем наш первый запрос из браузера.

Перейдите по следующей ниже ссылке в браузере, подставив вместо слова TOKEN ваш персональный сервисный ключ доступа (токен), полученный на предыдущем шаге:
https://api.vk.com/method/users.get?user_id=1&v=5.95&fields=sex,bdate&access_token=1bd6a9901bd6a9901bd6a990131bac38b311bd61bd6a9907a174dccb430d5fb0d298bc7

Итак, мы сделали GET-запрос к API ВКонтакте, который состоит из следующих элементов:

- https://api.vk.com/method — домен и URL запроса API (обычно не меняется);
- users.get — название метода, который отдаёт определённый отчёт (в нашем случае это метод для получения информации о пользователе);
- user_id и v — параметры запроса: идентификатор пользователя, о котором хотим получить информацию (в нашем примере мы запрашиваем информацию о первом пользователе), и номер версии API;
- token — токен, который выдаётся только пользователям, имеющим право просматривать определённые данные, например показания счётчиков Яндекс.Метрики вашего проекта; на все остальные запросы без корректного токена система отвечает отказом.
- fields — дополнительные поля https://vk.com/dev/objects/user

### ЗАПРОС К API ИЗ КОДА

In [28]:
import requests # Импортируем модуль requests
token = '1bd6a9901bd6a9901bd6a990131bac38b311bd61bd6a9907a174dccb430d5fb0d298bc7' # Указываем свой сервисный токен
url = 'https://api.vk.com/method/users.get' # Указываем адрес страницы к которой делаем запрос
params = {'user_id': 1, 'v': 5.95, 'fields': 'sex,bdate', 'access_token': token, 'lang': 'ru'} # Перечисляем параметры нашего запроса в словаре params
response = requests.get(url, params=params) # Отправляем запрос
print(response.text) # Выводим текст ответа на экран

{"response":[{"first_name":"Павел","id":1,"last_name":"Дуров","can_access_closed":true,"is_closed":false,"sex":2,"bdate":"10.10.1984"}]}


In [29]:
"""Мы получили строку в json-формате, которую преобразуем в словарь с помощью метода json(),
после чего сможем с лёгкостью обращаться к различным поля"""

from pprint import pprint # Импортируем функцию pprint()
pprint(response.json()) # Выводим содержимое словаря, содержащего ответ, на экран

{'response': [{'bdate': '10.10.1984',
               'can_access_closed': True,
               'first_name': 'Павел',
               'id': 1,
               'is_closed': False,
               'last_name': 'Дуров',
               'sex': 2}]}


In [36]:
"""Как вы видите, по ключу response мы можем получить список, в котором хранятся словари, 
содержащие информацию о запрошенных нами пользователях. Мы запросили информацию лишь об одном 
из них, поэтому список содержит только один элемент. Извлечём его:"""

user = response.json()['response'][0] # Извлекаем из словаря по ключу response информацию о первом пользователе
print(user['bdate']) # Выводим дату рождения первого пользователя на экран

10.10.1984


Метод users.get() позволяет запрашивать информацию о множестве (до 1000) пользователей одновременно. Для этого нужно использовать параметр user_ids и передавать id через запятую в строковом формате.

Например, чтобы получить информацию о пользователях с id=1, id=2, id=3, необходимо передать значение параметра user_ids='1,2,3'.

In [32]:
ids = ",".join(map(str, range(1, 4))) # Формируем строку, содержащую информацию о поле id первых трёх пользователей
params = {'user_ids': ids, 'v': 5.95, 'fields': 'bday', 'access_token': token, 'lang': 'ru'} # Формируем строку параметров
pprint(requests.get(url, params=params).json()) # Посылаем запрос, полученный ответ в формате json-строки преобразуем в словарь и выводим на экран его содержимое, используя функцию pprint()

{'response': [{'can_access_closed': True,
               'first_name': 'Павел',
               'id': 1,
               'is_closed': False,
               'last_name': 'Дуров'},
              {'can_access_closed': False,
               'first_name': 'Александра',
               'id': 2,
               'is_closed': True,
               'last_name': 'Владимирова'},
              {'deactivated': 'deleted',
               'first_name': 'DELETED',
               'id': 3,
               'last_name': ''}]}


In [39]:
"""Задание 45.5. Используя API, определите долю женщин (sex=1) среди пользователей с id от 1 до 500. 
Иногда будут попадаться пользователи, у которых пол не указан (sex=0), — таких пользователей не 
нужно учитывать в общем числе."""

import requests
token = '1bd6a9901bd6a9901bd6a990131bac38b311bd61bd6a9907a174dccb430d5fb0d298bc7'
url = 'https://api.vk.com/method/users.get'
ids = ",".join(map(str, range(1, 501)))
params = {'user_ids': ids, 'v': 5.95, 'fields': 'sex,bdate', 'access_token': token, 'lang': 'ru'}
response = requests.get(url, params=params).json()['response']
men=women=0
for elem in response:
    if elem['sex'] == 2:
        men+=1
    elif elem['sex'] == 1:
        women+=1
    else:
        continue
print(round(women/(men+women),2))

0.48


### СБОР ИНФОРМАЦИИ ИЗ ГРУПП
В одном из предыдущих юнитов в качестве примера мы собрали информацию о небольшом количестве пользователей. Теперь перейдём к более реальной задаче — сбору данных о пользователях группы ВКонтакте. 
Стоит отметить, что есть много сервисов, которые выгружают похожую статистику из соцсетей. Однако им свойственны недостатки универсальных решений, такие как:
- не учитываются все особенности вашего проекта;
- используется фиксированный набор метрик, дополнительную обработку данных приходится делать вам;
- не всегда бесплатны и вряд ли позволят работать с большими объёмами данных.   

Теперь мы научимся считать произвольные метрики групп, собирая данные из API и работая с двумя ограничениями, которые свойственны практически всем системам:
- ограничение на количество вызовов в единицу времени;
- ограничение на количество выгружаемых строк за один запрос.  
  
Ограничение на количество запросов в единицу времени сделано для того, чтобы избежать чрезмерной нагрузки на серверы системы. В ряде случаев небольшое количество отчётов можно выгрузить и уложиться в действующий лимит.   
Однако второе ограничение не удастся обойти в случае выгрузки больших отчётов.

Давайте рассмотрим, как работать с этими ограничениями на примере выгрузки списка пользователей группы https://vk.com/vk социальной сети ВКонтакте.

Обратимся к документации, чтобы узнать, какие методы нам доступны для групп. Так, для получения списка пользователей группы доступен метод groups.getMembers.

Согласно документации, обязательным параметром данного метода является group_id — идентификатор, или короткое имя, группы. В нашем случае это vk: https://vk.com/vk.

Протестируем, как работает метод в самом простом случае, — получим id участников группы: