<a href="https://colab.research.google.com/github/Andrej-Ilin/practice/blob/main/requests.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

начала разберемся, как получить информацию с внешнего сервиса. В стандартной библиотеке есть модуль urllib2, который может справиться с этой задачей. Однако большинство разработчиков используют стороннюю библиотеку requests, потому что в ней лучше реализованы большинство методов и код получается проще. Перед началом работы библиотеку потребуется установить с помощью вашего пакетного менеджера, например, с помощью следующей команды в консоли.
_____

python -m pip install requests  

In [None]:
import requests

Далее мы импортируем библиотеку и отправим запрос к сервису с помощью метода GET к сервису с курсами валют:

In [None]:
response = requests.get('https://www.cbr-xml-daily.ru/daily_json.js')  

Мы получили объект ответа, который содержит всю нужную нам информацию. По умолчанию на экран выводится HTTP-код ответа 200. Это означает, что запрос был корректным, и сервер отдал нам нужную информацию.

In [None]:
response

<Response [200]>

Мы сделали запрос и получили ответ. Давайте теперь посмотрим, как считывать текст. 

Адрес, по которому мы обращались, возвращает результат в json формате. Эти данные уже лежат в атрибуте text в полученном ответе response:

In [None]:
response.text

'{\n    "Date": "2021-06-16T11:30:00+03:00",\n    "PreviousDate": "2021-06-12T11:30:00+03:00",\n    "PreviousURL": "\\/\\/www.cbr-xml-daily.ru\\/archive\\/2021\\/06\\/12\\/daily_json.js",\n    "Timestamp": "2021-06-15T23:00:00+03:00",\n    "Valute": {\n        "AUD": {\n            "ID": "R01010",\n            "NumCode": "036",\n            "CharCode": "AUD",\n            "Nominal": 1,\n            "Name": "Австралийский доллар",\n            "Value": 55.2961,\n            "Previous": 55.6234\n        },\n        "AZN": {\n            "ID": "R01020A",\n            "NumCode": "944",\n            "CharCode": "AZN",\n            "Nominal": 1,\n            "Name": "Азербайджанский манат",\n            "Value": 42.2789,\n            "Previous": 42.1893\n        },\n        "GBP": {\n            "ID": "R01035",\n            "NumCode": "826",\n            "CharCode": "GBP",\n            "Nominal": 1,\n            "Name": "Фунт стерлингов Соединенного королевства",\n            "Value": 101.32

Сейчас текст хранится просто в строковой переменной. Далее мы можем превратить эту строку в словарь. Сделать это можно с помощью JSON-парсера python, либо воспользовавшись методом json, который уже встроен в объект ответа response:

In [None]:
currencies = response.json()  
currencies

{'Date': '2021-06-16T11:30:00+03:00',
 'PreviousDate': '2021-06-12T11:30:00+03:00',
 'PreviousURL': '//www.cbr-xml-daily.ru/archive/2021/06/12/daily_json.js',
 'Timestamp': '2021-06-15T23:00:00+03:00',
 'Valute': {'AMD': {'CharCode': 'AMD',
   'ID': 'R01060',
   'Name': 'Армянских драмов',
   'Nominal': 100,
   'NumCode': '051',
   'Previous': 13.8037,
   'Value': 13.8098},
  'AUD': {'CharCode': 'AUD',
   'ID': 'R01010',
   'Name': 'Австралийский доллар',
   'Nominal': 1,
   'NumCode': '036',
   'Previous': 55.6234,
   'Value': 55.2961},
  'AZN': {'CharCode': 'AZN',
   'ID': 'R01020A',
   'Name': 'Азербайджанский манат',
   'Nominal': 1,
   'NumCode': '944',
   'Previous': 42.1893,
   'Value': 42.2789},
  'BGN': {'CharCode': 'BGN',
   'ID': 'R01100',
   'Name': 'Болгарский лев',
   'Nominal': 1,
   'NumCode': '975',
   'Previous': 44.6019,
   'Value': 44.5939},
  'BRL': {'CharCode': 'BRL',
   'ID': 'R01115',
   'Name': 'Бразильский реал',
   'Nominal': 1,
   'NumCode': '986',
   'Previ

Теперь данные лежат в словаре, и мы можем легко получать необходимые нам значения:

In [None]:
currencies['Valute']['UAH'] 

{'CharCode': 'UAH',
 'ID': 'R01720',
 'Name': 'Украинских гривен',
 'Nominal': 10,
 'NumCode': '980',
 'Previous': 26.5218,
 'Value': 26.6894}

In [None]:
currencies['Valute']['CZK']['Name']

'Чешских крон'

Напишите функцию currency_name, которая по ID валюты возвращает ее название на русском языке.

In [None]:
def currency_name(id):    
    url = 'https://www.cbr-xml-daily.ru/daily_json.js'  
    response = requests.get(url).json()['Valute']    
    for i in response:
      if response[i]['ID'] == id:
        return response[i]['Name']

In [None]:
currency_name('R01700J')

'Турецких лир'

# Библиотека BeautifulSoup

In [None]:
pip install beautifulsoup4  



In [None]:
# Импортируем наши библиотеки    
from bs4 import BeautifulSoup    
import requests    
    
# Получаем данные, как и ранее    
url = 'https://nplus1.ru/news/2019/06/04/slothbot'   
response = requests.get(url)    
    
# Теперь создадим объект BeautifulSoup, указывая html парсер    
page = BeautifulSoup(response.text, 'html.parser')    
    
# Всё готово, чтобы получать данные из страницы    
# Для начала получим title, отображающийся на закладках браузера    
print(page.title)  
# => <title>Робота-ленивца научили лазать по паутине из тросов</title>    

<title>Робота-ленивца научили лазать по паутине из тросов</title>


In [None]:
# Мы получили тэг. Чтобы достать из него текст, вызовем атрибут text    
page.title.text    

'Робота-ленивца научили лазать по паутине из тросов'

In [None]:
print(page.find('time').text)


18:27
04 Июнь 2019



Тэги div очень распространённые, их много на странице. Если мы просто используем find, то получим первый попавшийся, но это не то, что нам надо.
Тут мы можем заметить, что у искомого текста есть свой класс body js-mediator-article. Воспользуемся этим:  в метод find можно передать аргумент class_

In [None]:
page.find('div', class_='body').text

'\n\n\n\n\n\nAllison Carter, Georgia Tech\n\n\n\n\n\nАмериканские инженеры разработали робота-ленивца, способного лазать по\xa0тросам и\xa0перемещаться с\xa0одного троса на\xa0другой. Благодаря относительно малому потреблению энергии и\xa0использованию солнечных панелей подобного робота можно практически неограниченное время использовать для наблюдений на деревьях в лесу, рассказывают авторы статьи, представленной на\xa0конференции ICRA 2019.\nСоздание роботов, способных лазать по\xa0тросам\xa0— важная технологическая задача, наработки из\xa0которой потенциально применимы во\xa0многих областях. К\xa0примеру, в\xa02016 году в\xa0России создали робота для проверки высоковольтных линий электропередачи. Дрон спускает такого робота на\xa0грозозащитный трос, после чего тот самостоятельно перемещается вдоль основных проводов и\xa0осматривает\xa0их. Кроме того, потенциально таких роботов можно применять для исследований в\xa0густых лесах, в\xa0которых ветки соседних деревьев соприкасаются.\nИн

In [None]:
url = 'https://ru.wikipedia.org/wiki/Pink_Floyd'
response = requests.get(url)
page = BeautifulSoup(response.text, 'html.parser')
page.title.text

'Pink Floyd — Википедия'

In [None]:
page.find('div', id='bodyContent').text

'\nМатериал из Википедии — свободной энциклопедии\n\nЭто стабильная версия, отпатрулированная 15 июня 2021.Состояниеотпатрулирована\n\n\n\n\n\n\nПерейти к навигации\nПерейти к поиску\nPink Floyd   Pink Floyd в 1968 году. Слева направо: стоят Ник Мейсон, Сид Барретт, Роджер Уотерс, Ричард Райт, сидит Дэвид Гилмор \n\nОсновная информация\n\n\nЖанры\n\n\n\nПрогрессивный рок[1]\nарт-рок[2]\nпсиходелический рок[3]\nэкспериментальный рок[4]\nэйсид-рок[5]\nпрото-прог[6]\nспейс-рок[7]\n\n\n\nГоды\n\n1965—199520052012—2015[8][9]\n\n\nСтрана\n\n\xa0Великобритания\n\n\nМесто создания\n\nЛондон, Англия\n\n\nДругое название\n\nThe Pink Floyd Sound\n\n\nЯзык\n\nанглийский\n\n\nЛейблы\n\nEMI (Columbia Graphophone, Capitol/Towerruen, Harvest), Columbia, Sony Music/Columbia, Warner Music/Parlophone\n\n\nБывшиеучастники\n\nНик МейсонРоджер УотерсРичард РайтСид БарреттДэвид Гилмор\n\n\nДругиепроекты\n\nStarsNick Mason’s Saucerful of Secrets\npinkfloyd.com\u200b\xa0(англ.)\xa0Медиафайлы на Викискладе\n\nP

Напишите функцию wiki_header, которая по адресу страницы возвращает заголовок для статей на википедии

wiki_header('https://en.wikipedia.org/wiki/Operating_system')

 => 'Operating system'

In [None]:
def wiki_header(header):
  url = header
  response = requests.get(url)
  page = BeautifulSoup(response.text, 'html.parser')
  return page.find('h1').text
wiki_header('https://en.wikipedia.org/wiki/Operating_system')

'Operating system'

У вас есть переменная page, в которой хранится содержимое html-страницы. На странице есть элемент в тэге span, у которого атрибут id равен 'target'. Напишите строчку кода, которая присвоит текст этого элемента переменной value.

Запишите ваш код в одну строку без пробелов. Используйте апострофы для передачи параметров, содержащих значение тэга и его id.

answer: 

value = page.find('span', id='target').text

Рассмотрим случай, когда нам нужно сразу много элементов. Пусть мы хотим получить название всех ссылок на странице в википедии про языки программирования.

Для всех ссылок существует тэг `<a> </a>`.  Для этого используем find_all  

In [None]:
url = 'https://en.wikipedia.org/wiki/List_of_programming_languages'  
  
response = requests.get(url)  
page = BeautifulSoup(response.text, 'html.parser')  
links = page.find_all('a')  
# Посмотрим, сколько всего мы получили  
print(len(links))
# => 935
  
# Посмотрим на некоторые из ссылок  
print([link.text for link in links[500:510]])  

917
['P′′', 'ParaSail (programming language)', 'PARI/GP', 'Pascal', 'Pascal Script', 'PCASTL', 'PCF', 'PEARL', 'PeopleCode', 'Perl']


Ещё одна полезная вещь:  последовательный поиск, т.е. мы можем найти сначала один элемент, а потом сделать внутри него второй поиск. Давайте выведем названия всех ссылок для языков программирования, которые начинаются на литеру "A".

In [None]:
# Получаем все элементы с тегом 'div' и классом 'div-col'  
all_blocks = page.find_all('div', class_='div-col')  
  
# Выбираем первый по счету блок  
first_block = all_blocks[0]  
# Берём оттуда ссылки (ограничимся первыми десятью)
links = first_block.find_all('a')
print([link.text for link in links[:10]])

['A.NET (A#/A sharp)', 'A-0 System', 'A+ (A (plus)', 'ABAP', 'ABC', 'ABC ALGOL', 'ACC', 'Accent (Rational Synergy)', 'Ace DASL (Distributed Application Specification Language)', 'Action!']


Задание 1 - Актёры

Напишите функцию get_actors, которая по ссылке на страницу фильма на кинопоиске возвращает список актёров из колонки справа.

In [None]:
def get_actors(url):
  response = requests.get(url)
  page = BeautifulSoup(response.text, 'html.parser')
  first_block = page.find('ul', class_='styles_list__I97eu')
  actors = first_block.find_all('li')
  return [actor.text for actor in actors]
get_actors('https://www.kinopoisk.ru/film/326/')

['Тим Роббинс',
 'Морган Фриман',
 'Боб Гантон',
 'Уильям Сэдлер',
 'Клэнси Браун',
 'Гил Беллоуз',
 'Марк Ролстон',
 'Джеймс Уитмор',
 'Джеффри ДеМанн',
 'Ларри Бранденбург']

# HTML-таблицы
___
При работе с web-страницами было бы здорово получать содержимое  таблиц в виде датафрейма. Рассмотрим [страницу ключевых показателей Центрального банка РФ cbr](https://www.cbr.ru/key-indicators/).ru. Наша задача будет состоять в том, чтобы получить одну из таблиц виджетов в виде датафрейма. Например, таблицу цен на драгоценные металлы.

In [1]:
# Метод read_html из pandas умеет автоматически находить на HTML-странице
# таблицы и возвращать их списком из датафреймов:

import pandas as pd  
url = 'https://www.cbr.ru/key-indicators/'  
# Таблица с драгметаллами оказалась второй по счёту  
pd.read_html(url)[1]  


Unnamed: 0,0,1,2
0,рублей за грамм,18.06.2021,19.06.2021
1,Золото Au,"4 211,68","4 161,79"
2,Серебро Ag,6200,6127
3,Платина Pt,"2 596,83","2 507,73"
4,Палладий Pd,"6 445,44","5 939,62"


*Если этого не происходит, но вы уверены в том, что порядок таблиц на странице неизменен, то можно вручную найти нужную таблицу на странице. Этому случаю посвящены следующие шаги.*

## Задание 1 - Курсы валют через read_html

Попробуйте запустить pandas для заданного выше url. Какая строчка вернёт таблицу с курсами валют?

In [3]:
pd.read_html(url)[0]

Unnamed: 0,0,1,2
0,валюта,19.06.2021,22.06.2021
1,Доллар США USD,722216,731987
2,Евро EUR,859943,868942


## Поиск таблицы с помощью BeautifulSoup
Более надёжным решением является сначала получить только текст таблицы и передавать в pandas только её. Так же, как и в предыдущем разделе, используем requests и BeautifulSoup, чтобы получить данные со страницы.

А теперь — внимание! В случае работы с сайтом Центробанка нам нужно будет учесть ещё один нюанс. С недавнего времени администраторы стали блокировать обращения к сайту, поступающие не от «живых» пользователей, а от компьютерных программ (в том числе от той, которую мы собираемся написать прямо сейчас). Есть ли шанс в таких условиях всё-таки получить данные, не открывая страницу в браузере?

Безусловно, это возможно. Безвыходных положений вообще не бывает, особенно в программировании! Один из способов справиться с ситуацией — «притвориться» браузером :).

Каждый запрос, отправляемый с помощью команды get, имеет заголовок. Если заголовок не задан явно, то он создаётся автоматически, и туда добавляется информация в том числе о том, кто является субъектом (или источником) запроса — человек или программа. Чтобы «притвориться» браузером, нам просто нужно вручную дописать нужные сведения в этот заголовок. Подробнее о таком подходе можно почитать в этой [статье](https://habr.com/ru/company/ods/blog/346632/).



In [80]:
# Итоговый вариант кода после добавления заголовка должен выглядеть так:

from bs4 import BeautifulSoup  
import pandas as pd  
import requests  
  
url = 'https://www.cbr.ru/key-indicators/'
soup = BeautifulSoup(requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}).text, 'html.parser')  

Нам необходимо добраться до кода таблицы, который начинается с тэга "< table >". Таблиц на странице много, поэтому указываем путь к таблице виджета драгоценных металлов применяя знания полученные ранее:

In [81]:
all_blocks = soup.find_all('div', class_='key-indicator_content offset-md-2')
# Данные таблицы с драгметаллами находятся во втором блоке
data = all_blocks[1].find('table') 

In [82]:
all_blocks

[<div class="key-indicator_content offset-md-2">
 <div class="key-indicator_table_wrapper">
 <div class="table key-indicator_table">
 <table>
 <tbody>
 <tr class="denotements">
 <td class="value td-w-13">валюта</td>
 <td class="value td-w-4 _end">19.06.2021</td>
 <td class="value td-w-4 _end">22.06.2021</td>
 </tr>
 <tr>
 <td class="value td-w-13 _inner">
 <div class="d-flex title-subinfo">
 <div class="col-md-5">Доллар США</div>
 <div class="col-md-3 offset-md-1 _subinfo">USD</div>
 </div>
 </td>
 <td class="value td-w-4 _bold _end mono-num">72,2216</td>
 <td class="value td-w-4 _bold _end mono-num _with-icon _up _red">73,1987</td>
 </tr>
 <tr>
 <td class="value td-w-13 _inner">
 <div class="d-flex title-subinfo">
 <div class="col-md-5">Евро</div>
 <div class="col-md-3 offset-md-1 _subinfo">EUR</div>
 </div>
 </td>
 <td class="value td-w-4 _bold _end mono-num">85,9943</td>
 <td class="value td-w-4 _bold _end mono-num _with-icon _up _red">86,8942</td>
 </tr>
 </tbody>
 </table>
 </div>

Для перевода ее в датафрейм используем метод read_html. Метод возвращает список датафреймов. В нашем случае датафрейм будет только один, поэтому сразу берем первый элемент:

In [7]:
df = pd.read_html(str(data))[0]  
df  

Unnamed: 0,0,1,2
0,рублей за грамм,18.06.2021,19.06.2021
1,Золото Au,"4 211,68","4 161,79"
2,Серебро Ag,6200,6127
3,Платина Pt,"2 596,83","2 507,73"
4,Палладий Pd,"6 445,44","5 939,62"


## Задание 2 - Рейтинг банков
____
Напишите программу, которая забирает данные из таблицы рейтинга банков с https://www.banki.ru/banks/ratings/, делает из него датафрейм и сохраняет его в переменую df.

In [83]:
url = 'https://www.banki.ru/banks/ratings/'
soup = BeautifulSoup(requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}).text, 'html.parser')  

In [106]:
all_blocks = soup.find_all('table', class_='standard-table standard-table--row-highlight margin-bottom-small margin-top-x-small')

In [120]:
df = pd.read_html(str(all_blocks))[0]
df.head(1) 

Unnamed: 0_level_0,место,"название банка лицензия №, Регион","показатель, тыс. рублей","показатель, тыс. рублей",изменение,изменение
Unnamed: 0_level_1,место,"название банка лицензия №, Регион","Май, 2021 Апрель, 2021 Март, 2021 Февраль, 2021 Январь, 2021 Декабрь, 2020 Ноябрь, 2020 Октябрь, 2020 Сентябрь, 2020 Август, 2020 Июль, 2020 Июнь, 2020 Май, 2020 Апрель, 2020 Март, 2020 Февраль, 2020 Январь, 2020 Декабрь, 2019 Ноябрь, 2019 Октябрь, 2019 Сентябрь, 2019 Август, 2019 Июль, 2019 Июнь, 2019 Май, 2019 Апрель, 2019 Март, 2019 Февраль, 2019 Январь, 2019 Декабрь, 2018 Ноябрь, 2018 Октябрь, 2018 Сентябрь, 2018 Август, 2018 Июль, 2018 Июнь, 2018 Май, 2018 Апрель, 2018 Март, 2018 Февраль, 2018 Январь, 2018 Декабрь, 2017 Ноябрь, 2017 Октябрь, 2017 Сентябрь, 2017 Август, 2017 Июль, 2017 Июнь, 2017 Май, 2017 Апрель, 2017 Март, 2017 Февраль, 2017 Январь, 2017 Декабрь, 2016 Ноябрь, 2016 Октябрь, 2016 Сентябрь, 2016 Август, 2016 Июль, 2016 Июнь, 2016 Май, 2016 Апрель, 2016 Март, 2016 Февраль, 2016 Январь, 2016 Декабрь, 2015 Ноябрь, 2015 Октябрь, 2015 Сентябрь, 2015 Август, 2015 Июль, 2015 Июнь, 2015 Май, 2015 Апрель, 2015 Март, 2015 Февраль, 2015 Январь, 2015 Декабрь, 2014 Ноябрь, 2014 Октябрь, 2014 Сентябрь, 2014 Август, 2014 Июль, 2014 Июнь, 2014 Май, 2014 Апрель, 2014 Март, 2014 Февраль, 2014 Январь, 2014 Декабрь, 2013 Ноябрь, 2013 Октябрь, 2013 Сентябрь, 2013 Август, 2013 Июль, 2013 Июнь, 2013 Май, 2013 Апрель, 2013 Март, 2013 Февраль, 2013 Январь, 2013 Декабрь, 2012 Ноябрь, 2012 Октябрь, 2012 Сентябрь, 2012 Август, 2012 Июль, 2012 Июнь, 2012 Май, 2012 Апрель, 2012 Март, 2012 Февраль, 2012 Январь, 2012 Декабрь, 2011 Ноябрь, 2011 Октябрь, 2011 Сентябрь, 2011 Август, 2011 Июль, 2011 Июнь, 2011 Май, 2011 Апрель, 2011 Март, 2011 Февраль, 2011 Январь, 2011 Декабрь, 2010 Ноябрь, 2010 Октябрь, 2010 Сентябрь, 2010 Август, 2010 Июль, 2010 Июнь, 2010 Май, 2010 Апрель, 2010 Март, 2010 Февраль, 2010 Январь, 2010 Декабрь, 2009 Ноябрь, 2009 Октябрь, 2009 Сентябрь, 2009 Август, 2009 Июль, 2009 Июнь, 2009 Май, 2009 Апрель, 2009 Март, 2009 Февраль, 2009 Январь, 2009 Декабрь, 2008 Ноябрь, 2008 Октябрь, 2008 Сентябрь, 2008 Август, 2008 Июль, 2008 Июнь, 2008 Май, 2008 Апрель, 2008 Март, 2008","Май, 2021 Апрель, 2021 Март, 2021 Февраль, 2021 Январь, 2021 Декабрь, 2020 Ноябрь, 2020 Октябрь, 2020 Сентябрь, 2020 Август, 2020 Июль, 2020 Июнь, 2020 Май, 2020 Апрель, 2020 Март, 2020 Февраль, 2020 Январь, 2020 Декабрь, 2019 Ноябрь, 2019 Октябрь, 2019 Сентябрь, 2019 Август, 2019 Июль, 2019 Июнь, 2019 Май, 2019 Апрель, 2019 Март, 2019 Февраль, 2019 Январь, 2019 Декабрь, 2018 Ноябрь, 2018 Октябрь, 2018 Сентябрь, 2018 Август, 2018 Июль, 2018 Июнь, 2018 Май, 2018 Апрель, 2018 Март, 2018 Февраль, 2018 Январь, 2018 Декабрь, 2017 Ноябрь, 2017 Октябрь, 2017 Сентябрь, 2017 Август, 2017 Июль, 2017 Июнь, 2017 Май, 2017 Апрель, 2017 Март, 2017 Февраль, 2017 Январь, 2017 Декабрь, 2016 Ноябрь, 2016 Октябрь, 2016 Сентябрь, 2016 Август, 2016 Июль, 2016 Июнь, 2016 Май, 2016 Апрель, 2016 Март, 2016 Февраль, 2016 Январь, 2016 Декабрь, 2015 Ноябрь, 2015 Октябрь, 2015 Сентябрь, 2015 Август, 2015 Июль, 2015 Июнь, 2015 Май, 2015 Апрель, 2015 Март, 2015 Февраль, 2015 Январь, 2015 Декабрь, 2014 Ноябрь, 2014 Октябрь, 2014 Сентябрь, 2014 Август, 2014 Июль, 2014 Июнь, 2014 Май, 2014 Апрель, 2014 Март, 2014 Февраль, 2014 Январь, 2014 Декабрь, 2013 Ноябрь, 2013 Октябрь, 2013 Сентябрь, 2013 Август, 2013 Июль, 2013 Июнь, 2013 Май, 2013 Апрель, 2013 Март, 2013 Февраль, 2013 Январь, 2013 Декабрь, 2012 Ноябрь, 2012 Октябрь, 2012 Сентябрь, 2012 Август, 2012 Июль, 2012 Июнь, 2012 Май, 2012 Апрель, 2012 Март, 2012 Февраль, 2012 Январь, 2012 Декабрь, 2011 Ноябрь, 2011 Октябрь, 2011 Сентябрь, 2011 Август, 2011 Июль, 2011 Июнь, 2011 Май, 2011 Апрель, 2011 Март, 2011 Февраль, 2011 Январь, 2011 Декабрь, 2010 Ноябрь, 2010 Октябрь, 2010 Сентябрь, 2010 Август, 2010 Июль, 2010 Июнь, 2010 Май, 2010 Апрель, 2010 Март, 2010 Февраль, 2010 Январь, 2010 Декабрь, 2009 Ноябрь, 2009 Октябрь, 2009 Сентябрь, 2009 Август, 2009 Июль, 2009 Июнь, 2009 Май, 2009 Апрель, 2009 Март, 2009 Февраль, 2009 Январь, 2009 Декабрь, 2008 Ноябрь, 2008 Октябрь, 2008 Сентябрь, 2008 Август, 2008 Июль, 2008 Июнь, 2008 Май, 2008 Апрель, 2008 Март, 2008.1",тыс. рублей,%
0,1,"СберБанк лицензия № 1481, Москва и обл.",35 809 868 243,35 183 481 373,+626 386 870,"+1,78%"


# Работа с API в "vk.com".
___
* Зайдите на страницу https://vk.com/editapp?act=create, чтобы создать приложение (вы должны быть авторизованы ВКонтакте). Дайте приложению любое название и оставьте значение платформы "Standalone-приложение".

* Нужный нам токен лежит в поле "Сервисный ключ доступа".
Перейдите по следующей ссылке в браузере, подставив вместо слова "TOKEN" сервисный токен из прошлого шага:

https://api.vk.com/method/users.get?user_id=1&v=5.95&access_token=TOKEN

In [124]:
import requests  
  
url = 'https://api.vk.com/method/users.get'   
token = ''
params = {'user_id': 1, 'v': 5.95, 'fields': 'sex,bdate', 'access_token': token, 'lang': 'ru'}  
  
# Мы можем выставить параметры запроса через аргумент params  
response = requests.get(url, params=params)  
response.text  

'{"response":[{"first_name":"Павел","id":1,"last_name":"Дуров","can_access_closed":true,"is_closed":false,"sex":2,"bdate":"10.10.1984"}]}'

Мы получили строку в формате JSON. Как мы помним по первому разделу, её можно преобразовать в словарь методом json и после этого обращаться к различным полям. Кроме того, такие большие вложенные словари нагляднее выводить с помощью функции pprint (~pretty print, красивый вывод), которым мы и воспользуемся

In [129]:
print(response.json())

{'response': [{'first_name': 'Павел', 'id': 1, 'last_name': 'Дуров', 'can_access_closed': True, 'is_closed': False, 'sex': 2, 'bdate': '10.10.1984'}]}


In [131]:
from pprint import pprint  
  
pprint(response.json())  

{'response': [{'bdate': '10.10.1984',
               'can_access_closed': True,
               'first_name': 'Павел',
               'id': 1,
               'is_closed': False,
               'last_name': 'Дуров',
               'sex': 2}]}


In [134]:
user = response.json()['response'][0]  
print(user['bdate'])  
# Выведем имя  
print(user['first_name'])  

10.10.1984
Павел


анный метод позволяет запрашивать сразу много пользователей (до 1000).  Для этого нужно использовать параметр user_ids и передавать id через запятую в строковом формате, например: '1,2,3'.

In [138]:
ids = ",".join(map(str, range(1, 4)))  
print(ids)  
token = ''
params = {'user_ids': ids, 'v': 5.95, 'fields': 'bday', 'access_token': token, 'lang': 'ru'}  
  
pprint(requests.get(url, params=params).json()) 

1,2,3
{'response': [{'can_access_closed': True,
               'first_name': 'Павел',
               'id': 1,
               'is_closed': False,
               'last_name': 'Дуров'},
              {'can_access_closed': False,
               'first_name': 'Александра',
               'id': 2,
               'is_closed': True,
               'last_name': 'Владимирова'},
              {'deactivated': 'deleted',
               'first_name': 'DELETED',
               'id': 3,
               'last_name': ''}]}


In [140]:
token = 'None' # стер токен для безопасности

## Задание 1 - Гендерный баланс
___
Используя API, определите долю женщин(sex=1) среди пользователей с id от 1 до 500. Иногда вам будут попадать пользователи, у которых пол не указан (sex=0), их не нужно учитывать в общем числе.

В ответе укажите число, округлив до двух знаков после запятой, например, 0.55

Пример: если у нас будет 300 пользователей sex=1, 100 пользователей с sex=2 и 100 пользователей с sex=0, то в ответе должно быть 0.75

In [143]:
ids = ",".join(map(str, range(1, 501)))  

token = ''
params = {'user_ids': ids, 'v': 5.95, 'fields': 'sex', 'access_token': token, 'lang': 'ru'}  
  
request_sex = requests.get(url, params=params).json()

In [180]:
n = len(request_sex['response'])
list_sex = [i for i in range(n) if request_sex['response'][i]['sex'] == 1]
list_sex_2 = [i for i in range(n) if request_sex['response'][i]['sex'] == 2]
len(list_sex)/(len(list_sex)+len(list_sex_2))

0.4845605700712589

# Ограничения API
В прошлом блоке мы собрали информацию о небольшом наборе пользователей. Теперь перейдем к более реальной задаче — сбору данных о пользователях группы ВКонтакте. 

Стоит отметить, что есть много сервисов, которые выгружают похожую статистику из соцсетей. Однако им свойственны недостатки универсальных решений:

не могут учитывать всех особенностей вашего проекта;
считают фиксированный набор метрик, дополнительную обработку данных приходится делать вам;
не всегда бесплатны и вряд ли позволят работать с большими объемами данных.
В этом разделе мы научимся считать произвольные метрики групп, собирая данные из API. 

В текущем шаге мы научимся работать с двумя ограничениями, которые свойственны практически всем системам:

ограничение на количество вызовов в единицу времени;
ограничение на количество выгружаемых строк за один запрос.
Ограничение на количество запросов в секунду сделано для того, чтобы избежать чрезмерной нагрузки на серверы системы. В ряде случаев небольшое количество отчетов можно выгрузить, уложившись в этот лимит (например, как мы получили информацию о 500 пользователях в прошлом упражнении). Однако второе ограничение не удастся «обойти» в случае выгрузки больших отчетов. Например, чтобы получить список всех пользователей очень популярной группы, серверу, возможно, придется отправить вам разом лист из миллионов записей.

Давайте рассмотрим, как работать с этими ограничениями на примере выгрузки списка пользователей группы https://vk.com/vk.

Посмотрим в документации, какие методы нам доступны для групп. Для получения списка пользователей группы видим метод groups.getMembers.

Согласно документации, обязательным параметром является ID или короткое имя группы. В нашем случае это vk: https://vk.com/vk. Тестируем, как работает метод в самом простом случае:

In [195]:
import requests  
url = 'https://api.vk.com/method/groups.getMembers'  
params = {  
    'group_id': 'vk',  
    'v': 5.95,  
    'access_token': token  
}  
response = requests.get(url, params = params)  
data = response.json()  
# print(data)  

  
# len(data['response']['items'])  

In [196]:
data['response']['count']

11589635

## Получаем всех пользователей
Мы видим, что всего пользователей в группе больше 11 000 000, а получили мы только первую тысячу пользователей группы. Судя по описанию параметра count в документации, это максимум, который может отдать API за один раз.

Для получения следующей тысячи пользователей воспользуемся параметрами count и offset: будем в цикле выгружать по 1000 пользователей (count будет всегда равен 1000), а в каждом следующем шаге цикла увеличим смещение offset на величину count.

Сначала напишем цикл выгрузки первых 20 пользователей со значением count = 5. Т.е. цикл будет выгружать за 1 запрос по 5 пользователей, пока не выгрузит первые 20. Это позволит нам проверить корректность работы цикла перед тем, как делать большие и долгие выгрузки.

Давайте выведем на экран первые 20 пользователей из нашей первой попытки с 1000 пользователей, чтобы было с чем сверить результат выгрузки из 20 пользователей:

In [187]:
users_for_checking = data['response']['items'][:20]
print(users_for_checking)  

[5, 6, 10, 19, 34, 47, 54, 79, 177, 193, 198, 205, 219, 239, 243, 254, 345, 404, 406, 407]


Теперь используем count и offset, чтобы получить те же id по 5 за раз

In [188]:
count = 5  
offset = 0  
user_ids = []
max_count = 20  
while offset < max_count:  
    print('Выгружаю {} пользователей с offset = {}'.format(count, offset))     
    params = {  
        'group_id': 'vk',  
        'v': 5.95,  
        'count': count,  
        'offset': offset,  
        'access_token': token  
    }     
    # такой же запрос как в прошлый раз  
    r = requests.get(url, params = params)  
    data = r.json()     
    user_ids += data['response']['items']   
  
    # увеличиваем смещение на количество строк выгрузки  
    offset += count  

print(user_ids)  
  
user_ids == users_for_checking  

Выгружаю 5 пользователей с offset = 0
Выгружаю 5 пользователей с offset = 5
Выгружаю 5 пользователей с offset = 10
Выгружаю 5 пользователей с offset = 15
[5, 6, 10, 19, 34, 47, 54, 79, 177, 193, 198, 205, 219, 239, 243, 254, 345, 404, 406, 407]


True

Видим, что подход корректно работает. Теперь мы можем получить всех пользователей, выставив count = 1000 и max_count = data['response']['count'].

## Задание 1 - Юбилейный пользователь

Используя API, определите id стотысячного пользователя в группе vk . Т.е. если бы у нас не было ограничения на размер запроса, то мы бы запросили data['response']['items'][99999] .

In [205]:
count = 1
offset = 99999
max_count = 99999  
params = {  
        'group_id': 'vk',  
        'v': 5.95,  
        'count': count,  
        'offset': offset,  
        'access_token': token  
    }     
# такой же запрос как в прошлый раз  
r = requests.get(url, params = params)  
data = r.json()     
user_ids = data['response']['items']   
print(user_ids)  

[6230203]


# Ограничение по частоте запросов
В API частот добавляют ограничение по частоте запросов, чтобы отдельно взятые пользователи слишком сильно не перегружали  сервер. Подобное ограничение есть и у ВКонтакте, в документации которой указано, что можно делать не более 3-х запросов в секунду. 

Чтобы не следить за частотой отправки запросов с секундомером в руках, мы можем после каждого запроса делать паузу. В этом случае, даже если код будет выполняться на самом быстром компьютере, мы не нарушим установленное ограничение, т.к. периодичность отправки запросов будет искусственно замедлена. Воспользуемся библиотекой time и методом sleep (пауза в 0.5 секунды добавлена в конце цикла):

In [206]:
import time  
  
count = 1000  
offset = 0  
user_ids = []  
while offset < 10000:  
    print('Выгружаю {} пользователей с offset = {}'.format(count, offset))     
    params = {  
        'group_id': 'vk',  
        'v': 5.95,  
        'count': count,  
        'offset': offset,  
        'access_token': token  
    }    
    # такой же запрос, как в прошлый раз  
    r = requests.get(url, params = params)  
    data = r.json()     
    user_ids += data['response']['items']    
  
    # увеличиваем смещение на количество строк выгрузки  
    offset += count  
    
    print('Ожидаю 0.5 секунды...')  
    time.sleep(0.5)  

Выгружаю 1000 пользователей с offset = 0
Ожидаю 0.5 секунды...
Выгружаю 1000 пользователей с offset = 1000
Ожидаю 0.5 секунды...
Выгружаю 1000 пользователей с offset = 2000
Ожидаю 0.5 секунды...
Выгружаю 1000 пользователей с offset = 3000
Ожидаю 0.5 секунды...
Выгружаю 1000 пользователей с offset = 4000
Ожидаю 0.5 секунды...
Выгружаю 1000 пользователей с offset = 5000
Ожидаю 0.5 секунды...
Выгружаю 1000 пользователей с offset = 6000
Ожидаю 0.5 секунды...
Выгружаю 1000 пользователей с offset = 7000
Ожидаю 0.5 секунды...
Выгружаю 1000 пользователей с offset = 8000
Ожидаю 0.5 секунды...
Выгружаю 1000 пользователей с offset = 9000
Ожидаю 0.5 секунды...


# Лайки, репосты и комментарии
Ещё одна полезная вещь, которую можно получить,  —  это количество взаимодействий с постами через API новостной ленты. На данном этапе будем использовать самый простой вариант: берем последние 10 постов группы. Мы продолжаем работать с группой https://vk.com/vk.

In [None]:
# Начнем с  формирования запроса к API ВКонтакте методом wall.get():
import requests  
from pprint import pprint  
  
url = 'https://api.vk.com/method/wall.get'  
params = {  
    'domain': 'vk',  
    'filter': 'owner',  
    'count': 10,  
    'offset': 0,  
    'access_token': token,  
    'v': 5.95  
}  
response = requests.get(url, params = params)  
response.json()

Видим, что сначала идёт общее количество постов, а по ключу 'items'  —  сами посты. Посмотрим на отдельный пост:

In [208]:
response.json()['response']['items'][0]  

{'comments': {'can_post': 1, 'count': 570, 'groups_can_post': True},
 'copy_history': [{'attachments': [{'photo': {'access_key': '137b98209f5bba98eb',
      'album_id': -7,
      'date': 1623077377,
      'has_tags': False,
      'id': 457239999,
      'owner_id': 92933,
      'sizes': [{'height': 73,
        'type': 'm',
        'url': 'https://sun9-20.userapi.com/impg/MGfZca1k6I8K8LADPpS4cQ3TpAYetXLlyKbOGw/9YgPvfZIKsk.jpg?size=130x73&quality=96&sign=d54ae9faac190f5d6d5ad09fc65ae959&c_uniq_tag=gsbIvbUC0SF58IMFJoxakmoA2HToQ6MUoWS7lflt7U4&type=album',
        'width': 130},
       {'height': 87,
        'type': 'o',
        'url': 'https://sun9-20.userapi.com/impg/MGfZca1k6I8K8LADPpS4cQ3TpAYetXLlyKbOGw/9YgPvfZIKsk.jpg?size=130x87&quality=96&crop=204,0,2152,1440&sign=fbe6b47e9d8ba1674a33876128a2371b&c_uniq_tag=uRAIdKgvVuRVRRpER0B6icn3HxmsHEnuZmBnqS-M1mw&type=album',
        'width': 130},
       {'height': 133,
        'type': 'p',
        'url': 'https://sun9-20.userapi.com/impg/MGfZca1

Нужная нам статистика находится в полях 'comments', 'likes' и 'reposts'. Соберем итоговую статистику для каждого поста в словарь stats. В качестве ключа будем использовать начало статьи, в качестве значения — список с тремя интересующими нас метриками и временем публикации: [комментарии, лайки, репосты, дата публикации]

In [209]:
stats = {}  
              
for record in response.json()['response']['items'][:]:  
    title = record['text'][:30]  
    if title:  
        stats[title] = [record['comments']['count'], record['likes']['count'], record['reposts']['count'], record['date'] ]  
pprint(stats)  

{'Благодаря форс-мажорному 2020-': [6155, 2984, 749, 1608903643],
 'В наступающий год — со свежим ': [3256, 5361, 1903, 1608033618],
 'В этом году у нас было много т': [271, 1955, 232, 1607943610],
 'Ваши чаты — ваши правила! Встр': [413, 3323, 3353, 1622722801],
 'Вот уже четвёртый год мы подде': [3117, 4886, 771, 1608897114],
 'Сообщества были и остаются одн': [775, 2437, 366, 1608105691],
 'Что поможет найти лучший автос': [1141, 14828, 11137, 1608548489]}


## Задание 1 - SMM index

Напишите функцию get_smm_index(group_name, token), которая по имени группы и авторизационному токену API возвращает smm_index группы - сумму лайков, комментариев и репостов для последних 10 постов, поделённую на количество участников в группе.
```
token = '...'
get_smm_index('vk', token)
# => 0.00337003
      
```


      

In [239]:
def get_smm_index(group_name, token):
  import requests  
  from pprint import pprint  
  
  url = 'https://api.vk.com/method/wall.get'  
  params = {  
    'domain': 'vk',  
    'filter': 'owner',  
    'count': 10,  
    'offset': 0,  
    'access_token': token,  
    'v': 5.95  
  }  
  response = requests.get(url, params = params)  
  # pprint(response.json()['response']['items'][-10:])
  stats = [] 
              
  for record in response.json()['response']['items'][-10:]:  
    title = record['text'][:30]  
    if title:  
        stats += [record['comments']['count'] + record['likes']['count'] + record['reposts']['count']]  

  url = 'https://api.vk.com/method/groups.getMembers'  
  params = {  
    'group_id': 'vk',  
    'v': 5.95,  
    'access_token': token  
  }  
  response = requests.get(url, params = params)
  data = response.json()  
  # print(data['response']['count'])
  # print(sum(stats))
  return  (sum(stats))/(data['response']['count'])
get_smm_index('vk', token)

0.005989541404947254