In [12]:
import requests

from pprint import pprint

## 9.2 Библиотека requests
Сначала разберемся, как получить информацию с внешнего сервиса. В стандартной библиотеке есть модуль `urllib2`, который может справиться с этой задачей. Однако большинство разработчиков используют стороннюю библиотеку `requests`, потому что в ней лучше реализованы большинство методов и код получается проще. Перед началом работы библиотеку потребуется установить с помощью вашего пакетного менеджера, например, с помощью следующей команды в консоли.

```
python -m pip install requests
```
Далее мы импортируем библиотеку и отправим запрос к сервису с помощью метода `GET` к сервису с курсами валют:

In [3]:
import requests  
response = requests.get('https://www.cbr-xml-daily.ru/daily_json.js')  

In [4]:
response

<Response [200]>

In [6]:
response.status_code

200

### Задание 1 - Первый запрос
Допустим, вы уже импортировали модуль `requests` в ваш код. Какая команда сделает `GET` запрос к сайту https://www.cbr-xml-daily.ru/daily.xml и положит результат в переменную response?

In [7]:
response = requests.get('https://www.cbr-xml-daily.ru/daily.xml')  

In [8]:
response

<Response [200]>

## 9.3 Читаем результат
Мы сделали запрос и получили ответ. Давайте теперь посмотрим, как считывать текст. 

Адрес, по которому мы обращались, возвращает результат в `json` формате. Эти данные уже лежат в атрибуте `text` в полученном ответе response:

In [9]:
import requests    
response = requests.get('https://www.cbr-xml-daily.ru/daily_json.js')    
print(response.text)  

{
    "Date": "2020-10-23T11:30:00+03:00",
    "PreviousDate": "2020-10-22T11:30:00+03:00",
    "PreviousURL": "\/\/www.cbr-xml-daily.ru\/archive\/2020\/10\/22\/daily_json.js",
    "Timestamp": "2020-10-22T23:00:00+03:00",
    "Valute": {
        "AUD": {
            "ID": "R01010",
            "NumCode": "036",
            "CharCode": "AUD",
            "Nominal": 1,
            "Name": "Австралийский доллар",
            "Value": 54.8122,
            "Previous": 54.5388
        },
        "AZN": {
            "ID": "R01020A",
            "NumCode": "944",
            "CharCode": "AZN",
            "Nominal": 1,
            "Name": "Азербайджанский манат",
            "Value": 45.3684,
            "Previous": 45.3397
        },
        "GBP": {
            "ID": "R01035",
            "NumCode": "826",
            "CharCode": "GBP",
            "Nominal": 1,
            "Name": "Фунт стерлингов Соединенного королевства",
            "Value": 101.2226,
            "Previous": 100.5116
 

Вы можете посмотреть на полный текст, повторив запрос или [на этой странице](https://www.cbr-xml-daily.ru/daily_json.js) в вашем браузере.

Сейчас текст хранится просто в строковой переменной. Далее мы можем превратить эту строку в словарь. Сделать это можно с помощью `JSON`-парсера `python`, либо воспользовавшись методом `json`, который уже встроен в объект ответа `response`:

In [13]:
currencies = response.json()  
pprint(currencies)  

{'Date': '2020-10-23T11:30:00+03:00',
 'PreviousDate': '2020-10-22T11:30:00+03:00',
 'PreviousURL': '//www.cbr-xml-daily.ru/archive/2020/10/22/daily_json.js',
 'Timestamp': '2020-10-22T23:00:00+03:00',
 'Valute': {'AMD': {'CharCode': 'AMD',
                    'ID': 'R01060',
                    'Name': 'Армянских драмов',
                    'Nominal': 100,
                    'NumCode': '051',
                    'Previous': 15.6157,
                    'Value': 15.5917},
            'AUD': {'CharCode': 'AUD',
                    'ID': 'R01010',
                    'Name': 'Австралийский доллар',
                    'Nominal': 1,
                    'NumCode': '036',
                    'Previous': 54.5388,
                    'Value': 54.8122},
            'AZN': {'CharCode': 'AZN',
                    'ID': 'R01020A',
                    'Name': 'Азербайджанский манат',
                    'Nominal': 1,
                    'NumCode': '944',
                    'Previous': 45.3397,


In [None]:
Теперь данные лежат в словаре, и мы можем легко получать необходимые нам значения:

In [14]:
currencies['Valute']['UAH']  

{'ID': 'R01720',
 'NumCode': '980',
 'CharCode': 'UAH',
 'Nominal': 10,
 'Name': 'Украинских гривен',
 'Value': 27.2793,
 'Previous': 27.2699}

### Задание 1
Повторите запросы, описанные в этой части, на своём компьютере. Что выведет на экран следующий код?
```python
print(currencies['Valute']['CZK']['Name'])
```

In [15]:
print(currencies['Valute']['CZK']['Name'])

Чешских крон


## 9.4 Оформляем функцию
В завершение давайте оформим наши вычисления в отдельную функцию, которой будет удобно пользоваться. На вход она должна принимать два параметра:

1. Название валюты `currency`. Например, ***'EUR'*** или ***'USD'***.

2. Формат ответа `format`. При значении ***'full'*** будем отдавать все, что знаем о валюте. Например, для currency = 'USD':

>{'CharCode': 'USD',  
>   'ID': 'R01235',  
>   'Name': 'Доллар США',  
>   'Nominal': 1,  
>   'NumCode': '840',  
>   'Previous': 68.2505,  
>   'Value': 69.0286}  

А при значении format = ***'value'*** только значение ключа `'Value'`, т. е. курс: ***69.0286***.

Оформим наши требования в коде:

In [21]:
def exchange_rates(currency, format='full'):    
    url = 'https://www.cbr-xml-daily.ru/daily_json.js'  
    response = requests.get(url).json()['Valute']    
    data = response[currency]     
    if format == 'full':    
        return data      
    elif format == 'value':    
        return data['Value']    

### Задание 1
Напишите функцию `currency_name`, которая по ***ID*** валюты возвращает ее название на русском языке.

In [71]:
def currency_name(currency_id):
    url = 'https://www.cbr-xml-daily.ru/daily_json.js'
    response = requests.get(url).json()['Valute']
    
    for currency in response:
        if response[currency]['ID'] == currency_id:
            return response[currency]['Name']

In [72]:
currency_name('R01700J')

'Турецких лир'

## 9.5 HTML-страницы
### Постановка задачи
Довольно часто приходится добывать информацию не из удобно форматированного json-файла, а прямо с HTML-страниц. Получить содержимое страницы в большинстве случаев несложно, труднее извлечь из HTML-кода нужную информацию. В качестве примера мы рассмотрим страницу новости, из которой будем доставать полезную информацию:   
 1. заголовок страницы;   
 2. дату публикации;  
 3. текст публикации;  
 4. ссылки на странице.
 
### Получаем данные
Получить `html` страницу можно так же, как мы получали до этого `json`: используем библиотеку `requests` и метод `GET`:  

```python
import requests  
  
url = 'https://nplus1.ru/news/2019/06/04/slothbot'   
  
response = requests.get(url)  
  
# Убедимся, что мы успешно получили ответ     
print(response.status_code)    
# => 200   
  
# Выведем полученные данные    
print(response.text)   
```

In [73]:
url = 'https://nplus1.ru/news/2019/06/04/slothbot'   

response = requests.get(url)  

# Убедимся, что мы успешно получили ответ     
print(response.status_code)  

200


In [74]:
# Выведем полученные данные    
print(response.text)   

<!doctype html>
<html class="no-js bg-fixed _no-bg" style="background-image:url(https://nplus1.ru/images/2019/06/04/b32b62189fb87cce895e229e1d6d27b4.jpeg)" lang="">
<head>
    
    <meta charset="utf-8">
    <meta http-equiv="x-ua-compatible" content="ie=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1">
        <meta name="apple-mobile-web-app-capable" content="yes">
    <meta name="apple-mobile-web-app-status-bar-style" content="black">
            
    <link rel="canonical" href="https://nplus1.ru/news/2019/06/04/slothbot" />

        <title>Робота-ленивца научили лазать по паутине из тросов</title>

    	    <meta itemprop="datePublished" content="2019-06-04"/>
	
	    <meta name="mediator_author" content="Григорий Копиев"/> 
	
        <!-- amp page -->
    <link rel="amphtml" href="https://nplus1.ru/news/2019/06/04/slothbot/amp">
    

        <!-- for Google -->
        <meta name="description" content="Он сам добывает энергию с помощью солнечных панел

Мы получили большую строку с текстом в формате `html`, который используется для визуальной разметки. Это позволяет делать информацию более наглядной для людей, но в отличие от `json`, мы не можем просто преобразовать его напрямую в словарь. Далее мы посмотрим, как извлекать информацию из подобных страниц

## 9.6 Основы HTML
Прежде чем перейти к поиску информации в `html`, давайте вспомним, что он из себя представляет.

`HTML` – формат разметки страниц, созданный специально для интернета. Он позволяет разбивать страницу на блоки: мы размечаем, что окажется в боковой колонке, а что – посередине  и т.д.  Также он используется для описания стилей отображения: например, что будет отображаться как заголовок с большим текстом, а что – как обычный текст.

`HTML` является близким родственником `XML`. Разметка делается с помощью так называемых тэгов, которые помещаются в угловые скобки, и сами, в свою очередь, являются как бы скобками для текста внутри.

```html
<h2> Это заголовок </h2>  
<div> А это обычный текст </div>  
```
У корректной `html` страницы есть заголовок `(head)` и тело страницы `(body)`. В заголовке заключается техническая информация, подключаются скрипты и стили. В теле находится текст и данные, которые непосредственно  отображаются на странице в браузере. 

Разметка небольшой страницы выглядит примерно так:
```html
<!DOCTYPE html>  
<html lang="ru">  
    <header>  
        <title>Название страницы</title>  
        <meta charset="UTF-8">  
    </header>  
  
    <body>  
        <h1>Заголовок страницы</h1>  
        <p>Какой-то текст</p>  
    </body>  
</html>  
```
Вы можете сохранить это в текстовый файл с расширением .html и открыть в браузере.

Тут стоит заметить, что тэги образуют иерархическую структуру, т.е. одни тэги расположены внутри других. В примере выше тэг `<p>` находится внутри тэга `<body>`

Кроме того, у тэгов могут быть атрибуты, они пишутся внутри открывающегося тэга. Самые популярные атрибуты – это `class` и `id`.
```html
<h1 id="big-title">Заголовок страницы</h1>  
<p class="red-back">Какой-то текст</p>  
```
Полное описание возможностей `html` находиться вне рамок этого курса. Вы можете подробнее почитать о нём [здесь](http://htmlbook.ru/html). 

К счастью, нам и не нужно как-то подробно знать `html`, чтобы забирать информацию. Достаточно понимать, что:

- есть тэги с разными именами;
- у тэгов бывают атрибуты, вроде class и id;
- тэги образуют иерархическую структуру, то есть одни тэги вложены в другие.

###= 9.7 Библиотека BeautifulSoup
Для поиска данных на странице воспользуемся библиотекой `BeautifulSoup`. Она позволяет по названию тэгов и их атрибутов получать содержащийся в них текст.

Она не является частью стандартной библиотеки, поэтому для начала её нужно установить с помощью пакетного менеджера, например, введя в консоли:

```
pip install beautifulsoup4  
```
Теперь мы можем получать данные из страницы. Давайте получим `title` (это строка, отображающая в браузерах на закладках)

```python
# Импортируем наши библиотеки    
from bs4 import BeautifulSoup    
import requests    
    
# Получаем данные, как и ранее    
url = 'https://nplus1.ru/news/2019/06/04/slothbot'   
response = requests.get(url)    
    
# Теперь создадим объект BeautifulSoup, указывая html парсер    
page = BeautifulSoup(response.text, 'html.parser')    
    
# Всё готово, чтобы получать данные из страницы    
# Для начала получим title, отображающийся на закладках браузера    
print(page.title)  
# => <title>Робота-ленивца научили лазать по паутине из тросов</title>  
    
# Мы получили тэг. Чтобы достать из него текст, вызовем атрибут text    
page.title.text    
# => 'Робота-ленивца научили лазать по паутине из тросов'  
```

In [99]:
# Импортируем наши библиотеки    
from bs4 import BeautifulSoup    
import requests    

# Получаем данные, как и ранее    
url = 'https://nplus1.ru/news/2019/06/04/slothbot'   
response = requests.get(url)    

# Теперь создадим объект BeautifulSoup, указывая html парсер    
page = BeautifulSoup(response.text, 'html.parser')    

# Всё готово, чтобы получать данные из страницы    
# Для начала получим title, отображающийся на закладках браузера    
print(page.title)  
# => <title>Робота-ленивца научили лазать по паутине из тросов</title>  

# Мы получили тэг. Чтобы достать из него текст, вызовем атрибут text    
page.title.text    

<title>Робота-ленивца научили лазать по паутине из тросов</title>


'Робота-ленивца научили лазать по паутине из тросов'

## 9.8 Данные со страницы
### Читаем заголовок

Мы получили данные из `title`, но как нам забрать текст с самой страницы? Мы можем сделать это, запросив содержимое определённых тэгов. 

Пусть мы знаем, что заголовок статьи находится в тэге `h1`. Тогда мы можем получить его текст с помощью метода `find`
```python
print(page.find('h1').text)   
# => Робота-ленивца научили лазать по паутине из тросов  
```
Как узнать, какой именно тэг нужен? Проще всего это сделать с помощью "инструментов разработчика", которые есть во всех современных браузерах. Открыть их можно двумя способами:
1. Можно нажать на желаемый элемент правой кнопкой мыши и выбрать `"Inspect"` из выпадающего списка. Откроется панель, где мы можем понять, что это за элемент

2.  Нажать горячие клавиши (`ctrl-shift-i` в chrome или `ctrl-shift-c` в firefox), которые откроют эту же панель и дальше найти элемент.

Воспользовавшись этим подходом, давайте получим время написания статьи. Смотрим, в каком она тэге

Видим, что это тэг time. Получим данные.

```python
print(page.find('time').text)
```

In [100]:
print(page.find('time').text)


18:27
04 Июнь 2019



### Задание 2 - Автоматический сбор заголовков
Напишите функцию `wiki_header`, которая по адресу страницы возвращает заголовок для статей на википедии
```python
wiki_header('https://en.wikipedia.org/wiki/Operating_system')
```
```
# => 'Operating system'
```

In [101]:
def wiki_header(page_url):
    response = requests.get(page_url)
    page = BeautifulSoup(response.text, 'html.parser')
    return page.find('h1').text

In [102]:
wiki_header('https://en.wikipedia.org/wiki/Operating_system')

'Operating system'

## 9.9 Больше данных
Мы рассмотрели базовый поиск конкретного элемента. Могут встречаться другие вариации:

- когда нам нужно получить много похожих элементов; 
- когда тэг атрибута неуникальный, тогда нам нужно использовать атрибуты (id, class), либо использовать вложенность.

Посмотрим на практике, что делать в случае, когда тэг элемента неуникальный. Пусть мы хотим получить сам текст статьи. Мы видим, что он находится в тэге `div`.  
Тэги `div` очень распространённые, их много на странице. Если мы просто используем `find`, то получим первый попавшийся, но это не то, что нам надо.  


In [103]:
print(page.find('div').text)  

Функционирует при финансовой поддержке Федерального агентства по печати и массовым коммуникациям (Роспечать)


Тут мы можем заметить, что у искомого текста есть свой класс `GeneralMaterial-body`. Воспользуемся этим:  в метод `find` можно передать аргумент `class_`

In [105]:
print(page.find('div', class_='body js-mediator-article').text) 







Allison Carter, Georgia Tech





Американские инженеры разработали робота-ленивца, способного лазать по тросам и перемещаться с одного троса на другой. Благодаря относительно малому потреблению энергии и использованию солнечных панелей подобного робота можно практически неограниченное время использовать для наблюдений на деревьях в лесу, рассказывают авторы статьи, представленной на конференции ICRA 2019.
Создание роботов, способных лазать по тросам — важная технологическая задача, наработки из которой потенциально применимы во многих областях. К примеру, в 2016 году в России создали робота для проверки высоковольтных линий электропередачи. Дрон спускает такого робота на грозозащитный трос, после чего тот самостоятельно перемещается вдоль основных проводов и осматривает их. Кроме того, потенциально таких роботов можно применять для исследований в густых лесах, в которых ветки соседних деревьев соприкасаются.
Инженеры из Технологического института Джорджии под руководством Магнус

Отлично, сработало. Аналогично работает и с id, мы могли бы написать что-то вроде `page.find('div', id='maincontent')`

### Задание 1. Поиск элемента
У вас есть переменная `page`, в которой хранится содержимое html-страницы. На странице есть элемент в тэге `span`, у которого атрибут `id` равен `'target'`. Напишите строчку кода, которая присвоит текст этого элемента переменной `value`.

Запишите ваш код в одну строку без пробелов. Используйте апострофы для передачи параметров, содержащих значение тэга и его `id`.

In [108]:
value=page.find('span',id='target').text

## 9.10 Сбор нескольких элементов
### Собираем все ссылки на странице
Рассмотрим случай, когда нам нужно сразу много элементов. Пусть мы хотим получить название всех ссылок на странице в википедии про языки программирования.

Для ссылок существует тэг `<a></a>`.  Давайте попробуем использовать `find`  
```python
url = 'https://en.wikipedia.org/wiki/List_of_programming_languages'  
  
response = requests.get(url)  
page = BeautifulSoup(response.text, 'html.parser')  
page.find('a')  
```

In [109]:
url = 'https://en.wikipedia.org/wiki/List_of_programming_languages'  

response = requests.get(url)  
page = BeautifulSoup(response.text, 'html.parser')  
page.find('a')  

<a id="top"></a>

Что-то пошло не так, и мы получили только одну ссылку, хотя на странице их явно больше. Это происходит, потому что метод `find` возвращает только первый подходящий элемент. Если нам надо их больше, нужно воспользоваться методом `find_all`

In [110]:
links = page.find_all('a')  
# Посмотрим, сколько всего мы получили  
print(len(links))

926


In [111]:
# Посмотрим на некоторые из ссылок  
print([link.text for link in links[500:510]])  

['Oxygene', 'Oz', 'edit', 'P', 'P4', 'P′′', 'ParaSail (programming language)', 'PARI/GP', 'Pascal', 'Pascal Script']


**Ещё одна полезная вещь:**  последовательный поиск, т.е. мы можем найти сначала один элемент, а потом сделать внутри него второй поиск. Давайте выведем названия всех ссылок для языков программирования, которые начинаются на литеру "A".

In [112]:
# Получаем все элементы с тегом 'div' и классом 'div-col'  
all_blocks = page.find_all('div', class_='div-col')  
  
# Выбираем первый по счету блок  
first_block = all_blocks[0]  
# Берём оттуда ссылки (ограничимся первыми десятью)
links = first_block.find_all('a')
print([link.text for link in links[:10]])

['A.NET', 'A-0 System', 'A+', 'ABAP', 'ABC', 'ABC ALGOL', 'ACC', 'Accent', 'Ace DASL (Distributed Application Specification Language)', 'Action!']


В заключение заметим, что `BeautifulSoup` – достаточно мощная библиотека. Мы рассмотрели базовые возможности, но полный список гораздо шире. С ним можно ознакомиться в [официальной документации](https://www.crummy.com/software/BeautifulSoup/bs4/doc/).

### Задание 1 - Актёры
Напишите функцию `get_actors`, которая по ссылке на страницу фильма на кинопоиске возвращает список актёров из колонки справа

### NB: Если делать запросы слишком часто, Кинопоиск начинает выдавать капчу, поэтому старайтесь при отладке не делать больше одного запроса в секунду.

## <span style="color:red">ВНИМАНИЕ! В настоящий момент времени на сайте Кинопоиска изменилась стукртура контента и применяется более интеллектуальная капча. Задание находится на стадии доработки и не обязательно для выполнения.</span>




## 9.11 HTML-таблицы
### Постановка задачи
При работе с web-страницами было бы здорово получать содержимое  таблиц в виде датафрейма. Рассмотрим страницу Центрального банка РФ cbr.ru. Наша задача будет состоять в том, чтобы получить одну из таблиц виджетов в виде датафрейма. Например, таблицу цен на драгоценные металлы.

Метод `read_html` из pandas умеет автоматически находить на HTML-странице таблицы и возвращать их списком из датафреймов:

In [113]:
import pandas as pd  
url = 'https://www.cbr.ru/key-indicators/'  
# Таблица с драгметаллами оказалась второй по счёту  
pd.read_html(url)[1]  

Unnamed: 0,0,1
0,рублей за грамм,24.10.2020
1,Золото Au,"4 697,13"
2,Серебро Ag,6087
3,Платина Pt,"2 192,95"
4,Палладий Pd,"5 853,59"


Если этого не происходит, но вы уверены в том, что порядок таблиц на странице неизменен, то можно вручную найти нужную таблицу на странице. Этому случаю посвящены следующие шаги.

### Задание 1 - Курсы валют через read_html
Попробуйте запустить pandas для заданного выше url. Какая строчка вернёт таблицу с курсами валют?

In [119]:
pd.read_html(url)[0] 

Unnamed: 0,0,1,2
0,валюта,23.10.2020,24.10.2020
1,Доллар США USD,770809,764667
2,Евро EUR,913563,904142


## Поиск таблицы с помощью BeautifulSoup
Более надёжным решением является сначала получить только текст таблицы и передавать в `pandas` только её. Так же, как и в предыдущем разделе, используем `requests` и `BeautifulSoup`, чтобы получить данные со страницы.

А теперь — внимание! В случае работы с сайтом Центробанка нам нужно будет учесть ещё один нюанс. С недавнего времени администраторы стали блокировать обращения к сайту, поступающие не от «живых» пользователей, а от компьютерных программ (в том числе от той, которую мы собираемся написать прямо сейчас). Есть ли шанс в таких условиях всё-таки получить данные, не открывая страницу в браузере?

Безусловно, это возможно. Безвыходных положений вообще не бывает, особенно в программировании! Один из способов справиться с ситуацией — «притвориться» браузером :).

Каждый запрос, отправляемый с помощью команды get, имеет заголовок. Если заголовок не задан явно, то он создаётся автоматически, и туда добавляется информация в том числе о том, кто является субъектом (или источником) запроса — человек или программа. Чтобы «притвориться» браузером, нам просто нужно вручную дописать нужные сведения в этот заголовок. Подробнее о таком подходе можно почитать в [этой статье](https://habr.com/ru/company/ods/blog/346632/).

Итоговый вариант кода после добавления заголовка должен выглядеть так:
```python
from bs4 import BeautifulSoup  
import pandas as pd  
import requests  
  
url = 'https://www.cbr.ru/key-indicators/'
soup = BeautifulSoup(requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}).text, 'html.parser')  
```

In [120]:
from bs4 import BeautifulSoup  
import pandas as pd  
import requests  

url = 'https://www.cbr.ru/key-indicators/'
soup = BeautifulSoup(requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}).text, 'html.parser')

Далее нажимаем 'Исследовать элемент' в меню браузера на виджете с драгоценными металлами:

![](https://lms.skillfactory.ru/assets/courseware/v1/a2e35fa184cf7d6bbf2aac9a70f5fa71/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/metals_2.png)

Видим, что виджету соответствует следующая разметка:

![](https://lms.skillfactory.ru/assets/courseware/v1/1ed8cdbe78a85aa99b12651bf3044a89/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/metals_3.png)

Нам необходимо добраться до кода таблицы, который начинается с тэга <table>. Таблиц на странице много, поэтому указываем путь к таблице виджета драгоценных металлов применяя знания полученные ранее:

In [122]:
all_blocks = soup.find_all('div', class_='key-indicator_content offset-md-2')
# Данные таблицы с драгметаллами находятся во втором блоке
data = all_blocks[1].find('table') 

In [128]:
pd.read_html(str(data))[0]

Unnamed: 0,0,1
0,рублей за грамм,24.10.2020
1,Золото Au,"4 697,13"
2,Серебро Ag,6087
3,Платина Pt,"2 192,95"
4,Палладий Pd,"5 853,59"


### Задание 2 - Рейтинг банков
Напишите программу, которая забирает данные из таблицы рейтинга банков с https://www.banki.ru/banks/ratings/, делает из него датафрейм и сохраняет его в переменую df.

In [None]:
url = 'https://www.banki.ru/banks/ratings/'

In [None]:
# response = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}).text
# page = BeautifulSoup(response, 'html.parser')

# page

In [135]:
df = pd.read_html('https://www.banki.ru/banks/ratings/')[0]

## 9.12 Введение в API
В предыдущих разделах мы собирали полезную информацию с различных сайтов с выделением правильных тэгов – это довольно трудоёмкая задача. Кроме того, подобные программы могут ломаться в случаях, когда меняется дизайн сайта, его разметка, или владельцы сайтов защищаются от ботов капчей. 

К счастью, многие крупные сайты предоставляют доступ к так называемым API (application programming interface, программный интерфейс приложения). Это специальные разделы сайта, где информацию можно получать без разметки, формат запросов – ответов зафиксирован, и они созданы специально, чтобы облегчить жизнь сторонним разработчикам.

Мы уже видели, как https://www.cbr-xml-daily.ru возвращает данные о валютах в json-формате, и это может считаться API. В этом разделе мы на примере ВКонтакте посмотрим особенности API, характерные для более крупных сайтов.