## Юнит 7. Основные алгоритмы машинного обучения. Часть II 
### Skillfactory: DSPR-19
### PYTHON-16. Работа с HTML-страницами и API 

#### Введение

В предыдущих модулях вы видели, как работать с данными. В реальных проектах данные зачастую не лежат в готовом виде, и для анализа вам нужно сначала их собрать, например, скопировав со сторонних веб-сайтов.

В этом модуле мы рассмотрим, как Python позволяет упростить подобный сбор информации и даже получить доступ к данным, которые руками собрать невозможно. В частности, мы рассмотрим:

- в каком виде информация обычно располагается в интернете;
- напишем скрипты, которые собирают данные с веб-сайтов, используя библиотеки requests и BeautifulSoup;
- разберёмся, что такое программный интерфейс веб-сервисов (API) и как его использовать; для примера мы будем забирать данные из ВКонтакте.

К концу модуля вы сможете писать программы, которые могут избавить вас от многих часов монотонной работы и расширят спектр собираемой информации.

### 1. Web-запросы


Начнем с основ автоматизированных веб-запросов на примере задачи получения курсов валют. Курс валют – полезная и регулярно обновляемая информация, но залезать каждый раз на сайт за ней – трудоёмко. Значит, вам нужен скрипт, который будет в удобном виде выгружать информацию по курсам валют.

Будем использовать сервис cbr-xml-daily.ru. Он возвращает информацию о курсах валют в структурированном формате JSON, и в дальнейшем мы расширим этот подход на произвольные html страницы.

Итак, нам необходима функция, возвращающая курс заданной валюты в двух форматах:

1. Только значение курса валюты.

2. Полную информацию о валюте: курс, название, номинал и другие характеристики.

#### Протокол HTTP
Запрос в http состоит из нескольких частей:

адрес, по которому мы обращаемся (это то, что вы вводите в строке браузера, например, www.google.com);
техническая информация, вроде кукисов и метода запроса;
иногда ещё дополнительные данные, например, если вы сами загружаете картинку.
Ответ содержит:

статус ответа: 200 для успешного ответа; 404, если адрес не найден и т.д.; полный список http статусов можно посмотреть здесь ;
текст в запрошенном формате (html, xml, json...) или мультимедийные файлы; 
техническую информацию.
В протоколе HTTP запросы могут делаться с помощью одного из так называемых методов. Самые популярные — это GET и POST .

Метод GET просто получает текстовую информацию или мультимедийный файл по адресу. Вы как бы говорите: "Хочу получить страницу по адресу www.google.com" , и сервер вам отвечает: "200, ок, держи вот html". Это самый базовый метод.
Метод POST служит для отправки форм; помимо адреса он может "заворачивать" в себя дополнительные данные, вроде полей формы или картинок. Вы как бы "заворачиваете" посылку и отдаёте её почтальону. 
Обычно всю эту работу делает браузер, но мы можем делать эти же запросы из кода. Мы могли бы даже написать свой маленький браузер на python, но в этом модуле мы сосредоточимся на автоматическом сборе информации.

### Задание 1 - Клиент-сервер
Выберите корректные утверждения

Ответ:  
- Компьютер, подключенный к сети
- POST-запрос служит для отправки форм
- Обычно клиент-серверное взаимодействие начинает клиент


### Задание 2 - Методы HTTP
Выберите правильные названия базовых методов HTTP

Ответ:  
- GET
- POST

In [1]:
import requests  
response = requests.get('https://www.cbr-xml-daily.ru/daily_json.js')  


In [2]:
print(response)  



<Response [200]>


In [3]:
print(response.status_code)  

200


### Задание 1 - Первый запрос
Допустим, вы уже импортировали модуль requests в ваш код. Какая команда сделает GET запрос к сайту https://www.cbr-xml-daily.ru/daily.xml и положит результат в переменную response?

response = requests.get('https://www.cbr-xml-daily.ru/daily.xml')  

### 3. Читаем результат
Мы сделали запрос и получили ответ. Давайте теперь посмотрим, как считывать текст. 

Адрес, по которому мы обращались, возвращает результат в json формате. Эти данные уже лежат в атрибуте text в полученном ответе response:

In [4]:
import requests    
response = requests.get('https://www.cbr-xml-daily.ru/daily_json.js')    
print(response.text)  

{
    "Date": "2021-05-01T11:30:00+03:00",
    "PreviousDate": "2021-04-30T11:30:00+03:00",
    "PreviousURL": "\/\/www.cbr-xml-daily.ru\/archive\/2021\/04\/30\/daily_json.js",
    "Timestamp": "2021-05-03T17:00:00+03:00",
    "Valute": {
        "AUD": {
            "ID": "R01010",
            "NumCode": "036",
            "CharCode": "AUD",
            "Nominal": 1,
            "Name": "Австралийский доллар",
            "Value": 58.1546,
            "Previous": 57.8546
        },
        "AZN": {
            "ID": "R01020A",
            "NumCode": "944",
            "CharCode": "AZN",
            "Nominal": 1,
            "Name": "Азербайджанский манат",
            "Value": 44.0524,
            "Previous": 43.78
        },
        "GBP": {
            "ID": "R01035",
            "NumCode": "826",
            "CharCode": "GBP",
            "Nominal": 1,
            "Name": "Фунт стерлингов Соединенного королевства",
            "Value": 104.1694,
            "Previous": 103.7782
   

Сейчас текст хранится просто в строковой переменной. Далее мы можем превратить эту строку в словарь. Сделать это можно с помощью JSON-парсера python, либо воспользовавшись методом json, который уже встроен в объект ответа response:

In [5]:
currencies = response.json()  
print(currencies)  

{'Date': '2021-05-01T11:30:00+03:00', 'PreviousDate': '2021-04-30T11:30:00+03:00', 'PreviousURL': '//www.cbr-xml-daily.ru/archive/2021/04/30/daily_json.js', 'Timestamp': '2021-05-03T17:00:00+03:00', 'Valute': {'AUD': {'ID': 'R01010', 'NumCode': '036', 'CharCode': 'AUD', 'Nominal': 1, 'Name': 'Австралийский доллар', 'Value': 58.1546, 'Previous': 57.8546}, 'AZN': {'ID': 'R01020A', 'NumCode': '944', 'CharCode': 'AZN', 'Nominal': 1, 'Name': 'Азербайджанский манат', 'Value': 44.0524, 'Previous': 43.78}, 'GBP': {'ID': 'R01035', 'NumCode': '826', 'CharCode': 'GBP', 'Nominal': 1, 'Name': 'Фунт стерлингов Соединенного королевства', 'Value': 104.1694, 'Previous': 103.7782}, 'AMD': {'ID': 'R01060', 'NumCode': '051', 'CharCode': 'AMD', 'Nominal': 100, 'Name': 'Армянских драмов', 'Value': 14.3761, 'Previous': 14.3095}, 'BYN': {'ID': 'R01090B', 'NumCode': '933', 'CharCode': 'BYN', 'Nominal': 1, 'Name': 'Белорусский рубль', 'Value': 29.2398, 'Previous': 29.076}, 'BGN': {'ID': 'R01100', 'NumCode': '97

Теперь данные лежат в словаре, и мы можем легко получать необходимые нам значения:



In [6]:
currencies['Valute']['UAH']  


{'ID': 'R01720',
 'NumCode': '980',
 'CharCode': 'UAH',
 'Nominal': 10,
 'Name': 'Украинских гривен',
 'Value': 26.9783,
 'Previous': 26.8362}

### Задание 1
Повторите запросы, описанные в этой части, на своём компьютере. Что выведет на экран следующий код?

In [7]:
print(currencies['Valute']['CZK']['Name'])

Чешских крон


### 4. Оформляем функцию


В завершение давайте оформим наши вычисления в отдельную функцию, которой будет удобно пользоваться. На вход она должна принимать два параметра:

1. Название валюты currency. Например, 'EUR' или 'USD'.

2. Формат ответа format. При значении 'full' будем отдавать все, что знаем о валюте. Например, для currency = 'USD':



In [8]:
{'CharCode': 'USD',  
   'ID': 'R01235',  
   'Name': 'Доллар США',  
   'Nominal': 1,  
   'NumCode': '840',  
   'Previous': 68.2505,  
   'Value': 69.0286}  

{'CharCode': 'USD',
 'ID': 'R01235',
 'Name': 'Доллар США',
 'Nominal': 1,
 'NumCode': '840',
 'Previous': 68.2505,
 'Value': 69.0286}

А при значении format = 'value' только значение ключа 'Value', т. е. курс: 69.0286.

Оформим наши требования в коде:

In [9]:
def exchange_rates(currency, format='full'):    
    url = 'https://www.cbr-xml-daily.ru/daily_json.js'  
    response = requests.get(url).json()['Valute']    
    data = response[currency]     
    if format == 'full':    
        return data      
    elif format == 'value':    
        return data['Value']    

### Задание 1
Напишите функцию currency_name, которая по ID валюты возвращает ее название на русском языке.

currency_name('R01700J')
#=> 'Турецких лир' 

In [10]:
def currency_name(currency_id):
    url = 'https://www.cbr-xml-daily.ru/daily_json.js'
    response = requests.get(url).json()['Valute']
    
    for currency in response:
        if response[currency]['ID'] == currency_id:
            return response[currency]['Name']

In [11]:
currency_name('R01700J')

'Турецких лир'