#  Веб-запросы

Процесс получения/извлечения информации с веб-ресурсов в интернете называется web-scraping (рус. веб-скрейпинг/веб-скрапинг). 
Веб-скрапинг может быть проделан вручную пользователем компьютера, 
однако этот термин обычно связывают с автоматизированными процессами, реализованными с помощью кода.

Какие данные можно извлечь в процессе веб-скрапинга?

* цены на товары конкурентов для оптимизации своей стратегии ценообразования;
* сообщения в социальных медиа, по которым можно отслеживать тренды в той или иной области;
* отзывы о товарах/услугах компании на различных площадках, которые можно впоследствии анализировать;
* контактные данные пользователей соцсетей или форумов для дальнейшего взаимодействия с этими пользователями;

В настоящее время повсеместно используемый протокол в интернете, 
позволяющий клиенту получать различные ресурсы (например, HTML-документы), — это протокол HTTP.

Запрос, отправляемый клиентом с использованием протокола HTTP, состоит из нескольких элементов:

* адрес, по которому идёт обращение (например, www.google.com);
* техническая информация, например метод запроса;
* дополнительные данные, например если загружается (передаётся) изображение.

Адрес — это URL, Uniform Resource Locator (с англ. Унифицированный Указатель Ресурса).

Ответ, в свою очередь, состоит из следующих элементов:

* код статуса ответа: например, 200 («успешно»), 404 («не найден») и т. д. (более полный список кодов статуса ответа можете посмотреть, перейдя по ссылке);
* текст в запрошенном формате (HTML, XML, JSON и т. д.) или мультимедийные файлы;
* прочая техническая информация.

## МЕТОДЫ ЗАПРОСОВ В ПРОТОКОЛЕ HTTP

Для того чтобы указать серверу на то, какое действие мы хотим произвести с ресурсом, в протоколе HTTP используются так называемые методы. 
В HTTP существует несколько методов, которые описывают действия с ресурсами. 
Чаще всего используются GET и POST.

GET — ПОЛУЧЕНИЕ РЕСУРСА

Метод GET запрашивает информацию из указанного источника и не может влиять на его содержимое. 
Запрос доступен для кэширования данных (то есть для сохранения, восстановления и дальнейшего использования) и добавления в закладки. 
Длина запроса ограничена (максимальная длина — 2048 символов).
Пример GET-запроса, отправляемого через адресную строку браузера:

 http://site.ru/page.php?name=dima&age=27

POST — СОЗДАНИЕ РЕСУРСА

Метод POST используется для отправки данных, которые могут оказывать влияние на содержимое ресурса. 
В отличие от метода GET, запросы POST не могут быть кэшированы, они не остаются в истории браузера и их нельзя добавить в закладки. 
Длина запроса POST не ограничивается.

Пример POST-запроса, отправляемого через форму запроса:

POST / HTTP/1.0\r\n
Host: www.site.ru\r\n
Referer: http://www.site.ru/index.html\r\n
Cookie: income=1\r\n
Content-Type: application/x-www-form-urlencoded\r\n
Content-Length: 35\r\n
\r\n
login=Dima&password=12345


https://developer.mozilla.org/ru/docs/Web/HTTP/Methods

## Библиотека requests

В стандартной библиотеке Python для отправки веб-запросов существует функция urllib2, 
но большинство разработчиков используют стороннюю библиотеку requests (c англ. запросы), 
потому что её работа более стабильна, а созданный с её помощью код получается проще. 

### задача — получить значения курсов валют.

Разработаем код, так называемый скрипт (англ. script, рус. сценарий), — небольшую программу, 
которая содержит последовательность действий для автоматического выполнения задачи.

С помощью скрипта мы будем в удобном виде выгружать информацию по курсам валют с заранее выбранного сайта.

Один из сайтов в интернете, на котором информация о курсах валют дублирует информацию с сайта Центрального Банка России, — ресурс Курсы валют ЦБ РФ в XML и JSON. 
На данном ресурсе информация о курсах валют представлена в разных форматах, в том числе и в структурированном JSON-формате,
методы работы с которым мы изучили в одном из предыдущих модулей.

In [2]:
# Устанавливаем библиотеку requests
#!pip install requests 

In [3]:
import requests # Импортируем библиотеку requests
url = 'https://www.cbr-xml-daily.ru/daily_json.js' 
# Определяем значение URL страницы для запроса
response = requests.get(url) 
# Делаем GET-запрос к ресурсу и результат ответа сохраняем в переменной response

In [4]:
# Проверим ответ сервера — содержимое переменной response:

print(response) # Выводим значение response на экран как объект

<Response [200]>


Мы получили объект ответа Response, который содержит всю нужную нам информацию. 
По умолчанию в квадратных скобках на экран выводится код статуса ответа. 
В данном случае он равен 200 — то есть запрос был корректным и сервер отдал нам нужную информацию. 
Значение кода статуса 404 означало бы, что страница по указанному адресу не найдена, а
 значение 403 — что синтаксис GET-запроса неверный.

Код ответа в виде числовой переменной можно получить с помощью метода status_code:

In [5]:
print(response.status_code) 

200


In [7]:
# 3.1 Напишите строку кода, 
# при выполнении которой будет сделан GET-запрос 
# к ресурсу https://www.cbr-xml-daily.ru/daily.xml, 
# а результат ответа будет сохранён в переменной response:

response = requests.get('https://www.cbr-xml-daily.ru/daily.xml') 
print(response)

<Response [200]>


## РАБОТАЕМ С ОТВЕТОМ

Дальнейшую работу производим с результатом запроса к ресурсу Курсы валют ЦБ РФ в XML и JSON.

Как получить доступ ко всей информации, которую содержит ответ?

Текст ответа хранится в атрибуте text. Выведем значение атрибута на экран и посмотрим на его содержимое:

По нашему запросу ресурс возвращает информацию в JSON-формате, однако в настоящий момент результат хранится как единая строка. 

In [10]:
response = requests.get('https://www.cbr-xml-daily.ru/daily_json.js') 
print(response.text) 
print(type(response.text))

{
    "Date": "2022-12-10T11:30:00+03:00",
    "PreviousDate": "2022-12-09T11:30:00+03:00",
    "PreviousURL": "\/\/www.cbr-xml-daily.ru\/archive\/2022\/12\/09\/daily_json.js",
    "Timestamp": "2022-12-10T20:00:00+03:00",
    "Valute": {
        "AUD": {
            "ID": "R01010",
            "NumCode": "036",
            "CharCode": "AUD",
            "Nominal": 1,
            "Name": "Австралийский доллар",
            "Value": 42.3694,
            "Previous": 42.0235
        },
        "AZN": {
            "ID": "R01020A",
            "NumCode": "944",
            "CharCode": "AZN",
            "Nominal": 1,
            "Name": "Азербайджанский манат",
            "Value": 36.6949,
            "Previous": 36.8072
        },
        "GBP": {
            "ID": "R01035",
            "NumCode": "826",
            "CharCode": "GBP",
            "Nominal": 1,
            "Name": "Фунт стерлингов Соединенного королевства",
            "Value": 76.2237,
            "Previous": 76.3256
   

Для того чтобы удобно было работать с полученной информацией, нам необходимо преобразовать строку в словарь. 
В объект ответа Response  из библиотеки requests уже встроен метод json() .

Импортируем функцию pprint(), применим к полученному ответу метод json() и выведем полученный результат на экран:

In [11]:
from pprint import pprint # Импортируем функцию pprint()
currencies = response.json() # Применяем метод json()
pprint(currencies) # Выводим результат на экран)

{'Date': '2022-12-10T11:30:00+03:00',
 'PreviousDate': '2022-12-09T11:30:00+03:00',
 'PreviousURL': '//www.cbr-xml-daily.ru/archive/2022/12/09/daily_json.js',
 'Timestamp': '2022-12-10T20:00:00+03:00',
 'Valute': {'AMD': {'CharCode': 'AMD',
                    'ID': 'R01060',
                    'Name': 'Армянских драмов',
                    'Nominal': 100,
                    'NumCode': '051',
                    'Previous': 15.835,
                    'Value': 15.7807},
            'AUD': {'CharCode': 'AUD',
                    'ID': 'R01010',
                    'Name': 'Австралийский доллар',
                    'Nominal': 1,
                    'NumCode': '036',
                    'Previous': 42.0235,
                    'Value': 42.3694},
            'AZN': {'CharCode': 'AZN',
                    'ID': 'R01020A',
                    'Name': 'Азербайджанский манат',
                    'Nominal': 1,
                    'NumCode': '944',
                    'Previous': 36.8072,
 

Теперь данные находятся в словаре и можно легко получать необходимые значения.

Например, по ключу Valute мы можем обратиться к вложенному словарю, который содержит информацию о мировых валютах.
Выведем на экран, например, информацию о евро (EUR):

In [12]:
pprint(currencies['Valute']['EUR']) # Выводим на экран информацию о валюте евро

{'CharCode': 'EUR',
 'ID': 'R01239',
 'Name': 'Евро',
 'Nominal': 1,
 'NumCode': '978',
 'Previous': 65.6762,
 'Value': 65.8407}


In [13]:
print(currencies['Valute']['CZK']['Name'])

Чешских крон


## Парсинг сайтов

рассмотрим страницу, содержащую статью с информацией о присуждении Нобелевской премии по экономике в 2021 году, 
и попробуем извлечь из неё заголовок статьи, опубликованной на странице, дату публикации, а также текст статьи.

Получить содержимое страницы в большинстве случаев несложно, гораздо труднее извлечь из HTML-кода нужную информацию.

## ОСНОВЫ HTML

HTML (англ. HyperText Markup Language, рус. язык гипертекстовой разметки) — стандартизированный язык разметки документов в интернете. 
Большинство веб-страниц содержат описание разметки на языке HTML. 
Язык HTML интерпретируется браузерами. 
Полученный в результате интерпретации текст отображается на экране монитора компьютера или мобильного устройства.

HTML является близким родственником уже знакомого вам формата XML. 
Разметка на языке HTML делается с помощью так называемых тегов, которые помещаются в угловые скобки, 
и применяется к элементам, заключённым внутри них. Посмотрите на примеры:
```
<h2> Это заголовок второго уровня </h2>
<div> А это обычный текст </div>
```
У корректной HTML-страницы есть заголовок и тело страницы. В заголовке (в тегах ```<head> … </head>```)  размещается техническая информация, подключаются скрипты и стили. В теле ```<body> … </body>``` находятся текст и данные, которые непосредственно отображаются на странице в браузере.

Разметка небольшой страницы выглядит примерно так:
```
<!DOCTYPE html>
<html lang="ru">
    <head>
        <title>Название страницы</title>
        <meta charset="UTF-8">
    </head>
    <body>
        <h1> Это заголовок страницы </h1>
        <p> Какой-то текст </p>
    </body>
</html>
```

теги образуют иерархическую структуру, то есть одни теги расположены внутри других. 

Кроме того, у тегов могут быть атрибуты, которые пишутся внутри открывающегося тега. Самые популярные атрибуты — это class и id:
```
<h1 id="big-title"> Заголовок страницы </h1>
<p class="red-back"> Какой-то текст </p>
```

* cуществуют теги с разными именами;
* у тегов бывают атрибуты, такие как class и id;
* теги образуют иерархическую структуру, то есть одни теги вложены в другие.

http://htmlbook.ru/html




## ПОЛУЧАЕМ СОДЕРЖИМОЕ ВЕБ-СТРАНИЦЫ

Для этого отправим GET-запрос с помощью библиотеки requests и метода get() 
и посмотрим на текст ответа на наш запрос (как мы помним, он содержится в атрибуте text):

In [14]:
import requests # Импортируем библиотеку requests
url = 'https://nplus1.ru/news/2021/10/11/econobel2021' # Определяем адрес страницы
response = requests.get(url)  # Выполняем GET-запрос
print(response.text)  # Выводим содержимое атрибута text

<!DOCTYPE html>
<html prefix="og: http://ogp.me/ns#" lang="ru">
<head>
  <meta charset="utf-8">
  <meta name="viewport" content="width=device-width, initial-scale=1">
  <title>Премию Нобеля по экономике присудили за исследования экономики труда и причинно-следственных связей</title>
  <link href="/front-build/css/main.css" rel="stylesheet">
  <link href="/front-build/css/app.css?v=5" rel="stylesheet">
  

  <link rel="apple-touch-icon" sizes="180x180" href="/apple-touch-icon.png">
  <link rel="icon" type="image/png" sizes="32x32" href="/favicon-32x32.png">
  <link rel="icon" type="image/png" sizes="16x16" href="/favicon-16x16.png">
  <link rel="manifest" href="/site.webmanifest">
  <link rel="mask-icon" href="/safari-pinned-tab.svg" color="#f26e40">
  <meta name="msapplication-TileColor" content="#f26e40">
  <meta name="theme-color" content="#ffffff">

  <link rel="canonical" href="https://nplus1.ru/news/2021/10/11/econobel2021">

  <meta name="yandex-verification" content="8c90b02c84a

## Библиотека BeautifulSoup
В отличие от предыдущего примера, где ответ возвращался в JSON-формате, мы не можем так просто преобразовать HTML-код в словарь и извлечь необходимую нам информацию.

Для решения таких задач в Python существует специальная библиотека BeautifulSoup, 

In [16]:
# Устанавливаем библиотеку BeautifulSoup
#!pip install beautifulsoup4 

In [17]:
from bs4 import BeautifulSoup # Импортируем библиотеку BeautifulSoup

Ранее мы уже получили содержимое страницы с помощью GET-запроса и сохранили информацию в переменной response , 
теперь создадим объект BeautifulSoup с именем page, указывая в качестве параметра html.parser.

Для примера получим информацию o title (с англ. заголовок) — это строка, которая отображается на вкладке браузера:

теперь создадим объект BeautifulSoup с именем page, указывая в качестве параметра html.parser.

Для примера получим информацию o title (с англ. заголовок) — это строка, которая отображается на вкладке браузера:

In [18]:
import requests # Импортируем библиотеку requests
from bs4 import BeautifulSoup # Импортируем библиотеку BeautifulSoup
url = 'https://nplus1.ru/news/2021/10/11/econobel2021' # Определяем адрес страницы
response = requests.get(url) 
# Выполняем GET-запрос, содержимое ответа присваивается переменной response
page = BeautifulSoup(response.text, 'html.parser') 
# Создаём объект BeautifulSoup, указывая html-парсер
print(page.title) # Получаем тег title, отображающийся на вкладке браузера
print(page.title.text) 
# Выводим текст из полученного тега, который содержится в атрибуте text

<title>Премию Нобеля по экономике присудили за исследования экономики труда и причинно-следственных связей</title>
Премию Нобеля по экономике присудили за исследования экономики труда и причинно-следственных связей


Если при запросе к сайту, а затем при его разборе с помощью BeautifulSoup в тексте страницы не находится нужный тег, 
попробуйте вывести на печать пару тысяч символов текста страницы. 
Если там обнаружится нечто похожее на капчу, возможно, сайт посчитал вас роботом 
и отказывается выдавать содержимое. 
Чтобы получить его, попробуйте «притвориться» браузером при запросе из скрипта:

```requests.get(url, headers={'User-Agent': 'Mozilla/5.0'})```
User-Agent своего браузера можно узнать https://n5m.ru/usagent.html

## ИЗВЛЕКАЕМ ЗАГОЛОВОК И ВРЕМЯ НАПИСАНИЯ СТАТЬИ

Предположим, что мы знаем, что в HTML-коде рассматриваемой нами страницы заголовок статьи заключён в тег ```<h1> … </h1>``` (заголовок первого уровня).

Тогда мы можем получить его текст с помощью метода find() (с англ. найти) объекта BeautifulSoup, передав ему название интересующего нас тега:

In [19]:
print(page.find('h1').text) 
# Применяем метод find() к объекту и выводим результат на экран


            Премию Нобеля по экономике присудили за исследования экономики труда и причинно-следственных связей
          


Как же узнать, в каких именно тегах заключена необходимая информация?

Проще всего это сделать с помощью так называемого инструмента разработчика, который есть во всех современных браузерах. 
Покажем, как открыть данный инструмент на примере использования браузера Google Chrome.

Устанавливаем курсор на элементе страницы (заголовок статьи), информацию о котором хотим получить, 
нажимаем на правую клавишу мыши и в выпадающем списке выбираем пункт «Просмотреть код элемента» или «Посмотреть код» в зависимости от браузера.

В открывшемся окне инструмента разработчика видим, что информация о заголовке статьи заключена в теге ```<h1> … </h1>```.

In [20]:
print(page.find('span').text) # Выводим на экран содержимое атрибута text тега span


13:04



In [22]:
# Напишите функцию wiki_header, 
# которая по адресу страницы возвращает заголовок для статей на Wikipedia.
def wiki_header (url):
    response = requests.get(url) 
    page = BeautifulSoup(response.text, 'html.parser') 
    return page.find('span').text
wiki_header('https://en.wikipedia.org/wiki/Operating_system')


'Operating system'

## НЕУНИКАЛЬНЫЕ ТЕГИ: ИЗВЛЕКАЕМ ТЕКСТ СТАТЬИ

получим сам текст статьи.
искомый текст заключён в тег  ```<div> … </div> ```.

In [27]:
#display(page.find('div').text) # Выводим содержимое атрибута text тега div

Дело в том, что теги ```<div> … </div>``` очень распространённые и на странице их очень много. Метод find() нашёл первый из них, но это не то, что нам надо.

Посмотрим на нашу страницу, используя инструмент разработчика, ещё раз. Можем заметить, что у искомого текста есть свой класс — n1_material text-18 :

In [28]:
print(page.find('div', class_='n1_material text-18').text) 
# Выводим содержимое атрибута text тега div класса n1_material text-18

Премия Шведского национального банка по экономическим наукам памяти Альфреда Нобеля за 2021 год присуждена Дэвиду Карду (David Card) за его вклад в эмпирические исследования экономики рынка труда, а также Джошуа Энгристу (Joshua Angrist) и Гвидо Имбенсу (Guido Imbens) за их вклад в методологию анализа причинно-следственных связей. Прямая трансляция церемонии объявления лауреатов шла на официальном сайте Нобелевской премии.


## СБОР НЕСКОЛЬКИХ ЭЛЕМЕНТОВ: СОБИРАЕМ ВСЕ ССЫЛКИ НА СТРАНИЦЕ

вы хотите собрать сразу несколько элементов со страницы. 
Например, представьте, что вы хотите получить названия всех языков программирования, 
упомянутых на странице в Wikipedia в статье про языки программирования.

In [29]:
url = 'https://en.wikipedia.org/wiki/List_of_programming_languages'
# Задаём адрес ресурса
response = requests.get(url) # Делаем GET-запрос к ресурсу
page = BeautifulSoup(response.text, 'html.parser') # Создаём объект BeautifulSoup
print(page.find('a')) # Ищем ссылку по тегу <a> и выводим её на экран

<a id="top"></a>


In [30]:
# Если требуется получить больше элементов, 
# необходимо воспользоваться методом find_all() (с англ. найти все):

links = page.find_all('a') # Ищем все ссылки на странице и сохраняем в переменной links в виде списка
print(len(links)) # Выводим количество найденных ссылок

943


In [31]:
print([link.text for link in links[500:510]]) # Выводим ссылки с 500 по 509 включительно

['Opa', 'Opal', 'Open Programming Language', 'OpenCL', 'OpenEdge Advanced Business Language', 'OpenVera', 'OpenQASM', 'OPS5', 'OptimJ', 'Orc']


# Работа с API

API — это специальные разделы сайта, где информацию можно получать без разметки, а формат запросов и ответов зафиксирован. 
API созданы для того, чтобы облегчить взаимодействие с сайтом для сторонних разработчиков.

Рассмотрим на примере социальной сети ВКонтакте особенности API, характерные для более крупных сайтов.

## КЛЮЧ АВТОРИЗАЦИИ

Для того чтобы начать работать с API, обычно необходимо получить сервисный ключ авторизации — токен.

Токен — это средство идентификации пользователя или отдельного сеанса работы в компьютерных сетях и приложениях. 
Различают программные и аппаратные токены.
Мы будем использовать программный токен, который обычно представляет собой зашифрованную последовательность символов, 
позволяющую точно идентифицировать объект и определить уровень его привилегий. 
Он генерируется системой авторизации и привязывается к конкретному сеансу работы, клиенту сети или пакету данных.