# Урок 1

# Основы клиент-серверного взаимодействия. Парсинг API

## На этом уроке 
1.	Узнаем основные принципы сбора данных.
2.	Поймём, как отправлять GET-запросы с помощью разных инструментов.
3.	Разберёмся, как работать с ответами от сервера и API, JSON


## 1. Парсинг, скрапинг, краулинг
Всеобщие глобальные тенденции приближают нас к тому дню, когда все операции и торговые сделки будут проходить в интернете. Чтобы успешно вписаться в новый порядок, важно своевременно получать актуальные данные о движении рынка (динамике цен и товаров) и локальные новости, которые часто влияют на формирование спроса.
Сегодня объёмы информации превосходят возможности обработать их у любого, даже самого талантливого узкопрофильного специалиста. Поэтому для автоматического сбора и обработки больших объёмов информации придумали методы, знание и умелое использование которых — одно из важнейших свойств новой профессии — Data Scientist.


### Парсинг

__Парсинг__ — это синтаксический анализ информации. Под парсингом подразумевают поиск и выборочное извлечение определённой информации с разных сайтов при помощи HTML-разметки. Если вы ещё не знакомы с HTML-разметкой, не волнуйтесь, мы будем подробнее говорить о ней в следующих уроках.


### Скрапинг

В широком понимании __веб-скрапинг__ — это сбор данных с различных интернет-ресурсов. Общий принцип его работы можно объяснить так: автоматизированный код выполняет GET-запросы на целевой сайт и, получая ответ, парсит HTML или JSON ответ, ищет данные и преобразует их в заданный формат. 

Существует масса решений для скрапинга веб-сайтов. Среди них:

- отдельные сервисы, которые работают через API или имеют веб-интерфейс (Embedly, DiffBot  и другие);

- проекты на разных языках программирования с открытым кодом (для Python это, например, Scrapy, с которым мы подробнее познакомимся на следующих уроках).
    
Кроме того, всегда можно изобрести велосипед и написать собственное решение, например, с использованием библиотеки lxml (для языка программирования Python).

Однако следует понимать, что идеального парсера не существует, потому что:

1.	HTML на разных сайтах почти всегда разная. Кроме этого, даже на одном сайте разметка может меняться со временем, так что, если вы написали парсер, основанный на HTML-разметке, будьте готовы к тому, что в одни прекрасный момент он может перестать работать.

2.	Масса веб-ресурсов использует HTML5, где каждый элемент может быть абсолютно уникальным. Однако в таком случае можно использовать не DOM-селекторы, а структуру и вложенность элементов.

3.	Некоторые ресурсы защищены от копирования данных (многоуровневая вёрстка, использование JavaScript для рендеринга контента, проверка user agent и так далее), а значит и от скрапинга. Существуют методы обхода этих ограничений, однако не стоит забывать об этичном парсинге. Старайтесь не нарушать права владельцев и не ломать сайты. Об этичном парсинге чуть ниже.

### Краулинг

__Краулинг__ (сканирование, crawling) — процесс обнаружения и сбора поисковым роботом (краулером) новых и обновлённых страниц для добавления в индекс поисковых систем. 

Поисковый робот (он же crawler, краулер, паук, бот) — программа для сбора контента в интернете. Краулер состоит из множества компьютеров, запрашивающих и выбирающих страницы намного быстрее, чем пользователь с помощью веб-браузера. Фактически он может запрашивать тысячи разных страниц одновременно.

При сканировании пауки просматривают страницы и выполняют переход по содержащимся на них ссылкам так же, как и обычные пользователи. При этом разный контент исследуется ботами в разной последовательности. Это позволяет одновременно обрабатывать огромные массивы данных.


### Robots.txt

Это файл, которым руководствуются краулеры при индексации сайта. В robots.txt указано, что и кому можно парсить.

Вот, например, файл robots.txt с сайта Medium.com: 

<img src="https://i.ibb.co/XVgkbBz/1.jpg"  width = 1000/>

При парсинге сайта с помощью requests этот файл не учитывается. Однако вам следует ознакомиться с ним перед тем, как начинать парсить новый сайт. Возможно, владелец не ограничил доступ ни к каким материалам. При использовании же Scrapy для парсинга вам надо будет указать, принимать во внимание robots.txt сайта или нет (вернёмся к этому в уроке по Scrapy)
.
Этим же файлом стоит руководствоваться и вам при написании парсера. А также помнить о том, что парсинг должен быть этичным. Вот основные принципы этичного парсинга:

- API — часто лучшее решение. У некоторых веб-сайтов есть собственные API, созданные специально для вас, чтобы получать данные без парсинга. Это означает две вещи: вы будете делать это по правилам сайта и у вас есть полномочия на получение информации. Если есть API, используйте его вместо парсинга.
    
- Уважайте robots.txt. Файл robots.txt, также известный как стандарт исключения роботов, указывает на программное обеспечение для веб-сканирования, где это разрешено (или запрещено) на веб-сайте. Это часть протокола исключения роботов (REP), который представляет собой группу веб-стандартов, созданных для регулирования того, как роботы сканируют интернет.
    
- Прочитайте условия использования. Это основной источник, в котором владелец сайта сообщает вам правила нахождения и использования размещённой информации. Да, проще просто нажать «Я согласен» или «Принимаю» и надеяться на лучшее. Помните, что владельцы сайта создали эти правила это не просто так.
    
- Будьте аккуратны. Процесс парсинга может быть довольно жёстким для серверов, а агрессивный парсинг иногда может приводить к проблемам с функциональностью, создавая неудобства для пользователей. Возьмите за привычку выполнять парсинг в непиковые часы посещения сайта, например, ночью. И не забудьте делать паузы между запросами, чтобы владелец сайта не спутал ваш парсинг с DDoS-атакой.
    
- Цените содержание, которое вы храните. Вы должны брать только тот контент, который вам нужен. У вас также всегда должна быть достаточно веская причина для парсинга данных с сайта. Цель использования данных — создать больше ценности, а не просто дублировать информацию.
    
- Относитесь к данным с уважением. Вам дали разрешение на использование контента, но это не значит, что теперь вы можете предоставлять его другим пользователям. Не выдавайте эту информацию за собственную.
    
- Возвращайте, когда можете. Постарайтесь отблагодарить владельцев сайта за предоставленные данные. Например, вы можете упомянуть сайт в статье, которую создали на основе информации, полученной с него. Таким образом, вы сможете повысить трафик реальных пользователей на сайт.
    
- Практикуйте этич	ный парсинг сайтов. Потребность в источниках данных со временем возрастает, тогда как на многих веб-сайтах нет собственных API, с помощью которых разработчики могли бы получить доступ к нужным данным. Это означает, что парсинг данных со временем будет возрастать, поэтому разработчикам важно знать, как это делать правильно.
    
Теперь поговорим о протоколах и кодах.


## 2. HTTP и HTTPS

__HyperText Transfer Protocol__ — протокол, созданный для передачи гипертекстовых документов. Сейчас по нему можно передавать произвольную информацию. 

__HTTP__ — протокол прикладного слоя модели OSI. Он используется для приложений и пользователей.

__HTTPS__ — это расширение протокола HTTP с поддержкой шифрования для повышенной безопасности. Данные по HTTPS передаются поверх протокола TLS. 

Протокол __TLS__ — криптографический и служит для защищённой передачи данных в интернете. 

### HTTP-коды

При отправке любого запроса на сервер (в том числе когда вы просто открываете страницу сайта в браузере) в любом случае возвращается ответ на ваш запрос в виде кода. Каждый сталкивался с известной ошибкой 404. 

__Код состояния HTTP__ — часть первой строки ответа сервера при запросах по протоколу HTTP. Он представляет собой целое число из трёх десятичных цифр. Первая цифра указывает на класс состояния. За кодом ответа обычно следует отделённая пробелом поясняющая фраза на английском языке, которая разъясняет человеку причину именно такого ответа. Примеры:

- 201 Created;
- 401 Unauthorized;
- 507 Insufficient Storage.
    
Выделено пять классов кодов состояния:


<table>
<tbody>
    <tr><td>1xx</td><td>Information</td><td>Коды информируют о процессе передачи. Обычно это предварительный ответ, который состоит только из Status Line и опциональных заголовков, а завершается пустой строкой. Обязательных заголовков для этого класса нет</td></tr>
    <tr><td>2xx</td><td>Success</td><td>Коды указывают, что запрос клиента успешно получен, понят, и принят. Примеры ответов — 200 OK, 201 Created</td></tr>
    <tr><td>3xx</td><td>Redirect</td><td>Коды показывают, какие действия должен выполнить клиент, чтобы запрос завершился успешно. Служит для переадресации на мобильную версию, на HTTPS, когда клиент подключается по HTTP, или на другое доменное имя, если сайт переехал или доступен по нескольким доменным именам</td></tr>
    <tr><td>4xx</td><td>Client Error</td><td>Класс кодов предназначен для определения ошибок, которые произошли на стороне клиента. К примеру, ошибка 404 Not Found возникает, когда клиент обращается к ресурсу, которого не существует</td></tr>
    <tr><td>5xx</td><td>Server Error</td><td>Коды ответов указывают на случаи, когда сервер знает, что произошла ошибка, или не может обработать запрос. Кроме HEAD-запросов, серверу следует включить в ответ сущность, содержащую объяснение ошибки, и указать, постоянное это состояние или временное. Например, ошибка 500 Internal Server Error возникает, когда сервер недоступен</td></tr>
</tbody>
</table>

### HTTP-методы

__HTTP-метод__ — это указание на основную операцию над ресурсом, то есть команда для сервера. Обычно это короткое слово, написанное заглавными буквами. Основные методы: 

- GET используется для запроса содержимого указанного ресурса;
    
- PUT применяется для загрузки содержимого запроса на указанный в запросе URI. Если по заданному URI не существует ресурс, то сервер создаёт его и возвращает статус 201 (Created). Если ресурс был изменён, сервер возвращает 200 (Ok) или 204 (No Content).
    
- POST применяется для передачи пользовательских данных заданному ресурсу. Например, в блогах посетители обычно могут вводить свои комментарии к записям в HTML-форму, после чего они передаются серверу методом POST, и он помещает их на страницу. При этом передаваемые данные (в примере с блогами — текст комментария) включаются в тело запроса. Аналогично с помощью метода POST обычно загружаются файлы на сервер.
    
- DELETE удаляет указанный ресурс.
    
- PATCH аналогично PUT, но применяется только к фрагменту ресурса.
    
Есть и другие методы — HEAD, OPTIONS, TRACE, CONNECT, но они специфичны и применяются редко. 


### HTTP-заголовки

Заголовки HTTP — это строки в HTTP-сообщении, содержащие разделённую двоеточием пару имя-значение. 

Все заголовки разделяются на четыре основные группы:

1.	General Headers должны включаться в любое сообщение клиента и сервера. Пример: User-Agent, который указывает программное обеспечение клиента и его характеристики.

2.	Request Headers используются только в запросах клиента. Пример: Authorization, в котором передаются данные для авторизации.

3.	Response Headers — только для ответов от сервера. Пример: Age, который хранит количество секунд с момента модификации ресурса. 

4.	Entity Headers — сопровождают каждую сущность сообщения, используются при передаче множественного содержимого. Такие заголовки характеризуют каждый конкретный блок информации: например, ответ сервера содержит как JSON-информацию, так и файл, разбитый на части. Например: Allow, в котором содержится список поддерживаемых методов.

Именно в таком порядке рекомендуется посылать заголовки получателю.


## 3. GET-запросы 

Наша цель — получение информации, поэтому мы будем работать в основном с GET-запросами. Рассмотрим подробнее, как и какими способами можно их выполнять. 

Согласно стандарту HTTP, запросы типа GET считаются идемпотентными, то есть при повторных выполнениях сервер будет возвращать один и тот же результат.

### GET-запросы с помощью cURL

__cURL__ — кроссплатформенная служебная программа командной строки, позволяющая взаимодействовать со множеством различных серверов по множеству различных протоколов с синтаксисом URL.

Синтаксис утилиты очень прост:

__curl опции ссылка__

Основные опции:

- -# — отображать простой прогресс-бар во время загрузки;
- -0 — использовать протокол http 1.0;
- -1 — использовать протокол шифрования tlsv1;
- -2 — использовать sslv2;
- -3 — использовать sslv3;
- -4 — использовать ipv4;
- -6 — использовать ipv6;
- -A — указать свой USER_AGENT;
- -b — сохранить cookie в файл;
- -c — отправить cookie на сервер из файла;
- -C — продолжить загрузку файла с места разрыва или указанного смещения;
- -m — максимальное время ожидания ответа от сервера;
- -d — отправить данные методом POST;
- -D — сохранить заголовки, возвращённые сервером в файл;
- -e — задать поле Referer URI, которое указывает, с какого сайта пришёл пользователь;
- -E — использовать внешний сертификат SSL;
- -f — не выводить сообщения об ошибках;
- -F — отправить данные в виде формы;
- -G — если эта опция включена, то все данные, указанные в опции -d, будут передаваться методом GET;
- -H — передать заголовки на сервер;
- -I — получить только HTTP-заголовок, а всё содержимое страницы проигнорировать;
- -j — прочитать и отправить cookie из файла;
- -J — удалить заголовок из запроса;
- -L — принимать и обрабатывать перенаправления;
- -s — максимальное количество перенаправлений с помощью Location;
- -o — выводить контент страницы в файл;
- -O — сохранять контент в файл с именем страницы или файла на сервере;
- -p — использовать прокси;
- --proto — указать протокол, который нужно использовать;
- -R — сохранять время последнего изменения удалённого файла;
- -s — выводить минимум информации об ошибках;
- -S — выводить сообщения об ошибках;
- -T — загрузить файл на сервер;
- -u — передать логин и пароль для авторизации в виде username:password;
- -v — максимально подробный вывод;
- -y — минимальная скорость загрузки;
- -Y — максимальная скорость загрузки;
- -z — скачать файл, только если он был модифицирован позже указанного времени;
- -V — вывести версию.

Пример запроса на адрес http://google.com при помощи утилиты curl:

In [None]:
!curl -v google.com

* Rebuilt URL to: google.com/
*   Trying 173.194.214.138...
* TCP_NODELAY set
* Connected to google.com (173.194.214.138) port 80 (#0)
> GET / HTTP/1.1
> Host: google.com
> User-Agent: curl/7.58.0
> Accept: */*
> 
< HTTP/1.1 301 Moved Permanently
< Location: http://www.google.com/
< Content-Type: text/html; charset=UTF-8
< Date: Fri, 26 Aug 2022 14:49:20 GMT
< Expires: Sun, 25 Sep 2022 14:49:20 GMT
< Cache-Control: public, max-age=2592000
< Server: gws
< Content-Length: 219
< X-XSS-Protection: 0
< X-Frame-Options: SAMEORIGIN
< 
<HTML><HEAD><meta http-equiv="content-type" content="text/html;charset=utf-8">
<TITLE>301 Moved</TITLE></HEAD><BODY>
<H1>301 Moved</H1>
The document has moved
<A HREF="http://www.google.com/">here</A>.
</BODY></HTML>
* Connection #0 to host google.com left intact


Вывод содержит несколько блоков важной информации:

- строки, начинающиеся с символа * — системные сообщения, генерируемые ОС;

- строки, начинающиеся с символа > — строки запроса к серверу; 

- строки, начинающиеся с символа < — строки ответа от сервера;

- Строка GET / HTTP/1.1 — строка запроса;
    
- Строки Host: google.com, User-Agent: curl/7.55.1, Accept: */* — это заголовки

HTTP-заголовков очень много, и все они бывают нужны для разных задач, для взаимодействия с разными приложениями. Одна из таких задач — защита веб-сервера от «непрошеных гостей». Самый простой способ защиты — Basic Authorization (BA). При неавторизованном запросе к защищённому ресурсу

In [None]:
!curl -v https://postman-echo.com/basic-auth

*   Trying 34.231.142.5...
* TCP_NODELAY set
* Connected to postman-echo.com (34.231.142.5) port 443 (#0)
* ALPN, offering h2
* ALPN, offering http/1.1
* successfully set certificate verify locations:
*   CAfile: /etc/ssl/certs/ca-certificates.crt
  CApath: /etc/ssl/certs
* TLSv1.3 (OUT), TLS handshake, Client hello (1):
* TLSv1.3 (IN), TLS handshake, Server hello (2):
* TLSv1.2 (IN), TLS handshake, Certificate (11):
* TLSv1.2 (IN), TLS handshake, Server key exchange (12):
* TLSv1.2 (IN), TLS handshake, Server finished (14):
* TLSv1.2 (OUT), TLS handshake, Client key exchange (16):
* TLSv1.2 (OUT), TLS change cipher, Client hello (1):
* TLSv1.2 (OUT), TLS handshake, Finished (20):
* TLSv1.2 (IN), TLS handshake, Finished (20):
* SSL connection using TLSv1.2 / ECDHE-RSA-AES128-GCM-SHA256
* ALPN, server accepted to use h2
* Server certificate:
*  subject: CN=postman-echo.com
*  start date: Jul 14 00:00:00 2022 GMT
*  expire date: Aug 12 23:59:59 2023 GMT
*  subjectAltName: host "postman-e

Мы видим HTTP-код 401 — статус ответа, который говорит нам, что требуется авторизация. Также мы видим заголовок WWW-Authenticate, который начинается со слов Basic realm, — значит, применена BA. Если выполнить такой запрос в браузере, то браузер, получив подобный ответ от сервера, покажет окошко для ввода логина и пароля.
При необходимости можно воспользоваться встроенной помощью утилиты. Вызывается она так:


### GET-запросы с помощью Postman

Основное предназначение приложения Postman — создание запросов к API или веб-сервису. Оно позволяет формировать запросы гораздо более удобным способом, чем cURL, а также имеет графический интерфейс:


<img src="https://i.ibb.co/JxgvVsj/2.jpg"  width = 1000/>

На рисунке:

1. — выпадающий список, можно выбрать любой тип запроса;
2. — адрес сервиса, к которому отправляется запрос;
3. — параметры запроса;
4. — ответ от сервера;
5. — информация об ответе от сервера (код статуса, время ответа, размер ответа);
6. — кнопка отправки запроса на сервер.

Переключившись на закладку Headers, вы сможете указать заголовки для вашего запроса:


<img src="https://i.ibb.co/QJ5DZhK/3.jpg"  width = 1000/>

Раздел Headers содержит заголовки, указанные вручную. Раздел Temporary Headers содержит заголовки, которые были сформированы самим приложением Postman.

Важно! Чтобы избежать дополнительных проблем при запросах, лучше передавать вместе с вашим запросом заголовок, имитирующий запрос из реального браузера. Для этого передайте заголовок User-Agent:

    Mozilla/5.0 (Windows NT 10.0; Win64; x64) — для Mozilla Firefox,

    AppleWebKit/537.36 (KHTML, like Gecko) — для Safari,

    Chrome/76.0.3809.100 — для Google Chrome.

С Postman не обязательно изучать синтаксис команд — всё интуитивно понятно. Например, передать тот же запрос с авторизацией можно, указав параметры в соответствующей закладке Authorization:

<img src="https://i.ibb.co/tC0ggbj/4.jpg"  width = 1000/>

1. — сервис, к которому отправляем запрос;
2. — выпадающий список с разными типами авторизации;
3. — поля для ввода логина и пароля.

Вводим в поле Key "__Authorization__",  а в поле Value - "__Basic cG9zdG1hbjpwYXNzd29yZA==__".

При нажатии на кнопку Send будет выполнен GET-запрос, и соответствующие заголовки формируются автоматически:


<img src="https://i.ibb.co/DV4Z6Rv/5.jpg"  width = 1000/>

### GET-запросы в Python

Чтобы выполнять веб-запросы на любой интернет-ресурс, нам понадобится библиотека requests.

Requests — библиотека Python, которая позволяет легко выполнять любые HTTP-запросы. Она отсутствует в стандартной поставке Python, и её необходимо предварительно скачать и установить:


In [None]:
#!pip install requests

In [None]:
import requests
from pprint import pprint

С его помощью мы можем выполнить все стандартные запросы на сервер

In [None]:
response = requests.put("http://httpbin.org/put")
print(response.text)

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Content-Length": "0", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.23.0", 
    "X-Amzn-Trace-Id": "Root=1-630905d2-20ef352653d078c817f2eb82"
  }, 
  "json": null, 
  "origin": "34.73.251.128", 
  "url": "http://httpbin.org/put"
}



In [None]:
response = requests.delete("http://httpbin.org/delete")
print(response.text)

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Content-Length": "0", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.23.0", 
    "X-Amzn-Trace-Id": "Root=1-6308dd70-0fb6475b27f431dd287b35b7"
  }, 
  "json": null, 
  "origin": "34.73.251.128", 
  "url": "http://httpbin.org/delete"
}



In [None]:
response = requests.head("http://httpbin.org/get")
response.text

''

In [None]:
response = requests.options("http://httpbin.org/get")
response.text

''

Результатом запроса будет объект response:

In [None]:
print(type(response))

<class 'requests.models.Response'>


Выполним GET-запрос на сайт Яндекса:

In [None]:
response = requests.get("https://yandex.ru")

Теперь response — объект response. Он содержит ответ от сервера на наш HTTP-запрос. Основные методы и свойства объекта response:

- headers возвращает заголовки ответа от сервера;
    
- status_code возвращает код состояния ответа от сервера;
    
- ok возвращает True, если код состояния меньше 400, и False, если нет;
    
- text возвращает содержимое ответа в Unicode (кодировке сайта);
    
- json возвращает ответ от сервера в формате JSON;
    
- content возвращает содержимое ответа в бинарном виде.
    
Посмотрим на содержимое ответа:

In [None]:
print('Заголовки: \n',  response.headers)

Заголовки: 
 {'Accept-CH': 'Viewport-Width, DPR, Device-Memory, RTT, Downlink, ECT', 'Accept-CH-Lifetime': '31536000', 'Cache-Control': 'no-cache,no-store,max-age=0,must-revalidate', 'Content-Encoding': 'gzip', 'Content-Security-Policy': "script-src 'unsafe-inline' https://mc.yandex.com https://static.dzeninfra.ru https://zen-yandex-ru.cdnclab.net https://yastatic.net https://yandex.ru 'self' https://an.yandex.ru https://storage.mds.yandex.net https://mc.yandex.ru https://*.mc.yandex.ru https://adstat.yandex.ru;media-src blob: https://*.cdn.dzeninfra.ru https://*.cdn.ngenix.net https://*.s3.dzeninfra.ru https://cdn.dzen.ru https://*.strm.yandex.net https://*.yandex.net https://strm.yandex.ru https://*.strm.yandex.ru https://yastat.net data:;style-src 'unsafe-inline' https://static.dzeninfra.ru https://yastatic.net;font-src https://static.dzeninfra.ru https://yastatic.net;img-src https://*.s3.dzeninfra.ru https://*.verify.yandex.ru https://*.ya.ru https://*.yandex.ru https://auto.ru htt

In [None]:
print('Ответ: \n',  response.text)

Ответ: 
 <!DOCTYPE html><html   class="i-ua_js_no i-ua_css_standart i-ua_browser_unknown i-ua_browser-engine_unknown i-ua_browser_desktop document i-ua_platform_other"  lang="ru"><head  xmlns:og="http://ogp.me/ns#"><meta http-equiv='Content-Type' content='text/html;charset=UTF-8'><title>Яндекс</title><link rel="apple-touch-icon" href="https://yastatic.net/s3/home-static/_/31/3111cd045f263a072f504780b8535840.png" sizes="76x76"><link rel="apple-touch-icon" href="https://yastatic.net/s3/home-static/_/a2/a27610a94f8a0827a6a937c869d95a3e.png" sizes="120x120"><link rel="apple-touch-icon" href="https://yastatic.net/s3/home-static/_/a7/a79b81aa025e9edb2244e38581c868ad.png" sizes="152x152"><link rel="apple-touch-icon" href="https://yastatic.net/s3/home-static/_/46/462e92b9e3792be37a1c3fdefb26af28.png" sizes="180x180"><link rel="alternate" type="application/rss+xml" title="Новости Яндекса" href="https://yandex.ru/company/press_releases/news.rss"><link rel="alternate" type="application/rss+xml" t

Как и в случае с cURL, заголовки здесь необходимо формировать вручную. Выполним запрос на сервис, использующий Basic Authorization, выдав себя за браузер:

In [None]:
headers = {
    'User-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)',
    'Authorization':'Basic cG9zdG1hbjpwYXNzd29yZA==',
}

response = requests.get('https://postman-echo.com/basic-auth', headers=headers)

In [None]:
print('Заголовки: \n',  response.headers)

Заголовки: 
 {'Date': 'Fri, 26 Aug 2022 14:49:21 GMT', 'Content-Type': 'application/json; charset=utf-8', 'Content-Length': '22', 'Connection': 'keep-alive', 'ETag': 'W/"16-sJz8uwjdDv0wvm7//BYdNw8vMbU"', 'Vary': 'Accept-Encoding', 'set-cookie': 'sails.sid=s%3AUYm-0YIeyhcuZg0XcdeGlJele1qM2hhK.JTMoaTFC7GkqIYzT2cHkOYtIpbcHXpLhyt18imbcItk; Path=/; HttpOnly'}


In [None]:
print('Ответ: \n',  response.json())

Ответ: 
 {'authenticated': True}


Мы получили тот же самый результат, что и при использовании утилит Postman и cURL

## API 

### Что такое API

Application Programming Interface (читается «эй-пи-ай») — программный интерфейс приложения. специальный протокол для взаимодействия компьютерных программ, который позволяет использовать функции одного приложения внутри другого.

Например, на сайте «Главред» есть сервис для улучшения текстов. Чтобы воспользоваться сервисом и проанализировать свой текст, пользователям нужно было заходить на сайт. А потом разработчики «Главреда» добавили API. Теперь разработчики других платформ могут встроить сервис «Главреда» к себе, чтобы пользователи могли проводить анализ текста, не покидая приложение и не переходя на другой сайт.

Или другой пример — быстрая регистрация с помощью аккаунта в соцсетях. Приложение может использовать API социальной сети, чтобы предоставить пользователю упрощённый доступ.

API бывают двух видов: публичные и приватные. 


__Публичный API__ отдаётся в использование другим людям и приложениям. Примеры таких API — свободные для скачивания библиотеки, а также сервисы (например. Twitter или Facebook), позволяющие получить данные программным путём. Здесь очень важно отметить, что публичный API должен следить за обратной совместимостью: нельзя сначала включить в API метод получения всех данных без параметров, а при релизе следующей версии убрать его и сказать, что теперь его нет, есть другой метод, точно такой же, но он уже требует какой-нибудь параметр на вход. 

__Приватный API__ — это API, который создан для нужд системы. Вот пример: есть веб-сервис, который авторизует пользователей: пользователь вводит логин и пароль, а дальше происходят идентификация, аутентификация и авторизация. Эти процессы проходят не на самом веб-сервисе — он вызывает другой сервис через его API, передаёт логин и пароль (в зашифрованном виде), после чего ожидает получить от него ответ. Это яркий пример приватного API. Здесь можно не следить за обратной совместимостью, так как клиенты этого API вам известны, и вы их также разрабатываете.

API определяет функциональность, которую предоставляет программа (модуль, библиотека), при этом API позволяет абстрагироваться от того, как именно эта функциональность реализована. К тому же, в случае с сайтами мы можем не задумываться о том, какой HTML-код они содержат. Ведь мы будем работать с его другой стороной:

Преимущества API перед основным интерфейсом:

- сокращённый код;

- выше скорость работы программы;

- всё в одном месте;

- не зависит от изменений интерфейса.

Недостатки:

- требует изучения документации.

Всегда смотрите, нет ли у сайта, который вы собираетесь парсить, API. Вдруг вам повезло, и вы сможете получить все данные, выполнив один простой запрос.

### Формат данных JSON

В контексте сайтов и веб-приложений будем говорить об API как об интерфейсе, который работает с объектами в формате JSON.

JSON (JavaScript Object Notation) — текстовый формат обмена данными, основанный на языке JavaScript. Формат считается независимым от языка и может использоваться практически с любым языком программирования.

Выглядит JSON так:

In [None]:
appid = 'b6907d289e10d714a6e88b30761fae22'
url = 'https://samples.openweathermap.org/data/2.5/weather'

response = requests.get(f'{url}?q=London,uk&appid={appid}')
pprint(response.json())

{'base': 'stations',
 'clouds': {'all': 90},
 'cod': 200,
 'coord': {'lat': 51.51, 'lon': -0.13},
 'dt': 1485789600,
 'id': 2643743,
 'main': {'humidity': 81,
          'pressure': 1012,
          'temp': 280.32,
          'temp_max': 281.15,
          'temp_min': 279.15},
 'name': 'London',
 'sys': {'country': 'GB',
         'id': 5091,
         'message': 0.0103,
         'sunrise': 1485762037,
         'sunset': 1485794875,
         'type': 1},
 'visibility': 10000,
 'weather': [{'description': 'light intensity drizzle',
              'icon': '09d',
              'id': 300,
              'main': 'Drizzle'}],
 'wind': {'deg': 80, 'speed': 4.1}}


Теперь, получив ответ, можем получить доступ к любым данным.

Мы можем немного по-другому сформировать запрос, используя параметры. Как вы видите, после ссылки идёт вопросительный знак, который означает, что всё, что написано дальше, — это параметры обращения к сайту. Параметры разделены знаком &, всё, что находится слева от знака = это ключ, всё, что справа — значение. 

В данном примере параметров не так много, поэтому мы можем использовать их в ссылке без создания словаря. Но бывает, что параметров очень много или какие-то из них должны меняться, например, номер страниц при парсинге многостраничного сайта. В таком случае удобнее использовать словарь. Создадим словарь params и запишем туда наши параметры.


In [None]:
response.url

'https://api.openweathermap.org/data/2.5/weather?lang=ru&q=Kazan&appid=bceecb6fbb910b5c25d970e277ed20f2'

In [None]:
params = {
    'lang': 'ru',
    'q': 'Kazan',
    'appid': 'bceecb6fbb910b5c25d970e277ed20f2'
}

url = 'https://api.openweathermap.org/data/2.5/weather'

response = requests.get(url=url, params=params)

print(response.status_code)
pprint(response.json())

200
{'base': 'stations',
 'clouds': {'all': 13},
 'cod': 200,
 'coord': {'lat': 55.7887, 'lon': 49.1221},
 'dt': 1661537540,
 'id': 551487,
 'main': {'feels_like': 291.81,
          'humidity': 70,
          'pressure': 1014,
          'temp': 292.04,
          'temp_max': 295.49,
          'temp_min': 292.03},
 'name': 'Казань',
 'sys': {'country': 'RU',
         'id': 50006421,
         'sunrise': 1661477773,
         'sunset': 1661529302,
         'type': 5},
 'timezone': 10800,
 'visibility': 10000,
 'weather': [{'description': 'небольшая облачность',
              'icon': '02n',
              'id': 801,
              'main': 'Clouds'}],
 'wind': {'deg': 16, 'gust': 1.28, 'speed': 1.21}}


## Глоссарий

__Парсинг__ — синтаксический анализ информации. Под парсингом HTML, как правило, подразумевают выборочное извлечение большого количества информации с других сайтов и её последующее использование.

__Скрапинг__ — сбор данных с различных интернет-ресурсов. Общий принцип его работы можно объяснить следующим образом: автоматизированный код выполняет GET-запросы на целевой сайт и, получая ответ, парсит HTML-документ, ищет данные и преобразует их в заданный формат.

__Краулинг__ — процесс обнаружения и сбора поисковым роботом (краулером) новых и обновлённых страниц для добавления в индекс поисковых систем.

__HyperText Transfer Protocol__ — протокол, созданный для передачи гипертекстовых документов.

__HTTPS__ — это расширение протокола HTTP с поддержкой шифрования для повышения безопасности.

__Код состояния HTTP__ — часть первой строки ответа сервера при запросах по протоколу HTTP. Он представляет собой целое число из трёх десятичных цифр.

__HTTP-метод__ — указание на основную операцию над ресурсом, то есть команда для сервера. Обычно это короткое слово, написанное заглавными буквами.

__Заголовки HTTP__ — строки в HTTP-сообщении, содержащие разделённую двоеточием пару имя-значение. Формат заголовков соответствует общему формату заголовков текстовых сетевых сообщений ARPA.

__cURL__ — кроссплатформенная служебная программа командной строки, позволяющая взаимодействовать со множеством различных серверов по множеству различных протоколов с синтаксисом URL.

__Postman__ — позволяет создавать коллекции с запросами к API или веб-сервису. С помощью него можно формировать запросы гораздо более удобным способом, чем cURL, Postman также имеет графический интерфейс.

__API__ — набор готовых классов, библиотек и программных интерфейсов, которые облегчают программисту написание кода.

__JSON (JavaScript Object Notation)__ — текстовый формат обмена данными, основанный на языке JavaScript.

## Замечания (Эволюция систем хранения данных)

### RDBMS (Relational Database Management System)

- Храним и читаем данные построчно
- Жесткая структура хранимых данных
- ACID (Atomicity — Атомарность, Consistency — Согласованность, Isolation — Изолированность, Durability — Стойкость)


<img src="https://i.ibb.co/2Nq28CM/6.jpg"  width = 1000/>

### Column-oriented DBMS

- Храним и читаем данные в колонках
- Эффективнее работаем с большими таблицами
- Эффективное сжатие
- Медленнее пишем
- Лучше чем classic RDBMS подходит для аналитики

<img src="https://i.ibb.co/sKfwpGD/7.jpg"  width = 1000/>

### NoSQL (Not Only SQL)

Фокус на горизонтальную масштабируемость. Репликация и шардинг.
Семейства:

- Key-value: MemcacheDB, Redis, Riak, Amazon DynamoDB.
- Column: Apache HBase, Apache Cassandra, ScyllaDB.
- Document: СУБД CouchDB, Couchbase, MongoDB, Berkeley DB XML.
- Graph: Neo4j, OrientDB, AllegroGraph, Blazegraph, InfiniteGraph

<img src="https://i.ibb.co/nrH2r7J/8.jpg"  width = 1000/>

## Дополнительные материалы

1.	[Утилита cURL.](https://curl.haxx.se/download.html)
2.	[Утилита Postman.](https://www.getpostman.com/products)
3.	[Сервис с хорошей документацией, позволяющий отработать любые типы запросов на простых примерах (также включает примеры с cURL).](https://postman-echo.com/)
4.	[Списки открытых API.](https://www.programmableweb.com/apis/directory)
5.	Р. Митчелл. «Скрапинг веб-сайтов с помощью Python».
6.	Seppe van den Broucke, Bart Baesens. Practical Web Scraping for Data Science: Best Practices and Examples with Python.
7.	Вандер Плас Дж. «Python для сложных задач. Наука о данных и машинное обучение».
8.	Грас Джоэл. «Data Science. Наука о данных с нуля».
9.	Силен Д., Мейсман А. «Основы Data Science и Big Data. Python и наука о данных».


## Используемая литература

1.	[Протокол HTTP.](https://ru.wikipedia.org/wiki/HTTP)
2.	[Коды состояния.](https://ru.wikipedia.org/wiki/%252525D0%252525A1%252525D0%252525BF%252525D0%252525B8%252525D1%25252581%252525D0%252525BE%252525D0%252525BA_%252525D0%252525BA%252525D0%252525BE%252525D0%252525B4%252525D0%252525BE%252525D0%252525B2_%252525D1%25252581%252525D0%252525BE%252525D1%25252581%252525D1%25252582%252525D0%252525BE%252525D1%2525258F%252525D0%252525BD%252525D0%252525B8%252525D1%2525258F_HTTP)
3.	[Информация по кодам заголовков.](https://ru.wikipedia.org/wiki/%252525D0%252525A1%252525D0%252525BF%252525D0%252525B8%252525D1%25252581%252525D0%252525BE%252525D0%252525BA_%252525D0%252525B7%252525D0%252525B0%252525D0%252525B3%252525D0%252525BE%252525D0%252525BB%252525D0%252525BE%252525D0%252525B2%252525D0%252525BA%252525D0%252525BE%252525D0%252525B2_HTTP)
4.	[О HTTP-авторизации.](https://developer.mozilla.org/ru/docs/Web/HTTP/%252525D0%25252590%252525D0%252525B2%252525D1%25252582%252525D0%252525BE%252525D1%25252580%252525D0%252525B8%252525D0%252525B7%252525D0%252525B0%252525D1%25252586%252525D0%252525B8%252525D1%2525258F)
5.	[Документация по cURL.](https://curl.haxx.se/docs/manual.html)
6.	[Официальная документация модуля Кequests.](https://2.python-requests.org/en/master/)
7.	[Описание формата данных JSON.](https://ru.wikipedia.org/wiki/JSON)
8.	[Документация requests.](https://docs.python-requests.org/en/latest/user/quickstart/)
9.	[Документация по модулю JSON в Python.](https://docs.python.org/3/library/json.html)
10.	[Документация по API OpenWeatherMap.](https://openweathermap.org/api)