# Что такое разметка данных

В этом курсе мы рассмотрим основные концепции, связанные со сбором и разметкой данных

**Разметка данных** - это процесс присвоения данным определённых категорий (меток, тегов), что бы сделать данные более осмысленными и удобными для использования. Разметка данных очень важна для машинного обучения, анализа данных.  

![мусор на входе - мусор на выходе](E:\Учёба\Сбор и разметка данных\image\1.jpg "1.jpg")

**Плохие данные** - это неструктурированные данные, содержащие неточности и ошибки, неполнота, непоследовательность и дублирование данных.

Любые данные являются плохими во время их сбора и они требуют предварительную очистку и структурирование.

**Плохие данные**:
- маленькая выборка (недостаточное количество данных)
- нерепрезентативная выборка
- несбалансированная выборка
- отсутсвующие или пропущенные данные
- устаревшая информация
- данные введены в неправильное поле
- дублирование записей
- опечатки и орфографические ошибки

**Специалисты, занимающиеся сбором и разметкой данных**:
- Data Collector - сборщики данных, отвечающие за сбор данных из разных источников
- Data Labeler - отвечают за добавление к данным меток, тегов, комментариев, категорий
- Data Engineer - разрабатывают и внедряют инфраструктуру сбора и хранения данных 
- Data Scientist 

# Основы клиент-серверного взаимодействия. Парсинг API

API - это интерфейсы прикладного программирования, являются важной частью современной разработки программного обеспечения. С помощью API приложения общаются друг с другом. **Парсинг API** - это извлечение информации из ответов серверов 

<span style="border-bottom: double red;">План урока:</span>
1. Клиент-серверное взаимодействие
2. Введение в Web API
3. Протоколы прикладного уровня модели OSI
4. Конечные точки и запросы API
5. Representational State Transfer (REST)
6. Клиент-серверный поток HTTP
7. Создание HTTP-запросов в Python
8. Создание датафрейма в Jupyter ноутбуке

**Парсинг данных** - это процесс получения данных в одном формате и преобразования их в другой формат

**Веб-скрепинг** - это технология получения данных путём извлечения их со страниц веб-ресурсов

## Взаимодействие клиента и сервера

<span style="border-bottom: double red;">Цикл "запрос-ответ" (request-responce cycle):</span>
- Клиент посылает запрос на сервер
- Сервер получает запрос и обрабатывает его
- Сервер отправляет ответ клиенту
- Клиент получает ответ и обрабатывает информацию

<span style="border-bottom: double red;">Типы взаимодействия клиент-сервер:</span>
- Простой запрос-ответ
- Statefull взаимодействие
- Stateless взаимодействие
- Взаимодействие в реальном времени

Простой запрос-ответ - например, отправка веб-формы

При statefull взаимодействии сервер сохраняет информацию о состоянии взаимодействия между клиентом и сервером. Этот тип позволяет серверу отслеживать работы клиента и подстраиваеться под нужды клиента

Stateless взаимодействие это противоположность statefull. При этом сервер не отслеживает и не сохраняет действия клиента и каждый запрос клиента рассмотривается сервером как независимая транзакция 

При взаимодействие в реальном времени сервер и клиент обмениваются данными сразу по мере их поступления

## Основы API

API встречаются в повседневной жизни постоянно так как это способ коммуникации между программами. 

**API (Application Programming Interface)** - это описание способа коммуникации между двумя единицами кода, иными словами это способ связи между двумя компьютерными программами

**Открытые API** (внешние, публичные) доступны пользователям за пределами организации, которая эти API разработала<br>
**Внутренние API** используются внутри организации для того, что бы различные приложения и службы организации могли взаимодействавать друг с другом<br>
**Партнёрские API** используются для обмена даммыми и услугами между организациями и обычно закрыты для широкой публики.

API позволяют создавать приложения, состоящие из частей кода, расположенного на разных устройствах.<br>
**Мэшап (mashup)** - это веб-приложение, объединяющее данные из нескольких источников в один интегрированный инчтрумент

Как мы можем быть уверены, что нам удастся объединить в одной программе сервисы разных компаний, которые используют разные операционные системы, языки программирования, спецификации и структуры данных? Что бы машины говорили на одном языке, должны быть разработаны определённые правила, называемые "протоколами"

**Протокол** - набор правил и очередности действий, позволяющий осуществлять соединение и обмен данными между двумя и более включёнными в сеть устройствами

<span style="border-bottom: double red;">Open System Interconnection (OSI) model</span>

OSI это <u>абстрактная модель</u>, которая обеспечивает коммуникацию компьютерных систем не взирая на их системные характеристики

OSI состоит из семи уровней, каждый уровень обслуживает вышележащий уровень и обслуживается ниже лежащим:

![image.png](attachment:7447f24f-468c-40d6-a310-81b5734c6df8.png)

В каждом уровне может быть множество протоколов, но все они должны иметь возможность получать и передавать данные в соседние слои

Мы будем касаться в основном уровня Application

## Протоколы прикладного уровня

- HTTP (протокол передачи гипертекста)
- FTP (протокол передачи файлов)
- SMTP (протокол передачи почты)
- DNS (протокол распознавания доменных имён)

**HTTP (Hypertext Transfer Protocol)**

![image.png](attachment:2d184f7f-3eab-4472-8c4e-afcc8caaebd2.png)

Добавим к модели OSI два условных уровня (желтый цвет):

![image.png](attachment:409efeb0-973e-4519-ae0e-48d326525ef7.png)

SOAP и REST - это протоколы, XML и JSON - форматы передачи данных

![image.png](attachment:b2df81a1-1b42-4228-98e2-2c2f2f985ae6.png)

![image.png](attachment:f0274a30-bf99-4490-bcdb-96c8f2f2eb2f.png)

Современные разработчики предпочитают REST и JSON

В сборе данных REST предоставляет способ взаимодействия с ресурсами в интернете

Ограничения HTTP и **формирование REST**:
- Разделение клиента и сервера
- Stateless
- Cacheable
- Единый интерфейс
- Многослойная система
- Код по требованию

## Клиент-серверный поток HTTP

HTTP это pull ("толкающий") протокол. Первоначальный запрос данных производится клиентом, а ответ порождается сервером. Сообщения, отправляемые сервером, представляют собой _текст_, который клиент может интерпретировать в какой-то контент.  

**HTTP Request** - формат запроса клиента
1. POST /cgi-bin/process.cgi HTTP/1.1 (строка запроса)
2. <font color="red">User-Agent</font> <font color="blue">:</font> Mozilla/4.0 (compatible; MSIE5.01; Windows NT)
3. <font color="red">Host</font> <font color="blue">:</font> www.tutorialspoint.com
4. <font color="red">Content-Type</font> <font color="blue">:</font> aplication/x-www-form-urlencoded
5. <font color="red">Content-Length</font> <font color="blue">:</font> length
6. <font color="red">Accept-Language</font> <font color="blue">:</font> en-us
7. <font color="red">Accept-Encoding</font> <font color="blue">:</font> gzip, deflate
8. <font color="red">Connection</font> <font color="blue">:</font> Keep-Alive
9. (пустая строка завершает заголовок запроса)
10. licenseID=string&content=string&/paramsXML=string (тело запроса)

<span style="border-bottom: double red;">Методы HTTP запроса</span>:
- GET - получение информации от сервера (мы будем использовать в основно его)
- POST - создание нового ресурса на сервере, используется для отправки данных на сервер
- PUT - обновление информации на сервере, используется для отправки данных на сервер
- DELETE - удаление ресурса с сервера

**HTTP Response** - формат ответа сервера<br><br>
HTTP/1.1 200 OK - протокол и код состояни ответа (Status Line)<br> 
<font color="red">Date</font>: Thu, 20 May 2004 21:12:58 GMT<br>
<font color="red">Connection</font>: close<br>
<font color="red">Server</font>: Apache/1.3.27<br>
<font color="red">Accept-Ranges</font>: bytes<br>
<font color="red">Content-Type</font>: text/html<br>
<font color="red">Content-Lenght</font>: 170<br>
<font color="red">Last-Modifed</font>: Tue, 18 May 2004 10:14:49 GMT<br>
(пустая строка завершает заголовок ответа)<br>
(далее идёт тело ответа)

<span style="border-bottom: double red;">Коды состояния:</span>
- 200 OK
- 404 Not Found (звапрашиваемый ресурс не найден на сервере)
- 403 Forbidden (закрыт доступ)
- 500 Internal Server Error (внутренняя ошибка сервера)

## HTTP запросы в Python

<u>Задача</u>: Используя API сайта openlibrary.org получить информацию о книгах на определённую тему

In [1]:
import requests
import json

Определим необходимые переменные

In [2]:
url = "http://openlibrary.org/search.json" # адрес библиотеки, определяется по документации к API на сайте 
subject = "Artificial intelligence" # тема, для которой мы будем подбирать книги
params = { # cловарь параметров запроса, опреедляются по документации к API
    "subject" : subject,    # условие поиска
    "limit" : 1            # ограничивает количество книг
}


и создадим запрос

In [3]:
responce = requests.get(url, params = params)
if responce.status_code == 200:
    print("Успешный запрос API")
else:
    print("Запрос API отклонён с кодом состояния ", responce.status_code)

Успешный запрос API


посмотрим, что мы получили от сервера

In [4]:
print(responce.text)

{
    "numFound": 12770,
    "start": 0,
    "numFoundExact": true,
    "docs": [
        {
            "author_alternative_name": [
                "OrsonScottCard",
                "card-orson-scott",
                "Orson Scott Card",
                "O Card",
                "Orson Card",
                "CARD Orson Scott",
                "Orson S. Card",
                "Card Orson Scott,",
                "Kade",
                "orson scott card",
                ". S Card",
                "Orson Scott CARD",
                "Orson Scott. Card",
                "Orson SCOTT CARD",
                "ORSON SCOTT CARD",
                "Bryon Walley",
                "Noam D. Pellume",
                "Dinah Kirkham"
            ],
            "author_key": [
                "OL25161A"
            ],
            "author_name": [
                "Orson Scott Card"
            ],
            "contributor": [
                "Jose Maria Rodelgo Antonio Sanchez (Translator)",
       

Преобразуем полученную структуру JSON в словарь Python

In [5]:
data = json.loads(responce.text)
print(data)

{'numFound': 12770, 'start': 0, 'numFoundExact': True, 'docs': [{'author_alternative_name': ['OrsonScottCard', 'card-orson-scott', 'Orson Scott Card', 'O Card', 'Orson Card', 'CARD Orson Scott', 'Orson S. Card', 'Card Orson Scott,', 'Kade', 'orson scott card', '. S Card', 'Orson Scott CARD', 'Orson Scott. Card', 'Orson SCOTT CARD', 'ORSON SCOTT CARD', 'Bryon Walley', 'Noam D. Pellume', 'Dinah Kirkham'], 'author_key': ['OL25161A'], 'author_name': ['Orson Scott Card'], 'contributor': ['Jose Maria Rodelgo Antonio Sanchez (Translator)', 'Rodelgo, Jose Maria', 'Card, Orson Scott', 'Stefan Rudnicki (Narrator)', 'Card, Orson Scott 1951-', 'Gabrielle De Cuir (Narrator)', 'Harlan Ellison (Narrator)', 'David Birney (Narrator)', 'Scott Brick (Narrator)', 'Antoniou, Maria, translator', 'Burgdorf, Karl-Ulrich Übersetzer', 'Sanchez, Antonio'], 'cover_edition_key': 'OL39824211M', 'cover_i': 12996033, 'ddc': ['813.6', '810', '813.54'], 'ebook_access': 'borrowable', 'ebook_count_i': 25, 'edition_count'

Выберем заголовок, автора и тему

In [6]:
books = data["docs"]
for book in books:
    print("Title: ", book["title"])
    print("Author: ", book["author_name"])
    print("Subject: ", book["subject"])
    print("\n")
    

Title:  Ender's Game
Author:  ['Orson Scott Card']
Subject:  ['New York Times bestseller', 'nyt:mass_market_paperback=2011-07-30', 'military education', 'end of the world', 'prize:nebula', 'hegemony', 'space warfare', 'child soldiers', 'The Ender Quintet', 'science fiction', 'automation', 'data processing', 'aliens', 'Military art and science', 'Hermanos', 'Maniobras de guerra', 'Brothers and sisters', 'Open Library Staff Picks', 'Genetic engineering', 'Fiction', 'Hugo Award Winner', 'award:hugo_award=novel', 'Ficción', 'Ciencia-ficción', 'award:hugo_award=1986', 'War games', 'Long Now Manual for Civilization', 'American Science fiction', "Children's stories, American", 'Artificial intelligence', 'Ender Wiggin (Fictitious character)', 'Reading Level-Grade 7', 'Reading Level-Grade 9', 'Reading Level-Grade 8', 'Reading Level-Grade 11', 'Reading Level-Grade 10', 'Reading Level-Grade 12', 'Wiggin, ender (fictitious character), fiction', 'Battle school (imaginary place), fiction', 'Fiction,

## Создание датафрейма

Воспользуемся бесплатным API биржи криптовалют _binance_ для получения котировок

<u>Задача:</u> Получить исторические котировки биткоина

In [7]:
import requests
import json
import pandas as pd
import datetime as dt

Из документации API на сайте узнаём конечную точку API (url) и какие параметры мы можем указать в запросе.

In [8]:
url = 'https://api.binance.us/api/v3/klines'
symbol = 'BTCBUSD' # выбираем биткоин
interval = '1h'    # запрашиваем изменение котировок через каждый час
start = str(int(dt.datetime(2021,1,1).timestamp() * 1000)) # начиная с 1 января 2021 года
end = str(int(dt.datetime(2021,12,1).timestamp() * 1000))  # по 1 декабря 2021 года

Помещаем требуемые параметры запроса в словарь

In [9]:
params = {
    'symbol': symbol,
    'interval': interval,
    'startTime': start,
    'endTime': end
}

И отправляем запрос к серверу методом GET

In [10]:
response = requests.get(url, params)
response.status_code

200

In [11]:
response.text

'[[1609452000000,"29037.77000000","29180.41000000","28941.25000000","29163.02000000","0.24616000",1609455599999,"7171.74783848",39,"0.16867600","4913.50051021","0"],[1609455600000,"29085.90000000","29139.72000000","28829.70000000","28974.06000000","0.59783300",1609459199999,"17343.33880123",46,"0.43568900","12645.30235553","0"],[1609459200000,"28966.70000000","29084.03000000","28766.37000000","29034.25000000","3.58281500",1609462799999,"103881.14776873",120,"2.75314300","79871.70340003","0"],[1609462800000,"29035.97000000","29521.33000000","29035.97000000","29443.25000000","7.58306600",1609466399999,"222440.57206249",190,"4.27068500","125141.85841164","0"],[1609466400000,"29467.47000000","29518.54000000","29196.49000000","29256.76000000","1.65098500",1609469999999,"48415.13348742",130,"0.84758500","24861.76117622","0"],[1609470000000,"29258.32000000","29408.95000000","29195.48000000","29354.01000000","1.43583200",1609473599999,"42125.58500593",84,"1.01987800","29926.40797902","0"],[160

In [12]:
json_res = json.loads(response.text)
json_res

[[1609452000000,
  '29037.77000000',
  '29180.41000000',
  '28941.25000000',
  '29163.02000000',
  '0.24616000',
  1609455599999,
  '7171.74783848',
  39,
  '0.16867600',
  '4913.50051021',
  '0'],
 [1609455600000,
  '29085.90000000',
  '29139.72000000',
  '28829.70000000',
  '28974.06000000',
  '0.59783300',
  1609459199999,
  '17343.33880123',
  46,
  '0.43568900',
  '12645.30235553',
  '0'],
 [1609459200000,
  '28966.70000000',
  '29084.03000000',
  '28766.37000000',
  '29034.25000000',
  '3.58281500',
  1609462799999,
  '103881.14776873',
  120,
  '2.75314300',
  '79871.70340003',
  '0'],
 [1609462800000,
  '29035.97000000',
  '29521.33000000',
  '29035.97000000',
  '29443.25000000',
  '7.58306600',
  1609466399999,
  '222440.57206249',
  190,
  '4.27068500',
  '125141.85841164',
  '0'],
 [1609466400000,
  '29467.47000000',
  '29518.54000000',
  '29196.49000000',
  '29256.76000000',
  '1.65098500',
  1609469999999,
  '48415.13348742',
  130,
  '0.84758500',
  '24861.76117622',
  '0

Значения полей узнаём из документации к API

Заворачиваем полученный результат в датафрейм:

In [13]:
df = pd.DataFrame(json_res)
df.columns = ['datetime', 'open', 'high', 'low', 'close', 'volume','close_time', 'qav', 'num_trades','taker_base_vol', 'taker_quote_vol', 'ignore']
df.head()

Unnamed: 0,datetime,open,high,low,close,volume,close_time,qav,num_trades,taker_base_vol,taker_quote_vol,ignore
0,1609452000000,29037.77,29180.41,28941.25,29163.02,0.24616,1609455599999,7171.74783848,39,0.168676,4913.50051021,0
1,1609455600000,29085.9,29139.72,28829.7,28974.06,0.597833,1609459199999,17343.33880123,46,0.435689,12645.30235553,0
2,1609459200000,28966.7,29084.03,28766.37,29034.25,3.582815,1609462799999,103881.14776873,120,2.753143,79871.70340003,0
3,1609462800000,29035.97,29521.33,29035.97,29443.25,7.583066,1609466399999,222440.57206249,190,4.270685,125141.85841164,0
4,1609466400000,29467.47,29518.54,29196.49,29256.76,1.650985,1609469999999,48415.13348742,130,0.847585,24861.76117622,0


In [14]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 12 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   datetime         500 non-null    int64 
 1   open             500 non-null    object
 2   high             500 non-null    object
 3   low              500 non-null    object
 4   close            500 non-null    object
 5   volume           500 non-null    object
 6   close_time       500 non-null    int64 
 7   qav              500 non-null    object
 8   num_trades       500 non-null    int64 
 9   taker_base_vol   500 non-null    object
 10  taker_quote_vol  500 non-null    object
 11  ignore           500 non-null    object
dtypes: int64(3), object(9)
memory usage: 47.0+ KB


Дата и время представлены в секундах, преобразуем её в привычный нам вид даты и времени:

In [15]:
df.index = [dt.datetime.fromtimestamp(x / 1000.0) for x in df.datetime]
df.head()

Unnamed: 0,datetime,open,high,low,close,volume,close_time,qav,num_trades,taker_base_vol,taker_quote_vol,ignore
2021-01-01 00:00:00,1609452000000,29037.77,29180.41,28941.25,29163.02,0.24616,1609455599999,7171.74783848,39,0.168676,4913.50051021,0
2021-01-01 01:00:00,1609455600000,29085.9,29139.72,28829.7,28974.06,0.597833,1609459199999,17343.33880123,46,0.435689,12645.30235553,0
2021-01-01 02:00:00,1609459200000,28966.7,29084.03,28766.37,29034.25,3.582815,1609462799999,103881.14776873,120,2.753143,79871.70340003,0
2021-01-01 03:00:00,1609462800000,29035.97,29521.33,29035.97,29443.25,7.583066,1609466399999,222440.57206249,190,4.270685,125141.85841164,0
2021-01-01 04:00:00,1609466400000,29467.47,29518.54,29196.49,29256.76,1.650985,1609469999999,48415.13348742,130,0.847585,24861.76117622,0


## Weather API

http://openweathermap.org/api