### Полезные команды pip

- `pip freeze`  # получение текущих версий пакетов,
- `pip install -r requirements.txt`  # установка из файла
- `pip install -U numpy`  # обновление
- `pip install git+https://github.com/teadove/teleout`  # установка с гита

## Сети. Модель OSI

Передача информации по сети между клиентом (устройством, запращивающим услугу) и сервером (устройстов, предоставляющим услугу) - сложный многоуровневый процесс. Для его работы требовалось стандартизировать и ввести соответсвующие протоколы для всех уровней взаимодействия устройств – от побитовой передачи до клиент-серверного взаимодействия. 

Для описания этого процесса придумали эталонную модель взаимодействия открытых систем OSI (Open Systems Interconnection reference model).

![image.png](data/osi-network-model-layers.svg)

К счастью, для разработки не требуется экспертное знание всех представленных протоколов. 

### UDP vs TCP
UDP быстрее, чем TCP, потому что пользователю не нужно разрешать или подтверждать получение данных перед отправкой следующего пакета. Поэтому через протокол UDP и установка соединения, и передача данных происходит быстрее.

## HTTP

На прикладном уровне представлены 2 протокола, часто используемых протокола в Backend разработке: WebSocket и HTTP (HyperText Transfer Protocol, протокол передачи гипертекста). 

О последнем мы поговорим более подробно. 

Протокол HTTP работает по принципу «запрос — ответ». Он создавался для передачи гипертекстовых документов формата HTML (веб-страницы), однако в настоящее время используется для обмена произвольными данными: графическими и видеофайлами, документами и т. д. В протоколе описаны виды запросов, правила формирования запросов и возможные варианты ответов на запросы.
.

### HTTP Requests

Структура HTTP Request:
1. Method (GET, POST, PUT, ...)
2. URI
3. Version (HTTP/1.1)
4. HTTP-заголовки (Headers)
5. Тело сообщения (опционально)
   
![image.png](data/http-message-anatomy.svg)

В протоколе HTTP описаны различные виды запросов (Requests): 
на получение данных (GET), на передачу данных (POST), на добавление и изменение данных (PUT), на удаление данных (DELETE) и др.

### HTTP Responce

![image](https://media.geeksforgeeks.org/wp-content/uploads/20210905094321/StructureOfAHTTPResponse-660x374.png)

Ответы (Responce в протоколе HTTP имеют коды состояния, которые представляют собой числовые значения. По коду состояния всегда можно определить, верно ли был обработан запрос или произошла ошибка.

![image.png](data/status_codes.png)

### Способы передачи данных

1. HTTP Query
![image.png](data/http_query.png)
2. Path Param

## JSON

JSON (JavaScript Object Notation) — стандартный текстовый формат для хранения и передачи структурированных данных. Он основан на синтаксисе объекта в JavaScript: данные представлены в виде пар ключ:значение (map) или набор значений (array)

Ключи - только строки.

Значения могут быть следующих типов:

Python|JSON
------|-----
dict|object
list, tuple|array
str|string
int, float|number
True|true
False|false
None|null

In [None]:
# чтение json из файла
import json

with open("example.json") as f:
    data = json.load(f)
data

In [None]:
# чтение json из строки
import json

data = json.loads('["key1", 123, null]')
print(data)

In [None]:
# запись в файл
import json

to_json = {"key1": "value1", "key2": "value2", "key3": "value3"}
with open("output.json", "w") as f:
    f.write(json.dumps(to_json))

In [None]:
# запись в json строку
import json

data = json.dumps('["key1", 123, null]')
print(data)

## Requests

In [None]:
# !pip install requests
import requests

r = requests.get("https://www.google.com/", params={"q": "Python за 5 секунд"})
r.request.url

In [None]:
r = requests.get("https://www.google.com/", params={"q": "Python за 5 секунд"}, headers={"accept": "application/json"})
r.request.headers

In [None]:
import requests

r = requests.get("https://www.google.com/")
for header in r.headers:
    print(f"{header}: {r.headers[header]}", end="\n\n")
print(r.status_code)

## BS4 для анализа контента страницы
****** 

Мы можем использовать библиотеку BeautifulSoup для разбора этого документа и извлечения текста из pтега.

Сначала нам нужно импортировать библиотеку и создать экземпляр BeautifulSoup класса для анализа нашего документа:

In [None]:
import requests
page = requests.get("https://dataquestio.github.io/web-scraping-pages/simple.html")
page.content

In [None]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(page.content, 'html.parser')

Теперь мы можем распечатать HTML-содержимое страницы, красиво отформатированное, используя prettify метод для BeautifulSoup объекта.

In [None]:
print(soup.prettify())

Этот шаг не является строго обязательным, и мы не всегда будем с ним связываться, но может быть полезно взглянуть на преттифицированный HTML, чтобы было легче увидеть структуру тегов и места их вложения.
Поскольку все теги вложены друг в друга, мы можем перемещаться по структуре по одному уровню за раз. Мы можем сначала выбрать все элементы на верхнем уровне страницы, используя childrenсвойство soup.

Обратите внимание, что childrenвозвращается генератор списка, поэтому нам нужно вызвать для него listфункцию:

In [None]:
list(soup.children)

Вышеизложенное говорит нам о том, что на верхнем уровне страницы есть два тега — начальный <!DOCTYPE html>тег и <html> тег. В списке также есть символ новой строки n. Давайте посмотрим, каков тип каждого элемента в списке:

In [None]:
[type(item) for item in list(soup.children)]

Как мы видим, все элементы являются BeautifulSoupобъектами:

* Первый — это Doctypeобъект, который содержит информацию о типе документа.
* Второй — это NavigableString, который представляет текст, найденный в HTML-документе.
* Последний элемент — это Tag объект, который содержит другие вложенные теги.

Наиболее важным типом объекта, с которым мы будем иметь дело чаще всего, является Tag объект.

Объект Tag позволяет нам перемещаться по HTML-документу и извлекать другие теги и текст. Вы можете узнать больше о различных BeautifulSoup объектах [здесь](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#kinds-of-objects).

Теперь мы можем выбрать html тег и его дочерние элементы, взяв третий элемент в списке:

In [None]:
html = list(soup.children)[2]

Каждый элемент в списке, возвращаемом children свойством, также является BeautifulSoup объектом, поэтому мы также можем вызывать children метод для html.

Теперь мы можем найти детей внутри html тега:

In [None]:
list(html.children)

Как мы видим выше, здесь есть два тега head, и body. Мы хотим извлечь текст внутри p тега, поэтому мы углубимся в тело:

In [None]:
body = list(html.children)[3]
list(body.children)

Теперь мы можем изолировать тег p:

In [None]:
p = list(body.children)[1]
p.get_text()

Как только мы изолировали тег, мы можем использовать get_text метод для извлечения всего текста внутри тега

#### Поиск всех экземпляров тега одновременно
То, что мы сделали выше, было полезно для выяснения того, как перемещаться по странице, но потребовалось много команд, чтобы сделать что-то довольно простое.

Если мы хотим извлечь один тег, мы можем вместо этого использовать find_all метод, который найдет все экземпляры тега на странице.
Обратите внимание, что find_all возвращается список

In [None]:
soup = BeautifulSoup(page.content, 'html.parser')
soup.find_all('p')

Если вместо этого вы хотите найти только первый экземпляр тега, вы можете использовать find метод, который вернет один BeautifulSoup объект:

In [None]:
soup.find('p')

#### Поиск тегов по классу и id
Мы представили классы и идентификаторы ранее, но, вероятно, было неясно, почему они были полезны.

Классы и идентификаторы используются CSS для определения того, к каким элементам HTML следует применять определенные стили. Но когда мы очищаем, мы также можем использовать их для указания элементов, которые мы хотим очистить.

Чтобы проиллюстрировать этот принцип, мы будем работать со следующей страницей:

In [None]:
page = requests.get("https://dataquestio.github.io/web-scraping-pages/ids_and_classes.html")
soup = BeautifulSoup(page.content, 'html.parser')
print(soup.prettify())

Мы можем использовать find_all метод для поиска элементов по классу или по идентификатору. В приведенном ниже примере мы будем искать любой p тег, который имеет класс outer-text:

In [None]:
soup.find_all('p', class_='outer-text')

Мы также можем искать элементы по id:

In [None]:
soup.find_all(id="first")

Мы также можем искать элементы с помощью селекторов CSS. Эти селекторы — это то, как язык CSS позволяет разработчикам указывать теги HTML для стиля. Вот некоторые примеры:

* p a — находит все a теги внутри p тега.
* body p a — находит все a теги внутри p тега внутри body тега.
* html body — находит все body теги внутри html тега.
* p.outer-text — находит все p теги с классом outer-text.
* p#first — находит все p теги с id first.
* body p.outer-text — находит любые p теги с классом outer-text внутри body тега.

Подробнее о селекторах CSS можно узнать [здесь](https://developer.mozilla.org/en-US/docs/Web/Guide/CSS/Getting_started/Selectors)

BeautifulSoup объекты поддерживают поиск на странице с помощью селекторов CSS с использованием select метода. Мы можем использовать селекторы CSS, чтобы найти все p теги на нашей странице, которые находятся внутри div вот так:

In [None]:
soup.select("div p")

https://tvil.ru

Разобраться с сайтом.
1) Получить 50 отелей в Владивостоке
2) Получить 25 отелей, доступных для бронирования с 14 по 15 декабря для 1 взрослого в Владивостоке
3) Сделать универсальное решение для п.2 (дата будет выбираться)

## Скоро тут появится бонусный раздел