# Взаимодействие с интернетом через Python

Базу по интернету мы разобрали, а значит пора выяснить, как работать с интернетом через Python

Для этого в питоне есть разные библиотеки, самые часто используемые это `urllib3` (включена в состав стандартной библиотеки питона) и `requests` (нужно устанавливать). В данном курсе мы будем рассматривать именно `requests`, так как она более высокоуровневая и простая в освоении и использовании. Тем не менее сначала нужно также разобраться с одной технологией, имеющей отношение к интернету

## Формат JSON

**JSON** (**J**ava**S**cript **O**bject **N**otation) это очень важный и популярный **текстовый** формат данных, который используется для хранения данных в виде ключ-значение. Он часто используется в интернете в теле HTTP запросов и ответов для общения клиента и сервера, но также широко используется и без применения к интернету.

Посмотрим на то, как выглядит формат JSON

```json
{
  "string": "Hello, world!",
  "number": 1234.56,
  "boolean": true,
  "null_value": null,
  "array": [
    "apple",
    "banana",
    "orange"
  ],
  "object": {
    "key1": "value1",
    "key2": "value2",
    "key3": {
      "nested_key1": "nested_value1",
      "nested_key2": "nested_value2"
    }
  }
}
```

JSON очень сильно похож на то, как устроены словари в питоне, но тем не менее, JSON объект зачастую не получится вставить напрямую в Python код и наоборот, так как некоторые различия всё-таки имеются:
1. Синтаксис JSON в целом более строгий, чем у питоновских словарей. Например, **в JSON нельзя использовать одинарные кавычки `'`, только двойные `"`**
2. **JSON имеет ограниченный набор данных, которые он умеет хранить**. Это строки, числа, логический тип, массивы, объекты и null

На самом деле JSON (как видно по расшифровке данной аббревиатуры) это один из способов создания **объектов** в JavaScript. Более того, в JavaScript и нет словарей в привычном нам виде, вместо них там используются эти объекты, которые создаются при помощи вот такого синтаксиса

Рассмотрим, что есть в формате JSON:
1. Фигурные скобки обозначают **объект** `{}`. Объект это набор пар ключ-значение.
2. Квадратные скобки обозначают **массив (array)** `[]`. Это упорядоченная последовательность значений или объектов
3. Есть непосредственно **значения**. Это могут быть **строки, числа, логический тип, массивы, объекты и null**. Запись значений логического типа отличается от питона (`true` и `false`, с маленькой буквы) и есть специальное значение `null` (это что-то вроде питоновского `None`)

Вложенность JSON может быть сколько угодно большой, перечисленные ранее значения можно комбинировать, как вам захочется

### Модуль json в Python

Так как мы работаем в Python, то мы хотим уметь **парсить** JSON формат для использования данных в нашем коде. Не трудно догадаться, что наша задача &mdash; сделать из JSON словарь.

Для этого в питоне все используют модуль `json` (из стандартной библиотеки) или `ujson` (более быстрый, но нужно устанавливать отдельно) 

In [1]:
import json

В модуле `json` нам интересны всего четыре функции:
1. `json.dump` &mdash; сохраняет словарь в **файл** в формате JSON
2. `json.dumps` &mdash; сохраняет словарь в **строку** в формате JSON. Это легко запомнить в таком виде `json.dumps`tring
3. `json.load` &mdash; парсит JSON **файл** и сохраняет результат в словарь
4. `json.loads` &mdash; парсит JSON **строку** и сохраняет результат в словарь. Это легко запомнить в таком виде `json.loads`tring

Проверим данные функции, используя пример формата выше

#### `json.loads`

Обе `json.loads` принимает один основной аргумент &mdash; строку в формате JSON

In [44]:
json_string = """
{
  "string": "Hello, world!",
  "number": 1234.56,
  "boolean": true,
  "null_value": null,
  "array": [
    "apple",
    "banana",
    "orange"
  ],
  "object": {
    "key1": "value1",
    "key2": "value2",
    "key3": {
      "nested_key1": "nested_value1",
      "nested_key2": "nested_value2"
    }
  }
}
"""

python_dict = json.loads(json_string)
python_dict

{'string': 'Hello, world!',
 'number': 1234.56,
 'boolean': True,
 'null_value': None,
 'array': ['apple', 'banana', 'orange'],
 'object': {'key1': 'value1',
  'key2': 'value2',
  'key3': {'nested_key1': 'nested_value1', 'nested_key2': 'nested_value2'}}}

Всё сработало, кроме того, мы видим, что `null` стал `None`, а `true` стала `True`, так как мы теперь в питоне

#### `json.dump`

`json.dump` принимает два основных аргумента:
1. Словарь, который мы хотим сохранить в JSON файл
2. Объект файла, в который мы хотим сохранить словарь

In [45]:
with open("example.json", "w") as file:
    json.dump(python_dict, file)

Код выполнился, можете открыть файл и посмотреть на содержимое

#### `json.load`

Теперь мы снова распарсим JSON, но на этот раз из получившегося в результате работы предыдущего кода **файла**

`json.load` принимает один основной аргумент &mdash; объект файла, который нужно распарсить

In [46]:
with open("example.json") as file:
    python_dict2 = json.load(file)

In [50]:
python_dict2 == python_dict   # Как мы видим, считывание из строки и файла даёт одинаковый результат

True

#### `json.dumps`

Обе `json.dumps` принимает один основной аргумент &mdash; питоновский словарь

In [53]:
json_string = json.dumps(python_dict2)
json_string

'{"string": "Hello, world!", "number": 1234.56, "boolean": true, "null_value": null, "array": ["apple", "banana", "orange"], "object": {"key1": "value1", "key2": "value2", "key3": {"nested_key1": "nested_value1", "nested_key2": "nested_value2"}}}'

Вот и всё, данный формат очень простой и с ним удобно работать. В жизни, если вы будете встречать формат JSON, а вы точно будете, вам будут попадаться огромные объекты, которые крайне трудно считывать визуально. Для этого на помощь вам приходя программы/сайты просмотрщики JSON файлов. Я, например, пользуюсь вот этим http://jsonviewer.stack.hu/. При копировании туда JSON текста он выдаёт вот такую интерактивную штуку

![image.png](attachment:8eff0cb2-62e5-484f-8704-a68b93ae711e.png)

## Библиотека **requests**

In [3]:
import requests

Данная библиотека, как следует из названия, позволяет нам отправлять HTTP запросы (ок, про HTTP из названия не следует, но вы поняли). Делается это очень просто

### Как делать простые запросы

Для того, чтобы сделать запрос при помощи определённого метода (GET, POST, PUT и т.д.) в библиотеке есть соответствующие функции. Все подобные функции работают по похожему шаблону и принимают URL первым аргументом. Зная это, мы уже можем делать простые запросы

In [5]:
requests.get("https://google.com")

<Response [200]>

### Объект `Response`

Результатом выполнения функций `requests.<method>` является объект ответа (`Response`). Из него мы в дальнейшем будем получать все интересующие нас данные

In [7]:
response = requests.get("https://google.com")
type(response)

requests.models.Response

Например, мы можем узнать статус-код ответа при помощи атрибута `status_code`. В нашем случае код 200, всё прошло успешно

In [8]:
response.status_code

200

Мы можем сделать несуществующий URL и получить статус-код 404, исключения в питоне при этом не выбрасывается

In [11]:
response = requests.get("https://google.com/some/path/that/does/not/exist")  
response.status_code

404

Но если неправильно написать имя хоста, то исключение всё-таки будет. Это происходит из-за того, что в коде выше запрос **успешно доходит** до сервера Google (так как имя хоста мы указали верно), но этот сервер не знает как обработать путь `some/path/that/does/not/exist`, поэтому он говорит нам, что такого ресурса нет. То есть сервер присылает нам обратно ответ с кодом **404**. Код ниже кидает исключение, так как имя хоста написано неверно, а значит наш запрос впринципе не может добраться до сервера Google, а значит ответ прислать тоже некому

In [13]:
response = requests.get("https://google.commm")  

ConnectionError: HTTPSConnectionPool(host='google.commm', port=443): Max retries exceeded with url: / (Caused by NewConnectionError('<urllib3.connection.HTTPSConnection object at 0x7fef7c4d8c10>: Failed to establish a new connection: [Errno -2] Name or service not known'))

Из ответа можно получить заголовки в виде словаря при помощи атрибута `headers`, что довольно удобно

In [4]:
response = requests.get("https://google.com")
response.headers

{'Date': 'Sat, 04 Mar 2023 00:11:30 GMT', 'Expires': '-1', 'Cache-Control': 'private, max-age=0', 'Content-Type': 'text/html; charset=ISO-8859-1', 'P3P': 'CP="This is not a P3P policy! See g.co/p3phelp for more info."', 'Content-Encoding': 'gzip', 'Server': 'gws', 'X-XSS-Protection': '0', 'X-Frame-Options': 'SAMEORIGIN', 'Set-Cookie': '1P_JAR=2023-03-04-00; expires=Mon, 03-Apr-2023 00:11:30 GMT; path=/; domain=.google.com; Secure, AEC=ARSKqsLRv5D2rBWNOUEmZdiDk-04ax6zcDmrnEHce4qgsBfcUZr5TiY7tw; expires=Thu, 31-Aug-2023 00:11:30 GMT; path=/; domain=.google.com; Secure; HttpOnly; SameSite=lax, NID=511=GwSVJt-EL5cFWX2iAvgfVO9NXc4hQIZAe5OYg50ctP-kz8SMBkcXC9vjJk_ef4FLlqVgbuL0GoXxY8CxKsWljmL-Qoe0OcLNvxKkDxWxxUJ3ZjPJjgI_WsC_Mk58y-fe23YGcBF2AwEs_z-wsnXzqtdYMXwzdxWQpe8VSPSdwSU; expires=Sun, 03-Sep-2023 00:11:30 GMT; path=/; domain=.google.com; HttpOnly', 'Alt-Svc': 'h3=":443"; ma=2592000,h3-29=":443"; ma=2592000', 'Transfer-Encoding': 'chunked'}

Но самое интересное для нас это атрибуты, которые позволяют работать с телом запроса:
1. `text` &mdash; тело ответа в текстовом виде. Альтернативно можно использовать итератор `.iter_lines()`
2. `content` &mdash; тело ответа в бинарном виде. Альтернативно можно использовать итератор `.iter_content()`
3. `json()` &mdash; возвращает словарь, если тело ответа в JSON формате 

In [26]:
response = requests.get("https://google.com")
response.text    # В большинстве случаев, в атрибуте text мы увидим HTML код страницы

'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="hy"><head><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="SncgDLXGktlD0oxb8V40JQ">(function(){window.google={kEI:\'MdIAZNLbNYrN1sQPkNyxqAc\',kEXPI:\'0,1359409,6059,206,4804,2316,383,246,5,1129120,1626,1196097,843,379925,16114,19398,9286,22431,996,365,12314,2820,14765,4998,13227,3848,6885,31559,889,704,1279,2891,1103,3036,7615,606,30668,30022,15756,3,346,230,6459,149,13975,4,1528,2304,27348,14778,13659,4437,9358,7428,5821,2536,4097,7593,1,11942,30212,2,39761,5679,1020,31122,4569,6255,23421,1252,5835,14967,4333,7484,445,2,2,1,6959,17667,2006,8155,7381,15969,874,7828,11806,6,1922,5784,3995,13880,6760,750,14764,6305,2007,18191,20137,14,82,4641,15565,1622,1778,4977,1746,2979,3652,4089,2425,1741,2328,578,3834,991,3030,426,4705,497,482,1411,20,3,867,136,2549,3954,766,12

URL может быть представлен в виде прямой ссылки на файл (не обязательно являющийся HTML страницей). В таком случае в `text` мы увидим содержимое файла

In [5]:
response = requests.get("https://raw.githubusercontent.com/psf/requests/main/README.md")
print(response.text)   # README.md из репозитория на GitHub

# Requests

**Requests** is a simple, yet elegant, HTTP library.

```python
>>> import requests
>>> r = requests.get('https://httpbin.org/basic-auth/user/pass', auth=('user', 'pass'))
>>> r.status_code
200
>>> r.headers['content-type']
'application/json; charset=utf8'
>>> r.encoding
'utf-8'
>>> r.text
'{"authenticated": true, ...'
>>> r.json()
{'authenticated': True, ...}
```

Requests allows you to send HTTP/1.1 requests extremely easily. There’s no need to manually add query strings to your URLs, or to form-encode your `PUT` & `POST` data — but nowadays, just use the `json` method!

Requests is one of the most downloaded Python packages today, pulling in around `30M downloads / week`— according to GitHub, Requests is currently [depended upon](https://github.com/psf/requests/network/dependents?package_id=UGFja2FnZS01NzA4OTExNg%3D%3D) by `1,000,000+` repositories. You may certainly put your trust in this code.

[![Downloads](https://pepy.tech/badge/requests/month)](https://pepy.tech/pr

Про метод `.json()` мы поговорим позже

### Работа с query string

Мы знаем, что с GET запросами можно также передавать данные в формате ключ-значение. Это делается при помощи **query string**.

Рассмотрим это на примере страницы с информацией о геноме *E.coli* с NCBI &mdash; `https://www.ncbi.nlm.nih.gov/genome/?term=Escherichia+coli`

Модуль `requests` позволяет нам оперировать параметрами из query sting двумя способами. Первый &mdash; просто включить query string в состав URL

In [56]:
response1 = requests.get("https://www.ncbi.nlm.nih.gov/genome/?term=Escherichia+coli")   # Это работает!!!
response1

<Response [200]>

Второй способ &mdash; передать функции для выполнения запроса словарь с параметрами при помощи аргумента `params`. При этом query string указывать в URL уже не нужно, а в процессе выполнения запроса библиотека сама составит query string из переданных параметров и сама подставит её в URL

In [58]:
response2 = requests.get("https://www.ncbi.nlm.nih.gov/genome", params={"term": "Escherichia+coli"})   # Это тоже работает
response2

<Response [200]>

Кстати, `+` и пробел в данной ситуации равнозначны, поэтому вот такая штука тоже будет работать

In [59]:
response3 = requests.get("https://www.ncbi.nlm.nih.gov/genome", params={"term": "Escherichia coli"})   # Это тоже работает
response3

<Response [200]>

### Аргументы POST запросов

Ненадолго отступим от темы, чтобы разобрать, как делаются POST запросы. POST запросы в отличии от GET часто несут какую-то полезную нагрузку (**payload**) в своём теле. Передача данных в POST запросе немного отличается от работы с query string

In [18]:
with open("Internet_part2.ipynb", "rb") as file:
    response = requests.post("https://www.ncbi.nlm.nih.gov/genome", params={"key": "value"},
                                                                    data={"data_key1": "data_value1"},
                                                                    json={"json_key1": ["json_value1", "json_value2"]},
                                                                    files={"file1": file})

В запросе выше печечислены все основные аргументы POST запроса в requests. NCBI скорее всего не сможет это обработать, но нам сейчас это и не нужно. Также все эти элементы редко комбинируются вместе

1. `params` это параметры для query string, с POST запросами так тоже можно, хоть и делается более редко
2. `data` это данные в формате ключ-значение, отличается от query string тем, что используется при отправке форм (про это будет отдельная лекция)
3. `json` - если мы хотим отправить данные в формате JSON, можно передать словарь
4. `files` - словарь с файлами, которые мы хотим отправить. **Файлы обязательно должны быть окрыты в режиме "rb"**

Через атрибут `request` объекта ответа мы можем посмотреть на то, что сформировалось и передалось на сервер после указания всех этих параметров

In [29]:
response.request.url   # Видим, что query sting составилась и корректно прикрепилась к URL

'https://www.ncbi.nlm.nih.gov/genome?key=value'

In [32]:
print(response.request.body[:1000])    # В теле запроса мы выдим особым образом записанные параметры из аргумента `data`, а также огромный пласт непонятных букв - это наш файл

b'--9193ab3cb1f98b08555eefe7c3dd467e\r\nContent-Disposition: form-data; name="data_key1"\r\n\r\ndata_value1\r\n--9193ab3cb1f98b08555eefe7c3dd467e\r\nContent-Disposition: form-data; name="file1"; filename="Internet_part1.ipynb"\r\n\r\n{\n "cells": [\n  {\n   "cell_type": "markdown",\n   "id": "0cbdd221-098f-4233-ad0e-ffb5eaf68cd2",\n   "metadata": {},\n   "source": [\n    "# \xd0\x98\xd0\xbd\xd1\x82\xd0\xb5\xd1\x80\xd0\xbd\xd0\xb5\xd1\x82"\n   ]\n  },\n  {\n   "attachments": {\n    "ea3262fb-e01a-4877-b59b-23c42fbaba44.png": {\n     "image/png": "iVBORw0KGgoAAAANSUhEUgAAAc8AAAG8CAYAAAC4zi5EAACAAElEQVR4Xuy9h58Vxbb+ff6X+7vHhOSJDDlHRVBAkCQZJQgIIiAZBQFBFAOGY0ZETJgISpKc85AzTN55T2K961nVtbu6du8JHD3X+97p+Tyfvad3d3V1VfX61qrU/6C6rW6r2+q2uq1uq9tqtf3D3lG31W11W91Wt9VtdVvVWx0867a6rW6r2+q2uq2WWx0867a6rW6r2+q2uq2WWx0867a6rW6r2+q2uq2WWx0867a6rW6r2+q2uq2WWx0867a6rW6r2+q2uq2Wmweed+/e9ehet5qEUdVvf5etJnGsyb3e62bnh981/PbVbf+3tqrKR932P7vV5Pn12/932P5O8UqVTnb62qrNVpvzcEyVnqcdkZqqug3HVFZWJo61z/eT32Yfcy+q2+q2/+1b

Тем не менее никакого JSON мы внутри не найдём, так как для корректной работы этого аргумента нельзя передавать аргументы `data` и `files`

In [31]:
response.request.headers    # Это не совсем относится к теме, но здесь видно, что когда мы делаем запрос из питона, то заголовок 'User-Agent' указывает, что мы использовали requests

{'User-Agent': 'python-requests/2.27.1', 'Accept-Encoding': 'gzip, deflate, br', 'Accept': '*/*', 'Connection': 'keep-alive', 'Content-Length': '7406510', 'Content-Type': 'multipart/form-data; boundary=9193ab3cb1f98b08555eefe7c3dd467e'}

### Back to query string

Уже на данном этапе для нас открываются очень широкие возможности. Например, мы можем составить **список** видов в питоне и в цикле получить соответствующие страницы из NCBI

In [67]:
species_list = ["Escherichia coli", "Homo sapiens", "Danio rerio"]
for species in species_list:
    response = requests.get("https://www.ncbi.nlm.nih.gov/genome", params={"term": species})
    print(response)

<Response [200]>
<Response [200]>
<Response [200]>


Круто! Но мало просто сделать удачный запрос, мы вообще то хотим получить какие-то данные из этих страниц

## "Наивный" парсинг веб страниц

На самом деле вам уже известно всё необходимое для того, чтобы вытащить из HTTP ответа нужную информацию:
1. Вы знаете, что в атрибуте `text` хранится тело ответа, представляющее из себя HTML страницу в данном случае. HTML это **текстовый формат**
2. Вы знаете, как найти, в каком именно HTML элементе хранится нужная информация
3. Вы знаете регулярные выражения, которые работают с **текстом**

Используя данные знания, попробуем вытащить со страницы каждого вида данную информацию

![image.png](attachment:72882c11-9c6c-4888-b017-cc4da0b5c469.png)

При этом нас будут интересовать только цифры

Предварительно изучим HTML код данных элементов через Chrome Developer Tools, на этот раз без скриншотов, попробуйте сами

Первым делом напишем регулярки для каждого из трёх чисел. Это будет намного проще, чем пытаться написать одну, которая сразу поймает все три значения

In [83]:
import re


total_length_pattern = re.compile(r"median total length \(Mb\)\: ([\d\.]+)")
median_protein_count_pattern = re.compile(r"median protein count\: (\d+)")
median_gc_pattern = re.compile(r"median GC%\: ([\d\.]+)")

То есть мы нашли какую-то общую закономерность в отображении этих статистик и теперь используем этот шаблон в регулярках

In [86]:
species_list = ["Escherichia coli", "Homo sapiens", "Danio rerio"]
for species in species_list:
    response = requests.get("https://www.ncbi.nlm.nih.gov/genome", params={"term": species})    # Делаем запрос также как и раньше
    
    total_length = float(re.search(total_length_pattern, response.text).group(1))     # Производим поиск по регулярке в атрибуте text ответа
    median_protein_count = int(re.search(median_protein_count_pattern, response.text).group(1))
    median_gc = float(re.search(median_gc_pattern, response.text).group(1))
    
    print(f"Length of {species} genome is {total_length} Mbp")
    print(f"Median number of proteins in {species} is {median_protein_count}")
    print(f"Median GC of {species} genome is {median_gc}%")
    print()

Length of Escherichia coli genome is 5.10155 Mbp
Median number of proteins in Escherichia coli is 4725
Median GC of Escherichia coli genome is 50.6%

Length of Homo sapiens genome is 2866.14 Mbp
Median number of proteins in Homo sapiens is 87306
Median GC of Homo sapiens genome is 40.4%

Length of Danio rerio genome is 1405.1 Mbp
Median number of proteins in Danio rerio is 57100
Median GC of Danio rerio genome is 36.9%



Круто, всё получилось. При помощи питона и базовых знаний интернета мы смогли достать из веб страницы нужную нам информацию, даже если такая возможность не была продумана разработчиком сайта. При помощи такого подхода можно **парсить** любые **статичные** HTML страницы

❗Тем не менее в реальной жизни иногда всё бывает не так радужно, как в этом примере. Веб страницы бывают совершенно непредсказуемы и практически к каждой нужен свой индивидуальный подход через пробы и ошибки. [**Web scraping**](https://ru.wikipedia.org/wiki/%D0%92%D0%B5%D0%B1-%D1%81%D0%BA%D1%80%D0%B5%D0%B9%D0%BF%D0%B8%D0%BD%D0%B3), как называется это занятие, это в первую очередь очень исследовательский процесс. Тем не менее, если вы своими глазами видите какую-то информацию на сайте, то в 99.99% случаев её можно достать при помощи питона, вопрос только в том, сколько усилий для этого потребуется

NCBI в этом плане довольно дружелюбный, на нём удобно практиковаться

## Библиотека beautifulsoup

Но, очевидно, что парсинг страниц через регулярные выражения это довольно непростое занятие. Ведь наверняка кто-то уже написал библиотеку, которая сильно облегчает работу? Да, это библиотека `beautifulsoup`

Библиотеку нужно установить (посмотрите как, [в документации](https://beautiful-soup-4.readthedocs.io/en/latest/)), а также она требует установить какую-нибудь библиотеку-парсер (нам не важно, что это такое), можно взять `lxml`

Здесь мы рассмотрим только самые основные возможности этой библиотеки, а они довольно широкие. Нам понадобится всего один основной класс - `BeautifulSoup`

In [4]:
import requests
from bs4 import BeautifulSoup

При помощи данного класса и текста HTML страницы мы создаём специальный объект. Я не в курсе конвенций по его названию, но я привык называть его просто **суп**.

Для создания супа передаём в конструктор класса:
1. HTML страницу, это может быть строка или файл (открытый). Также можно и нужно при возможности передавать строку в бинарном виде, в таком случае повышается вероятность корректного распознавания парсером необычных символов
2. Имя используемого парсера (в детали вникать не будем, просто используем `lxml`, который мы установили)

В этом разделе мы будем работать с страницей https://www.ncbi.nlm.nih.gov/genome/?term=Escherichia+coli

In [12]:
response = requests.get("https://www.ncbi.nlm.nih.gov/genome", params={"term": "Escherichia coli"})
soup = BeautifulSoup(response.content, "lxml")

Мы создали **суп** из нашей странички, что же он умеет?

### Поиск по странице

Это самое основное, чем нам предстоит пользоваться. Искать элементы можно по чему угодно:
+ По тегу
+ По тексту внутри тега
+ По наличию атрибутов
+ По значению атрибутов
+ Комбинировать разные подходы

Для того, чтобы найти все элементы на странице, соответствующие определённому фильтру, мы можем использовать метод супа `find_all`. Есть и другие методы для поиска, которые работают по похожей логике, но `find_all` самый часто используемый

#### **Поиск по тегу**

In [18]:
soup.find_all("b")     # Получаем все элементы со страницы, образованные тэгом b

[<b><span class="username" id="uname_long">username</span></b>,
 <b>Escherichia coli</b>,
 <b>Reference genome: </b>,
 <b>All 33534 genomes for species: </b>,
 <b>33534</b>,
 <b>17945</b>,
 <b>7181</b>,
 <b><i>Escherichia coli</i></b>,
 <b>Sequence data:</b>,
 <b>Statistics:</b>,
 <b>Reference genomes:</b>,
 <b><i>Escherichia coli str. K-12 substr. MG1655</i></b>,
 <b>Submitter: </b>,
 <b>Morphology: </b>,
 <b>Environment: </b>,
 <b><i>Escherichia coli O157:H7 str. Sakai</i></b>,
 <b>Submitter: </b>,
 <b>Morphology: </b>,
 <b>Environment: </b>,
 <b>Phenotype: </b>]

#### **Поиск по значению атрибута**

Попробуем найти ID этого вида по атрибуту, в коде это выглядит вот так

![image.png](attachment:ba8e430e-065c-4f48-981c-d225904b9422.png)

In [44]:
soup.find_all(class_="Right")    # Можно написать так

[<div class="Right">
             ID:
             167</div>]

In [45]:
soup.find_all(attrs={"class": "Right"})    # Или так, разницы никакой

[<div class="Right">
             ID:
             167</div>]

#### **Поиск по наличию атрибута**

Для этого при поиске нужно передать аргумент `attr=True` или `attr=False` в зависимости от того, хотим ли мы найти элементы с атрибутом `attr` или без него

In [54]:
soup.find_all("p", class_=True)    # Данная запись позволяет получить все элементы, образованные тэгом p, у которых ИМЕЕТСЯ атрибут class

[<p class="nojs">
 	The NCBI web site requires JavaScript to function. 
 	<a href="/guide/browsers/#enablejs" target="_blank" title="Learn how to enable JavaScript">more...</a>
 </p>,
 <p class="res_tagline">Information by organism</p>,
 <p class="hidden" id="submenu_File_hint"></p>,
 <p class="hidden" id="submenu_AddToClipboard_hint"></p>,
 <p class="hidden" id="submenu_AddToCollections_hint"></p>,
 <p class="HTOn">Your browsing activity is empty.</p>,
 <p class="HTOff">Activity recording is turned off.</p>,
 <p class="HTOff" id="turnOn">
 <a cmd="HTOn" href="?cmd=HTOn&amp;" id="EntrezSystem2.PEntrez.Genome2.Genome2_ResultsPanel.HistoryDisplay.HistoryOn" name="EntrezSystem2.PEntrez.Genome2.Genome2_ResultsPanel.HistoryDisplay.HistoryOn" onclick="return false;" realname="EntrezSystem2.PEntrez.Genome2.Genome2_ResultsPanel.HistoryDisplay.HistoryOn" sid="1">Turn recording back on</a>
 </p>,
 <p class="address_footer text-white">National Library of Medicine<br/>
 <a class="text-white" href=

#### **Поиск по нескольким фильтрам**

Можно использовать несколько фильтров для поиска, в таком случае просто передаём список в качестве аргумента

In [60]:
soup.find_all(["p", "a"], id=["turnOn", "tree_id"])   # Все элементы, образованные тэгами а и p, у которых атрибут id равен или "turnOn" или "tree_id"

[<a id="tree_id"></a>,
 <p class="HTOff" id="turnOn">
 <a cmd="HTOn" href="?cmd=HTOn&amp;" id="EntrezSystem2.PEntrez.Genome2.Genome2_ResultsPanel.HistoryDisplay.HistoryOn" name="EntrezSystem2.PEntrez.Genome2.Genome2_ResultsPanel.HistoryDisplay.HistoryOn" onclick="return false;" realname="EntrezSystem2.PEntrez.Genome2.Genome2_ResultsPanel.HistoryDisplay.HistoryOn" sid="1">Turn recording back on</a>
 </p>]

#### **Поиск по функции**

Данный тип поиска позволяет нам буквально искать элементы, для которых переданная функция выдаст True

Код ниже позволяет нам найти все ссылки (тэг **a**), которые ведут на GenBank (атрибут **href**)

In [71]:
soup.find_all("a", href=lambda x: x.startswith("/nuccore") if x else False)

[<a href="/nuccore/NC_000913.3" target="_blank">NC_000913.3</a>,
 <a href="/nuccore/U00096.3" target="_blank">U00096.3</a>,
 <a href="/nuccore/NC_002695.2" target="_blank">NC_002695.2</a>,
 <a href="/nuccore/BA000007.3" target="_blank">BA000007.3</a>,
 <a href="/nuccore/NC_002127.1" target="_blank">NC_002127.1</a>,
 <a href="/nuccore/AB011548.2" target="_blank">AB011548.2</a>,
 <a href="/nuccore/NC_002128.1" target="_blank">NC_002128.1</a>,
 <a href="/nuccore/AB011549.2" target="_blank">AB011549.2</a>,
 <a class="brieflinkpopperctrl" href="/nuccore?LinkName=genome_nuccore&amp;from_uid=167" ref="log$=recordlinks">Components</a>]

In [91]:
soup.find_all(lambda tag: len(tag.attrs) == 9)   # Все элементы, имеющие ровно 8 атрибутов

[<input autocomplete="off" class="jig-ncbiclearbutton jig-ncbiautocomplete" data-jigconfig="dictionary:'genome',disableUrl:'NcbiSearchBarAutoComplCtrl'" data-sbconfig="ds:'no',pjs:'yes',afs:'yes'" id="term" name="term" title="Search Genome. Use up and down arrows to choose an item from the autocomplete." type="text" value="escherichia coli[orgn]"/>]

Короче вы поняли у нас есть несколько вариантов того, **по чему мы ищем**:
1. Тэг
2. Атрибут

И есть куча вариантов, того, **как мы это ищем**:
1. По точному совпадению
2. По наличию (если имеется, то *True*, иначе `False`)
3. Используя функцию (ищется то, для чего функция выдаёт *True*)
4. Используя список (фильтры внутри списка взаимодействуют через логическое ИЛИ)
5. Используя регулярные выражения (это мы не обсуждали)
6. Используя точное совпадение текста внутри тэга (про это будет позже)

Всё это можно как угодно комбинировать для получения нужного результата

#### **Работа с результатом поиска**

Давайте найдём все ссылки на странице, ссылки образуются при помощи тэга **a**

In [93]:
all_links = soup.find_all("a")
len(all_links)

165

Ссылкок нашлось много, можете распечатать переменную `all_links` из предыдущей ячейки, чтобы на это посмотреть. Но что это и что там лежит? Для простоты будем считать, что `all_links` это список, хотя это не так. Внутри у него находятся все найденные элементы, как же представлены они?

Методы супа для поиска, как правило, возвращают нам специальные объекты с которыми удобно работать. В данном случае список `all_links` содержит объекты `Tag`, каждый из которых представляет из себя один найденный элемент, посмотрим, что он умеет

In [94]:
element = all_links[20]
type(element)

bs4.element.Tag

Мы можем просто распечатать этот элемент и посмотреть на него в первозданном виде

In [95]:
element

<a href="https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/005/845/GCF_000005845.2_ASM584v2/GCF_000005845.2_ASM584v2_genomic.gff.gz">GFF</a>

Далее при помощи различных атрибутов мы можем разбирать его на составные части

In [96]:
element.attrs    # Словарь с атрибутами элемента

{'href': 'https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/005/845/GCF_000005845.2_ASM584v2/GCF_000005845.2_ASM584v2_genomic.gff.gz'}

In [97]:
element.text   # Текст, заключенный между открывающим и закрывающим тегами

'GFF'

In [98]:
element.name   # Имя тэга

'a'

При этом самое крутое, что все объекты представляющие элементы в супе очень самостоятельны:
1. Мы можем найти какой-то элемент, а затем произвести новый поиск уже внутри него при помощи тех же самых методов (например, `find_all`)
2. Когда мы получаем объект элемента, он сохраняет связь с остальной страницей, поэтому мы можем использовать специальные атрибуты для **навигации**, чтобы получить его родителя или, наоборот, вложенные в него объекты

Давайте получим родительский элемент для элемента, с которым мы работаем

In [99]:
element.parent

<span class="shifted">Download genome annotation in  <a href="https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/005/845/GCF_000005845.2_ASM584v2/GCF_000005845.2_ASM584v2_genomic.gff.gz">GFF</a>, <a href="https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/005/845/GCF_000005845.2_ASM584v2/GCF_000005845.2_ASM584v2_genomic.gbff.gz">GenBank</a> or <a href="https://www.ncbi.nlm.nih.gov/genome/browse/#!/proteins/167/161521|Escherichia coli str. K-12 substr. MG1655/">tabular</a> format</span>

Мы получили родительский элемент, мы видим, что помимо нашего элемента в него включены ещё два, это его **сестринские элементы** (они находятся с ним на одном уровне вложенности), их тоже можно получить

In [106]:
list(element.previous_siblings)    # Это previous_siblings возвращает генератор

['Download genome annotation in  ']

In [105]:
list(element.next_siblings)

[', ',
 <a href="https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/005/845/GCF_000005845.2_ASM584v2/GCF_000005845.2_ASM584v2_genomic.gbff.gz">GenBank</a>,
 ' or ',
 <a href="https://www.ncbi.nlm.nih.gov/genome/browse/#!/proteins/167/161521|Escherichia coli str. K-12 substr. MG1655/">tabular</a>,
 ' format']

Если мы работаем с элементом, у которого есть вложенные элементы, то по ним тоже можно совершать навигацию.

Сначала получим все таблицы (тэг `table`)

In [108]:
all_tables = soup.find_all("table")
print(len(all_tables))

6


Всего на странице шесть таблиц, возьмём любую из них

In [109]:
table = all_tables[4]

Таблицы в HTML всегда имеют много разных вложенных элементов, основные это:
+ **thead** (table head) - шапка таблицы (строка с названиями колонок)
+ **tbody** (table body) - тело таблицы (все остальные ячейки)
+ **tr** (table row) - строка таблицы
+ **td** (table data?) - ячейка таблицы
+ **th** (table header) - ячейка-заголовок (имя колонки или строки)

Дочерние элементы можно получить при помощи атрибута `children`, это также генератор

In [114]:
[tag.name for tag in table.children]    # "Дети" таблицы

['thead', 'tbody']

In [116]:
[tag.name for tag in list(table.children)[-1]]   # "Дети" тела таблицы это строки

['tr', 'tr', 'tr', 'tr', 'tr', 'tr']

Но такая навигация удобна только для близких друг к другу элементов. Если я хочу получить все значения из ячеек этой таблицы, то удобнее воспользоваться поиском, он работает для всех объектов в beautifulsoup, которые представляют из себя элементы, в том числе для найденной нами ранее таблицы

In [118]:
table.find_all("td")

[<td><span title="chromosome">Chr</span></td>,
 <td>-</td>,
 <td><a href="/nuccore/NC_002695.2" target="_blank">NC_002695.2</a></td>,
 <td><a href="/nuccore/BA000007.3" target="_blank">BA000007.3</a></td>,
 <td>5.5</td>,
 <td>50.5</td>,
 <td><a href="https://www.ncbi.nlm.nih.gov/genome/browse/#!/proteins/167/409151|Escherichia coli O157:H7 str. Sakai/chromosome/" style="color:navy">5,067</a></td>,
 <td>22</td>,
 <td>103</td>,
 <td>1</td>,
 <td>5,329</td>,
 <td>136</td>,
 <td colspan="99"><div id="167_1_div"></div></td>,
 <td><span title="plasmid">Plsm</span></td>,
 <td>pOSAK1</td>,
 <td><a href="/nuccore/NC_002127.1" target="_blank">NC_002127.1</a></td>,
 <td><a href="/nuccore/AB011548.2" target="_blank">AB011548.2</a></td>,
 <td>0</td>,
 <td>43.4</td>,
 <td><a href="https://www.ncbi.nlm.nih.gov/genome/browse/#!/proteins/167/409151|Escherichia coli O157:H7 str. Sakai/plasmid pOSAK1/" style="color:navy">3</a></td>,
 <td>-</td>,
 <td>-</td>,
 <td>-</td>,
 <td>3</td>,
 <td>-</td>,
 <td co

#### **Практика**

Используя полученные знания по beautifulsoup попробуем получить в питоне вот этот текст

![image.png](attachment:b352de98-cd6d-4188-af79-2fcd086231fe.png)

Здесь всё немного осложняется тем, что этот текст не выделен в отдельный тег

![image.png](attachment:43d3e601-226f-4b67-a89e-2d61c8a09caf.png)

Будем разбираться, сначала сделаем суп

In [120]:
response = requests.get("https://www.ncbi.nlm.nih.gov/genome", params={"term": "Escherichia coli"})
soup = BeautifulSoup(response.content, "lxml")

##### **1 вариант** 

Так как наш текст не заключён ни в какой тэг, у нас не получится найти его напрямую. Поэтому давайте попробуем найти родительский тэг `div`, а потом уже вытащим оттуда наш текст

In [123]:
div = soup.find_all("div", class_="MainBody")[0]

Наш текст является 4 по счёту "ребёнком" в данном элементе (после `div`, `table` и `b`)

In [125]:
list(div.children)[3]

'. This organism is typically present in the lower intestine of humans, where it is the dominant facultative anaerobe present, but it is only one minor constituent of the complete intestinal microflora. E.coli is easily grown in a laboratory setting and is readily amenable to genetic manipulation making it one of the most '

Готово, но можно было и по-другому

##### **2 вариант** 

Перед нашим текстом следует название вида, выделенное жирным и курсивом, при этом мы знаем точный текст, так как мы знаем название вида.

Отфильтровать элементы по точному совпадению текста внутри тегов можно при помощи ещё одного аргумента метода `find_all` - `string`

In [132]:
soup.find_all("b", string="Escherichia coli")    # Ищем все теги b внутри которых есть текст "Escherichia coli"

[<b>Escherichia coli</b>, <b><i>Escherichia coli</i></b>]

Такой тэг не один. Можно или просто взять второй результат (они возвращаются в порядке следования на странице) или модифицировать запрос, чтобы оставить только один. Реализуем последний вариант

Код ниже ищет все теги `b`, у которых первый дочерний элемент это `i`, а внутри есть текст "Escherichia coli"

In [134]:
ecoli_elements = soup.find_all(lambda tag: tag.name == "b" and next(tag.children).name == "i", string="Escherichia coli")
ecoli_elements

[<b><i>Escherichia coli</i></b>]

Это нам уже подходит. Кроме того, мы знаем, что искомый текст это следующий сестринский элемент по отношению к найденному только что. Мы с вами уже знаем, как получать сестринские элементы

In [136]:
ecoli_elements[0].next_sibling    # Успех

'. This organism is typically present in the lower intestine of humans, where it is the dominant facultative anaerobe present, but it is only one minor constituent of the complete intestinal microflora. E.coli is easily grown in a laboratory setting and is readily amenable to genetic manipulation making it one of the most '

#### **Стратегия поиска**

Можно придумать ещё миллион различных способов найти этот текст, но обычно при поиске следует придерживаться некоторых принципов:
1. Самый базовый принцип, ваш способ должен быть устойчивым к небольшим изменениям на странице и стабильно работать с ращличными страницами, построенными по одному плану. Чтобы обеспечить выполнение данного принципа стоит придерживаться вытекающих отсюда правил
2. Чем меньше раз вы используете `find_all` в процессе поиска, тем более устойчивым к изменениям будет ваш алгоритм. В идеале нужно стараться найти нужный элемент за один вызов
3. Чем меньше, количество элементов на которые вы опираетесь, тем лучше. Очевидно, что поиск через `list(element.parent.parent.next_sibling.children)[2]` легко может сломаться на какой-то другой странице, так как мы зависим от целых 5 элементов (`element`, `element.parent`, `element.parent.parent`, `element.parent.parent.next_sibling` и list(element.parent.parent.next_sibling.children)[2]). Данные элементы могут немного варьироваться от страницы к странице, поэтому изменения в любом из них могут сломать весь алгоритм поиска. Чем меньше у вас таких опасных точек, тем лучше
4. Стоит очень осторожно проихводить поиск по точным совпадениям

Данные правила применимы только к ситуации, когда вам нужно распарсить много однотипных страниц (например, 1000 видов с NCBI). Если вам нужна только одна страница и не нужна воспроизводимость, то тогда можно делать так, как вам удобнее и быстрее

# API

## Определение

**API** (**A**pplication **P**rogramming **I**nterface) это **крайне важное** понятие в программировании в целом, поэтому мы сначала разберёмся в том, что это такое, а потом рассмотрим это в применении к интернету

[Формальное определение](https://ru.wikipedia.org/wiki/API) говорит, что **API** это "описание способов взаимодействия одной компьютерной программы с другими". Звучит как-то слишком обще

Вместо этого давайте посмотрим на саму аббревиатуру и разберём её по словам:
1. **Application** &mdash; приложение в самом широком смысле. Это может быть какая-то ваша программа, скачанная библиотека, веб сервис и т.д.
2. **Programming** в данном случае означает, что мы работаем с кодом, другого особого смысла это слово здесь не несёт
3. **Interface**. А это уже ключевое слово и мы с вами даже знаем, что это такое (см. лекцию по ООП часть 2). Интерфейс это некоторый набор **методов**, иначе говоря, некоторых **действий**, которые мы можем совершать. **Интерфейс** нашего **приложения** это то, что оно умеет делать.

Теперь попробуем собрать всё это воедино и соотнести с формальным определением. Программам (приложениям) постоянно приходится общаться друг с другом, например, файловый менеджер как-то взаимодействует с файловой системой, `seaborn` взаимодействует с `pandas`, гугл-таблицы взаимодействуют с гугл-документами и т.д. Но для того, чтобы приложения общались друг с другом, их ещё сначала надо "научить" этому. Это "обучение" происходит путём создания специального **интерфейса** в приложениях, который могут использовать другие приложения. То есть мы определяем специальные **действия**, благодаря которым приложения могут общаться.

Пример:
У нас есть два приложения: голый Python без модулей и файловая система вашей ОС.

Задача: "научить" питон взаимодействовать с файловой системой (просматривать, удалять, копировать, перемещать файлы и папки)

Очевидно, что голый питон не способен осуществлять все эти задачи, поэтому он не может полноценно общаться с файловой системой. Для того, чтобы он научился это делать, нам необходимо создать **интерфейс** для этого взаимодействия с обеих сторон, то есть какой-то набор действий.

Со стороны питона таким **API** выступает модуль `os`, который задаёт действия по взаимодействию с файловой системой. Если представить, что файловая система это некоторый black box, то модуль `os` это ручки, которые торчат из чёрного ящика наружу и позволяют нам с ним взаимодействовать.

Со стороны файловой системы тоже есть свой API, но его может использовать не только питон, но и другие программы. Примеры: (1) bash команда *ls* использует API файловой системы, файловый менеджер с GUI использует API файловой системы, браузер, когда вы скачиваете или загружаете файл, предлагает вам выбрать файл/папку для загрузки, это тоже использование API файловой системы.

Другие же программы уже могут использовать API питона, например, ваш код в любой домашке. Когда вы пишите на питоне, вы автоматически используете его API. Питон же в свою очередь написан на C, а значит для выполнения многих функций из питона под капотом используется API языка C для взаимодействия с питоном

И так можно продолжать до бесконечности. Весь софт, который мы используем, взаимодействует друг с другом при помощи определённых наборов действий, это и есть **API**

## Больше примеров

Понятие API довольно размытое и неинтуитивное. Оно лучше всего осознаётся при помощи пропускания через свою голову большого количества примеров 

### Библиотеки Python

Если вы хотя бы раз заходили в официальную документацию Python библиотек (я надеюсь). Вы 100% видели там раздел *API* или *API reference*

**в pandas**

![API1.png](attachment:344dd7e2-41b3-46ee-8111-d7866ad76b49.png)

**в biopython**

![API2.png](attachment:1b04e9e4-85d0-4c1b-9429-9bdbf84d9852.png)

**в matplotlib**

![API3.png](attachment:9f088937-c2c4-4945-9343-6d0a5056011f.png)

**короче, везде**

В этих разделах описывается **API** библиотек, то есть то, что они умеют делать. Зачастую это просто длинный список функций и классов, где для каждой функции/класса описывают аргументы, возвращаемые значения и т.д. (то есть буквально описание интерфеса). API библиотек создано для того, чтобы библиотеки могли взаимодействовать с нашим кодом. Если бы в модуле `requests` были только низкоуровневые функции, представляющие его внутренние "кишки", то он был бы гораздо менее полезен. Разработчики знают об этом, поэтому создали удобный API &mdash; функции `requests.<method>`, которые предоставляют нам интерфейс для взаимодействия с "кишками" request, при этом позволяя нам абстрагироваться от внутреннего устройства библиотеки 

### Низкоуровневые API

Или вот пример ещё более низкоуровнего API &mdash; https://www.kernel.org/doc/html/v4.14/filesystems/index.html. Это API для взаимодействия файловых систем с ядром ОС

Драйверы для "железа" это тоже API

По сути API есть у любого ПО, которое хоть как-то открыто к взаимодействию

## API в интернете

### Теория

API в применении к интернету несёт все те же общие черты, что мы разобрали ранее. К этому моменту у вас уже должно было сформироваться примерное понимание того, что такое API в общем смысле

API в интернете это также набор каких-то действий, которые мы можем совершать для взаимодействия с каким-либо сервисом. Отличается тут только способ, при помощи которого мы используем этот API

Для работы с интернет API мы должны будем делать **запросы** и очень круто, что мы их уже умеем делать.

Многие популярные сервисы имеют свои API, для примера возьмём тот же GitHub

Допустим, что нам пришла в голову мысль собрать статистики по коммитам со всех репозиториев, где есть Python код. Это вполне выполнимая задача, мы с вами уже умеем парсить страницы и разбираться в структуре URL. Эта задача займёт у нас довольно много времени, но она выполнима. В то же время разработчики GitHub понимают, что кому-то может потребоваться подобная информация или быть может кто-то захочет автоматизировать создание репозиториев, форков, коммитов, что тоже реализуемо разобранными нами методами, но это уже переходит в разряд очень сложных задач. Для таких случаев разработчики GitHub сделали специальный API, который позволяет нам сэкономить кучу времени, так как разработчики уже реализовали для нас весь необходимый функционал.

Как же подобный API работает?

Разработчики отводят ряд определённых URL под API. То есть у сайта появляются специальные URL, при обращении к которым мы будем получать желаемый результат. Такие URL называются **API endpoints**. Рассмотрим на примере (пример выдуманный):

1. Разработчики (гитхаба) определяют специальный URL путь, который будет отвечать за все запросы к API. Например, `https://github.com/api`. То есть все запросы вида `https://github.com/api/<something_else>` будут обращаться непосредственно к GitHub API
2. Далее разработчики добавляют в API функционал. Например, "получить список коммитов для указанного пользователя". Обычно в API такой функционал называют **методом**. В документации к API всегда подробно написано, как работать с данным методом. Вернёмся к методу для получения списка коммитов, назовём его `getCommitsList`. API веб сервисов, как правило, не расчитан на использование с конкретным языком программирования, поэтому зачастую там будут общие формулировки, применимые к любому языку, который умеет делать HTTP запросы. Например, для нашего метода может быть написано что-то в духе "make GET request to the endpoint `https://github.com/api/getCommitsList`. Possible parameters are: `user` (required), `numCommits` (optional, default=5)". Опять же это максимально общее объяснение без привязки к языку, давайте переведём это в понятный нам Python код.

```python
response = requests.get("https://github.com/api/getCommitsList", params={"user": "torvalds", "numCommits": 5})
```
    
Мы всё сделали:
+ Запрос к указанному в документации **endpoint**
+ Это GET запрос
+ Мы указали желаемые параметры запроса (в случае GET запросов, когда мы говорим о параметрах, то почти всегда имеем ввиду имеено query string)

и получили желаемый результат в виде HTTP ответа.

Как правило ответы от API представлены в формате JSON, так как он хорошо подходит для структурирования данных

У очень многих популярных сервисов есть свои API и их легко найти в интернете, например, просто набрать в поиске "YouTube API" или "Telegram API"

### Практика

Рассмотрим на примере взаимодействие с конкретным API, для этого мы посетим репозиторий https://github.com/public-apis/public-apis, где собрано огромное количество ссылок на сервисы с публичными API.

Здесь важно упомянуть, что многие API требуют для использования специальный токен - API Key. Это совершенно нормальная практика, которая позволяет авторам API регулировать трафик. Для получения API токена обычно надо зарегистрироваться, оставить заявку, сделать запрос на определённый URL, заплатить и т.д. Для простоты здесь мы рассмотрим API не требующий токена, но не пугайтесь, если вдруг когда-то такое увидите

Рассмотрим это на примере простого API, которое позволяет получать картинки котиков https://cataas.com/#/. У данного API есть довольно приятное и понятное описание с примерами (такое, к сожалению, бывает не всегда).

Прочитав документацию мы выясним, что в ней для разных действий указаны разные URL (это **endpoints**), причём они указаны в виде **путей**. Изучив документацию мы поймём, что данные пути должны "приклеиваться" к запросам на базовый URL - https://cataas.com. В данной документации нет явного разделения на **методы**, а скорее просто перечисляются возможные варианты запросов

#### **Простой запрос**

Ну ок, давайте попробуем сделать запрос по пути `/cat`, который должен вернуть нам случайного котика

In [1]:
import requests

In [31]:
response = requests.get("https://cataas.com/cat")
response

<Response [200]>

По статус-коду 200 мы видим, что запрос прошёл успешно, но как же выглядит тело ответа? Может быть это JSON?

In [8]:
response.json()    # Не похоже