# Toolkit по API

## 1. API

Начнем разбираться с API. Если упрощать, то API (application programming interface) — это правила, по которым можно общаться с программой. Это способ стандартизации формата взаимодействия между разными сервисами, частями одного сервиса, сайта и т.п.

Протокол API включает:
- операции, которые можно выполнять с его помощью;
- данные, которые поступают на вход;
- данные, которые оказываются на выходе.

Очень похоже на обычную функцию: передаем параметры запроса по установленному формату, получаем структурированный ответ. Подробнее почитать про API [можно тут](https://habr.com/ru/post/464261/).

### 1.1. Библиотека requests

Мы вызовем API для генерации ответов. Для начала работы с API нужно знать, по какому URL-адресу его вызывать. В нашем примере это https://yesno.wtf/api, и вот самый простой вызов API, с которого можно начать:

In [14]:
import requests
result = requests.get("https://yesno.wtf/api")
result

<Response [200]>

Импортируем библиотеку requests, а затем получаем данные по API. Мы еще не видим возвращенных данных, лишь результат запроса Response [200]. В терминах API такой результат означает, что всё прошло нормально. А вот, если бы мы получили что-то вроде Response [400], это бы означало, что запрос выполнился с ошибкой.

Чтобы увидеть фактические данные, мы добавляем к имени переменной атрибут .text:

In [15]:
result.text

'{"answer":"yes","forced":false,"image":"https://yesno.wtf/assets/yes/6-304e564038051dab8a5aa43156cdc20d.gif"}'

В данном случае ответ "yes". Можно перейти по ссылке в поле image и посмотреть, какую гифку нам вернул API. Но сам ответ представляет собой обычную строку. Библиотека request позволяет также сразу преобразовывать ответ в лист со словарем. Для этого используется метод .json()

In [16]:
result.json()

{'answer': 'yes',
 'forced': False,
 'image': 'https://yesno.wtf/assets/yes/6-304e564038051dab8a5aa43156cdc20d.gif'}

Итак, первый элемент данных, которые поступают на вход, — это базовый URL-адрес API. Например, у twitter он выглядит так: https://api.twitter.com/. В серьезных API-сервисах одного базового URL-адреса обычно не достаточно. Нужно передавать учетные данные, дополнительные параметры запроса. Все это должно быть описано в документации к API.

Сделаем запрос к еще одному API-интерфейсу.

In [17]:
result = requests.get("https://api.thedogapi.com/")
result.text

'{"message":"The Dog API","version":"1.2.0"}'

Мы вызвали базовый URL-адрес API и получили сообщение с общей информацией об API. Чтобы добраться до реальных данных, одного базового URL-адреса недостаточно. Нужно указать конечную точку. Это часть URL-адреса, которая ведет к конкретному ресурсу. Тут все аналогично обычным веб-сайтам. Можно открыть главную страницу, а можно закопаться внутрь сайта — URL-адрес будет расширяться. В [справочнике API](https://portal.thatapicompany.com/pages/dog-api), который мы сейчас рассматриваем, описаны такие конечные точки и ресурсы, до которых можно достучаться.

In [18]:
result = requests.get("https://api.thedogapi.com/v1/breeds")
result.text[:1000]

'[{"weight":{"imperial":"6 - 13","metric":"3 - 6"},"height":{"imperial":"9 - 11.5","metric":"23 - 29"},"id":1,"name":"Affenpinscher","bred_for":"Small rodent hunting, lapdog","breed_group":"Toy","life_span":"10 - 12 years","temperament":"Stubborn, Curious, Playful, Adventurous, Active, Fun-loving","origin":"Germany, France","reference_image_id":"BJa4kxc4X","image":{"id":"BJa4kxc4X","width":1600,"height":1199,"url":"https://cdn2.thedogapi.com/images/BJa4kxc4X.jpg"}},{"weight":{"imperial":"50 - 60","metric":"23 - 27"},"height":{"imperial":"25 - 27","metric":"64 - 69"},"id":2,"name":"Afghan Hound","country_code":"AG","bred_for":"Coursing and hunting","breed_group":"Hound","life_span":"10 - 13 years","temperament":"Aloof, Clownish, Dignified, Independent, Happy","origin":"Afghanistan, Iran, Pakistan","reference_image_id":"hMyT4CDXR","image":{"id":"hMyT4CDXR","width":606,"height":380,"url":"https://cdn2.thedogapi.com/images/hMyT4CDXR.jpg"}},{"weight":{"imperial":"44 - 66","metric":"20 - 30"

Мы получили информацию о породах собак. Еще в запросе API можно передавать отдельные параметры. Этими параметрами могут быть ключи для доступа к сервису API или значения фильтров, которые сужают поле поиска. Воспользуемся API https://randomuser.me/api/, который генерирует информацию о случайных интернет-пользователях. Допустим, наша аудитория — американские мужчины

In [19]:
query_params = {"gender": "male", "nat": "us"}
requests.get("https://randomuser.me/api/", params=query_params).json()

{'results': [{'gender': 'male',
   'name': {'title': 'Mr', 'first': 'Ramon', 'last': 'Holland'},
   'location': {'street': {'number': 1509, 'name': 'Smokey Ln'},
    'city': 'San Jose',
    'state': 'Idaho',
    'country': 'United States',
    'postcode': 54205,
    'coordinates': {'latitude': '70.0683', 'longitude': '99.7329'},
    'timezone': {'offset': '-12:00', 'description': 'Eniwetok, Kwajalein'}},
   'email': 'ramon.holland@example.com',
   'login': {'uuid': '602cc37a-7213-403f-9ba9-f4db899686c3',
    'username': 'sadmouse632',
    'password': 'federal',
    'salt': 'PCihnbp0',
    'md5': '332e96fa211cf7ba984c79c40fb3ab53',
    'sha1': 'a13ff877f3a50ed9e24c02c4373490bedfb520ec',
    'sha256': 'f309503271f9fd43fb74eb92c92bedf24d095685c376348bb12efeaa29f2f407'},
   'dob': {'date': '1998-06-20T18:16:33.497Z', 'age': 24},
   'registered': {'date': '2007-10-15T19:35:37.696Z', 'age': 15},
   'phone': '(755) 645-4823',
   'cell': '(251) 803-6568',
   'id': {'name': 'SSN', 'value': '590

Параметры и их возможные значения должны быть описаны в документации. В данном случае мы передаем два параметра gender и nat со значениями 'male' и 'us', соответственно.

Зачем нужен API в нашем проекте? Чтобы обогатить сведения об образовательных организациях. Например, добавить муниципалитет для школ, или их географические координаты. Для решения таких задач отлично подходит сервис Dadata.

### 1.2. Dadata

[Dadata](dadata.ru) — сервис, с помощью которого можно автоматически обогащать информацию об организациях и адресах. Используются для этого ... API-интерфейсы! Все доступные методы API [собраны на этой странице](https://dadata.ru/api/). Рассмотрим метод **[Организация по ИНН или ОГРН](https://dadata.ru/api/find-party/)**. У Dadata есть специальная библиотека dadata для работы с API. Не забудьте ее установить.

Чтобы начать работать с API Dadata нужно:
- зарегистрироваться на сайте dadata.ru;
- найти в личном кабинете API-ключ;

*В личном кабинете есть еще секретный ключ. Секретный ключ дополнительно вас защищает, чтобы злоумышленник, подсмотрев API-ключ, не смог воспользоваться платными сервисами Dadata за вас счет. Мы будем пользоваться бесплатным лимитом, поэтому в дополнительных мерах предосторожности нет необходимости.*

Для метода "Организация по ИНН или ОГРН" можно бесплатно отправлять 10 000 запросов в день. Статистику использования запросов можно посмотреть в личном кабинете.

In [20]:
from dadata import Dadata #импортируем библиотеку Dadata
from credentials import Credentials

credentials = Credentials()
token = credentials.token #Указываем ваш API-токен из личного кабинета
#token = 'код API-токена из личного кабинета'

dadata = Dadata(token)
result = dadata.find_by_id("party", query="7707083893")

В ячейке выше используется какая-то непонятная переменная credentials, из которой на втором шаге мы как будто достаем API-токен. Зачем такие сложности, если можно просто присвоить переменной token нужное значение из личного кабинета? Можно и просто присвоить. Но если вы потом поделитесь юпитер-ноутбуком с кем-то еще, то всем станет известен ваш API-токен. Это плохая практика. Не делайте так. Лучше не прописывать логины, пароли, токены прямо в скрипте.

Есть разные способы, куда их можно спрятать. Например, можно положить в отдельный текстовый файл рядом с основным скриптом и читать пароли-явки из него. А можно поступить чуть сложнее и создать специальный объект Credentials, в котором будут храниться параметры аутентификации. При этом и текстовый файл, и специальный объект никому не передается.

В репозитории github, откуда вы скачали этот ноубук, лежит небольшой файлик credential.py. Вам нужно его скачать в ту же папку, где лежит ноутбук. После этого скопируйте в значение self.token свой API-ключ. Если вам кажется, что это слишком сложно, то можно нарушить правила, и в ячейке выше просто указать token = 'значение вашего ключа' прямо в коде.

In [21]:
result[0]

{'value': 'ПАО СБЕРБАНК',
 'unrestricted_value': 'ПАО СБЕРБАНК',
 'data': {'kpp': '773601001',
  'capital': None,
  'invalid': None,
  'management': {'name': 'Греф Герман Оскарович',
   'post': 'ПРЕЗИДЕНТ, ПРЕДСЕДАТЕЛЬ ПРАВЛЕНИЯ',
   'disqualified': None},
  'founders': None,
  'managers': None,
  'predecessors': None,
  'successors': None,
  'branch_type': 'MAIN',
  'branch_count': 86,
  'source': None,
  'qc': None,
  'hid': '588a141bc5e17cbc976ec2d0d54149af49d5a4ca16e26ed2effafdf06841d645',
  'type': 'LEGAL',
  'state': {'status': 'ACTIVE',
   'code': None,
   'actuality_date': 1676332800000,
   'registration_date': 677376000000,
   'liquidation_date': None},
  'opf': {'type': '2014',
   'code': '12247',
   'full': 'Публичное акционерное общество',
   'short': 'ПАО'},
  'name': {'full_with_opf': 'ПУБЛИЧНОЕ АКЦИОНЕРНОЕ ОБЩЕСТВО "СБЕРБАНК РОССИИ"',
   'short_with_opf': 'ПАО СБЕРБАНК',
   'latin': None,
   'full': 'СБЕРБАНК РОССИИ',
   'short': 'СБЕРБАНК'},
  'inn': '7707083893',
  'og

Если посмотреть, что представляет собой result, то окажется, что это словарь завернутый в лист. Почему лист? Потом что метод "Организация по ИНН или ОГРН" так устроен, что в случае неопределенности он вернет несколько подходящих результатов. Первый вариант будет хранится в первом элементе листа, второй - во втором и т.д. Почему словарь внутри листа? Потому что так удобнее организовать хранение данных. Внутри словаря хранится разная информация в соответствии со структурой ответа API, [описанной в разделе "Что в ответе"](https://dadata.ru/api/find-party/). Давайте попробуем посмотреть, какая организация соответствует коду ИНН 7707083893, который мы передавали в запросе.

In [22]:
result[0]['value']

'ПАО СБЕРБАНК'

In [23]:
result[1]['value']

'БАЙКАЛЬСКИЙ БАНК ПАО СБЕРБАНК'

Тут мы обращаемся к первому (т.е. нулевому для python) элементу листа result и просим показать, какое значение хранится по ключу value. В ответ получаем значение 'ПАО СБЕРБАНК'. Допустим, теперь нам нужно узнать ОКТМО муниципального образования, в котором расположен головной офис Сбербанка. [Смотрим в документацию к API](https://dadata.ru/api/find-party/) — ОКТМО хранится в словаре, который доступен по ключу data.

In [24]:
result[0]['data']

{'kpp': '773601001',
 'capital': None,
 'invalid': None,
 'management': {'name': 'Греф Герман Оскарович',
  'post': 'ПРЕЗИДЕНТ, ПРЕДСЕДАТЕЛЬ ПРАВЛЕНИЯ',
  'disqualified': None},
 'founders': None,
 'managers': None,
 'predecessors': None,
 'successors': None,
 'branch_type': 'MAIN',
 'branch_count': 86,
 'source': None,
 'qc': None,
 'hid': '588a141bc5e17cbc976ec2d0d54149af49d5a4ca16e26ed2effafdf06841d645',
 'type': 'LEGAL',
 'state': {'status': 'ACTIVE',
  'code': None,
  'actuality_date': 1676332800000,
  'registration_date': 677376000000,
  'liquidation_date': None},
 'opf': {'type': '2014',
  'code': '12247',
  'full': 'Публичное акционерное общество',
  'short': 'ПАО'},
 'name': {'full_with_opf': 'ПУБЛИЧНОЕ АКЦИОНЕРНОЕ ОБЩЕСТВО "СБЕРБАНК РОССИИ"',
  'short_with_opf': 'ПАО СБЕРБАНК',
  'latin': None,
  'full': 'СБЕРБАНК РОССИИ',
  'short': 'СБЕРБАНК'},
 'inn': '7707083893',
 'ogrn': '1027700132195',
 'okpo': '00032537',
 'okato': '45293554000',
 'oktmo': '45397000000',
 'okogu': '4

Чтобы вытащить из этого словаря сам код ОКТМО, нужно использовать ключ oktmo.

In [25]:
result[0]['data']['oktmo']

'45397000000'

Получаем значение '453970000000'. Это муниципальный округ Академический Москвы. Там расположен головной офис Сбербанка. А что если мы хотим вытащить почтовый код для этого адреса? Придется еще глубже закопаться в структуру ответа, который возвращает API.

In [26]:
result[0]['data']['address']['data']['postal_code']

'117312'

Отлично! Почтовый код - 117312.

Структура ответа, который возвращается на запрос API, может показаться сложной (словари вложенные в словари вложенные в другие словари...а все это завернуто в лист... какая-то долма...да уж). Но если потратить немного времени, и посмотреть на то, как все устроено, и почитать документацию, то вы сможете докопаться до любого нужного значения.

Обратите внимание, что метод "Организация по ИНН или ОГРН" устроен так, что в атрибуте query можно передавать как ИНН, так и ОГРН. Dadata сама определит, какой конкретно код вы передали. Попробуем получить сведения о Сбербанке по коду ОГРН (1027700132195). Структура запроса никак не меняется, но теперь в параметре query передаем ОГРН.

In [27]:
result = dadata.find_by_id("party", query="1027700132195")
result[0]

{'value': 'ПАО СБЕРБАНК',
 'unrestricted_value': 'ПАО СБЕРБАНК',
 'data': {'kpp': '773601001',
  'capital': None,
  'invalid': None,
  'management': {'name': 'Греф Герман Оскарович',
   'post': 'ПРЕЗИДЕНТ, ПРЕДСЕДАТЕЛЬ ПРАВЛЕНИЯ',
   'disqualified': None},
  'founders': None,
  'managers': None,
  'predecessors': None,
  'successors': None,
  'branch_type': 'MAIN',
  'branch_count': 86,
  'source': None,
  'qc': None,
  'hid': '588a141bc5e17cbc976ec2d0d54149af49d5a4ca16e26ed2effafdf06841d645',
  'type': 'LEGAL',
  'state': {'status': 'ACTIVE',
   'code': None,
   'actuality_date': 1676332800000,
   'registration_date': 677376000000,
   'liquidation_date': None},
  'opf': {'type': '2014',
   'code': '12247',
   'full': 'Публичное акционерное общество',
   'short': 'ПАО'},
  'name': {'full_with_opf': 'ПУБЛИЧНОЕ АКЦИОНЕРНОЕ ОБЩЕСТВО "СБЕРБАНК РОССИИ"',
   'short_with_opf': 'ПАО СБЕРБАНК',
   'latin': None,
   'full': 'СБЕРБАНК РОССИИ',
   'short': 'СБЕРБАНК'},
  'inn': '7707083893',
  'og

Получаем тот же ответ, что и раньше. Еще при желании в параметрах запроса можно передать номер КПП (это важно, если у головной организации есть филиалы).

In [28]:
result = dadata.find_by_id("party", query="1027700132195", kpp="272143001")
result

[{'value': 'ДАЛЬНЕВОСТОЧНЫЙ БАНК ПАО СБЕРБАНК',
  'unrestricted_value': 'ДАЛЬНЕВОСТОЧНЫЙ БАНК ПАО СБЕРБАНК',
  'data': {'kpp': '272143001',
   'capital': None,
   'invalid': None,
   'management': None,
   'founders': None,
   'managers': None,
   'predecessors': None,
   'successors': None,
   'branch_type': 'BRANCH',
   'branch_count': 0,
   'source': None,
   'qc': None,
   'hid': '00161d9ceb88edf8d0f988812c397feb9d3937da569113db464e168c68a6eef5',
   'type': 'LEGAL',
   'state': {'status': 'ACTIVE',
    'code': None,
    'actuality_date': 1676332800000,
    'registration_date': None,
    'liquidation_date': None},
   'opf': {'type': '2014',
    'code': '30002',
    'full': 'Филиал юридического лица',
    'short': 'Филиал'},
   'name': {'full_with_opf': 'ДАЛЬНЕВОСТОЧНЫЙ БАНК ПАО СБЕРБАНК',
    'short_with_opf': None,
    'latin': None,
    'full': 'ДАЛЬНЕВОСТОЧНЫЙ БАНК ПАО СБЕРБАНК',
    'short': None},
   'inn': '7707083893',
   'ogrn': '1027700132195',
   'okpo': None,
   'okato': 

В ответ мы получили информацию о дальневосточном отделении Сбербанка. Разобравшись со структурой ответа, вы можете понять, как добраться до значений, которые вам нужны, чтобы обогатить сведения об организации.

### 1.3. Как обработать данные по многим организациям сразу

Мы научились получать сведения по одной организации. Теперь хочется научиться делать то же самое для списка организаций. Самое простое — делать это в цикле. Взять список организаций и последовательно пройтись по нему. Но обычно используют другой подход.

Создадим небольшой датафрейм, в который запишем ОГРН и КПП нескольких организаций.

In [29]:
import pandas as pd
data = {'ogrn': ['1027301574915', '1026301697476', '1026604950338'], 'kpp': ['732801001', '631901001', '667001001']}
df = pd.DataFrame(data)
df.head()

Unnamed: 0,ogrn,kpp
0,1027301574915,732801001
1,1026301697476,631901001
2,1026604950338,667001001


А теперь напишем простую функцию, которая на вход получает ОГРН и КПП организации, а в ответ с помощью API Dadata возвращает название этой организации, код муниципального образования и географические координаты (широту и долготу).

In [30]:
def org_enrich(ogrn: str, kpp: str=None):
    """Return Name, OKTMO, Latitude and Longitude of organization."""
    answer = dadata.find_by_id("party", query=ogrn, kpp=kpp)[0]
    return [answer['unrestricted_value'],
            answer['data']['oktmo'],
            answer['data']['address']['data']['geo_lat'],
            answer['data']['address']['data']['geo_lon']]

Тут, как и в примерах выше, мы закопались в структуру ответа API и вытащили нужные нам значения. Функция возвращает необходимые атрибуты в формате листа.

In [31]:
org_enrich('1027301574915', '732801001')

['ОГАОУ МНОГОПРОФИЛЬНЫЙ ЛИЦЕЙ № 20', '73701000001', '54.3758123', '48.5908403']

Теперь вернемся к датафрейму с организациями и попробуем обогатить сразу все колонки с помощью лямбда-функции и функции apply.

In [32]:
df[['name', 'oktmo', 'geo_lat', 'geo_lon']] = df.apply(lambda x: org_enrich(x['ogrn'], x['kpp']), axis=1, result_type='expand')
df

Unnamed: 0,ogrn,kpp,name,oktmo,geo_lat,geo_lon
0,1027301574915,732801001,ОГАОУ МНОГОПРОФИЛЬНЫЙ ЛИЦЕЙ № 20,73701000001,54.3758123,48.5908403
1,1026301697476,631901001,МБОУ ШКОЛА № 3 Г.О. САМАРА,36701335000,53.2359189,50.2127723
2,1026604950338,667001001,"ГБОУ СО ""ЕКАТЕРИНБУРГСКАЯ ШКОЛА №3""",65701000001,56.8455227,60.6559998


Разберем, что тут происходит. Мы явно указываем, что результат применения функции apply к каждой из строк датафрейма df мы хотим записать в колонки name, oktmo, geo_lat, geo_lon. Значение параметра axis 1 означает, что функция org_enrich будет применяться к строкам. Значение параметра result_type expand означает, что результат выполнения функции org_enrich в виде листа будет преобразовываться в колонки - как раз то, что нам надо. Внутрь функции org_enrich мы передаем два атрибута, явно указывая названия колонок, в которых хранятся коды ОГРН и КПП.

### 1.4. ChatGPT, конечно

ML-модели часто тоже возвращают результат своей работы через API-интерфейсы. Подключимся к ChatGTP и попросим его продолжить предложение. Для этого нужно:
1. Пойти на сайт https://platform.openai.com/
2. Зарегистрироваться любым способом
3. Открыть вкладку "Personal" в верхнем правом углу, и перейти на страницу "View API keys"
4. Нажать на кнопку "Create new secret key" и сохранить ключ

Также нужно установить библиотеку openai. Это такая же альтернатива библиотеке requests, как и dadata. Она упрощает работу с конкретным сервисом.

In [1]:
import openai
from credentials import Credentials

credentials = Credentials()
openai.api_key = credentials.openaikey # здесь указываем секретный ключ OpenAI

# Задаем тип языковой модели, которая будет использоваться
model_engine = "text-davinci-003"
# Записываем текст, который нам хочется продолжить, можно вставить любой свой
prompt = "Образовательные траектории российских школьников в 2020 году..."

# Тут отправляем запрос
completion = openai.Completion.create(
    engine=model_engine,
    prompt=prompt,
    max_tokens=1024,
    n=1,
    stop=None,
    temperature=0.5,
)

response = completion.choices[0].text
print(response)



Образовательные траектории российских школьников в 2020 году будут зависеть от ряда факторов. В первую очередь это будет зависеть от того, какие меры применит правительство для защиты здоровья школьников и предотвращения распространения коронавируса. Возможные меры могут включать в себя переход на дистанционное обучение, использование интерактивных технологий и смешанное обучение, ограничение количества учащихся в классах и проведение дополнительных мероприятий для учащихся дома. Также могут быть введены дополнительные меры безопасности, например, регулярные исследования на коронавирус и принятие мер по предотвращению заражения, а также обязательное использование маски и соблюдение дистанции.


В запросе выше мы передаем разные параметры. Например, параметр temperature регулирует уровень случайности в ответе на запрос. Чем больше его значение, тем разнообразнее и менее согласованным будет ответ. В max_tokens мы контролируем длину ответа. Про другие параметры, как всегда, можно прочитать в документации.