Составим запросы к API сервиса RusVectores, чтобы получать семантические вектора слов.

Чтобы получить список семантически близких слов, необходимо выполнить запрос по адресу в следующем формате:

https://rusvectores.org/MODEL/WORD/api/FORMAT/

- MODEL - модель, к которой мы хотим обратиться. Список моделей: https://rusvectores.org/ru/models/ **В АПИ не получится использовать модели ELMO.**
- WORD - слово, для которого мы хотим узнать его "семантических соседей". Можно добавить частеречный тэг. Вы можете отправлять запросы и без него, но тогда части речи ваших слов сервер определит автоматически.
- FORMAT - формат выходных данных, в настоящий момент это csv с разделением через табуляцию либо json.

In [None]:
import requests

In [None]:
# Зададим модель, слово и формат.
MODEL = 'ruscorpora_upos_cbow_300_20_2019'
FORMAT = 'csv'
WORD = 'кот'

In [None]:
# Соберем ссылку для запроса к серверу.
url = 'http://rusvectores.org/'+MODEL+'/'+WORD+'/api/'+FORMAT+'/'
print(url)

http://rusvectores.org/ruscorpora_upos_cbow_300_20_2019/кот/api/csv/


In [None]:
# Т.к. формат у нас .csv, мы сейчас получим в результате запроса файл.
r = requests.get(url=url)

In [None]:
print(r.text)

ruscorpora_upos_cbow_300_20_2019
кот_NOUN
кошка_NOUN	0.8207473158836365
котенок_NOUN	0.7027614116668701
котенка_NOUN	0.6645157933235168
кошечка_NOUN	0.6332343816757202
пес_NOUN	0.6239610910415649
щенок_NOUN	0.6239476799964905
кота_NOUN	0.6218219995498657
котяра_NOUN	0.6177297234535217
котенок_VERB	0.613097608089447
дворняга_NOUN	0.6005702018737793



In [None]:
# Попробуем теперь вычислить семантическую близость двух слов.
# Используем другую модель.
# Соберем ссылку для запроса к серверу.
url = 'http://rusvectores.org/tayga_upos_skipgram_300_2_2019/кот__пес/api/similarity/'
print(url)

http://rusvectores.org/tayga_upos_skipgram_300_2_2019/кот__пес/api/similarity/


In [None]:
r = requests.get(url)

In [None]:
# Напоминаю, что семантическая близость может быть от -1 до 1. Чем ближе она к 1,
# тем ближе слова по смыслу. Кот и пес получили 0.72
print(r.text)

0.7201968431472778	кот_NOUN	пес_NOUN	tayga_upos_skipgram_300_2_2019


In [None]:
# Посмотрим, что у кота и кошки.
url = 'http://rusvectores.org/tayga_upos_skipgram_300_2_2019/кот__кошка/api/similarity/'
r = requests.get(url)
# 0.81 - Пожалуй, соглашусь, эти слова более близки семантически.
print(r.text)

0.8161196708679199	кот_NOUN	кошка_NOUN	tayga_upos_skipgram_300_2_2019
