Как запустить программу, используя Google Colab? Сначала на сайте http://vectors.nlpl.eu/repository/ надо скачать необходимую модель (в программе рассматриваю 195 и 212 модели) и распаковать  на гугл диске. 
Потом в 1 ячейке вас попросят Go to this URL in a browser: ..., надо перейти по ссылке, скопировать код и вставить его в поле Enter your authorization code: ...
Затем в 4-5 ячейке в строчке model.load(PATH_TO_ELMO) прописать свой PATH_TO_ELMO.

In [1]:
# Подключение гугл-диска для получения модели ELMo
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
# Установка simple_elmo
!pip3 install simple_elmo

Collecting simple_elmo
  Downloading simple_elmo-0.9.0-py3-none-any.whl (46 kB)
[?25l[K     |███████                         | 10 kB 22.3 MB/s eta 0:00:01[K     |██████████████▏                 | 20 kB 27.4 MB/s eta 0:00:01[K     |█████████████████████▎          | 30 kB 16.5 MB/s eta 0:00:01[K     |████████████████████████████▍   | 40 kB 11.8 MB/s eta 0:00:01[K     |████████████████████████████████| 46 kB 2.8 MB/s 
Installing collected packages: simple-elmo
Successfully installed simple-elmo-0.9.0


In [3]:
# Подключение необходимых библиотек
import tensorflow as tf
from simple_elmo import ElmoModel

In [4]:
# Загрузка уже обученной первой модели с гугл-диска
# ruwikiruscorpora_tokens_elmo_1024_2019 - модель ELMo, корпус - НКРЯ и Википедия за декабрь 2018 (токены),
# размер корпуса 989 миллионов слов
# model = ElmoModel()
# model.load('/content/drive/MyDrive/195')
# model.load(PATH_TO_ELMO)


In [5]:
# Загрузка уже обученной второй модели с гугл-диска
# araneum_lemmas_elmo_2048_2020 - модель ELMo, корпус - Araneum (леммы), 
# размер корпуса около 10 миллиардов слов

model = ElmoModel()
model.load('/content/drive/MyDrive/212')
# model.load(PATH_TO_ELMO)

2021-11-25 11:33:46,858 : INFO : Loading model from /content/drive/MyDrive/212...
2021-11-25 11:33:47,286 : INFO : We will cache the vocabulary of 100 tokens.
  cell_clip=cell_clip, proj_clip=proj_clip)
  partitioner=maybe_partitioner)
  initializer=initializer)
  partitioner=maybe_proj_partitioner)


'The model is now loaded.'

In [6]:
# Три метода для загруженных моделей

# model.get_elmo_vectors(SENTENCES)
# Создает тензор эмбеддингов контекстуализированных слов
# Его форма: (количество предложений/слов, длина самого длинного предложения/слова, размерность вектора)

# model.get_elmo_vector_average(SENTENCES)
# Создает тензор с одним вектором на каждое входное предложение/слово, построенный путем усреднения отдельных эмбеддингов контекстуализированных слов
# Его форма: (количество предложений/слов, размерность вектора)

# model.get_elmo_substitutes(RAW_SENTENCES)
# В настоящее время работает только с моделями, загруженными с full=True. 
# Для каждого входного предложения/слова он создает список лексических заменителей для каждого словесной единицы (токена) в предложении
# Этот метод все еще экспериментальный

# где SENTENCES - это список предложений (список строк), а RAW_SENTENCES - список предложений как строк.

In [7]:
# Методы

# model.get_elmo_vectors(SENTENCES)
# model.get_elmo_vector_average(SENTENCES)

# могут быть использованы с аргументом layers, который принимает одно из трех значений:
# 1) average (по умолчанию): возвращает среднее значение всех слоев ELMo для каждого слова
# 2) top: возвращает только верхний (последний) слой для каждого слова
# 3) all: возвращает все слои ELMo для каждого слова 
#    (в полученном тензоре появляется дополнительное измерение, которое равно количеству слоев в модели, как правило, 3)

In [8]:
# Функция печатает размерности тензоров для каждого метода
def print_all_models_dimensions(sent,layers="average"):
    '''     :param layers: ["top", "average", "all"].'''
    global model
    a = model.get_elmo_vectors(sent, layers=layers)
    b = model.get_elmo_vector_average(sent, layers=layers)
    print("a", a.shape)
    print("b", b.shape, end="\n\n")

In [9]:
# Продемонстрируем формы полученных тензоров каждого метода для одного и того же предложения
sent = ["Мама мыла Милу мылом", "Кукушка кукушонку купила капюшон", "да", "нет"]
for lay in ["top", "average", "all"]:
    print(lay)
    print_all_models_dimensions(sent,layers=lay)

top


2021-11-25 11:33:58,748 : INFO : Warming up ELMo on 4 sentences...
2021-11-25 11:34:01,808 : INFO : Warming up finished.
2021-11-25 11:34:01,811 : INFO : Texts in the current batch: 4
2021-11-25 11:34:06,131 : INFO : Warming up ELMo on 4 sentences...
2021-11-25 11:34:08,753 : INFO : Warming up finished.
2021-11-25 11:34:08,755 : INFO : Texts in the current batch: 4


a (4, 32, 1024)
b (4, 1024)

average


2021-11-25 11:34:12,800 : INFO : Warming up ELMo on 4 sentences...
2021-11-25 11:34:15,366 : INFO : Warming up finished.
2021-11-25 11:34:15,369 : INFO : Texts in the current batch: 4
2021-11-25 11:34:19,304 : INFO : Warming up ELMo on 4 sentences...
2021-11-25 11:34:21,953 : INFO : Warming up finished.
2021-11-25 11:34:21,956 : INFO : Texts in the current batch: 4


a (4, 32, 1024)
b (4, 1024)

all


2021-11-25 11:34:26,048 : INFO : Warming up ELMo on 4 sentences...
2021-11-25 11:34:28,673 : INFO : Warming up finished.
2021-11-25 11:34:28,678 : INFO : Texts in the current batch: 4
2021-11-25 11:34:32,767 : INFO : Warming up ELMo on 4 sentences...
2021-11-25 11:34:35,422 : INFO : Warming up finished.
2021-11-25 11:34:35,425 : INFO : Texts in the current batch: 4


a (4, 3, 32, 1024)
b (4, 3, 1024)



Теперь будем печатать модели и смотреть на результаты

Рассмотрим метод model.get_elmo_vectors()

In [10]:
# Функция использует метод model.get_elmo_vectors() и печатает модели
# Метод model.get_elmo_vectors() создает тензор эмбеддингов контекстуализированных слов
# Его форма: (количество предложений/слов, длина самого длинного предложения/слова, размерность вектора)
def print_vectors(sent,layers="average"):
    '''     :param layers: ["top", "average", "all"].'''
    global model
    a = model.get_elmo_vectors(sent, layers=layers)
    print("Форма", a.shape)
    print(a)

In [11]:
# Посмотрим, какие будут результаты при использовании метода model.get_elmo_vectors(), когда список предложений - одна буква 

# top: возвращает только верхний (последний) слой для каждого слова 
lay = "top"
print_vectors(['C'],layers=lay)
# average: возвращает среднее значение всех слоев ELMo для каждого слова
lay = "average"
print_vectors(['C'],layers=lay)
# all: возвращает все слои ELMo для каждого слова
lay = "all"
print_vectors(['C'],layers=lay)

2021-11-25 11:34:39,552 : INFO : Warming up ELMo on 1 sentences...
2021-11-25 11:34:39,995 : INFO : Warming up finished.
2021-11-25 11:34:39,997 : INFO : Texts in the current batch: 1


Форма (1, 1, 1024)
[[[-0.04057579  1.02445006  0.03682424 ...  0.3910211   0.13476096
   -0.08429807]]]


2021-11-25 11:34:41,876 : INFO : Warming up ELMo on 1 sentences...
2021-11-25 11:34:42,323 : INFO : Warming up finished.
2021-11-25 11:34:42,325 : INFO : Texts in the current batch: 1


Форма (1, 1, 1024)
[[[-0.40527558  0.44589931 -0.20340991 ... -0.11347851  0.05835564
    0.12940636]]]


2021-11-25 11:34:44,177 : INFO : Warming up ELMo on 1 sentences...
2021-11-25 11:34:44,633 : INFO : Warming up finished.
2021-11-25 11:34:44,638 : INFO : Texts in the current batch: 1


Форма (1, 3, 1, 1024)
[[[[-1.31128442 -0.40339985 -0.87511986 ... -0.62159866  0.18547828
     0.49034509]]

  [[ 0.13603345  0.71664774  0.22806588 ... -0.10985795 -0.14517231
    -0.01782793]]

  [[-0.04057579  1.02445006  0.03682424 ...  0.3910211   0.13476096
    -0.08429807]]]]


In [12]:
# Сравним полученные значения, когда в предложении-слове одна буква и несколько 
# Параметр layers="top"
lay = "top"
print_vectors(['C'],layers=lay)
print_vectors(['Солнце'],layers=lay)
# Видим, что добавленные буквы сильно повлияли на первый вектор

2021-11-25 11:34:46,527 : INFO : Warming up ELMo on 1 sentences...
2021-11-25 11:34:46,997 : INFO : Warming up finished.
2021-11-25 11:34:46,999 : INFO : Texts in the current batch: 1


Форма (1, 1, 1024)
[[[-0.04057579  1.02445006  0.03682424 ...  0.3910211   0.13476096
   -0.08429807]]]


2021-11-25 11:34:48,862 : INFO : Warming up ELMo on 1 sentences...
2021-11-25 11:34:49,475 : INFO : Warming up finished.
2021-11-25 11:34:49,479 : INFO : Texts in the current batch: 1


Форма (1, 6, 1024)
[[[-0.17563358  0.47435766  0.16029572 ...  0.54722792 -0.26349473
   -0.87379605]
  [-0.33940083  0.62932557  0.07652554 ...  0.5380367   0.28304854
   -1.21308684]
  [-0.36635223  0.53256005  0.48316014 ...  0.51558316  0.45574614
   -1.8502059 ]
  [-0.1652475   0.14891243  0.62309766 ...  0.64460099  0.50378233
   -1.5736587 ]
  [-0.24322514  0.78898561  0.20590118 ...  0.27007586  0.46276793
   -1.84902894]
  [-0.35267311  0.65460342  0.40135974 ... -0.35198891 -0.62807333
   -1.24013102]]]


In [13]:
# Сравним полученные значения, когда в предложении-слове одна буква и несколько 
# Параметр layers="average"
lay = "average"
print_vectors(['C'],layers=lay)
print_vectors(['Солнце'],layers=lay)

2021-11-25 11:34:51,537 : INFO : Warming up ELMo on 1 sentences...
2021-11-25 11:34:52,018 : INFO : Warming up finished.
2021-11-25 11:34:52,022 : INFO : Texts in the current batch: 1


Форма (1, 1, 1024)
[[[-0.40527558  0.44589931 -0.20340991 ... -0.11347851  0.05835564
    0.12940636]]]


2021-11-25 11:34:53,890 : INFO : Warming up ELMo on 1 sentences...
2021-11-25 11:34:54,516 : INFO : Warming up finished.
2021-11-25 11:34:54,518 : INFO : Texts in the current batch: 1


Форма (1, 6, 1024)
[[[ 0.00336469  0.51526904  0.04461182 ...  0.1550339   0.02955383
   -0.37109953]
  [ 0.01641667  0.61839557 -0.09996418 ...  0.40273029  0.19292292
   -0.44848633]
  [-0.13826038  0.40352303  0.18269306 ...  0.19957949  0.0216379
   -0.98235965]
  [ 0.28533143  0.56548601  0.27242565 ...  0.28922904  0.25712278
   -0.69345254]
  [-0.36333147  0.88289297 -0.07918463 ...  0.01825371  0.09933896
   -0.75346333]
  [-0.11384931  0.74941295  0.05216621 ... -0.1603362  -0.06023158
   -0.36679643]]]


In [14]:
# Сравним полученные значения, когда в предложении-слове одна буква и несколько 
# Параметр layers="all"
lay = "all"
print_vectors(['C'],layers=lay)
print_vectors(['Солнце'],layers=lay)

2021-11-25 11:34:56,617 : INFO : Warming up ELMo on 1 sentences...
2021-11-25 11:34:57,065 : INFO : Warming up finished.
2021-11-25 11:34:57,068 : INFO : Texts in the current batch: 1


Форма (1, 3, 1, 1024)
[[[[-1.31128442 -0.40339985 -0.87511986 ... -0.62159866  0.18547828
     0.49034509]]

  [[ 0.13603345  0.71664774  0.22806588 ... -0.10985795 -0.14517231
    -0.01782793]]

  [[-0.04057579  1.02445006  0.03682424 ...  0.3910211   0.13476096
    -0.08429807]]]]


2021-11-25 11:34:58,950 : INFO : Warming up ELMo on 1 sentences...
2021-11-25 11:34:59,605 : INFO : Warming up finished.
2021-11-25 11:34:59,607 : INFO : Texts in the current batch: 1


Форма (1, 3, 6, 1024)
[[[[ 0.2114152   0.70715755 -0.07445104 ... -0.24528855  0.51287818
    -0.06328225]
   [ 0.22425887  0.67131317 -0.27077132 ...  0.5061574   0.02469389
     0.28733379]
   [-0.0391288  -0.16814527 -0.17552717 ...  0.16662063 -0.36085775
    -0.32713553]
   [ 0.92360938  0.7613765  -0.13218342 ... -0.09675675  0.43220979
     0.07792208]
   [-0.72493601  0.66607732 -0.35015219 ... -0.15134454 -0.48725963
     0.05223909]
   [ 0.2179828   0.68605661 -0.23874921 ...  0.12695298  0.61938781
     0.19519697]]

  [[-0.02568754  0.36429185  0.04799078 ...  0.16316231 -0.16072196
    -0.17622018]
   [ 0.16439195  0.55454797 -0.10564674 ...  0.16399671  0.27102631
    -0.4197059 ]
   [-0.00930009  0.84615421  0.24044618 ... -0.08346531 -0.02997468
    -0.7697373 ]
   [ 0.09763238  0.78616911  0.32636267 ...  0.3198429  -0.16462381
    -0.58462077]
   [-0.12183324  1.19361591 -0.09330288 ... -0.06397022  0.32250857
    -0.46360007]
   [-0.20685762  0.90757871 -0.00611193 .

In [15]:
# Рассмотрим другие примеры использования метода get_elmo_vectors()
# Аргумент layers по умолчанию average
# В следующем примере уменьшим количество слов в предложении
model.get_elmo_vectors(['В мире лучше нет пока факультета ВМК'])

2021-11-25 11:35:01,657 : INFO : Warming up ELMo on 1 sentences...
2021-11-25 11:35:03,317 : INFO : Warming up finished.
2021-11-25 11:35:03,320 : INFO : Texts in the current batch: 1


array([[[ 0.00475007,  0.52791917,  0.0949375 , ...,  0.49763077,
         -0.46605951, -0.00584254],
        [-0.33640447,  0.36301434,  0.05726626, ...,  0.54423392,
         -0.30009046, -0.16234234],
        [ 0.08456089,  0.44535062,  0.14023466, ...,  0.42004594,
         -0.25913939, -0.16484928],
        ...,
        [ 0.29799938,  0.61770213,  0.16634986, ...,  0.52723557,
         -0.10728253, -0.35441369],
        [ 0.19750415,  0.38195264,  0.13693053, ...,  0.69309831,
          0.11668251, -0.14937082],
        [ 0.11254655,  0.31775859,  0.103843  , ...,  0.22047144,
          0.0780725 , -0.00259199]]])

In [16]:
# Рассмотрим другие примеры использования метода get_elmo_vectors()
# Аргумент layers по умолчанию average
# В предыдущем примере слов в предложении больше
model.get_elmo_vectors(['В мире лучше нет'])

2021-11-25 11:35:06,441 : INFO : Warming up ELMo on 1 sentences...
2021-11-25 11:35:07,455 : INFO : Warming up finished.
2021-11-25 11:35:07,458 : INFO : Texts in the current batch: 1


array([[[ 0.0045495 ,  0.52784061,  0.09502173, ...,  0.52612853,
         -0.3481406 ,  0.01300804],
        [-0.3366183 ,  0.36294761,  0.05730334, ...,  0.5967719 ,
         -0.17318635, -0.1980021 ],
        [ 0.0843014 ,  0.44526428,  0.14037195, ...,  0.43671858,
         -0.132451  , -0.20331842],
        ...,
        [ 0.45399329,  0.54329967,  0.29145506, ...,  0.20877525,
          0.37119058, -0.75448483],
        [ 0.09267949,  0.57160896,  0.21596539, ..., -0.05643558,
          0.17415571, -0.5407083 ],
        [-0.02596406,  0.24985166,  0.01589948, ..., -0.23669115,
          0.1699454 , -0.3273825 ]]])

In [17]:
# Рассмотрим метод get_elmo_vectors()
# Заметим, что начало одного списка слов (предложений) так же начало и второго
print(model.get_elmo_vectors(['красивый']))
print("Другой пример:")
print(model.get_elmo_vectors(['красивый', 'красивая']))
# Из-за того, что список слов-предложений начинается со слова "красивый" - начала двух выводов почти одинаковые
# А так как они ПОЧТИ одинаковые - видим, что во втором случае наличие другого предложения в списке повлияло на весь результат  

2021-11-25 11:35:09,875 : INFO : Warming up ELMo on 1 sentences...
2021-11-25 11:35:10,581 : INFO : Warming up finished.
2021-11-25 11:35:10,584 : INFO : Texts in the current batch: 1


[[[-0.27828994  0.12161414 -0.06769367 ...  0.34169912 -0.12674765
   -0.5440588 ]
  [-0.13010052  0.98834133 -0.13459276 ...  0.32850653  0.05501489
   -0.36325186]
  [ 0.05326959  0.64089888 -0.19325824 ...  0.66233355 -0.34349751
   -0.40325126]
  ...
  [-0.17962559  0.65114081  0.04709905 ...  0.27099609  0.31032366
   -0.38160747]
  [-0.01521035  0.52163857 -0.0576415  ...  0.40152967  0.01882099
   -0.52429241]
  [ 0.02116115  0.41384736 -0.0141131  ...  0.36369047 -0.07714125
   -0.48478109]]]
Другой пример:


2021-11-25 11:35:12,674 : INFO : Warming up ELMo on 2 sentences...
2021-11-25 11:35:13,603 : INFO : Warming up finished.
2021-11-25 11:35:13,605 : INFO : Texts in the current batch: 2


[[[-0.27828991  0.12161426 -0.06769355 ...  0.34169883 -0.12674776
   -0.54405868]
  [-0.13010013  0.98834145 -0.13459261 ...  0.32850668  0.05501498
   -0.36325184]
  [ 0.05326971  0.64089882 -0.19325811 ...  0.66233361 -0.34349734
   -0.40325135]
  ...
  [-0.17962545  0.65114105  0.04709914 ...  0.270996    0.31032354
   -0.38160741]
  [-0.01521014  0.52163845 -0.05764148 ...  0.40152982  0.01882063
   -0.52429157]
  [ 0.02116145  0.41384742 -0.01411314 ...  0.36369011 -0.07714134
   -0.48478103]]

 [[-0.27829     0.12152477 -0.06758735 ...  0.39005089 -0.10984643
   -0.54676372]
  [-0.13005733  0.98842311 -0.13460004 ...  0.36065355  0.07036662
   -0.35809037]
  [ 0.05340748  0.64093679 -0.19326049 ...  0.75178146 -0.28074232
   -0.37241587]
  ...
  [-0.17947397  0.6512121   0.04712951 ...  0.52050489  0.16945982
   -0.15912256]
  [ 0.0736431   0.51336491 -0.01812382 ...  0.67865825 -0.25787404
   -0.28771254]
  [-0.06827772 -0.09281931  0.27029595 ...  0.76489747  0.06982268
   -0.

In [18]:
lay = "average"
print_vectors(['Яркое солнце.', 'Яркая личность.'],layers=lay)
print_vectors(['Ля ля ля жу жу жу'],layers=lay)
# Видим, что из-за разных списков предложений - результаты совершенно разные

2021-11-25 11:35:16,001 : INFO : Warming up ELMo on 2 sentences...
2021-11-25 11:35:17,396 : INFO : Warming up finished.
2021-11-25 11:35:17,401 : INFO : Texts in the current batch: 2


Форма (2, 15, 1024)
[[[-0.20036206  0.43421131  0.02560367 ...  0.43979073 -0.31337881
   -0.21178791]
  [-0.13963266  1.01476216 -0.09448878 ...  0.28511238 -0.01158009
   -0.22407633]
  [-0.3299897   0.42397994  0.07239912 ...  0.30323693 -0.06865537
   -0.47255394]
  ...
  [-0.2570135   0.73955774  0.03029449 ...  0.24759796  0.25138384
   -0.43420237]
  [-0.02518879  0.05639359 -0.05628741 ...  0.04216247 -0.02642865
    0.07454713]
  [-0.02518879  0.05639359 -0.05628741 ...  0.04216247 -0.02642865
    0.07454713]]

 [[-0.20084268  0.4343811   0.02550047 ...  0.60683239 -0.26783758
   -0.22174074]
  [-0.13996913  1.01478529 -0.09455015 ...  0.4748086   0.0028138
   -0.21290521]
  [-0.330136    0.42404333  0.07245774 ...  0.63025218 -0.03438254
   -0.40074021]
  ...
  [-0.10701896  0.14736542 -0.03685101 ...  0.19619991  0.36936772
   -0.41527459]
  [-0.10350998  0.28920212  0.26636225 ...  0.38005596  0.34970072
   -0.51799744]
  [-0.2866993   0.5153591   0.00392372 ...  0.24741849

2021-11-25 11:35:20,207 : INFO : Warming up ELMo on 1 sentences...
2021-11-25 11:35:21,236 : INFO : Warming up finished.
2021-11-25 11:35:21,239 : INFO : Texts in the current batch: 1


Форма (1, 17, 1024)
[[[-0.30931225  0.58900517 -0.13462791 ...  0.81341326 -0.15207219
   -0.04591809]
  [-0.20426217 -0.13688518  0.04377428 ...  1.11039305 -0.18332738
   -0.23667729]
  [-0.42171842  0.1384048   0.10495011 ...  0.76692724 -0.20900571
   -0.11838926]
  ...
  [-0.31003469  0.15233874  0.36033386 ...  0.55406529 -0.04922102
   -0.21151535]
  [-0.09753639  0.08527546  0.52606189 ...  0.67159528 -0.24053128
    0.13846362]
  [-0.22908023  0.06059264  0.17814411 ...  0.69017577  0.28975916
   -0.19272555]]]


Рассмотрим метод model.get_elmo_vector_average(), который параллельно будем сравнивать с методом model.get_elmo_vectors()

---



In [19]:
# Функция печатает модели
def print_all(sent,layers="average"):
    '''     :param layers: ["top", "average", "all"].'''
    global model
# model.get_elmo_vectors() cоздает тензор эмбеддингов контекстуализированных слов   
    a = model.get_elmo_vectors(sent, layers=layers)
# model.get_elmo_vector_average создает тензор с одним вектором на каждое входное предложение/слово, построенный путем усреднения отдельных эмбеддингов контекстуализированных слов
    b = model.get_elmo_vector_average(sent, layers=layers)
    print("Форма 1", a.shape)
    print(a, end="\n\n")
    print("Форма 2", b.shape)
    print(b)

In [20]:
# Рассмотрим, какие будут результаты при одном и том же предложении
# Параметр layers="top"
# average: возвращает среднее значение всех слоев ELMo для каждого слова
sent = ["Мама кушала кашку"]
lay = "top"
print_all(sent,layers=lay)

2021-11-25 11:35:23,726 : INFO : Warming up ELMo on 1 sentences...
2021-11-25 11:35:24,712 : INFO : Warming up finished.
2021-11-25 11:35:24,714 : INFO : Texts in the current batch: 1
2021-11-25 11:35:27,149 : INFO : Warming up ELMo on 1 sentences...
2021-11-25 11:35:28,154 : INFO : Warming up finished.
2021-11-25 11:35:28,156 : INFO : Texts in the current batch: 1


Форма 1 (1, 17, 1024)
[[[-0.37773362  0.28435963  0.14443666 ...  1.36010349 -0.19904019
   -0.52628207]
  [-0.67330408  0.36512318  0.03191202 ...  1.5668695  -0.25418052
   -0.52660722]
  [-0.68582225  0.67055774  0.05130973 ...  1.33196855 -0.21141475
   -0.66060996]
  ...
  [-0.23770446 -0.0155853   0.75358707 ...  1.26331389  0.41787934
   -1.05210388]
  [-0.31060341 -0.09670198  0.78267419 ...  1.12049103  0.02317786
   -1.31881142]
  [-0.35823005  0.09960151  0.833799   ...  0.82824636  0.14004332
   -0.91360497]]]

Форма 2 (1, 1024)
[[-0.01906544  0.00726378  0.02325568 ...  0.0545282  -0.00049808
  -0.04215038]]


In [21]:
# Рассмотрим, какие будут результаты при одном и том же предложении
# Параметр layers="average"
# average: возвращает среднее значение всех слоев ELMo для каждого слова
sent = ["Мама кушала кашку"]
lay = "average"
print_all(sent,layers=lay)

2021-11-25 11:35:30,629 : INFO : Warming up ELMo on 1 sentences...
2021-11-25 11:35:31,642 : INFO : Warming up finished.
2021-11-25 11:35:31,647 : INFO : Texts in the current batch: 1
2021-11-25 11:35:34,121 : INFO : Warming up ELMo on 1 sentences...
2021-11-25 11:35:35,131 : INFO : Warming up finished.
2021-11-25 11:35:35,133 : INFO : Texts in the current batch: 1


Форма 1 (1, 17, 1024)
[[[ 0.01627003  0.22102687  0.03480434 ...  0.81134671 -0.20867981
   -0.06193206]
  [-0.04833546  0.29273084 -0.18278871 ...  0.77962613 -0.20890361
   -0.17339541]
  [-0.06204474  0.38621303 -0.00395821 ...  0.54871339 -0.10708772
   -0.21454394]
  ...
  [-0.35240459  0.05035363  0.19516075 ...  0.42361775  0.49789816
   -0.53456908]
  [-0.12638941  0.23442508  0.30907926 ...  0.25361079  0.12171065
   -0.64590573]
  [-0.08684705  0.28843492  0.0304206  ...  0.69049847  0.28943145
   -0.19268991]]]

Форма 2 (1, 1024)
[[-0.01251872  0.02527153  0.00873489 ...  0.05448836  0.00310093
  -0.0336799 ]]


In [22]:
# Рассмотрим, какие будут результаты при одном и том же предложении
# Параметр layers="all"
# all: возвращает все слои ELMo для каждого слова 
sent = ["Мама кушала кашку"]
lay = "all"
print_all(sent,layers=lay)

2021-11-25 11:35:37,585 : INFO : Warming up ELMo on 1 sentences...
2021-11-25 11:35:38,611 : INFO : Warming up finished.
2021-11-25 11:35:38,614 : INFO : Texts in the current batch: 1
2021-11-25 11:35:41,012 : INFO : Warming up ELMo on 1 sentences...
2021-11-25 11:35:41,992 : INFO : Warming up finished.
2021-11-25 11:35:41,994 : INFO : Texts in the current batch: 1


Форма 1 (1, 3, 17, 1024)
[[[[ 0.41291744  0.09826779 -0.14199802 ...  0.58139247 -0.18427584
     0.56943643]
   [ 0.60640424  0.15070832 -0.50893939 ...  0.29911652  0.00781235
     0.01329249]
   [ 0.70754278 -0.22869444 -0.08005527 ... -0.02796001  0.15895088
     0.31488419]
   ...
   [-0.91793507 -0.69889587 -0.47834575 ... -0.30933404  0.96488893
    -0.10237956]
   [-0.02281583 -0.12387342  0.01321866 ... -0.3328326   0.5108692
     0.12433757]
   [ 0.27709007 -0.20173755 -0.95288432 ...  1.00003088  0.86113977
     0.78910816]]

  [[ 0.01362624  0.28045321  0.10197439 ...  0.49254408 -0.24272336
    -0.22895056]
   [-0.07810657  0.36236101 -0.07133875 ...  0.47289214 -0.38034266
    -0.00687152]
   [-0.20785472  0.71677577  0.01687091 ...  0.34213167 -0.26879928
    -0.29790601]
   ...
   [ 0.09842584  0.86554205  0.31024089 ...  0.31687334  0.11092623
    -0.44922379]
   [-0.04574898  0.92385066  0.13134487 ... -0.02682604 -0.16891512
    -0.74324328]
   [-0.17940114  0.967440

In [23]:
# Параметр layers="average" по умолчанию
# average: возвращает среднее значение всех слоев ELMo для каждого слова
sent = ["Мама кушала кашку", "Лучший день на свете"]
print_all(sent)
# Обратим внимание, что форма тензора для метода model.get_elmo_vector_average() стала (2, 1024): 2 - показатель количества предложений

2021-11-25 11:35:44,410 : INFO : Warming up ELMo on 2 sentences...
2021-11-25 11:35:46,097 : INFO : Warming up finished.
2021-11-25 11:35:46,099 : INFO : Texts in the current batch: 2
2021-11-25 11:35:49,218 : INFO : Warming up ELMo on 2 sentences...
2021-11-25 11:35:50,912 : INFO : Warming up finished.
2021-11-25 11:35:50,915 : INFO : Texts in the current batch: 2


Форма 1 (2, 20, 1024)
[[[ 0.01627     0.2210269   0.03480431 ...  0.81134665 -0.20867977
   -0.06193218]
  [-0.04833533  0.29273081 -0.18278871 ...  0.77962554 -0.20890374
   -0.1733954 ]
  [-0.06204483  0.3862133  -0.00395805 ...  0.54871339 -0.10708741
   -0.21454388]
  ...
  [-0.02518879  0.05639359 -0.05628741 ...  0.04216247 -0.02642865
    0.07454713]
  [-0.02518879  0.05639359 -0.05628741 ...  0.04216247 -0.02642865
    0.07454713]
  [-0.02518879  0.05639359 -0.05628741 ...  0.04216247 -0.02642865
    0.07454713]]

 [[-0.30826449  0.58845818 -0.13478968 ...  0.62768739  0.05051462
   -0.02275062]
  [-0.29579258  0.42117596 -0.17684379 ...  0.94375026  0.10765503
    0.11219251]
  [-0.0652307   0.35871643  0.17566445 ...  0.65807581 -0.01447788
   -0.18031229]
  ...
  [ 0.06359716  0.60309303  0.12782133 ...  0.06633694  0.15085684
   -0.43594313]
  [-0.03926238  0.22052945 -0.03721088 ...  0.05905594  0.40141845
   -0.73716837]
  [ 0.05755181  0.50155395  0.02158746 ... -0.16025

Рассмотрим пары предложений похожие в каком-то смысле 

In [24]:
# Метод model.get_elmo_vectors() 
# Создает тензор эмбеддингов контекстуализированных слов
# Его форма: (количество предложений/слов, длина самого длинного предложения/слова, размерность вектора)

# Метод model.get_elmo_vector_average()
# Создает тензор с одним вектором на каждое входное предложение/слово, построенный путем усреднения отдельных эмбеддингов контекстуализированных слов
# Его форма: (количество предложений/слов, размерность вектора)

# В одном из предложений присутствует частица "не"
# Параметр layers="average" по умолчанию
# average: возвращает среднее значение всех слоев ELMo для каждого слова
sent = ["Я читал книгу", "Я не читал книгу"]
print_all(sent)

2021-11-25 11:35:54,072 : INFO : Warming up ELMo on 2 sentences...
2021-11-25 11:35:55,507 : INFO : Warming up finished.
2021-11-25 11:35:55,509 : INFO : Texts in the current batch: 2
2021-11-25 11:35:58,329 : INFO : Warming up ELMo on 2 sentences...
2021-11-25 11:35:59,756 : INFO : Warming up finished.
2021-11-25 11:35:59,758 : INFO : Texts in the current batch: 2


Форма 1 (2, 16, 1024)
[[[-0.20080395  0.43421301  0.02571325 ...  0.67647636 -0.1720295
   -0.18253595]
  [-0.37750536  0.29597491  0.05028456 ...  0.57205743 -0.02468274
   -0.17512205]
  [-0.12521422  0.22604778  0.11473823 ...  0.71611452  0.05253247
   -0.3294211 ]
  ...
  [-0.02518879  0.05639359 -0.05628741 ...  0.04216247 -0.02642865
    0.07454713]
  [-0.02518879  0.05639359 -0.05628741 ...  0.04216247 -0.02642865
    0.07454713]
  [-0.02518879  0.05639359 -0.05628741 ...  0.04216247 -0.02642865
    0.07454713]]

 [[-0.20049651  0.43410003  0.02569169 ...  0.6462158  -0.19953531
   -0.16237134]
  [-0.37732285  0.29596645  0.05031414 ...  0.56665719 -0.07276443
   -0.22533271]
  [ 0.18481237  0.43336508  0.15511742 ...  0.75852996  0.05188078
   -0.25617617]
  ...
  [ 0.18243124  0.10821348 -0.09217498 ...  0.52550477 -0.19003415
   -0.1735003 ]
  [-0.04300846  0.08405663  0.08589953 ...  0.293466    0.04053867
    0.09317675]
  [-0.04876602  0.17167237 -0.06496632 ...  0.690361

In [25]:
# Рассмотрим паронимы
# Параметр layers="average" по умолчанию
# average: возвращает среднее значение всех слоев ELMo для каждого слова
sent = ["Одеть одежду", "Надеть одежду"]
print_all(sent)

2021-11-25 11:36:02,671 : INFO : Warming up ELMo on 2 sentences...
2021-11-25 11:36:03,972 : INFO : Warming up finished.
2021-11-25 11:36:03,974 : INFO : Texts in the current batch: 2
2021-11-25 11:36:06,669 : INFO : Warming up ELMo on 2 sentences...
2021-11-25 11:36:07,958 : INFO : Warming up finished.
2021-11-25 11:36:07,960 : INFO : Texts in the current batch: 2


Форма 1 (2, 13, 1024)
[[[-0.25605261  0.8966397  -0.209004   ...  0.47030804 -0.13018633
    0.2052691 ]
  [-0.09869849  0.3756485  -0.02419939 ...  0.62378103 -0.14942548
   -0.0026186 ]
  [-0.13086861  0.84794033 -0.01700035 ...  0.58958519 -0.17057788
   -0.02235388]
  ...
  [ 0.04454678  0.49879223  0.24671569 ...  0.22995204  0.1385165
   -0.25878048]
  [-0.01549383  0.41688725 -0.02452533 ...  0.68984187  0.28955886
   -0.19203645]
  [-0.02518879  0.05639359 -0.05628741 ...  0.04216247 -0.02642865
    0.07454713]]

 [[-0.00205625  0.57492477 -0.2462759  ...  0.47809076 -0.32038152
    0.14415601]
  [ 0.0337179   0.40864894 -0.20367435 ...  0.80334437 -0.45079184
   -0.10854273]
  [-0.21071084  0.34551767  0.04731265 ...  0.62386352 -0.14935124
   -0.0026553 ]
  ...
  [-0.00706012  0.41688746  0.31616274 ...  0.6686908  -0.30125284
   -0.01848111]
  [ 0.01495986  0.49271685  0.24509671 ...  0.23006111  0.13865384
   -0.25917703]
  [-0.03665387  0.39953083 -0.02432959 ...  0.689733

In [26]:
# Одно слово представлено двумя разными частями речи
# Параметр layers="average" по умолчанию
# average: возвращает среднее значение всех слоев ELMo для каждого слова
sent = ["Печь пироги", "В печи пироги"]
print_all(sent)

2021-11-25 11:36:10,715 : INFO : Warming up ELMo on 2 sentences...
2021-11-25 11:36:12,083 : INFO : Warming up finished.
2021-11-25 11:36:12,085 : INFO : Texts in the current batch: 2
2021-11-25 11:36:14,848 : INFO : Warming up ELMo on 2 sentences...
2021-11-25 11:36:16,146 : INFO : Warming up finished.
2021-11-25 11:36:16,149 : INFO : Texts in the current batch: 2


Форма 1 (2, 13, 1024)
[[[-0.08868521  0.6559701  -0.03611707 ...  0.81331062 -0.17064251
    0.17411947]
  [-0.20064327  0.77893829 -0.11857408 ...  0.51111108 -0.10115469
   -0.23955286]
  [-0.08984288  0.43517119  0.07536504 ...  0.67815018  0.01684678
   -0.38755298]
  ...
  [ 0.05128003  0.19841404 -0.14609425 ...  0.10682103 -0.30849615
   -0.29140735]
  [-0.02518879  0.05639359 -0.05628741 ...  0.04216247 -0.02642865
    0.07454713]
  [-0.02518879  0.05639359 -0.05628741 ...  0.04216247 -0.02642865
    0.07454713]]

 [[ 0.00409463  0.52811599  0.09495985 ...  0.57456118 -0.40046743
   -0.13146727]
  [-0.33694363  0.36294395  0.05728484 ...  0.58806926 -0.27684051
   -0.27015281]
  [-0.45468223  0.25458649  0.02522179 ...  0.47358814 -0.03806952
   -0.58426154]
  ...
  [ 0.0929887   0.50761145  0.06308956 ...  0.37399453  0.09242474
   -0.62021714]
  [-0.08751262  0.0845573   0.15922946 ...  0.25194272 -0.05588587
   -0.36667371]
  [ 0.01493987  0.04318999 -0.03837574 ...  0.10697

In [27]:
# Рассмотрим омонимы
# Параметр layers="average" по умолчанию
# average: возвращает среднее значение всех слоев ELMo для каждого слова
sent = ["Заплести косу", "Наточить косу"]
print_all(sent)

2021-11-25 11:36:18,862 : INFO : Warming up ELMo on 2 sentences...
2021-11-25 11:36:20,127 : INFO : Warming up finished.
2021-11-25 11:36:20,131 : INFO : Texts in the current batch: 2
2021-11-25 11:36:22,794 : INFO : Warming up ELMo on 2 sentences...
2021-11-25 11:36:24,059 : INFO : Warming up finished.
2021-11-25 11:36:24,064 : INFO : Texts in the current batch: 2


Форма 1 (2, 13, 1024)
[[[ 0.27312779  0.68260092 -0.05119982 ...  0.43150505 -0.48126712
   -0.31898087]
  [ 0.03123282  0.39253986 -0.09118418 ...  0.67034453 -0.36456132
   -0.27983618]
  [-0.47725788  0.20681337 -0.02089583 ...  0.20669277  0.17740591
   -0.55976164]
  ...
  [ 0.07690218  0.65036649  0.12324969 ...  0.45802313  0.13453905
   -0.36219034]
  [-0.14134789  0.5229308   0.2871016  ...  0.1071984   0.4650287
   -0.21474004]
  [-0.08452848  0.42729294  0.00950193 ...  0.69030231  0.28924811
   -0.19255608]]

 [[-0.00162831  0.57503557 -0.24634191 ...  0.39871275 -0.15466909
    0.0352153 ]
  [ 0.03395024  0.40861723 -0.20360649 ...  0.7478835  -0.11609481
   -0.16885333]
  [-0.19191131  0.17518869 -0.29091555 ...  0.4520992   0.19776441
   -0.09327736]
  ...
  [ 0.06052339  0.65640903 -0.00988799 ...  0.45801741  0.13475217
   -0.36217901]
  [-0.1577585   0.51216865  0.15763873 ...  0.10708459  0.46530575
   -0.21466982]
  [-0.0917118   0.40413702 -0.11001921 ...  0.690088

In [28]:
# Посчитаем косинусную близость для двух разных предложений
import numpy as np
sent = ["Ясная погода", "Хорошее психологическое состояние человека"]
lay = "top"
a = model.get_elmo_vector_average(sent, layers=lay)
print(a)
print(np.dot(a[0], a[1]) / (np.linalg.norm(a[0])*np.linalg.norm(a[1])))

2021-11-25 11:36:26,768 : INFO : Warming up ELMo on 2 sentences...
2021-11-25 11:36:29,815 : INFO : Warming up finished.
2021-11-25 11:36:29,818 : INFO : Texts in the current batch: 2


[[-0.02074692 -0.00325314  0.01781148 ...  0.04046242 -0.01716793
  -0.04423163]
 [ 0.00357026  0.02028965  0.00905546 ...  0.03738992 -0.02434128
  -0.02346909]]
0.9153724327963861


In [29]:
# Посчитаем косинусную близость для двух похожих предложений
sent = ["Одеть одежду", "Надеть одежду"]
lay = "top"
a = model.get_elmo_vector_average(sent, layers=lay)
print(np.dot(a[0], a[1]) / (np.linalg.norm(a[0])*np.linalg.norm(a[1])))

2021-11-25 11:36:34,370 : INFO : Warming up ELMo on 2 sentences...
2021-11-25 11:36:35,639 : INFO : Warming up finished.
2021-11-25 11:36:35,643 : INFO : Texts in the current batch: 2


0.9896118965306678
