Как запустить программу, используя Google Colab? Сначала на сайте http://vectors.nlpl.eu/repository/ надо скачать необходимую модель (в программе рассматриваю 195 и 212 модели) и распаковать  на гугл диске. 
Потом в 1 ячейке вас попросят Go to this URL in a browser: ..., надо перейти по ссылке, скопировать код и вставить его в поле Enter your authorization code: ...
Затем в 4-5 ячейке в строчке model.load(PATH_TO_ELMO) прописать свой PATH_TO_ELMO.

In [1]:
# Подключение гугл-диска для получения модели ELMo
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [2]:
# Установка simple_elmo
!pip3 install simple_elmo



In [3]:
# Подключение необходимых библиотек
import tensorflow as tf
from simple_elmo import ElmoModel

In [4]:
# Загрузка уже обученной первой модели с гугл-диска
# ruwikiruscorpora_tokens_elmo_1024_2019 - модель ELMo, корпус - НКРЯ и Википедия за декабрь 2018 (токены),
# размер корпуса 989 миллионов слов
model = ElmoModel()
model.load('/content/drive/MyDrive/195')
# model.load(PATH_TO_ELMO)


2021-11-25 11:29:11,313 : INFO : Loading model from /content/drive/MyDrive/195...
2021-11-25 11:29:11,321 : INFO : We will cache the vocabulary of 100 tokens.
  cell_clip=cell_clip, proj_clip=proj_clip)
  partitioner=maybe_partitioner)
  initializer=initializer)
  partitioner=maybe_proj_partitioner)


'The model is now loaded.'

In [5]:
# Загрузка уже обученной второй модели с гугл-диска
# araneum_lemmas_elmo_2048_2020 - модель ELMo, корпус - Araneum (леммы), 
# размер корпуса около 10 миллиардов слов

# model = ElmoModel()
# model.load('/content/drive/MyDrive/212')
# model.load(PATH_TO_ELMO)

In [6]:
# Три метода для загруженных моделей

# model.get_elmo_vectors(SENTENCES)
# Создает тензор эмбеддингов контекстуализированных слов
# Его форма: (количество предложений/слов, длина самого длинного предложения/слова, размерность вектора)

# model.get_elmo_vector_average(SENTENCES)
# Создает тензор с одним вектором на каждое входное предложение/слово, построенный путем усреднения отдельных эмбеддингов контекстуализированных слов
# Его форма: (количество предложений/слов, размерность вектора)

# model.get_elmo_substitutes(RAW_SENTENCES)
# В настоящее время работает только с моделями, загруженными с full=True. 
# Для каждого входного предложения/слова он создает список лексических заменителей для каждого словесной единицы (токена) в предложении
# Этот метод все еще экспериментальный

# где SENTENCES - это список предложений (список строк), а RAW_SENTENCES - список предложений как строк.

In [7]:
# Методы

# model.get_elmo_vectors(SENTENCES)
# model.get_elmo_vector_average(SENTENCES)

# могут быть использованы с аргументом layers, который принимает одно из трех значений:
# 1) average (по умолчанию): возвращает среднее значение всех слоев ELMo для каждого слова
# 2) top: возвращает только верхний (последний) слой для каждого слова
# 3) all: возвращает все слои ELMo для каждого слова 
#    (в полученном тензоре появляется дополнительное измерение, которое равно количеству слоев в модели, как правило, 3)

In [8]:
# Функция печатает размерности тензоров для каждого метода
def print_all_models_dimensions(sent,layers="average"):
    '''     :param layers: ["top", "average", "all"].'''
    global model
    a = model.get_elmo_vectors(sent, layers=layers)
    b = model.get_elmo_vector_average(sent, layers=layers)
    print("a", a.shape)
    print("b", b.shape, end="\n\n")

In [9]:
# Продемонстрируем формы полученных тензоров каждого метода для одного и того же предложения
sent = ["Мама мыла Милу мылом", "Кукушка кукушонку купила капюшон", "да", "нет"]
for lay in ["top", "average", "all"]:
    print(lay)
    print_all_models_dimensions(sent,layers=lay)

top


2021-11-25 11:29:16,144 : INFO : Warming up ELMo on 4 sentences...
2021-11-25 11:29:17,941 : INFO : Warming up finished.
2021-11-25 11:29:17,943 : INFO : Texts in the current batch: 4
2021-11-25 11:29:21,028 : INFO : Warming up ELMo on 4 sentences...
2021-11-25 11:29:22,804 : INFO : Warming up finished.
2021-11-25 11:29:22,807 : INFO : Texts in the current batch: 4


a (4, 32, 1024)
b (4, 1024)

average


2021-11-25 11:29:25,857 : INFO : Warming up ELMo on 4 sentences...
2021-11-25 11:29:27,701 : INFO : Warming up finished.
2021-11-25 11:29:27,703 : INFO : Texts in the current batch: 4
2021-11-25 11:29:30,691 : INFO : Warming up ELMo on 4 sentences...
2021-11-25 11:29:32,327 : INFO : Warming up finished.
2021-11-25 11:29:32,329 : INFO : Texts in the current batch: 4


a (4, 32, 1024)
b (4, 1024)

all


2021-11-25 11:29:35,191 : INFO : Warming up ELMo on 4 sentences...
2021-11-25 11:29:36,876 : INFO : Warming up finished.
2021-11-25 11:29:36,880 : INFO : Texts in the current batch: 4
2021-11-25 11:29:39,761 : INFO : Warming up ELMo on 4 sentences...
2021-11-25 11:29:41,460 : INFO : Warming up finished.
2021-11-25 11:29:41,465 : INFO : Texts in the current batch: 4


a (4, 3, 32, 1024)
b (4, 3, 1024)



Теперь будем печатать модели и смотреть на результаты

Рассмотрим метод model.get_elmo_vectors()

In [10]:
# Функция использует метод model.get_elmo_vectors() и печатает модели
# Метод model.get_elmo_vectors() создает тензор эмбеддингов контекстуализированных слов
# Его форма: (количество предложений/слов, длина самого длинного предложения/слова, размерность вектора)
def print_vectors(sent,layers="average"):
    '''     :param layers: ["top", "average", "all"].'''
    global model
    a = model.get_elmo_vectors(sent, layers=layers)
    print("Форма", a.shape)
    print(a)

In [11]:
# Посмотрим, какие будут результаты при использовании метода model.get_elmo_vectors(), когда список предложений - одна буква 

# top: возвращает только верхний (последний) слой для каждого слова 
lay = "top"
print_vectors(['C'],layers=lay)
# average: возвращает среднее значение всех слоев ELMo для каждого слова
lay = "average"
print_vectors(['C'],layers=lay)
# all: возвращает все слои ELMo для каждого слова
lay = "all"
print_vectors(['C'],layers=lay)

2021-11-25 11:29:44,326 : INFO : Warming up ELMo on 1 sentences...
2021-11-25 11:29:44,766 : INFO : Warming up finished.
2021-11-25 11:29:44,770 : INFO : Texts in the current batch: 1


Форма (1, 1, 1024)
[[[ 0.86061847  1.44575453 -0.91123194 ...  1.80539846  1.13726866
    1.71431446]]]


2021-11-25 11:29:46,374 : INFO : Warming up ELMo on 1 sentences...
2021-11-25 11:29:46,811 : INFO : Warming up finished.
2021-11-25 11:29:46,813 : INFO : Texts in the current batch: 1


Форма (1, 1, 1024)
[[[ 0.60173023  0.71872169 -0.15079565 ...  0.9815833   0.97378981
    0.93340296]]]


2021-11-25 11:29:48,416 : INFO : Warming up ELMo on 1 sentences...
2021-11-25 11:29:48,855 : INFO : Warming up finished.
2021-11-25 11:29:48,858 : INFO : Texts in the current batch: 1


Форма (1, 3, 1, 1024)
[[[[ 2.99432427e-01 -1.51988789e-01  5.61561167e-01 ...  1.66782737e-03
     7.64528394e-01 -1.64312974e-01]]

  [[ 6.45139873e-01  8.62399280e-01 -1.02716163e-01 ...  1.13768363e+00
     1.01957214e+00  1.25020719e+00]]

  [[ 8.60618472e-01  1.44575453e+00 -9.11231935e-01 ...  1.80539846e+00
     1.13726866e+00  1.71431446e+00]]]]


In [12]:
# Сравним полученные значения, когда в предложении-слове одна буква и несколько 
# Параметр layers="top"
lay = "top"
print_vectors(['C'],layers=lay)
print_vectors(['Солнце'],layers=lay)
# Видим, что добавленные буквы сильно повлияли на первый вектор

2021-11-25 11:29:50,457 : INFO : Warming up ELMo on 1 sentences...
2021-11-25 11:29:50,930 : INFO : Warming up finished.
2021-11-25 11:29:50,932 : INFO : Texts in the current batch: 1


Форма (1, 1, 1024)
[[[ 0.86061847  1.44575453 -0.91123194 ...  1.80539846  1.13726866
    1.71431446]]]


2021-11-25 11:29:52,543 : INFO : Warming up ELMo on 1 sentences...
2021-11-25 11:29:53,081 : INFO : Warming up finished.
2021-11-25 11:29:53,085 : INFO : Texts in the current batch: 1


Форма (1, 6, 1024)
[[[ 0.50125808  0.73326051 -1.11137652 ...  2.7036283  -0.38611746
   -0.17127168]
  [ 0.84074777  0.31502247 -2.14742041 ...  2.52195454 -0.06385642
    0.16362442]
  [ 1.68282747  0.37636515 -3.50920868 ...  3.42320871  0.0869143
    0.56745118]
  [ 1.63885427 -0.25165784 -3.01090479 ...  2.79699707  1.20367312
    1.35700977]
  [ 1.07119775 -0.50933099 -2.25852633 ...  2.26811719  0.49746507
    0.37013188]
  [ 1.12704933 -0.34990138 -1.82632601 ...  2.47980738 -1.00205612
    1.27607942]]]


In [13]:
# Сравним полученные значения, когда в предложении-слове одна буква и несколько 
# Параметр layers="average"
lay = "average"
print_vectors(['C'],layers=lay)
print_vectors(['Солнце'],layers=lay)

2021-11-25 11:29:54,820 : INFO : Warming up ELMo on 1 sentences...
2021-11-25 11:29:55,327 : INFO : Warming up finished.
2021-11-25 11:29:55,331 : INFO : Texts in the current batch: 1


Форма (1, 1, 1024)
[[[ 0.60173023  0.71872169 -0.15079565 ...  0.9815833   0.97378981
    0.93340296]]]


2021-11-25 11:29:56,948 : INFO : Warming up ELMo on 1 sentences...
2021-11-25 11:29:57,476 : INFO : Warming up finished.
2021-11-25 11:29:57,479 : INFO : Texts in the current batch: 1


Форма (1, 6, 1024)
[[[ 0.3104772   0.2157902  -0.46882367 ...  0.87072319  0.03332976
    0.19499825]
  [ 0.50034463 -0.12245125 -0.97297621 ...  0.98857832 -0.33039621
    0.15170544]
  [ 1.11255717  0.12209521 -1.93707991 ...  1.38206291 -0.02820494
    0.03567788]
  [ 0.923729   -0.13296174 -1.5528574  ...  1.29628849  0.77010071
    0.36233091]
  [ 0.38529739 -0.29916087 -1.17993355 ...  0.83156431  0.23920073
    0.01906233]
  [ 0.52817988 -0.2861177  -0.73361504 ...  1.12374091 -0.44203484
    0.43385598]]]


In [14]:
# Сравним полученные значения, когда в предложении-слове одна буква и несколько 
# Параметр layers="all"
lay = "all"
print_vectors(['C'],layers=lay)
print_vectors(['Солнце'],layers=lay)

2021-11-25 11:29:59,206 : INFO : Warming up ELMo on 1 sentences...
2021-11-25 11:29:59,635 : INFO : Warming up finished.
2021-11-25 11:29:59,641 : INFO : Texts in the current batch: 1


Форма (1, 3, 1, 1024)
[[[[ 2.99432427e-01 -1.51988789e-01  5.61561167e-01 ...  1.66782737e-03
     7.64528394e-01 -1.64312974e-01]]

  [[ 6.45139873e-01  8.62399280e-01 -1.02716163e-01 ...  1.13768363e+00
     1.01957214e+00  1.25020719e+00]]

  [[ 8.60618472e-01  1.44575453e+00 -9.11231935e-01 ...  1.80539846e+00
     1.13726866e+00  1.71431446e+00]]]]


2021-11-25 11:30:01,275 : INFO : Warming up ELMo on 1 sentences...
2021-11-25 11:30:01,839 : INFO : Warming up finished.
2021-11-25 11:30:01,841 : INFO : Texts in the current batch: 1


Форма (1, 3, 6, 1024)
[[[[-0.27940181 -0.25546205  0.10033454 ... -0.54121947  0.50628746
     0.16890295]
   [ 0.20784038 -0.44677243  0.26922119 ... -0.13477522 -0.29920432
     0.01746514]
   [ 0.47425175  0.00379109 -0.34129229 ... -0.11852518 -0.01698089
    -0.73052305]
   [ 0.67617261  0.60648501 -0.46132857 ...  0.38007051  0.40534797
    -0.3412748 ]
   [-0.34735003 -0.20154616 -0.4757106  ... -0.54419243 -0.30258816
    -0.56150657]
   [ 0.21964008 -0.36956239  0.05229902 ... -0.26632386 -0.08001852
     0.19626902]]

  [[ 0.70957524  0.16957214 -0.39542907 ...  0.44976065 -0.0201807
     0.58736348]
   [ 0.4524456  -0.23560381 -1.04072928 ...  0.57855558 -0.62812787
     0.27402675]
   [ 1.18059206 -0.01387062 -1.96073854 ...  0.84150487 -0.15454823
     0.27010548]
   [ 0.45616001 -0.7537123  -1.18633878 ...  0.71179754  0.70128095
     0.07125774]
   [ 0.43204445 -0.18660539 -0.80556363 ...  0.77076817  0.52272522
     0.24856168]
   [ 0.23785029 -0.13888931 -0.42681792 ..

In [15]:
# Рассмотрим другие примеры использования метода get_elmo_vectors()
# Аргумент layers по умолчанию average
# В следующем примере уменьшим количество слов в предложении
model.get_elmo_vectors(['В мире лучше нет пока факультета ВМК'])

2021-11-25 11:30:03,593 : INFO : Warming up ELMo on 1 sentences...
2021-11-25 11:30:04,621 : INFO : Warming up finished.
2021-11-25 11:30:04,624 : INFO : Texts in the current batch: 1


array([[[ 0.1313034 , -0.12131756, -0.08123291, ...,  1.03422034,
          0.40445441,  0.29501086],
        [ 0.22561011,  0.58067346, -0.0998593 , ...,  1.62604952,
          0.18520275,  0.21451254],
        [ 0.92283142,  0.16670758, -1.19994688, ...,  1.74934936,
          0.45389366,  0.2412398 ],
        ...,
        [ 0.55320525, -0.31316575, -0.68868625, ...,  0.02721696,
          0.01263693,  0.19226775],
        [ 1.01327348,  0.0982054 , -0.49989313, ..., -0.02327866,
          0.06692711,  0.22869353],
        [ 1.01651406,  0.09126005, -0.87948084, ...,  0.21478069,
         -0.22000933,  1.03982294]]])

In [16]:
# Рассмотрим другие примеры использования метода get_elmo_vectors()
# Аргумент layers по умолчанию average
# В предыдущем примере слов в предложении больше
model.get_elmo_vectors(['В мире лучше нет'])

2021-11-25 11:30:06,788 : INFO : Warming up ELMo on 1 sentences...
2021-11-25 11:30:07,509 : INFO : Warming up finished.
2021-11-25 11:30:07,511 : INFO : Texts in the current batch: 1


array([[[ 0.13198102, -0.12111413, -0.07960892, ...,  0.86078119,
          0.26943812,  0.22242771],
        [ 0.22527501,  0.57932043, -0.09773356, ...,  1.46605468,
          0.23988773,  0.37336186],
        [ 0.92339098,  0.16587734, -1.19996905, ...,  1.65035558,
          0.52199495,  0.36059803],
        ...,
        [ 0.98873317, -0.05461198, -1.3313247 , ...,  1.44661069,
          0.29776347,  0.23512229],
        [ 0.85863769, -0.10209035, -0.88404036, ...,  1.25510216,
          0.13701285,  0.7305789 ],
        [ 1.23862624, -0.34339851, -1.11089957, ...,  0.67439401,
          0.08244018,  0.59860301]]])

In [17]:
# Рассмотрим метод get_elmo_vectors()
# Заметим, что начало одного списка слов (предложений) так же начало и второго
print(model.get_elmo_vectors(['красивый']))
print("Другой пример:")
print(model.get_elmo_vectors(['красивый', 'красивая']))
# Из-за того, что список слов-предложений начинается со слова "красивый" - начала двух выводов почти одинаковые
# А так как они ПОЧТИ одинаковые - видим, что во втором случае наличие другого предложения в списке повлияло на весь результат  

2021-11-25 11:30:09,440 : INFO : Warming up ELMo on 1 sentences...
2021-11-25 11:30:10,008 : INFO : Warming up finished.
2021-11-25 11:30:10,010 : INFO : Texts in the current batch: 1


[[[ 2.41617113e-01  3.58703554e-01 -9.39772964e-01 ...  1.07352829e+00
    3.58950049e-01  9.95523334e-02]
  [ 5.12566626e-01  1.06879920e-02 -1.39657927e+00 ...  1.35111809e+00
   -1.13579445e-01  3.53425354e-01]
  [ 5.75857759e-01 -2.59993494e-01 -1.07944059e+00 ...  1.61270499e+00
   -1.50069371e-01  7.31355369e-01]
  ...
  [ 5.57521343e-01  5.30540943e-04 -9.60358381e-01 ...  6.85038686e-01
    7.17059225e-02  8.44620392e-02]
  [ 5.96490860e-01  3.73895645e-01 -1.11542892e+00 ...  7.43693233e-01
    1.56911299e-01 -2.70184129e-04]
  [ 9.17204857e-01 -6.61958605e-02 -1.78462172e+00 ...  7.98408926e-01
   -1.25463665e-01  7.49929547e-02]]]
Другой пример:


2021-11-25 11:30:11,783 : INFO : Warming up ELMo on 2 sentences...
2021-11-25 11:30:12,638 : INFO : Warming up finished.
2021-11-25 11:30:12,640 : INFO : Texts in the current batch: 2


[[[ 2.41617128e-01  3.58703226e-01 -9.39773023e-01 ...  1.07352841e+00
    3.58950019e-01  9.95524824e-02]
  [ 5.12566566e-01  1.06882453e-02 -1.39657962e+00 ...  1.35111797e+00
   -1.13579415e-01  3.53425384e-01]
  [ 5.75857818e-01 -2.59993404e-01 -1.07944012e+00 ...  1.61270452e+00
   -1.50069267e-01  7.31355667e-01]
  ...
  [ 5.57521284e-01  5.30339777e-04 -9.60358202e-01 ...  6.85038626e-01
    7.17061237e-02  8.44624862e-02]
  [ 5.96490741e-01  3.73895526e-01 -1.11542916e+00 ...  7.43693411e-01
    1.56910956e-01 -2.70701945e-04]
  [ 9.17204916e-01 -6.61955401e-02 -1.78462231e+00 ...  7.98409045e-01
   -1.25463724e-01  7.49929547e-02]]

 [[ 2.38944247e-01  3.56565624e-01 -9.46540058e-01 ...  9.40281153e-01
    1.38594151e-01  1.58228695e-01]
  [ 5.08360922e-01  7.77240098e-03 -1.39798927e+00 ...  1.48005986e+00
    6.12859316e-02  2.59538770e-01]
  [ 5.74713409e-01 -2.60177493e-01 -1.07887709e+00 ...  1.34585166e+00
   -1.27201885e-01  2.78426886e-01]
  ...
  [ 5.57650089e-01  7.5

In [18]:
lay = "average"
print_vectors(['Яркое солнце.', 'Яркая личность.'],layers=lay)
print_vectors(['Ля ля ля жу жу жу'],layers=lay)
# Видим, что из-за разных списков предложений - результаты совершенно разные

2021-11-25 11:30:14,656 : INFO : Warming up ELMo on 2 sentences...
2021-11-25 11:30:15,762 : INFO : Warming up finished.
2021-11-25 11:30:15,764 : INFO : Texts in the current batch: 2


Форма (2, 15, 1024)
[[[ 1.50837541  0.00189818 -0.47272032 ...  0.88786316  0.14838476
    0.28213468]
  [ 1.35771918 -0.61596864 -1.20486283 ...  1.21070266  0.50832617
   -0.63242555]
  [ 0.54567772 -0.55287021 -1.15211368 ...  1.16069627  0.25152826
   -0.15063646]
  ...
  [ 0.41598046  0.02189328  0.04216135 ...  0.35522303  0.05011513
   -0.10625631]
  [ 0.03854536 -0.00229315 -0.0251717  ... -0.03766255 -0.01689689
   -0.02865478]
  [ 0.03854536 -0.00229315 -0.0251717  ... -0.03766255 -0.01689689
   -0.02865478]]

 [[ 1.50823212  0.00253489 -0.47263554 ...  1.07749772  0.01867655
    0.24989401]
  [ 1.35779142 -0.61531043 -1.20435083 ...  1.51035273  0.17277592
   -0.63391912]
  [ 0.54554939 -0.55231804 -1.15190268 ...  1.38604903  0.03419793
   -0.26437581]
  ...
  [ 1.28154325 -0.32237926 -0.86610633 ...  0.79724646  0.55102885
    0.07296157]
  [ 0.86668503 -0.24512097 -0.83697414 ...  0.57444072  0.42850387
   -0.11000825]
  [ 0.47635126  0.09678882 -0.27967325 ...  0.354431 

2021-11-25 11:30:18,060 : INFO : Warming up ELMo on 1 sentences...
2021-11-25 11:30:18,752 : INFO : Warming up finished.
2021-11-25 11:30:18,754 : INFO : Texts in the current batch: 1


Форма (1, 17, 1024)
[[[ 1.11886787 -0.46501881 -0.24220818 ...  1.14799488  0.14860374
    0.23706193]
  [ 0.94719797 -0.73210537 -0.42471552 ...  1.61914921  0.58876139
    0.26841718]
  [ 0.64769113 -0.55810839 -0.0775207  ...  1.69790268  0.59593523
    0.53261268]
  ...
  [ 0.73775393 -0.15639254 -0.07190529 ...  1.43567204  0.8667978
    0.16254734]
  [ 1.35448384 -0.53317618 -1.04140472 ...  0.06173787  0.38980961
    0.1514089 ]
  [ 0.86114711 -1.29722738 -0.15929613 ...  0.51285839  0.67635083
    0.4480809 ]]]


Рассмотрим метод model.get_elmo_vector_average(), который параллельно будем сравнивать с методом model.get_elmo_vectors()

---



In [19]:
# Функция печатает модели
def print_all(sent,layers="average"):
    '''     :param layers: ["top", "average", "all"].'''
    global model
# model.get_elmo_vectors() cоздает тензор эмбеддингов контекстуализированных слов   
    a = model.get_elmo_vectors(sent, layers=layers)
# model.get_elmo_vector_average создает тензор с одним вектором на каждое входное предложение/слово, построенный путем усреднения отдельных эмбеддингов контекстуализированных слов
    b = model.get_elmo_vector_average(sent, layers=layers)
    print("Форма 1", a.shape)
    print(a, end="\n\n")
    print("Форма 2", b.shape)
    print(b)

In [20]:
# Рассмотрим, какие будут результаты при одном и том же предложении
# Параметр layers="top"
# average: возвращает среднее значение всех слоев ELMo для каждого слова
sent = ["Мама кушала кашку"]
lay = "top"
print_all(sent,layers=lay)

2021-11-25 11:30:20,614 : INFO : Warming up ELMo on 1 sentences...
2021-11-25 11:30:21,338 : INFO : Warming up finished.
2021-11-25 11:30:21,340 : INFO : Texts in the current batch: 1
2021-11-25 11:30:23,232 : INFO : Warming up ELMo on 1 sentences...
2021-11-25 11:30:23,973 : INFO : Warming up finished.
2021-11-25 11:30:23,975 : INFO : Texts in the current batch: 1


Форма 1 (1, 17, 1024)
[[[ 2.11203456 -0.1170463  -0.17109144 ...  2.77231503  0.53720772
   -0.39827573]
  [ 0.82893145 -0.52258772 -1.54230678 ...  2.9964819   0.95313847
   -0.32006931]
  [ 2.37011099 -1.45749044  0.33541381 ...  2.95960808  0.9661839
    0.39604104]
  ...
  [ 2.52314019  0.03111349 -1.6286974  ...  2.32870221  1.77362871
    0.20502096]
  [ 2.30511928 -0.74425614 -1.68397427 ...  0.68820286  2.58563232
   -0.05486786]
  [ 2.37636805 -1.56783497 -0.76659375 ...  1.70950174  1.38486302
    0.780954  ]]]

Форма 2 (1, 1024)
[[ 0.07336734 -0.02232702 -0.04364292 ...  0.06685403  0.0271359
  -0.00459287]]


In [21]:
# Рассмотрим, какие будут результаты при одном и том же предложении
# Параметр layers="average"
# average: возвращает среднее значение всех слоев ELMo для каждого слова
sent = ["Мама кушала кашку"]
lay = "average"
print_all(sent,layers=lay)

2021-11-25 11:30:25,813 : INFO : Warming up ELMo on 1 sentences...
2021-11-25 11:30:26,555 : INFO : Warming up finished.
2021-11-25 11:30:26,557 : INFO : Texts in the current batch: 1
2021-11-25 11:30:28,470 : INFO : Warming up ELMo on 1 sentences...
2021-11-25 11:30:29,175 : INFO : Warming up finished.
2021-11-25 11:30:29,177 : INFO : Texts in the current batch: 1


Форма 1 (1, 17, 1024)
[[[ 1.21803379  0.12034535  0.27359086 ...  1.27048576  0.40137035
   -0.24116229]
  [ 0.28636697 -0.18681601 -0.87329924 ...  1.46091509  0.44747242
    0.18993494]
  [ 1.31987953 -0.67458653  0.1439119  ...  1.44570017  0.68538851
    0.04946892]
  ...
  [ 0.7730782   0.22690843 -0.61023843 ...  1.02540863  1.07701445
    0.16848481]
  [ 0.71712822 -0.37878066 -0.89696711 ...  0.32003009  1.33391833
   -0.24076344]
  [ 0.80541557 -0.84594512 -0.20996433 ...  0.51590019  0.67106009
    0.45016003]]]

Форма 2 (1, 1024)
[[ 0.06189798 -0.0210917  -0.04577666 ...  0.07326053  0.03530141
   0.00399721]]


In [22]:
# Рассмотрим, какие будут результаты при одном и том же предложении
# Параметр layers="all"
# all: возвращает все слои ELMo для каждого слова 
sent = ["Мама кушала кашку"]
lay = "all"
print_all(sent,layers=lay)

2021-11-25 11:30:31,064 : INFO : Warming up ELMo on 1 sentences...
2021-11-25 11:30:31,737 : INFO : Warming up finished.
2021-11-25 11:30:31,739 : INFO : Texts in the current batch: 1
2021-11-25 11:30:33,561 : INFO : Warming up ELMo on 1 sentences...
2021-11-25 11:30:34,299 : INFO : Warming up finished.
2021-11-25 11:30:34,301 : INFO : Texts in the current batch: 1


Форма 1 (1, 3, 17, 1024)
[[[[ 0.11345284 -0.09297864  0.86556941 ...  0.10478152  0.56670475
    -0.64680988]
   [-0.23314303  0.25216869 -0.38828722 ...  0.17374416  0.13452455
     1.01723826]
   [ 0.29592168  0.2672734   0.0842607  ...  0.14212354  0.73466754
    -0.457304  ]
   ...
   [-0.62100011  0.61970913  0.42613003 ... -0.03038463  0.32250366
     0.47903669]
   [ 0.09536729  0.06667153 -0.42344946 ...  0.59812045  0.13167918
    -0.16482505]
   [ 0.18116125 -0.31841823  0.30673331 ... -0.06797762 -0.3049981
     0.42580026]]

  [[ 1.4286139   0.57106096  0.12629458 ...  0.9343605   0.10019851
     0.32159877]
   [ 0.26331246 -0.29002893 -0.68930358 ...  1.21251893  0.25475416
    -0.12736416]
   [ 1.29360592 -0.83354253  0.01206116 ...  1.23536873  0.35531405
     0.20966974]
   ...
   [ 0.41709444  0.02990267 -0.6281479  ...  0.77790809  1.13491106
    -0.17860323]
   [-0.24910204 -0.45875737 -0.58347756 ... -0.32623306  1.28444326
    -0.50259739]
   [-0.14128268 -0.651582

In [23]:
# Параметр layers="average" по умолчанию
# average: возвращает среднее значение всех слоев ELMo для каждого слова
sent = ["Мама кушала кашку", "Лучший день на свете"]
print_all(sent)
# Обратим внимание, что форма тензора для метода model.get_elmo_vector_average() стала (2, 1024): 2 - показатель количества предложений

2021-11-25 11:30:36,127 : INFO : Warming up ELMo on 2 sentences...
2021-11-25 11:30:37,310 : INFO : Warming up finished.
2021-11-25 11:30:37,312 : INFO : Texts in the current batch: 2
2021-11-25 11:30:39,699 : INFO : Warming up ELMo on 2 sentences...
2021-11-25 11:30:40,868 : INFO : Warming up finished.
2021-11-25 11:30:40,872 : INFO : Texts in the current batch: 2


Форма 1 (2, 20, 1024)
[[[ 1.21803379  0.12034531  0.27359092 ...  1.27048588  0.40137041
   -0.2411624 ]
  [ 0.28636697 -0.1868158  -0.87329888 ...  1.46091509  0.4474721
    0.18993534]
  [ 1.31988001 -0.67458642  0.14391178 ...  1.44569957  0.6853888
    0.04946895]
  ...
  [ 0.03854536 -0.00229315 -0.0251717  ... -0.03766255 -0.01689689
   -0.02865478]
  [ 0.03854536 -0.00229315 -0.0251717  ... -0.03766255 -0.01689689
   -0.02865478]
  [ 0.03854536 -0.00229315 -0.0251717  ... -0.03766255 -0.01689689
   -0.02865478]]

 [[ 1.12278855 -0.46097356 -0.24961044 ...  1.09524298 -0.04015367
    0.2443216 ]
  [ 0.35637912 -1.51060128 -0.09913279 ...  1.20242918  0.51706648
    0.71460271]
  [ 1.33077073 -1.21384656 -0.54691112 ...  1.01443434  0.30869797
   -0.04838878]
  ...
  [ 0.54618758 -0.26440006 -0.67610437 ...  1.73996806 -0.57660973
    0.32108623]
  [ 1.06461787 -0.54767591 -0.9887085  ...  0.55937326  0.27386793
   -0.17969188]
  [ 0.60664421 -0.2975128  -0.60639596 ...  1.1032437

Рассмотрим пары предложений похожие в каком-то смысле 

In [24]:
# Метод model.get_elmo_vectors() 
# Создает тензор эмбеддингов контекстуализированных слов
# Его форма: (количество предложений/слов, длина самого длинного предложения/слова, размерность вектора)

# Метод model.get_elmo_vector_average()
# Создает тензор с одним вектором на каждое входное предложение/слово, построенный путем усреднения отдельных эмбеддингов контекстуализированных слов
# Его форма: (количество предложений/слов, размерность вектора)

# В одном из предложений присутствует частица "не"
# Параметр layers="average" по умолчанию
# average: возвращает среднее значение всех слоев ELMo для каждого слова
sent = ["Я читал книгу", "Я не читал книгу"]
print_all(sent)

2021-11-25 11:30:43,194 : INFO : Warming up ELMo on 2 sentences...
2021-11-25 11:30:44,383 : INFO : Warming up finished.
2021-11-25 11:30:44,385 : INFO : Texts in the current batch: 2
2021-11-25 11:30:46,569 : INFO : Warming up ELMo on 2 sentences...
2021-11-25 11:30:47,654 : INFO : Warming up finished.
2021-11-25 11:30:47,657 : INFO : Texts in the current batch: 2


Форма 1 (2, 16, 1024)
[[[ 1.50999749  0.00434289 -0.47437966 ...  1.02929521  0.10363995
   -0.04543895]
  [ 0.9522227  -0.19060093 -0.31958586 ...  1.74898839 -0.46758637
    0.21981508]
  [ 1.49147081 -0.86315233 -1.74107122 ...  1.65387774 -0.57883394
   -0.41237065]
  ...
  [ 0.03854536 -0.00229315 -0.0251717  ... -0.03766255 -0.01689689
   -0.02865478]
  [ 0.03854536 -0.00229315 -0.0251717  ... -0.03766255 -0.01689689
   -0.02865478]
  [ 0.03854536 -0.00229315 -0.0251717  ... -0.03766255 -0.01689689
   -0.02865478]]

 [[ 1.511392    0.00469531 -0.47423536 ...  1.11301351 -0.061691
    0.21061032]
  [ 0.95369709 -0.19021724 -0.31866705 ...  1.26734746 -0.30669147
    0.38702399]
  [ 1.23031437 -0.69505155 -1.29034925 ...  1.69096017 -0.30162787
   -0.08336673]
  ...
  [ 1.19187498 -0.00805476 -1.60843325 ...  1.29232335 -0.1334137
    0.46535689]
  [ 1.36351621 -0.15618506 -1.20628953 ...  1.00760317  0.15410943
    0.17109877]
  [ 0.9837063  -0.96303415 -0.5818674  ...  0.50937498

In [25]:
# Рассмотрим паронимы
# Параметр layers="average" по умолчанию
# average: возвращает среднее значение всех слоев ELMo для каждого слова
sent = ["Одеть одежду", "Надеть одежду"]
print_all(sent)

2021-11-25 11:30:49,874 : INFO : Warming up ELMo on 2 sentences...
2021-11-25 11:30:50,838 : INFO : Warming up finished.
2021-11-25 11:30:50,841 : INFO : Texts in the current batch: 2
2021-11-25 11:30:52,901 : INFO : Warming up ELMo on 2 sentences...
2021-11-25 11:30:53,857 : INFO : Warming up finished.
2021-11-25 11:30:53,861 : INFO : Texts in the current batch: 2


Форма 1 (2, 13, 1024)
[[[ 0.36308593 -0.6549347  -0.3720949  ...  0.94567025  0.02395681
    0.74077702]
  [ 1.02163947 -0.28589642 -1.60488343 ...  1.08577359  0.33685461
    0.25858146]
  [ 0.81388605 -0.46814319 -0.94228166 ...  1.74841642  0.08146373
    0.35960153]
  ...
  [ 0.71398914 -0.25633281 -0.9709295  ...  0.6056478   1.16871858
   -0.48244333]
  [ 0.69678932 -1.08480501 -0.29951033 ...  0.51985717  0.67350018
    0.44883057]
  [ 0.03854536 -0.00229315 -0.0251717  ... -0.03766255 -0.01689689
   -0.02865478]]

 [[ 1.30883336  0.07347453 -0.70617521 ...  1.09469354  0.01452566
    0.48258293]
  [ 0.69858015 -0.10965562 -1.05394936 ...  1.58727932  0.09384342
    0.43290681]
  [ 1.07882953 -0.11467993 -0.96647871 ...  1.0836699   0.33530492
    0.25825074]
  ...
  [ 1.06627965 -0.30175439 -1.2163825  ...  0.64827335  0.17704874
   -0.29507613]
  [ 0.81636775 -0.3168093  -1.0097003  ...  0.60200477  1.15862393
   -0.47600314]
  [ 0.66934419 -1.08785534 -0.21543601 ...  0.52120

In [26]:
# Одно слово представлено двумя разными частями речи
# Параметр layers="average" по умолчанию
# average: возвращает среднее значение всех слоев ELMo для каждого слова
sent = ["Печь пироги", "В печи пироги"]
print_all(sent)

2021-11-25 11:30:55,951 : INFO : Warming up ELMo on 2 sentences...
2021-11-25 11:30:56,873 : INFO : Warming up finished.
2021-11-25 11:30:56,877 : INFO : Texts in the current batch: 2
2021-11-25 11:30:58,934 : INFO : Warming up ELMo on 2 sentences...
2021-11-25 11:30:59,847 : INFO : Warming up finished.
2021-11-25 11:30:59,849 : INFO : Texts in the current batch: 2


Форма 1 (2, 13, 1024)
[[[ 1.0331676  -0.0194201  -0.25046059 ...  1.18500733  0.02835329
    0.3524363 ]
  [ 0.79445273  0.18131417 -0.88850337 ...  1.85531545 -0.19665824
    0.41367087]
  [ 1.36197495 -0.72780013 -1.2927804  ...  1.55964851 -0.07911699
   -0.49729699]
  ...
  [ 0.91903389 -0.2428152  -0.98895216 ...  0.35941732 -0.55104625
    0.04257425]
  [ 0.03854536 -0.00229315 -0.0251717  ... -0.03766255 -0.01689689
   -0.02865478]
  [ 0.03854536 -0.00229315 -0.0251717  ... -0.03766255 -0.01689689
   -0.02865478]]

 [[ 0.13246384 -0.12041797 -0.07945575 ...  0.87101662 -0.29434252
    0.5859133 ]
  [ 0.22509664  0.5808211  -0.09835473 ...  1.33660841 -0.49546051
    0.36633974]
  [ 0.52405572  0.48159078 -1.28250277 ...  1.38964438 -0.11454862
    0.42704687]
  ...
  [ 0.86442661 -0.78203392 -0.78487515 ...  0.77476352 -0.36430609
    0.58115381]
  [ 1.12918091 -0.50964582 -1.20463681 ...  0.71262717 -0.592291
    0.32500583]
  [ 0.7960186  -0.3087236  -0.68648887 ...  0.3614130

In [27]:
# Рассмотрим омонимы
# Параметр layers="average" по умолчанию
# average: возвращает среднее значение всех слоев ELMo для каждого слова
sent = ["Заплести косу", "Наточить косу"]
print_all(sent)

2021-11-25 11:31:01,988 : INFO : Warming up ELMo on 2 sentences...
2021-11-25 11:31:02,937 : INFO : Warming up finished.
2021-11-25 11:31:02,939 : INFO : Texts in the current batch: 2
2021-11-25 11:31:05,078 : INFO : Warming up ELMo on 2 sentences...
2021-11-25 11:31:06,025 : INFO : Warming up finished.
2021-11-25 11:31:06,028 : INFO : Texts in the current batch: 2


Форма 1 (2, 13, 1024)
[[[ 1.09426141 -0.61074841 -0.3600682  ...  0.83122581 -0.54870903
    0.29751059]
  [ 0.98816288 -0.29558954 -1.32768273 ...  1.23257565 -0.3879118
    0.5784837 ]
  [ 1.71820784  0.10200839 -0.87923306 ...  1.02062976 -0.27827477
    0.87293112]
  ...
  [ 1.07387447 -0.47211525 -1.31270874 ...  0.96817422  0.42169142
    0.08948752]
  [ 0.80461502 -0.20159398 -1.15873253 ...  0.73755318  0.50422949
   -0.27866012]
  [ 0.58040345 -1.01684928 -0.76550347 ...  0.52120966  0.66918331
    0.44515824]]

 [[ 1.30865955  0.07395238 -0.70444292 ...  1.03191829 -0.06038348
    0.21893382]
  [ 0.70051289 -0.10695183 -1.05252469 ...  1.13770795  0.12590238
    0.05951384]
  [ 1.18103158 -0.3749975  -1.03725147 ...  1.14835334 -0.12642895
   -0.13801768]
  ...
  [ 0.87365067 -0.40505311 -1.45086789 ...  0.96640766  0.42119437
    0.08958767]
  [ 0.58710182 -0.0716801  -1.2539233  ...  0.7353096   0.50198972
   -0.27731705]
  [ 0.36925504 -1.01441646 -0.75956899 ...  0.520120

In [28]:
# Посчитаем косинусную близость для двух разных предложений
import numpy as np
sent = ["Ясная погода", "Хорошее психологическое состояние человека"]
lay = "top"
a = model.get_elmo_vector_average(sent, layers=lay)
print(a)
print(np.dot(a[0], a[1]) / (np.linalg.norm(a[0])*np.linalg.norm(a[1])))

2021-11-25 11:31:08,120 : INFO : Warming up ELMo on 2 sentences...
2021-11-25 11:31:10,023 : INFO : Warming up finished.
2021-11-25 11:31:10,026 : INFO : Texts in the current batch: 2


[[ 0.08482271 -0.0428218  -0.06843564 ...  0.0573679  -0.0192524
   0.00060864]
 [ 0.06091217 -0.02845944 -0.05254971 ...  0.08636661 -0.02905955
   0.00241671]]
0.7712607496273405


In [29]:
# Посчитаем косинусную близость для двух похожих предложений
sent = ["Одеть одежду", "Надеть одежду"]
lay = "top"
a = model.get_elmo_vector_average(sent, layers=lay)
print(np.dot(a[0], a[1]) / (np.linalg.norm(a[0])*np.linalg.norm(a[1])))

2021-11-25 11:31:13,159 : INFO : Warming up ELMo on 2 sentences...
2021-11-25 11:31:14,113 : INFO : Warming up finished.
2021-11-25 11:31:14,116 : INFO : Texts in the current batch: 2


0.9768334688200245
