In [17]:
from allennlp.data.token_indexers import ELMoTokenCharactersIndexer
from allennlp.data.tokenizers import WhitespaceTokenizer
from allennlp.data.fields import TextField
from allennlp.data import Vocabulary
from allennlp.modules.token_embedders import ElmoTokenEmbedder
from allennlp.modules.text_field_embedders import BasicTextFieldEmbedder

In [7]:
tokenizer = WhitespaceTokenizer()
# Represents each token with an array of characters in a way that ELMo expects.
token_indexer = ELMoTokenCharactersIndexer()
vocab = Vocabulary()

In [8]:
text = "This is some text."
tokens = tokenizer.tokenize(text)
tokens

[This, is, some, text.]

In [11]:
text_field = TextField(tokens, {"elmo_tokens": token_indexer})

In [14]:
text_field.index(vocab)
token_tensor = text_field.as_tensor(text_field.get_padding_lengths())
token_tensor

{'elmo_tokens': {'elmo_tokens': tensor([[259,  85, 105, 106, 116, 260, 261, 261, 261, 261, 261, 261, 261, 261,
           261, 261, 261, 261, 261, 261, 261, 261, 261, 261, 261, 261, 261, 261,
           261, 261, 261, 261, 261, 261, 261, 261, 261, 261, 261, 261, 261, 261,
           261, 261, 261, 261, 261, 261, 261, 261],
          [259, 106, 116, 260, 261, 261, 261, 261, 261, 261, 261, 261, 261, 261,
           261, 261, 261, 261, 261, 261, 261, 261, 261, 261, 261, 261, 261, 261,
           261, 261, 261, 261, 261, 261, 261, 261, 261, 261, 261, 261, 261, 261,
           261, 261, 261, 261, 261, 261, 261, 261],
          [259, 116, 112, 110, 102, 260, 261, 261, 261, 261, 261, 261, 261, 261,
           261, 261, 261, 261, 261, 261, 261, 261, 261, 261, 261, 261, 261, 261,
           261, 261, 261, 261, 261, 261, 261, 261, 261, 261, 261, 261, 261, 261,
           261, 261, 261, 261, 261, 261, 261, 261],
          [259, 117, 102, 121, 117,  47, 260, 261, 261, 261, 261, 261, 261, 261,
    

In [23]:
elmo_options_file = ("https://s3-us-west-2.amazonaws.com/allennlp/models/elmo/2x4096_512_2048cnn_2xhighway/elmo_2x4096_512_2048cnn_2xhighway_options.json")
elmo_weight_file = ("https://s3-us-west-2.amazonaws.com/allennlp/models/elmo/2x4096_512_2048cnn_2xhighway/elmo_2x4096_512_2048cnn_2xhighway_weights.hdf5")
elmo_embedding = ElmoTokenEmbedder(options_file=elmo_options_file, weight_file=elmo_weight_file)

downloading:   0%|          | 0/336 [00:00<?, ?B/s]

downloading:   0%|          | 0/374434792 [00:00<?, ?B/s]

In [24]:
embedder = BasicTextFieldEmbedder(token_embedders={"elmo_tokens": elmo_embedding})

In [25]:
tensor_dict = text_field.batch_tensors([token_tensor])
embedded_tokens = embedder(tensor_dict)
embedded_tokens.shape

torch.Size([1, 4, 1024])