# It's a Machine and Natural&mdash;Language Model (IaMaN-LM)

In [1]:
from src.IaMaN.base import LM
from src.utils.data import load_gum

seed = 691
all_docs = load_gum(num_articles = 0, seed = seed)
nsamp = min(125, len(all_docs)-1) ## this is the size of the test document base..., so nsamp=125 => test == 125 & train == 25!
test_docs = all_docs[:nsamp]
train_docs = all_docs[nsamp:]
docs = [["".join([row[1] for row in s]) for s in d['conllu']] for d in train_docs]
tdocs = [["".join([row[1] for row in s]) for s in d['conllu']] for d in test_docs]
covering = [[[row[1] for row in s] for s in d['conllu']] for d in train_docs]
covering_vocab = set([t for d in covering for s in d for t in s])

layers = [[[[row[2] for row in s] for s in d['conllu']] for d in train_docs],
          [[[row[3] for row in s] for s in d['conllu']] for d in train_docs]]
ltypes = ['lem','pos']

model = LM(form2ind={"<sos>": 0, "<pad>": 1}, covering_vocab = covering_vocab)
model.init(m = 10, zeta = 0.01, positional = True, seed = seed)
model.fit(docs, f'GUM-{nsamp}', covering = covering, layers = layers, ltypes = ltypes)

100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:00<00:00, 150428.62it/s]


Training tokenizer...


Initializing: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1394/1394 [00:00<00:00, 4394.86it/s]
Fitting:   8%|█████████▉                                                                                                                  | 8/100 [00:04<00:48,  1.89it/s]


Built a vocabulary of 3597 types
Tokenizing documents...


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 25/25 [00:20<00:00,  1.21it/s]


Processing lem-tags for whatever-layer prediction...


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 25/25 [00:00<00:00, 198.47it/s]


Processing pos-tags for whatever-layer prediction...


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 25/25 [00:00<00:00, 211.19it/s]


Fitting language model...
Absorbing form-layer co-occurrences...


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 25/25 [00:03<00:00,  7.74it/s]


Indexing documents...


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 25/25 [00:00<00:00, 319.61it/s]


Absorbing nov-layer co-occurrences...


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 25/25 [00:03<00:00,  7.57it/s]


Absorbing oov-layer co-occurrences...


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 25/25 [00:03<00:00,  7.65it/s]


Absorbing eos-layer co-occurrences...


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 25/25 [00:03<00:00,  7.68it/s]


Absorbing eod-layer co-occurrences...


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 25/25 [00:03<00:00,  7.63it/s]


Fitting token boundaries...
Absorbing eot-layer co-occurrences...


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 25/25 [00:03<00:00,  7.51it/s]


Fitting additional tag layers...
Absorbing lem-layer co-occurrences...


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 25/25 [00:03<00:00,  6.64it/s]


Absorbing pos-layer co-occurrences...


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 25/25 [00:03<00:00,  7.55it/s]


Computing marginal statistics...


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1089371/1089371 [00:05<00:00, 204068.71it/s]


Done.
Model params, tokens, contexts, and % capacity used: 1089371 6977 68369 0.228


In [2]:
interpret_docs = list([docs[-2][:1]])
print(interpret_docs)
model.interpret(interpret_docs, seed = 691)
for doc in model._documents:
    print('opening next doc:')
    for s in doc._sentences:
        print('opening next sent:')
        for t in s._tokens:
            print('opening next token:')
            print((str(t), t._pos, t._lem, t._sep))

[['How to Prepare Quinoa ']]
Tokenizing documents...


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  8.00it/s]


Indexing documents...


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 16448.25it/s]


Interpreting documents


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:05<00:00,  5.13s/it]

opening next doc:
opening next sent:
opening next token:
('How', 'SCONJ', 'how', False)
opening next token:
(' ', 'PUNCT', ' ', False)
opening next token:
('to', 'PART', 'to', False)
opening next token:
(' ', 'PUNCT', ' ', False)
opening next token:
('Prepare', 'VERB', 'prepare', False)
opening next token:
(' ', 'PUNCT', ' ', False)
opening next token:
('Quinoa', 'DET', 'a', False)
opening next token:
(' ', 'PUNCT', ' ', False)





In [3]:
interpret_docs = list([tdocs[-2][:1]])
print(interpret_docs)
interpret_covering =  [[[row[1] for row in s] for s in d['conllu']][:1] for d in test_docs[-2:-1]]
print(interpret_covering)
model.interpret(interpret_docs, seed = 691)
for doc in model._documents:
    print('opening next doc:')
    for s in doc._sentences:
        print('opening next sent:')
        for t in s._tokens:
            print('opening next token:')
            print((str(t), t._pos, t._lem, t._sep))

[['Mérida ']]
[[['Mérida', ' ']]]
Tokenizing documents...


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 380.19it/s]


Indexing documents...


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 16008.79it/s]


Interpreting documents


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.49s/it]

opening next doc:
opening next sent:
opening next token:
('M', 'PUNCT', ' ', False)
opening next token:
('éri', 'PUNCT', ' ', False)
opening next token:
('da', 'PROPN', 'ride', False)
opening next token:
(' ', 'PUNCT', 'Fereder', False)





In [4]:
interpret_docs = list([tdocs[4][:1]])
print(interpret_docs)
interpret_covering =  [[[row[1] for row in s] for s in d['conllu']][:1] for d in test_docs[4:5]]
print(interpret_covering)
model.interpret(interpret_docs, seed = 691, covering = interpret_covering)
for doc in model._documents:
    print('opening next doc:')
    for s in doc._sentences:
        print('opening next sent:')
        for t in s._tokens:
            print('opening next token:')
            print((str(t), t._pos, t._lem, t._sep))

[['Distant Rhythm: Automatic Enjambment Detection on Four Centuries of Spanish Sonnets ']]
[[['Distant', ' ', 'Rhythm', ':', ' ', 'Automatic', ' ', 'Enjambment', ' ', 'Detection', ' ', 'on', ' ', 'Four', ' ', 'Centuries', ' ', 'of', ' ', 'Spanish', ' ', 'Sonnets', ' ']]]
Tokenizing documents...


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 64.96it/s]


Indexing documents...


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 10922.67it/s]


Interpreting documents


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:35<00:00, 35.51s/it]

opening next doc:
opening next sent:
opening next token:
('Distant', 'VERB', 'translate', False)
opening next token:
(' ', 'PUNCT', 'translate', False)
opening next token:
('Rhythm', 'PUNCT', 'every', False)
opening next token:
(':', 'VERB', 'smartly', False)
opening next token:
(' ', 'PUNCT', ' ', False)
opening next token:
('Automatic', 'NOUN', 'the', False)
opening next token:
(' ', 'PUNCT', ' ', False)
opening next token:
('Enjambment', 'PUNCT', ' ', False)
opening next token:
(' ', 'NOUN', ' ', False)
opening next token:
('Detection', 'VERB', 'be', False)
opening next token:
(' ', 'PUNCT', ' ', False)
opening next token:
('on', 'ADP', 'item', False)
opening next token:
(' ', 'PUNCT', ' ', False)
opening next token:
('Four', 'DET', 'the', False)
opening next token:
(' ', 'PUNCT', ' ', False)
opening next token:
('Centuries', 'NOUN', 'be', False)
opening next token:
(' ', 'PUNCT', ' ', False)
opening next token:
('of', 'ADP', 'and', False)
opening next token:
(' ', 'PUNCT', ' ', Fal




In [5]:
import numpy as np
print("model vector dimension: ", model._documents[0]._sentences[0]._tokens[0]._whatevers[0]._vec.shape[0])
model._documents[0]._sentences[0]._tokens[0]._whatevers[0]._vec.shape[0]
nspv = model._documents[0]._sentences[0]._tokens[0]._whatevers[-1]._vec; nspvn = np.linalg.norm(nspv)
spv1 = model._documents[0]._sentences[0]._tokens[1]._whatevers[-1]._vec; spv1n = np.linalg.norm(spv1)
spv2 = model._documents[0]._sentences[0]._tokens[3]._whatevers[-1]._vec; spv2n = np.linalg.norm(spv2)

print("vector similarity of non-space to space whatevers (first two), \nvs. similarity of separate space tokens (last one): \n\n",
      nspv.dot(spv1)/(nspvn*spv1n), nspv.dot(spv2)/(nspvn*spv2n), spv1.dot(spv2)/(spv1n*spv2n))

model vector dimension:  3597
vector similarity of non-space to space whatevers (first two), 
vs. similarity of separate space tokens (last one): 

 0.9849705626777101 0.9802966163094903 0.9927929267628914


In [6]:
model.generate()
[doc._form for doc in model._documents]

['of']

In [7]:
model.generate(seed = 691)
[doc._form for doc in model._documents]

[' ']

In [8]:
model.generate(seed = 691)
[doc._form for doc in model._documents]

['the']

In [9]:
model.generate(m = 25, generate_next = 's', seed = 691)
[doc._form for doc in model._documents]

[' Hohokam.culture']

In [10]:
print(docs[-2][1][:-14])
model.generate(m = 25, docs = [[docs[-2][1][:-14]]], generate_next = 's', seed = 691)
[doc._form for doc in model._documents]

Quinoa is known as the little 
Tokenizing documents...


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 94.53it/s]


Indexing documents...


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 15252.01it/s]


Interpreting documents


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:08<00:00,  8.83s/it]


['Quinoa is known as the little rice . ']

In [11]:
print(docs[-2][1][:-14])
model.generate(m = 25, docs = [[docs[-2][1][:-14]]], generate_next = 's', seed = 691, resonant = True)
[doc._form for doc in model._documents]

Quinoa is known as the little 
Tokenizing documents...


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 89.14it/s]


Indexing documents...


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 15252.01it/s]


Interpreting documents


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.54s/it]


['Quinoa is known as the little ric Refuge Harbour the ric ric the ric as the ric as the']

In [12]:
from collections import Counter
print(docs[-2][1][:-14])
model.generate(m = 25, docs = [[docs[-2][1][:-14]]], generate_next = 's', seed = 691, resonant = True,
               Td = Counter([model.tokenizer.tokenize(docs[-2][0])]))
[doc._form for doc in model._documents]

Quinoa is known as the little 
Tokenizing documents...


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 116.28it/s]


Indexing documents...


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 16513.01it/s]


Interpreting documents


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.47s/it]


['Quinoa is known as the little ric Refuge Harbour the ric ric the ric ( (. ']

In [13]:
print(tdocs[1][4][:39])  
model.generate(m = 25, docs = [[tdocs[1][4][:39]]], generate_next = 's', seed = 691, resonant = True,
               Td = Counter([t for tdoc in tdocs[1][:4] for t in model.tokenizer.tokenize(tdoc)]))
[doc._form for doc in model._documents]

Additionally, diversity has been shown 
Tokenizing documents...


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 95.20it/s]


Indexing documents...


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 14169.95it/s]


Interpreting documents


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:14<00:00, 14.04s/it]


['Additionally, diversity has been shown to the in a and in the r. ']

In [14]:
print(tdocs[1][4][:39])  
model.generate(m = 75, docs = [[tdocs[1][4][:39]]], generate_next = 'd', seed = 691, resonant = True,
               Td = Counter([t for tdoc in tdocs[1][:4] for t in model.tokenizer.tokenize(tdoc)]))
[doc._form for doc in model._documents]

Additionally, diversity has been shown 
Tokenizing documents...


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 101.80it/s]


Indexing documents...


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 13751.82it/s]


Interpreting documents


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:13<00:00, 13.79s/it]


['Additionally, diversity has been shown to the in a and in the r. In the example is the to the to a. In the example is the to the to a. In the example is the to the to a. In']