In [1]:
import torch
import torch.nn as nn
import torch.nn.functional as F

В качестве тренировки делаю сетку, которая кодирует входную последовательность $x$ и последовательности $y_1...y_k$, и выбирает такой из игреков, представление которого было бы максимально похоже на представление $x$. 

In [311]:
class ToyChooser(nn.Module):
    def __init__(self, hidden_size=64, vocab_size=14, embedding_dim=32, proj_size=128):
        super().__init__()
        RNN = nn.LSTM
        self.embeddings = nn.Embedding(vocab_size, embedding_dim)
        self.sent_rnn = RNN(embedding_dim, hidden_size, bidirectional=True)
        self.sent_proj = nn.Linear(hidden_size * 2, proj_size)
        
        self.option_rnn = RNN(embedding_dim, hidden_size, bidirectional=True)
        self.option_proj = nn.Linear(hidden_size * 2, proj_size)
        
        self.mix_mlp = nn.Sequential(
            nn.Linear(3 * proj_size, proj_size), 
            nn.ReLU(), 
            nn.Linear(proj_size, 1),             
        )
    
    def forward(self, sentence, options):
        batch_size = 1
        sent_len = sentence.shape[0]
        x = self.embeddings(sentence).view(sent_len, batch_size,  -1)
        sent_rnn_out, _ = self.sent_rnn(x)
        encoded_sentence = self.sent_proj(sent_rnn_out[-1])[0]
        
        dots = []
        for option in options:
            z = self.embeddings(option).view(option.shape[0], batch_size,  -1)
            opt_rnn_out, _ = self.option_rnn(z)
            encoded_option = self.option_proj(opt_rnn_out[-1])[0]
            #dots.append(torch.cosine_similarity(encoded_sentence, encoded_option, dim=0))
            dots.append(self.mix_mlp(
                torch.cat([encoded_sentence, encoded_option, torch.mul(encoded_sentence, encoded_option)])
            ))
        
        return torch.stack(dots).view(1, -1)

In [312]:
model = ToyChooser()
xx = torch.tensor([1, 2, 3])
model.embeddings(xx).view(1, 3,  -1).shape

torch.Size([1, 3, 32])

In [313]:
model(torch.tensor([1, 2, 3]), torch.tensor([[1,2],[3,4],[5,6]]))

tensor([[ 0.0029, -0.0004, -0.0159]], grad_fn=<ViewBackward>)

Для начала научу мою модельку выбирать из четырехзначных чисел такое, которое давало бы 10000 в сумме с моим числом. 

Учится очень быстро (хотя числа написаны цифрами)!

In [314]:
import math
import random

def to_digits(number, max_len=2, pad=11, first=12, last=13):
    digits = [int(x) for x in str(number)]
    while len(digits) < max_len:
        digits.append(pad)
    return torch.tensor([first] + digits + [last])

def make_example(min_options=2, max_options=5, total=99):
    x = random.randint(0, total)
    y = total - x
    n_options = random.randint(min_options, max_options)
    options = [y] + [random.randint(0, total) for i in range(n_options - 1)]
    options = [to_digits(z) for z in options]
    return to_digits(x), options, torch.tensor([0]) #torch.tensor([1] + [0] * (n_options - 1))

In [315]:
e = make_example()
e

(tensor([12,  5,  6, 13]),
 [tensor([12,  4,  3, 13]),
  tensor([12,  5,  0, 13]),
  tensor([12,  6,  0, 13]),
  tensor([12,  7,  5, 13]),
  tensor([12,  5,  5, 13])],
 tensor([0]))

In [316]:
scores = model(e[0], e[1])
scores

tensor([[0.0017, 0.0016, 0.0017, 0.0065, 0.0048]], grad_fn=<ViewBackward>)

In [317]:
optimizer = torch.optim.Adam(model.parameters(), lr=1e-4)
loss_function = nn.CrossEntropyLoss()

In [318]:
loss_function(scores, torch.tensor([0]))

tensor(1.6110, grad_fn=<NllLossBackward>)

In [319]:
from tqdm.auto import tqdm, trange

Моделька учится быстро и для двухзначных, и для четырехзначных чисел, хотя для четырехзначных точность довольно долго не уходит в 100%. Видимо, сначала моделька долго хитрит и использует только самые правые цифры, что иногда её подводит.

Если увеличить число негативов, перформанс должен вырасти, правда, сравнивать точность надо на батчах с одним и тем же числом негативов, это немножко влом. 

Если сравнивать не косинусную близость, а просто скоры какой-то линейной сетки, то лосс падает быстрее, но, кажется, точность увеличивается не столь драматично. 

In [None]:
PRINT_EVERY = 100

it = 0
tot = 0
act = 0

while True:
    x, z, y = make_example(total=10000, max_options=10)

    optimizer.zero_grad()
    scores = model(x, z)
    l = loss_function(scores, y)
    l.backward()
    optimizer.step()

    it += 1
    tot += l.item()
    act += (scores.detach().numpy().argmax() == 0)
    if it == PRINT_EVERY:
        print(tot/it, act/it)
        it = 0
        tot = 0
        act = 0

1.6614759707450866 0.24
1.634102051258087 0.24
1.5723759251832963 0.31
1.7400313067436217 0.18
1.6802177959680558 0.32
1.6985097455978393 0.24
1.662938764989376 0.38
1.5224317863583565 0.41
1.3504438127577305 0.44
1.4217103799432516 0.37
1.2234585885703564 0.48
1.2366839483380319 0.52
1.2160616513341664 0.46
1.1003608202934265 0.53
1.193991044908762 0.47
1.2419703048840165 0.42
1.2331376573443413 0.46
1.043958390802145 0.54
0.9433853587508202 0.69
1.0662803326547146 0.51
0.979734089076519 0.57
1.0102749851346016 0.62
0.8806971794366837 0.6
1.0090315720438958 0.47
0.8644226782768965 0.64
0.778478505462408 0.69
0.9891277623176574 0.53
0.7563565759360791 0.68
0.8256659710779786 0.7
0.7579698949865997 0.7
0.7355959390848875 0.71
0.6647576451301574 0.71
0.6935728798806667 0.74
0.6241904323734343 0.72
0.546978209093213 0.82
0.6503750317916274 0.7
0.6467741395905614 0.74
0.5058990646898747 0.83
0.5330786092020571 0.8
0.5610172071307897 0.83
0.5579916348308325 0.78
0.48965762527659534 0.87
0.4

In [321]:
print(model)

ToyChooser(
  (embeddings): Embedding(14, 32)
  (sent_rnn): LSTM(32, 64, bidirectional=True)
  (sent_proj): Linear(in_features=128, out_features=128, bias=True)
  (option_rnn): LSTM(32, 64, bidirectional=True)
  (option_proj): Linear(in_features=128, out_features=128, bias=True)
  (mix_mlp): Sequential(
    (0): Linear(in_features=256, out_features=256, bias=True)
    (1): ReLU()
    (2): Linear(in_features=256, out_features=1, bias=True)
  )
)
