In [55]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import numpy as np
from tqdm import tqdm
import torch.optim as optim
import random
%matplotlib notebook

In [56]:
from matplotlib import pyplot as plt

def draw_tensor(tensor: torch.Tensor, fig=plt, fin=plt):
    fig.imshow(tensor, cmap='bwr', interpolation='nearest', vmin=-1, vmax=1)
    fig.xaxis.set_visible(False)
    fig.yaxis.set_visible(False)
    fin.canvas.draw()

def draw_norm(tensor: torch.Tensor, fig=plt, fin=plt):
    fig.bar(list(range(tensor.size()[0])), tensor)
    fin.canvas.draw()

In [57]:
class Model(nn.Module):
    def __init__(self, N, M, activation):
        super(Model, self).__init__()
        self.W = nn.Linear(N, M, bias=False)
        self.Wt = nn.Linear(M, N, bias=True)
        self.Wt.weight = nn.Parameter(self.W.weight.t())
        self.activation = activation
    
    def forward(self, x):
        h = self.W(x)
        return self.activation(self.Wt(h))

In [67]:
from torch.distributions.categorical import Categorical

m = Categorical(torch.tensor([0.0, 0.5, 0.5]))
m.sample(sample_shape=(10,))

tensor([1, 2, 2, 2, 1, 2, 2, 2, 1, 1])

In [69]:
from torch.distributions.categorical import Categorical

def run(N, M, I, O, samples=10000, activation=F.softmax, show=False, epochs=50, lr=0.1):
    if show:
        fig = plt.figure()
        ident = fig.add_subplot(221)
        ident2 = fig.add_subplot(222)
        norms = fig.add_subplot(223)
        lossm = fig.add_subplot(224)
        print()
    
    model = Model(N, M, activation)
    optimizer = optim.Adam(model.parameters(), lr=lr)
    m = Categorical(O)
#     criterion = torch.nn.CrossEntropyLoss(weight=I)

    def loss_func(true, output):
        res = torch.sum(I * ((true - output)**2)) / N
        return res

    l = []
    tq = tqdm(range(epochs))

    losses = []
    for i in tq:
        model.zero_grad()
        optimizer.zero_grad()

        # X = torch.randint(0, N, (samples,))
        X = m.sample(sample_shape=(samples,))
        X = F.one_hot(X, num_classes=N)

        pred = model.forward(X.type(torch.FloatTensor))
#         loss = criterion(X, pred)
        loss = loss_func(X, pred)

        tq.set_postfix({'loss': loss})
        tq.refresh()
        loss.backward()
        losses.append(loss.detach())
        optimizer.step()
        # print(model.W.weight)
        if show and i % 10 == 0:
            ident.clear()
            draw_tensor(model.W.weight.detach(), ident, fig)
            # draw_tensor(torch.matmul(model.W.weight.t(), model.W.weight).detach(), ident, fig)
            ident2.clear()
            draw_tensor((activation(torch.matmul(model.W.weight.t(), model.W.weight))).detach(), ident2, fig)
            # draw_tensor(model.Wt.bias.reshape(1, N).detach())
            norms.clear()
            if M == 2:
                norms.scatter(model.W.weight[0].detach(), model.W.weight[1].detach(), c=O, cmap='bwr')
            else:
                draw_norm(torch.norm(model.W.weight.t(), dim=1).detach(), norms, fig)
            lossm.clear()
            lossm.set(yscale='log')
            lossm.plot(losses)
            fig.canvas.draw()
    
    return model, losses, torch.norm(model.W.weight)

In [None]:
X = []
Y = []
N = 10
M = 2
I = torch.Tensor([1**i for i in range(N)])
O = torch.Tensor([1 / 1 for i in range(N)])

model, losses, frob = run(N, M, I, O, show=True, activation=F.softmax, epochs=10000, lr=0.01)

<IPython.core.display.Javascript object>




  return self.activation(self.Wt(h))
  draw_tensor((activation(torch.matmul(model.W.weight.t(), model.W.weight))).detach(), ident2, fig)
  2%|█                                                          | 171/10000 [00:03<03:49, 42.85it/s, loss=tensor(69.9587, grad_fn=<DivBackward0>)]

In [22]:
plt.clf()
plt.scatter(model.W.weight[0].detach(), model.W.weight[1].detach())
plt.show()

In [9]:
X = []
Y = []
N = 10
M = 2
I = torch.Tensor([1**i for i in range(1, N + 1)])

tot = 100
hold = 0

for _ in range(tot):
    model, losses, frob = run(N, M, I, show=False, activation=F.softmax)

    # print(model.W.weight)
    _, indices = torch.sort(model.W.weight, dim=1)

    holds = True
    for i in range(len(indices[0])):
        if indices[0][i] == indices[1][i]:
            holds = False
            print('bruh')
            print()
            break  
    if holds: hold += 1

    # print(model.Wt.weight)
    # print(torch.matmul(model.Wt.weight, model.W.weight))
    # print(model.Wt.bias)
    # print(torch.matmul(model.Wt.weight, model.W.weight))

hold / tot

  return self.activation(self.Wt(h))
100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 258.35it/s, loss=tensor(151.6582, grad_fn=<DivBackward0>)]


bruh



100%|███████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 442.71it/s, loss=tensor(4.4730, grad_fn=<DivBackward0>)]
100%|███████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 451.69it/s, loss=tensor(8.4759, grad_fn=<DivBackward0>)]
100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 415.23it/s, loss=tensor(110.5919, grad_fn=<DivBackward0>)]


bruh



100%|███████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 439.86it/s, loss=tensor(0.7804, grad_fn=<DivBackward0>)]


bruh



100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 441.98it/s, loss=tensor(238.1461, grad_fn=<DivBackward0>)]


bruh



100%|███████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 444.46it/s, loss=tensor(1.3189, grad_fn=<DivBackward0>)]
100%|██████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 437.83it/s, loss=tensor(94.7110, grad_fn=<DivBackward0>)]


bruh



100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 463.65it/s, loss=tensor(143.0642, grad_fn=<DivBackward0>)]


bruh



100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 457.84it/s, loss=tensor(103.4722, grad_fn=<DivBackward0>)]
100%|███████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 444.41it/s, loss=tensor(2.1264, grad_fn=<DivBackward0>)]


bruh



100%|███████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 422.16it/s, loss=tensor(0.7352, grad_fn=<DivBackward0>)]
100%|███████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 446.66it/s, loss=tensor(1.6583, grad_fn=<DivBackward0>)]
100%|██████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 461.01it/s, loss=tensor(91.9477, grad_fn=<DivBackward0>)]


bruh



100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 456.81it/s, loss=tensor(147.2408, grad_fn=<DivBackward0>)]
100%|███████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 422.79it/s, loss=tensor(0.9097, grad_fn=<DivBackward0>)]


bruh



100%|███████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 455.60it/s, loss=tensor(0.7610, grad_fn=<DivBackward0>)]


bruh



100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 451.98it/s, loss=tensor(101.5010, grad_fn=<DivBackward0>)]


bruh



100%|███████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 457.52it/s, loss=tensor(1.6090, grad_fn=<DivBackward0>)]
100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 438.80it/s, loss=tensor(145.8522, grad_fn=<DivBackward0>)]


bruh



100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 453.74it/s, loss=tensor(134.5416, grad_fn=<DivBackward0>)]


bruh



100%|███████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 458.19it/s, loss=tensor(0.8497, grad_fn=<DivBackward0>)]
100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 426.53it/s, loss=tensor(155.8293, grad_fn=<DivBackward0>)]


bruh



100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 454.02it/s, loss=tensor(140.9338, grad_fn=<DivBackward0>)]
100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 459.13it/s, loss=tensor(138.5096, grad_fn=<DivBackward0>)]


bruh



100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 467.16it/s, loss=tensor(114.3027, grad_fn=<DivBackward0>)]


bruh



100%|██████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 476.09it/s, loss=tensor(91.3412, grad_fn=<DivBackward0>)]
100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 446.68it/s, loss=tensor(141.4850, grad_fn=<DivBackward0>)]


bruh



100%|██████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 474.49it/s, loss=tensor(93.5911, grad_fn=<DivBackward0>)]


bruh



100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 441.22it/s, loss=tensor(132.6579, grad_fn=<DivBackward0>)]


bruh



100%|██████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 470.51it/s, loss=tensor(15.1983, grad_fn=<DivBackward0>)]


bruh



100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 470.63it/s, loss=tensor(136.6342, grad_fn=<DivBackward0>)]


bruh



100%|███████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 483.83it/s, loss=tensor(2.2936, grad_fn=<DivBackward0>)]


bruh



100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 483.30it/s, loss=tensor(140.1643, grad_fn=<DivBackward0>)]
100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 482.61it/s, loss=tensor(146.1697, grad_fn=<DivBackward0>)]


bruh



100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 476.64it/s, loss=tensor(146.8351, grad_fn=<DivBackward0>)]


bruh



100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 489.43it/s, loss=tensor(240.7718, grad_fn=<DivBackward0>)]


bruh



100%|██████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 439.72it/s, loss=tensor(21.8038, grad_fn=<DivBackward0>)]
100%|███████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 459.31it/s, loss=tensor(1.9477, grad_fn=<DivBackward0>)]
100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 482.98it/s, loss=tensor(248.4014, grad_fn=<DivBackward0>)]
100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 481.65it/s, loss=tensor(117.2045, grad_fn=<DivBackward0>)]


bruh



100%|███████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 475.81it/s, loss=tensor(0.6105, grad_fn=<DivBackward0>)]
100%|███████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 481.43it/s, loss=tensor(3.1646, grad_fn=<DivBackward0>)]
100%|██████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 498.31it/s, loss=tensor(96.0705, grad_fn=<DivBackward0>)]


bruh



100%|███████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 503.11it/s, loss=tensor(3.1256, grad_fn=<DivBackward0>)]
100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 498.62it/s, loss=tensor(150.0730, grad_fn=<DivBackward0>)]


bruh



100%|██████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 468.67it/s, loss=tensor(95.4763, grad_fn=<DivBackward0>)]
100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 450.69it/s, loss=tensor(118.5892, grad_fn=<DivBackward0>)]
100%|███████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 472.79it/s, loss=tensor(1.8041, grad_fn=<DivBackward0>)]


bruh



100%|███████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 494.70it/s, loss=tensor(2.5050, grad_fn=<DivBackward0>)]
100%|██████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 490.00it/s, loss=tensor(16.6284, grad_fn=<DivBackward0>)]
100%|██████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 479.28it/s, loss=tensor(16.9843, grad_fn=<DivBackward0>)]


bruh



100%|███████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 486.72it/s, loss=tensor(4.6591, grad_fn=<DivBackward0>)]


bruh



100%|███████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 473.62it/s, loss=tensor(1.2967, grad_fn=<DivBackward0>)]
100%|███████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 383.74it/s, loss=tensor(0.9023, grad_fn=<DivBackward0>)]


bruh



100%|██████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 444.24it/s, loss=tensor(13.7926, grad_fn=<DivBackward0>)]
100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 411.36it/s, loss=tensor(126.4826, grad_fn=<DivBackward0>)]


bruh



100%|███████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 482.35it/s, loss=tensor(0.8830, grad_fn=<DivBackward0>)]


bruh



100%|███████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 480.08it/s, loss=tensor(0.8474, grad_fn=<DivBackward0>)]
100%|███████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 465.64it/s, loss=tensor(1.7482, grad_fn=<DivBackward0>)]


bruh



100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 468.81it/s, loss=tensor(144.5865, grad_fn=<DivBackward0>)]
100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 467.61it/s, loss=tensor(149.1310, grad_fn=<DivBackward0>)]


bruh



100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 468.99it/s, loss=tensor(126.9842, grad_fn=<DivBackward0>)]


bruh



100%|███████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 476.36it/s, loss=tensor(1.0584, grad_fn=<DivBackward0>)]


bruh



100%|███████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 463.93it/s, loss=tensor(2.0394, grad_fn=<DivBackward0>)]
100%|██████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 444.51it/s, loss=tensor(93.7985, grad_fn=<DivBackward0>)]
100%|███████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 491.98it/s, loss=tensor(4.6305, grad_fn=<DivBackward0>)]


bruh



100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 484.58it/s, loss=tensor(149.3515, grad_fn=<DivBackward0>)]


bruh



100%|███████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 454.86it/s, loss=tensor(3.8889, grad_fn=<DivBackward0>)]


bruh



100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 467.58it/s, loss=tensor(149.4374, grad_fn=<DivBackward0>)]


bruh



100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 510.02it/s, loss=tensor(235.1778, grad_fn=<DivBackward0>)]


bruh



100%|██████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 515.19it/s, loss=tensor(38.5924, grad_fn=<DivBackward0>)]


bruh



100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 484.86it/s, loss=tensor(136.0304, grad_fn=<DivBackward0>)]


bruh



100%|███████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 477.98it/s, loss=tensor(5.4530, grad_fn=<DivBackward0>)]


bruh



100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 469.82it/s, loss=tensor(228.4469, grad_fn=<DivBackward0>)]


bruh



100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 468.40it/s, loss=tensor(129.4038, grad_fn=<DivBackward0>)]


bruh



100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 493.35it/s, loss=tensor(117.0096, grad_fn=<DivBackward0>)]
100%|███████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 468.71it/s, loss=tensor(1.6763, grad_fn=<DivBackward0>)]
100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 480.21it/s, loss=tensor(135.5061, grad_fn=<DivBackward0>)]


bruh



100%|██████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 509.38it/s, loss=tensor(24.7939, grad_fn=<DivBackward0>)]
100%|███████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 525.17it/s, loss=tensor(1.4207, grad_fn=<DivBackward0>)]


bruh



100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 510.91it/s, loss=tensor(121.8145, grad_fn=<DivBackward0>)]


bruh



100%|███████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 478.30it/s, loss=tensor(1.3914, grad_fn=<DivBackward0>)]
100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 490.48it/s, loss=tensor(117.3942, grad_fn=<DivBackward0>)]


bruh



100%|██████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 450.65it/s, loss=tensor(96.0970, grad_fn=<DivBackward0>)]


bruh



100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 488.94it/s, loss=tensor(145.1624, grad_fn=<DivBackward0>)]
100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 492.13it/s, loss=tensor(122.1526, grad_fn=<DivBackward0>)]


bruh



100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 500.75it/s, loss=tensor(146.9700, grad_fn=<DivBackward0>)]


bruh



100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 491.59it/s, loss=tensor(150.9412, grad_fn=<DivBackward0>)]
100%|███████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 500.49it/s, loss=tensor(1.4672, grad_fn=<DivBackward0>)]


bruh



100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 497.08it/s, loss=tensor(214.6320, grad_fn=<DivBackward0>)]


bruh



  0%|                                                                        | 0/50 [00:00<?, ?it/s, loss=tensor(45.7039, grad_fn=<DivBackward0>)]IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)

100%|█████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 534.92it/s, loss=tensor(140.9349, grad_fn=<DivBackward0>)]
100%|███████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 478.73it/s, loss=tensor(1.5672, grad_fn=<DivBackward0>)]


0.38

In [85]:
print(F.softmax(torch.matmul(model.Wt.weight, model.W.weight)[4]))

tensor([0.0119, 0.0126, 0.0127, 0.0121, 0.0123, 0.0124, 0.0125, 0.0123, 0.0123,
        0.0126, 0.0119, 0.0124, 0.0124, 0.0123, 0.0128, 0.0119, 0.0123, 0.0119,
        0.0125, 0.0128, 0.0123, 0.0123, 0.0123, 0.0127, 0.0123, 0.0127, 0.0122,
        0.0123, 0.0121, 0.0123, 0.0127, 0.0120, 0.0122, 0.0123, 0.0125, 0.0124,
        0.0128, 0.0122, 0.0123, 0.0128, 0.0128, 0.0123, 0.0118, 0.0123, 0.0123,
        0.0123, 0.0123, 0.0126, 0.0124, 0.0124, 0.0123, 0.0119, 0.0123, 0.0124,
        0.0121, 0.0122, 0.0125, 0.0126, 0.0123, 0.0123, 0.0120, 0.0121, 0.0129,
        0.0122, 0.0123, 0.0123, 0.0126, 0.0123, 0.0123, 0.0125, 0.0120, 0.0123,
        0.0123, 0.0121, 0.0126, 0.0122, 0.0123, 0.0123, 0.0120, 0.0123, 0.0120],
       grad_fn=<SoftmaxBackward0>)


  print(F.softmax(torch.matmul(model.Wt.weight, model.W.weight)[4]))


In [48]:
X = torch.rand(5, 5)
X

tensor([[0.4612, 0.5274, 0.8653, 0.3072, 0.2400],
        [0.2857, 0.2544, 0.8929, 0.1368, 0.1702],
        [0.9780, 0.4766, 0.1107, 0.2502, 0.0154],
        [0.2228, 0.9784, 0.9932, 0.5505, 0.0785],
        [0.2754, 0.2608, 0.6849, 0.0560, 0.8081]])

In [53]:
Y = torch.tensor([1, 2, 3, 4, 5])
Y

tensor([1, 2, 3, 4, 5])

In [54]:
X + Y

tensor([[1.4612, 2.5274, 3.8653, 4.3072, 5.2400],
        [1.2857, 2.2544, 3.8929, 4.1368, 5.1702],
        [1.9780, 2.4766, 3.1107, 4.2502, 5.0154],
        [1.2228, 2.9784, 3.9932, 4.5505, 5.0785],
        [1.2754, 2.2608, 3.6849, 4.0560, 5.8081]])

In [65]:
X = torch.rand(5, 5) - 2
X

tensor([[-1.4726, -1.0400, -1.5131, -1.1147, -1.0747],
        [-1.1339, -1.2255, -1.0317, -1.1076, -1.1861],
        [-1.6166, -1.9199, -1.5745, -1.7674, -1.5241],
        [-1.3515, -1.7562, -1.5942, -1.0740, -1.5734],
        [-1.9677, -1.8577, -1.4932, -1.6952, -1.7529]])

In [66]:
m = torch.matmul(X.t(), X)
m

tensor([[11.7662, 12.0538, 11.0362, 10.5417, 10.9669],
        [12.0538, 12.8048, 11.4346, 10.9451, 11.5168],
        [11.0362, 11.4346, 10.6041,  9.8555, 10.3752],
        [10.5417, 10.9451,  9.8555,  9.6200,  9.8665],
        [10.9669, 11.5168, 10.3752,  9.8665, 10.4327]])

In [67]:
F.softmax(m, dim=1)

tensor([[0.2810, 0.3746, 0.1354, 0.0826, 0.1264],
        [0.2187, 0.4635, 0.1178, 0.0722, 0.1278],
        [0.2524, 0.3759, 0.1638, 0.0775, 0.1303],
        [0.2559, 0.3831, 0.1289, 0.1018, 0.1303],
        [0.2378, 0.4121, 0.1316, 0.0791, 0.1394]])