# Tensores e Multiplicação de Matrizes
> Tensor é a estrutura de dados básica de qualquer biblioteca de Aprendizagem Profunda (i.e. Deep Learning ). O cerne de qualquer biblioteca de Aprendizagem Profunda, seja Tensorflow, Pytorch, Theano etc.., é a manipulação e processamento de Tensores. 
 - toc:true
 - branch: master
 - badges: true
 - hide_binder_badge: true
 - comments: true
 - author: Ronaldo S.A. Batista
 - categories: [pytorch, basics]
 - image: images/multiplication.jpg

> Tip: Um número ( escalar ), um vetor, uma matriz ou qualquer vetor n-dimensional são simplesmente Tensores de diferentes ordens. Um escalar é um tensor de ordem (ou dimensão) 0, um vetor é um tensor de ordem 1, uma matriz é um tensor de ordem 2. Uma matriz "cúbica" é um tensor de ordem 3 e assim por diante. Assim nos referimos a tudo simplesmente como "tensores", sejam eles vetores, matrizes ou objetos de dimensão superior.

Precisamos primeiro importar as dependências, nesse caso a biblioteca pytorch e numpy

In [3]:
import torch
import numpy as np

In [4]:
#hide
%load_ext autoreload
%autoreload 2

%matplotlib inline

Escalar

In [5]:
n = torch.tensor(5.) ; n

tensor(5.)

`5.` é uma abreviação de `5.0`. Por padrão todos os tensores criados são do tipo ponto flutuante. Como mencionamos um escalar é simplesmente um tensor de dimensão ou ordem 0. 

In [6]:
n.dim()

0

Se quisermos recuperar o tensor escalar como número, útil quando precisamos usar valor fora dos cálculos de tensores, usamos o método `item`: 

In [7]:
n.item()

5.0

Vetor (unidimensional)

In [8]:
x = torch.tensor([0., 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]) ; x

tensor([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11.])

Aqui criamos um tensor à partir de uma lista, podemos criar tensores de vários objetos python. 

In [9]:
x = torch.tensor(range(12)) ; x

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [10]:
x.shape

torch.Size([12])

In [11]:
x.size()

torch.Size([12])

In [12]:
x.dim()

1

`Pytorch` é fortemente integrado com o `numpy`, inclusive empresta muito da API utilizada por este. Se você possui alguma familiaridade com numpy facilmente consegue compreender e escrever código em Pytorch. 

In [13]:
x = np.array([0., 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]); x

array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11.])

In [14]:
x = torch.from_numpy(x) ; x

tensor([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11.],
       dtype=torch.float64)

In [50]:
x.numpy()

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]], dtype=float32)

## Mudar o formato do tensor
Frequentemente temos que adaptar o formato dos tensores para efetuar diversas operações, isso é feito com o método `reshape`. Anteriormente definimos o tensor unidimensional `x`com 12 elementos. Podemos transformá-lo num tensor bidimensional, desde que mantido o número de elementos: 3x4,  4x3, 2x6 etc...

In [16]:
x = x.reshape(3,4)

In [17]:
x.dim()

2

Se não informarmos 1 dimensão e colocarmos `-1` em seu lugar, o Pytorch infere as demais.

In [18]:
x.reshape(3,-1)

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]], dtype=torch.float64)

In [19]:
x.reshape(-1, 4)

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]], dtype=torch.float64)

In [20]:
x = x.reshape(-1, 2, 2) ; x

tensor([[[ 0.,  1.],
         [ 2.,  3.]],

        [[ 4.,  5.],
         [ 6.,  7.]],

        [[ 8.,  9.],
         [10., 11.]]], dtype=torch.float64)

In [21]:
x.shape

torch.Size([3, 2, 2])

Em vez de criarmos tensores manualmente, podemos usar a função `torch.randn` e criar tensores aleatórios amostrados de uma distribuição normal com média 0 e desvio padrão 1

In [22]:
t1 = torch.randn((3,4)) ; t1

tensor([[-1.2925,  0.6503, -2.2992,  1.2792],
        [ 1.1536,  0.5014,  1.6953, -0.5965],
        [ 0.1261, -1.1910, -0.4514, -0.3982]])

In [23]:
t1.mean()

tensor(-0.0686)

In [24]:
t1.std()

tensor(1.1897)

Podemos criar um tensor Nulo

In [25]:
torch.zeros((3,4))

tensor([[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]])

Tensor Unitário

In [26]:
torch.ones((2, 3, 4))

tensor([[[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]],

        [[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]]])

Amostragem de uma distribuição

In [27]:
x = torch.normal(1,3, (3,4))

In [28]:
x.mean()

tensor(1.9537)

In [29]:
x.std()

tensor(2.4128)

## Empilhar Tensores
É comum precisarmos combinar diferentes tensores ao longo de algum eixo. Isso normalmente significa criarmos uma dimensão adicional e mantermos as demais dimensões. Sejam 2 tensores 3x4:

In [62]:
x = torch.arange(12).reshape(3,4).float()
y = torch.Tensor([[2,1,4,3], [1,2,3,4], [4,3,2,1]]).float()

In [63]:
x,y

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]]),
 tensor([[2., 1., 4., 3.],
         [1., 2., 3., 4.],
         [4., 3., 2., 1.]]))

Vamos empilhá-los à partir da primeira dimensão

In [35]:
z = torch.stack([x,y], dim=0) ; z

tensor([[[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]],

        [[ 2.,  1.,  4.,  3.],
         [ 1.,  2.,  3.,  4.],
         [ 4.,  3.,  2.,  1.]]])

In [36]:
z.shape

torch.Size([2, 3, 4])

Vemos que foi criada uma dimensão adicional e colocado no início, dado o parâmetro `dim=0`. Uma noção geométrica de empilhar os tensores na primeira dimensão seria: somar as linhas dos dois tensores 3x4 e formarmos um tensor 6x4. No entanto não é isso que ocorre, simplesmente criamos um "cubo", com a dimensão (2,3,4).

In [37]:
z = torch.stack([x,y], dim=1) ; z

tensor([[[ 0.,  1.,  2.,  3.],
         [ 2.,  1.,  4.,  3.]],

        [[ 4.,  5.,  6.,  7.],
         [ 1.,  2.,  3.,  4.]],

        [[ 8.,  9., 10., 11.],
         [ 4.,  3.,  2.,  1.]]])

In [38]:
z.shape

torch.Size([3, 2, 4])

In [39]:
z = torch.stack([x,y], dim=2) ; z

tensor([[[ 0.,  2.],
         [ 1.,  1.],
         [ 2.,  4.],
         [ 3.,  3.]],

        [[ 4.,  1.],
         [ 5.,  2.],
         [ 6.,  3.],
         [ 7.,  4.]],

        [[ 8.,  4.],
         [ 9.,  3.],
         [10.,  2.],
         [11.,  1.]]])

In [40]:
z.shape

torch.Size([3, 4, 2])

### Criar tensores booleanos à partir de comparações

In [41]:
z = x == y ; z

tensor([[False,  True, False,  True],
        [False, False, False, False],
        [False, False, False, False]])

Como em python, ao tentarmos fazer operações numéricas com valores booleanos, temos `True == 1` e `False == 0`. Assim ao somarmos os valores do tensor acima temos o resultado `2`.

In [51]:
z.sum()

tensor(2)

## Broadcasting
Uma tradução livre para o termo _Broadcasting_ é _transmissão_. Veremos o porquê a seguir.

In [43]:
a = torch.arange(3).reshape(3,1)
b = torch.arange(2).reshape(1, 2)
a,b

(tensor([[0],
         [1],
         [2]]),
 tensor([[0, 1]]))

In [44]:
a.shape, b.shape

(torch.Size([3, 1]), torch.Size([1, 2]))

Como as dimensões não casam, se quisermos adicionar essas matrizes, nós pegamos as dimensões maiores de cada matriz e assim formamos uma matriz 3x2. ( A primeira dimensão maior é 3, da primeira matriz, e a segunda dimensão maior é 2 da segunda matriz.) E assim ajustamos as dimensões das matrizes originais para essa dimensão.

Para a primeira matriz, 3x1, a única coluna é replicada, i.e., a coluna 1 é _transmitida_ para a coluna 2 e a matriz a fica assim:

In [45]:
c = torch.tensor([[0, 0],
                  [1, 1],
                  [2, 2]])

Para a segunda matrix, 1x2, a primeira linha é replicada 3 vezes, então para o cálculo a matriz b fica assim:

In [46]:
d = torch.tensor([[0,1],
                  [0,1],
                  [0,1]])

Isso é feito automaticamente durante a operação efetuada.

Vamos testar se isso está correto e verificar se a operação de soma é equivalente.

In [47]:
a + b

tensor([[0, 1],
        [1, 2],
        [2, 3]])

In [48]:
c + d

tensor([[0, 1],
        [1, 2],
        [2, 3]])

O _broadcasting_ em vários casos não é intuitivo, esse foi um exemplo super simples e somente a utilização constante e botar a mão na massa com vários exemplos é que torna o conceito um pouco mais claro. Consulte esse [link](https://jakevdp.github.io/PythonDataScienceHandbook/02.05-computation-on-arrays-broadcasting.html) a seguir para um tutorial detalhado sobre broadcasting

## Operações Elemento a Elemento

In [30]:
x = torch.Tensor([1,2,4,8])
y = torch.Tensor([2,2,2,2])

As seguintes operações em tensores são efetuadas _elemento a elemento_, isto é, a operação tem como resultado um tensor da mesma forma, porém com a operação efetuada nos elementos de mesmo índice. Caso a forma divirja e as dimensões sejam compatíveis com a operação de broadcasting, este é efetuado.

In [31]:
x+y, x-y, x*y, x**y # Exponencial

(tensor([ 3.,  4.,  6., 10.]),
 tensor([-1.,  0.,  2.,  6.]),
 tensor([ 2.,  4.,  8., 16.]),
 tensor([ 1.,  4., 16., 64.]))

Operação Unária - e.g. Exponenciação

In [32]:
torch.exp(x) 

tensor([2.7183e+00, 7.3891e+00, 5.4598e+01, 2.9810e+03])

## Multiplicação de Matrizes
A definição de Multiplicação de 2 matrizes A e B é:
![](images/matmul.jpeg "Credit: https://pt.overleaf.com/articles/matrix-multiplication-revised/qkvxttgrsrqh")

Em código, no geral é mais fácil visualizar:

In [57]:
def matmul(a:torch.Tensor,b:torch.Tensor)-> torch.Tensor:
    "Retorna a matrix produto entre a e b"
    # Dimensões
    a_linhas, a_cols = a.shape 
    b_linhas, b_cols = b.shape
    
    # Verificação de Compatibilidade
    assert a_cols==b_linhas
    
    c = torch.zeros(a_linhas, b_cols)
    
    for i in range(a_linhas):
        for j in range(b_cols):
            for k in range(a_cols): # ou b_linhas
                c[i,j] += a[i,k] * b[k,j]
    return c

In [58]:
x, x.shape

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]]),
 torch.Size([3, 4]))

In [59]:
y, y.shape

(tensor([[2., 1., 4.],
         [3., 1., 2.],
         [3., 4., 4.],
         [3., 2., 1.]]),
 torch.Size([4, 3]))

O número de colunas da primeira matriz deve ser igual ao número de linhas da segunda para podermos multiplicá-las. Assim vamos usar a função `reshape`

In [66]:
y = y.reshape(4,3)

In [67]:
y, y.shape

(tensor([[2., 1., 4.],
         [3., 1., 2.],
         [3., 4., 4.],
         [3., 2., 1.]]),
 torch.Size([4, 3]))

Agora podemos multiplicar ambas as matrizes e teremos como resultado uma matriz `z` de dimensão 3x3. Vamos calcular quanto tempo leva esse cálculo utilizando a definição básica com 3 loops.

In [68]:
%time z=matmul(x, y)

CPU times: user 1.04 ms, sys: 6 µs, total: 1.04 ms
Wall time: 1.05 ms


Ao tentarmos eliminar os "loops", nós tornamos a operação mais eficiente, por utilizar debaixo dos panos métodos de "vetorização" do Numpy ou Pytorch.

Para eliminar o índice `k`, usamos a multiplicação elemento a elemento e o método `sum` do Tensor. Isso efetua a mesma operação efetuada anteriormente com o loop em `k`

In [70]:
def matmul(a:torch.Tensor,b:torch.Tensor)-> torch.Tensor:
    "Retorna a matrix produto entre a e b"
    # Dimensões
    a_linhas, a_cols = a.shape 
    b_linhas, b_cols = b.shape
    
    # Verificação de Compatibilidade
    assert a_cols==b_linhas
    
    c = torch.zeros(a_linhas, b_cols)
    for i in range(a_linhas):
        for j in range(b_cols):    
            c[i,j] = (a[i,:] * b[:,j]).sum()
    return c

In [71]:
%time t1=matmul(x, y)

CPU times: user 397 µs, sys: 113 µs, total: 510 µs
Wall time: 560 µs


Para eliminarmos o loop no índice `j`, podemos indexar com o valor especial [None] ou usar `unsqueeze()`  para converter um tensor unidimensional em um vetor de 2 dimensões (A dimensão criada terá valor 1).

In [72]:
x.shape, x.unsqueeze(0).shape, x[None, :].shape, x.unsqueeze(1).shape, x.unsqueeze(2).shape

(torch.Size([3, 4]),
 torch.Size([1, 3, 4]),
 torch.Size([1, 3, 4]),
 torch.Size([3, 1, 4]),
 torch.Size([3, 4, 1]))

In [74]:
def matmul(a:torch.Tensor,b:torch.Tensor)-> torch.Tensor:
    "Retorna a matrix produto entre a e b"
    # Dimensões
    a_linhas, a_cols = a.shape 
    b_linhas, b_cols = b.shape
    
    # Verificação de Compatibilidade
    assert a_cols==b_linhas
    
    c = torch.zeros(a_linhas, b_cols)
    for i in range(a_linhas):
        c[i] = (a[i].unsqueeze(-1) * b).sum(dim=0)
    return c

In [75]:
%time t1=matmul(x, y)

CPU times: user 174 µs, sys: 50 µs, total: 224 µs
Wall time: 230 µs


Implementação do Pytorch

In [77]:
%time t1= x.matmul(y)

CPU times: user 76 µs, sys: 22 µs, total: 98 µs
Wall time: 102 µs


Forma Equivalente

In [78]:
%time t1= x@y

CPU times: user 96 µs, sys: 28 µs, total: 124 µs
Wall time: 128 µs


Isso foi somente uma pincelada super básica sobre tensores e alguns conceitos e operações básicas sobre eles e uma ilustração em como implementar multiplicação de matrizes de forma básica e mais otimizada  para ilustrar tais conceitos. Por fim simplesmente utilizamos a implementação nativa do Pytorch quando formos de fato utilizar tais operações  