# Álgebra Linear


## Escalares

Notações para valores escalares:

$$ x, y, z \in \mathbb{R} $$

Escalares são implementados em tensores que contém apenas um elemento.

In [99]:
import torch
x = torch.tensor(3.0)
y = torch.tensor(4.0)

print(x + y)
print(x - y)
print(x * y)
print(x / y)
print(x ** y)

tensor(7.)
tensor(-1.)
tensor(12.)
tensor(0.7500)
tensor(81.)


## Vetores


[Como escrever vetores e matrizes em Markdown](https://definirtec.com/latex-criando-uma-matriz-como-faze-lo/)

Vetores são como listas de escalares. Os valores da lista são os elementos, entradas. NO exemplo abaixo, $a, b$ e $c$ seriam os escalares, entradas, do vetor:

$$ v = 
\begin{bmatrix} 
a \\
b \\
c \\
\end{bmatrix} $$

Vetores são tensores de primeira ordem, e é importante lembrar que a indexação na maioria das linguagens de programação começa em zero enquanto em conteúdos teóricos é mais comum começar em um. 

In [100]:
x = torch.arange(10)
print(x)

tensor([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])


Seja o vetor:

$$ v = 
\begin{bmatrix} 
x_1\\
\vdots \\
x_n\\
\end{bmatrix} $$

Onde $x_1$ representa o primeiro elemento e $x_n$ representa o enésimo do vetor v. Dizemos que $x \in \mathbb{R}^n$, ou seja, $x$ tem $n$ dimensões, $n$ entradas. 

Esse valor é chamado de *dimensionalidade* do vetor. Para saber a *dimensionalidade* de um vetor no Python, basta a função abaixo:

In [101]:
print(len(x))

10


Para verificar a forma, temos a função abaixo. Ela indica em uma tupla o comprimeto de cada eixo do vetor. No nosso exemplo, no qual o vetor só tem um eixo com 10 elementos, o valor resultante é 10:

In [102]:
x.shape

torch.Size([10])

Para não ficar confuso, geralmente utiliza-se de *order* (Ordem) para indicar quantos eixos o vetor pode ter e *dimensionalidade* fica para referenciar a quantidade de elementos. 

## Matrizes:

Matrizes são vetores de segunda ordem, ou seja, possuem dois eixos. Podemos representar uma matriz a partir de um vetor utilizando a função reshape. 

Veja abaixo o código do reshape e a representação de uma matriz $A \in \mathbb{R}^{n * m}$


$$ A =

\begin{pmatrix*}[r] 
a_{11} & a_{12} & \dots & a_{1n} \\
a_{21} & a_{22} & \dots & a_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
a_{m1} & a_{m2} & \dots & a_{mn} \\
\end{pmatrix*} $$


In [103]:
A = torch.arange(18).reshape(3, 6)
print(A)

tensor([[ 0,  1,  2,  3,  4,  5],
        [ 6,  7,  8,  9, 10, 11],
        [12, 13, 14, 15, 16, 17]])


Para fazer a **transposta** de uma matriz, que é tratar as linhas como colunas e as colunas como linhas, basta:

In [104]:
print(A.T)

tensor([[ 0,  6, 12],
        [ 1,  7, 13],
        [ 2,  8, 14],
        [ 3,  9, 15],
        [ 4, 10, 16],
        [ 5, 11, 17]])


**Matrizes Simétricas** são aquelas que são iguais as suas transpostas. Ou seja $A = A^{T}$. Veja como verificar isso:

In [105]:
A = torch.tensor([[1, 2, 3], [2, 0, 4], [3, 4, 5]])
print(A == A.T)

tensor([[True, True, True],
        [True, True, True],
        [True, True, True]])


## Tensores:

Além de vetores de primeira e segunda ordem (matrizes), será necessário trabalhar com vetores de odens maiores. Um exemplo de dado que utiliza um vetor de terceira ordem são os dados relativos a imagens:
- Altura;
- Largura;
- Channel - que guarda a intensidade de cada cor (RGB - Red, Green e Blue);

Esse é só um exemplo de como podemos trabalhar com imagens e a motivação por de trás da necessidade de tensores de ordens maiores. Veja abaixo um tensor de 3º ordem:

In [106]:
torch.arange(24).reshape(2, 3, 4)

tensor([[[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]],

        [[12, 13, 14, 15],
         [16, 17, 18, 19],
         [20, 21, 22, 23]]])

É como se fosse um paralelepipedo com cada camada sendo uma matriz, e tendo no total, 2 dessas camadas de matriz. Como se fosse uma fila de matrizes. 

## Propriedades Básicas de Aritmética de Tensores

Veremos algumas operações básicas com tensores:

#### Soma:

In [107]:
A = torch.arange(6, dtype=torch.float32).reshape(2, 3)
B = A.clone()  # Copia A em B, alocando uma nova memória; 

print(A)

print("A + B = ", A + B)
print("2 * A = ", 2*A)


tensor([[0., 1., 2.],
        [3., 4., 5.]])
A + B =  tensor([[ 0.,  2.,  4.],
        [ 6.,  8., 10.]])
2 * A =  tensor([[ 0.,  2.,  4.],
        [ 6.,  8., 10.]])


#### Hadamard Product:

Multiplica o elemento $a_{ijk...}$ pelo elemento $b_{ijk...}$ e forma um novo tensor. É chamado de Hadamard Product:

In [108]:
print("A * B = ", A * B)

A * B =  tensor([[ 0.,  1.,  4.],
        [ 9., 16., 25.]])


#### Operações de Tensor com Escalar:

As operações são realizadas somando, subtraindo, dividindo ou multiplicando o escapar por todo elemento do tensor. Veja abaixo um exemplo da multipliação:

In [109]:
C = torch.arange(24).reshape(2, 3, 4)
print(C)

print("C * 100 = ", C * 100)

tensor([[[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]],

        [[12, 13, 14, 15],
         [16, 17, 18, 19],
         [20, 21, 22, 23]]])
C * 100 =  tensor([[[   0,  100,  200,  300],
         [ 400,  500,  600,  700],
         [ 800,  900, 1000, 1100]],

        [[1200, 1300, 1400, 1500],
         [1600, 1700, 1800, 1900],
         [2000, 2100, 2200, 2300]]])


## Reduction - Redução:


Calcular a soma de todos os elementos de um vetor de dimensionalidade $n$:

$$\sum_{i=1}^{n} x_i$$

Para obter esse valor, tem uma função pronta:

In [110]:
X = torch.arange(50, dtype=float)
X[:] = X + 1
print(X)
print(X.sum())

tensor([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11., 12., 13., 14.,
        15., 16., 17., 18., 19., 20., 21., 22., 23., 24., 25., 26., 27., 28.,
        29., 30., 31., 32., 33., 34., 35., 36., 37., 38., 39., 40., 41., 42.,
        43., 44., 45., 46., 47., 48., 49., 50.], dtype=torch.float64)
tensor(1275., dtype=torch.float64)


Para um tensor de forma arbitrária, a soma devolve a soma de todos os elementos do tensor:

In [111]:
Y = torch.arange(36, dtype=float).reshape(3, 2, 6)
Y[:] = Y + 1
print(Y)

print(Y.sum())

tensor([[[ 1.,  2.,  3.,  4.,  5.,  6.],
         [ 7.,  8.,  9., 10., 11., 12.]],

        [[13., 14., 15., 16., 17., 18.],
         [19., 20., 21., 22., 23., 24.]],

        [[25., 26., 27., 28., 29., 30.],
         [31., 32., 33., 34., 35., 36.]]], dtype=torch.float64)
tensor(666., dtype=torch.float64)


É possível também especificar em quais eixos se deseja realizar a soma, para isso, basta especificar por meio do índice do eixo:

In [112]:
print(Y.shape)
print(Y.sum(axis=0)) # Ao longo do eixo z; (3)
print(Y.sum(axis=1)) # Ao longo do eixo y; (2)
print(Y.sum(axis=2)) # Ao longo do eixo x; (6)

torch.Size([3, 2, 6])
tensor([[39., 42., 45., 48., 51., 54.],
        [57., 60., 63., 66., 69., 72.]], dtype=torch.float64)
tensor([[ 8., 10., 12., 14., 16., 18.],
        [32., 34., 36., 38., 40., 42.],
        [56., 58., 60., 62., 64., 66.]], dtype=torch.float64)
tensor([[ 21.,  57.],
        [ 93., 129.],
        [165., 201.]], dtype=torch.float64)


Para fazer a soma em dois eixos ao mesmo instante, podemos fazer o seguinte:

In [113]:
print(Y.sum(axis=[0, 1])) # Soma os valores no eixo z e y;
# 1+ 13 + 25 + 7 + 19 + 31 = 96
# E assim por diante;

tensor([ 96., 102., 108., 114., 120., 126.], dtype=torch.float64)


Veja que:

In [114]:
Y.sum() == Y.sum(axis=[0, 1, 2])

tensor(True)

Para calcular a média usa-se a seguinte função:

In [115]:
print(Y.mean()) # Não funiona se os valores forem inteiros pelo jeito;
print(Y.sum() / Y.numel())

tensor(18.5000, dtype=torch.float64)
tensor(18.5000, dtype=torch.float64)


Também é possível fazer a média em torno de um eixo, o especificando da mesma forma feira anteriormente.

In [116]:
print(Y.mean(axis=2))

tensor([[ 3.5000,  9.5000],
        [15.5000, 21.5000],
        [27.5000, 33.5000]], dtype=torch.float64)


## Non-Reduction Sum - Soma s/ Redução

Funções para calcular a soma sem mexer nas dimensões:

In [117]:
A = torch.arange(6, dtype=torch.float32).reshape(2, 3)
A

tensor([[0., 1., 2.],
        [3., 4., 5.]])

In [118]:
soma_A = A.sum()
print(soma_A)
print(soma_A.shape)
soma_A_sem_reducao = A.sum(axis=1, keepdims=True)
print(soma_A_sem_reducao)
print(soma_A_sem_reducao.shape)

# Comparando as sáidas, vemos a 'soma_A_sem_reducao' manteve o shape;

tensor(15.)
torch.Size([])
tensor([[ 3.],
        [12.]])
torch.Size([2, 1])


Podemos então dividir A por soma_A_sem_reducao por *broadcasting* (veja resumo 1 da parte 2).

In [119]:
print(A / soma_A_sem_reducao)
print(A / soma_A)

tensor([[0.0000, 0.3333, 0.6667],
        [0.2500, 0.3333, 0.4167]])
tensor([[0.0000, 0.0667, 0.1333],
        [0.2000, 0.2667, 0.3333]])


Há também uma função para a soma acumulativa em torno de algum eixo. Veja abaixo:

In [120]:
print(A.cumsum(axis=0))
print(A.cumsum(axis=1))

tensor([[0., 1., 2.],
        [3., 5., 7.]])
tensor([[ 0.,  1.,  3.],
        [ 3.,  7., 12.]])


## Dot Products - Produto Escalar 

Dot Product é o **Produto Escalar** entre dois vetores, e é calculado da seguinte forma:

$$ x = 
\begin{bmatrix} 
x_1\\
\vdots \\
x_n\\
\end{bmatrix} 

y =
\begin{bmatrix} 
y_1\\
\vdots \\
y_n\\
\end{bmatrix} 
$$

$$
x \cdot y\ = \sum_{i=1}^{n} x_i * y_i
$$



Ou seja, resulta em um valor escalar. Para fazer essa operação em Python, usamos a seguinte função:

In [121]:
y = torch.ones(3, dtype = torch.float32)
x = torch.arange(3, dtype=torch.float32)

x, y, torch.dot(x, y)

(tensor([0., 1., 2.]), tensor([1., 1., 1.]), tensor(3.))

In [122]:
torch.sum(x * y) # Também é possível fazer assim. 

tensor(3.)

Esse tipo de operação é bem útil por exemplo quando formos tratar de vetor de pesos. 

## Matrix-Vector Produts - Produto de Matriz por Vetor

Podemos ver matrizes como uma lista de vetores. Onde cada linha é um vetor (*row vector*). Veja a notação abaixo, considerando uma matriz $A \in \mathbb{R}^{n*m}$:

$$ A = 
\begin{pmatrix*}[r] 
a_{1}^T \\
a_{2}^t \\
\vdots  \\
a_{m}^T \\
\end{pmatrix*} $$

Onde $a_i^T$ representa um *row vector* da linha $i$ e $\in \mathbb{R}^n$. Colocamos o $T$ de *Transposta* pois costumamos representar vetores de forma vertical. 

Dess forma, sendo $x \in \mathbb{R}^n$ um vetor, a multiplicação de $A$ por $x$ é dada por:

$$ Ax = 
\begin{pmatrix*}[r] 
a_{1}^T \cdot x \\
a_{2}^t \cdot x\\
\vdots  \\
a_{m}^T \cdot x\\
\end{pmatrix*} $$

Ou seja, fazemos o **dot product** de todo vetor linha pelo vetor $x$. No final, teremos $Ax = y \in \mathbb{R}^m$. Ou seja, podemos ver a matriz $A$ como uma **transformação** que projeta o vetor $x$ de $\mathbb{R}^n$ para $\mathbb{R}^m$.

Esses produtos são muito importantes e terão várias aplicações posteriomente. Para fazer em Python, veja o código abaixo:


In [123]:
print(A)
print(A.shape)

print(x)
print(x.shape)

print(torch.mv(A, x))
print(A @ x) # É a mesma operação acima;

tensor([[0., 1., 2.],
        [3., 4., 5.]])
torch.Size([2, 3])
tensor([0., 1., 2.])
torch.Size([3])
tensor([ 5., 14.])
tensor([ 5., 14.])


## Produto de Matriz por Matriz

Considere a representação a seguir das matrizes $A \in \mathbb{R}^{n*k}$ e $B \in \mathbb{R}^{k*m}$:

$$ A =
\begin{pmatrix*}[r] 
a_{11} & a_{12} & \dots & a_{1k} \\
a_{21} & a_{22} & \dots & a_{2k} \\
\vdots & \vdots & \ddots & \vdots \\
a_{n1} & a_{n2} & \dots & a_{nk} \\
\end{pmatrix*} $$

$$ B =
\begin{pmatrix*}[r] 
b_{11} & b_{12} & \dots & b_{1m} \\
b_{21} & b_{22} & \dots & b_{2m} \\
\vdots & \vdots & \ddots & \vdots \\
b_{k1} & b_{k2} & \dots & b_{km} \\
\end{pmatrix*} $$

Seja $a_i^T \in \mathbb{R}^k$ os vetores linha transpostos de $A$ e $b_i \in \mathbb{R}^k$ os vetores coluna de $B$.

$$ A = 
\begin{pmatrix*}[r] 
a_{1}^T \\
a_{2}^t \\
\vdots  \\
a_{n}^T \\
\end{pmatrix*} $$

$$ B = 
\begin{pmatrix*}[r] 
b_1 & b_2 & b_3 & \dots & b_{m}
\end{pmatrix*} $$

Assim, podemos escrever o produto $AB$ da seguinte forma:

$$
C = AB = 
\begin{pmatrix*}[r] 
a_{1}^T \\
a_{2}^t \\
\vdots  \\
a_{n}^T \\
\end{pmatrix*} 

\begin{pmatrix*}[r] 
b_1 & b_2 & \dots & b_{m}
\end{pmatrix*} 

= 
\begin{pmatrix*}[r]
a_1^Tb_1 & a_1^Tb_2  & \dots & a_1^Tb_m \\
a_2^Tb_1 & a_2^Tb_2  & \dots & a_2^Tb_m \\
\vdots & \vdots & \ddots & \vdots \\
a_n^Tb_1 & a_n^Tb_2  & \dots & a_n^Tb_m \\
\end{pmatrix*}
$$

Ou seja, um montão de produtos escalares. Para fazer isso em Python, veja o código abaixo:

In [124]:
B = torch.ones(3, 4)
print(B)

print(torch.mm(A, B))
print(A @ B)
print(B @ A) # Importante destacar que não é uma operação simétrica
# e depende das dimensões da linha e colunas. 


tensor([[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]])
tensor([[ 3.,  3.,  3.,  3.],
        [12., 12., 12., 12.]])
tensor([[ 3.,  3.,  3.,  3.],
        [12., 12., 12., 12.]])


RuntimeError: mat1 and mat2 shapes cannot be multiplied (3x4 and 2x3)

Seja $A \in \mathbb{R}^{x*y}$ e $B \in \mathbb{R}^{z*w}$:
- Se $y = z$ então $\exists AB$;
- Se $x = w$ então $\exists BA$;
- Não é sempre que $AB = BA$; 

## Normas

As normas são, de forma simplificada, o módulo de um vetor. É sua distância até a origem, representa o quão "grande" é o vetor. Enfim, a interpretação pode variar um pouco, mas é importante considerar a definição matemática.

A **norma** de um vetor, representada por essa notação $\|\mathbf{.}\| $ tem as seguintes propriedades:
- $ \|\mathbf{\alpha x}\|$ = $ |\alpha|\|\mathbf{x}\|$
- $ \|\mathbf{x + y}\| \leq \|\mathbf{x}\|$ + $ \|\mathbf{y}\|$
- $ \|\mathbf{x}\| \gt 0$ se $x \neq 0$

Temos diferentes definições de **normas** e formas de se calcular a mesma. Uma delas é a **Euclidean norm** que é a raiz da soma dos quadrados de todos os elementos do vetor (Considere $x \in \mathbb{R}^n $):

$$ \|\mathbf{x}\|_2  = \sqrt{\sum_{i=1}^{n} x_i^2}$$



Para calcular me Python, temos o seguinte:

In [125]:
u = torch.tensor([3.0, -4.0])
torch.norm(u) # 3^2 + (-4)^2 = 25, 25^{1/2} = 5

tensor(5.)

Temos também a norma conhecida como **Manhattan distance** que é a soma dos módulos dos elementos do vetor:

$$ \|\mathbf{x}\|_1  = \sum_{i=1}^{n} |x_i|$$

In [126]:
torch.abs(u).sum() # |3| + |-4| = 7

tensor(7.)

E uma norma mais geral é dada pela seguinte fórmula:

$$ \|\mathbf{x}\|_p  = (\sum_{i=1}^{n} |x_i|^p)^\frac{1}{p}$$

Para matrizes, a ideia é um pouco mais complexa. Uma das normas, chamada de **Frobenius norm**, é dada por:

$$ \|\mathbf{X}\|_F = \sqrt{\sum_{i=1}^{m}\sum_{j=1}^{n} x_{ij}^2}$$

Veja o código abaixo:

In [127]:
torch.norm(torch.ones((4, 9)))
# É uma matriz de 4 X 9, cheias de 1, ou seja, 36 uns;
# Raiz de 36 dá 6;

tensor(6.)