### 📐✖️ Produto Escalar

**O produto escalar**, também conhecido como produto interno, é uma operação matemática que permite combinar dois vetores para resultar em um único número escalar. 🎯

Por que o produto escalar é tão utilizado no mundo da AI? 🤔💡

1. **Combinação Linear de Entradas:** 🧠 Em uma rede neural, cada neurônio calcula uma combinação linear de seus inputs, que são os valores recebidos de outros neurônios ou da entrada inicial. O produto escalar faz justamente isso, multiplicando inputs por pesos e somando-os para criar a saída do neurônio.

2. **Produto Escalar é Diferenciável:** 🔄 A diferenciabilidade do produto escalar é essencial para aplicar algoritmos de otimização baseados em gradiente, como o Gradiente Descendente, cruciais para o treinamento de redes neurais.


A equação do produto escalar entre dois vetores $ \mathbf{a} $ e $ \mathbf{b} $ pode ser escrita como:

$$ \mathbf{a} \cdot \mathbf{b} = \sum_{i=1}^{n} a_i b_i $$


E como é o produto escalar em matriz?

https://www.mathsisfun.com/algebra/matrix-multiplying.html

In [1]:
import torch

In [None]:
a = torch.rand(5)
b = torch.rand(5)



In [13]:
a

tensor([0.5952, 0.3507, 0.0260, 0.1331, 0.2415, 0.4984])

In [5]:
b

tensor([0.9816, 0.7538, 0.5317, 0.3351, 0.1633])

In [7]:
c = a * b

c

tensor([0.2109, 0.5796, 0.4587, 0.3141, 0.0383])

Perceba, que se observarmos matematicamente a equacao matematica do produto escalar vemos que ele realiza a multiplicacao (produto) elemento por elemento realizando um somatório. Portanto, se tentarmos transferir esta ideia, para o `PyTorch` ou até mesmo implementar sem utilizar o Pytorch, temos que após realizar o produto, devemos realizar uma soma. Ou seja, estaremos utilizando um método de reducao, que irá transformar esses produtos elemento a elemento do vetor em um único escalar. Sendo assim, vamos tentar reproduzir esta ideia.

In [9]:
def dot_product(a,b):
    return torch.sum(a * b)

vetor1 = torch.rand(10)
vetor2 = torch.rand(10)

print(vetor1)
print(vetor2)
dot_product(vetor1, vetor2)

tensor([0.2669, 0.9414, 0.8007, 0.3315, 0.8320, 0.5161, 0.5016, 0.4714, 0.3182,
        0.8395])
tensor([0.3715, 0.6113, 0.8205, 0.5979, 0.8898, 0.4659, 0.5087, 0.2948, 0.3538,
        0.2411])


tensor(3.2197)

Mas, veja isso gera um certo trabalho adicional, pois é necessário criar uma funcao, e utilizar um método de reducao do Pytorch para só assim entao termos o resultado.

Porém seria bem mas conveniente se o Pytorch possuir alguns métodos que já facilitem essa etapa de calcular o produto escalar e é justamente isso que iremos explorar a seguir:

O primeiro método, e pode ser considerado o mais comum é o `torch.dot()` o que ele faz ? 
R: Basicamente o `torch.dot()` reproduz o que implementamos anteriormente, ou seja recebe 2 tensores de ordem 1 e retorna um escalar, porém
o torch.dot, nos fornece isso bastando chamá-lo.

Como podemos usar entao o `torch.dot()` e seus detalhes:

`torch.dot()`:
   - **Descrição**: Calcula o produto escalar (🎯) de dois tensores 1-D (vetores).
   - **Entrada**: Dois vetores (tensores 1-D) 📏📏.
   - **Saída**: Um único número escalar (🔢), que é o produto escalar dos dois vetores.
   - **Uso**: Apropriado quando você quer a interação direta ponto a ponto de dois vetores. Por exemplo: `torch.dot(tensor1, tensor2)`.

In [12]:
a = torch.rand(6)
b = torch.rand(6)

escalar = torch.dot(a,b)

escalar

tensor(0.6679)

Vamos, agora ver uma alternativa existente ao `torch.dot()`. Basicamente o `torch.mm()` ele é muito utilizado, quando temos tensores de ordem 2.

 `torch.mm()`:
   - **Descrição**: Executa a multiplicação de matrizes (✖️) entre dois tensores 2-D.
   - **Entrada**: Duas matrizes (tensores 2-D) 📄📄.
   - **Saída**: Um tensor 2-D que é o produto das duas matrizes (📘).
   - **Uso**: Perfeito para quando você precisa multiplicar duas matrizes como em álgebra linear clássica. Por exemplo: `torch.mm(matrix1, matrix2)`.

In [None]:
a_m = torch.rand(2,3)
b_m = torch.rand(2,3)

a_m

tensor([[0.2435, 0.7150, 0.6578],
        [0.4218, 0.4848, 0.6333]])

In [20]:
b_m

tensor([[0.2435, 0.7150, 0.6578],
        [0.4218, 0.4848, 0.6333]])

Veja que se executarmos a linha abaixo teremos um erro. Este erro ocorre porque devemos lembrar que na matematica, ou melhor dizendo, matematicamente existem algumas condicoes para que exista o produto escalar entre dois vetores sendo $m = p$ ou seja. Se tiver um tensor `a_m` que é `2 x 3` do tipo `(n x m)` e um outro tensor `b_m` que é `2 x 3` `(p x q)` Veja que para que existe o produto escalar devemos garantir que $m = p$. **Em outras palavras para que possamos, entao realizar o produto escalar, devemos ter que o número de colunas do primeiro tensor deve ser igual ao número de linhas do outro** E podemos, resolver isso sem modificar a estrutura interna do tensor realizando a operacao de transposicao. Caso as condicoes sejam satisfeitas o produto escalar irá existir e sua **saída será sempre no formato: `n x q`** onde podemos fazer um paralelo com redes neurais.


Alguns pontos importantes a salientar sao que tudo isso existe porque o produto escalar é um caso especial de multiplicacao de matrizes e expandindo ainda mais devemos lembrar que um produto escalar ou também conhecido como produto interno só pode ser definido se ambos possuem o mesmo número de componentes.

Portanto, para que a operacao do produto escalar seja feita precisamos alterar ou melhor dizendo realizar a transposta do segundo tensor transformando-o em uma matriz coluna, isso irá satisfazer a condicao da multiplicacao de matrizes onde $m = p$, pois se m for diferente de p, entao nao teremos o produto escalar.

In [21]:
result = torch.mm(a_m, b_m)

RuntimeError: mat1 and mat2 shapes cannot be multiplied (2x3 and 2x3)

In [23]:
result = torch.mm(a_m, b_m.T)

result

tensor([[1.2983, 1.2372],
        [0.9794, 0.9677]])

Por fim, vamos entender um outro método existente do Pytorch que é o `torch.matmul()` que é extremamente utilizado quando queremos calcular o produto escalar, pois ela se trata de uma ferramenta um pouco mais geral, para calcular produto escalar nao ficando restrita a ordem dos tensores de entrada.

`torch.matmul()`:
   - **Descrição**: Uma ferramenta de multiplicação de matrizes mais geral (🔗) que lida com matrizes de alta dimensão e broadcasting.
   - **Entrada**: Pode ser tensores de qualquer dimensão (⚛️).
   - **Saída**: O tensor resultante pode variar em dimensão, de acordo com as regras de broadcasting (📈).
   - **Uso**: Versátil e potente, essa função é adequada para uma gama mais ampla de operações de álgebra tensorial. Por exemplo: `torch.matmul(tensor1, tensor2)`.

In [25]:
a_t = torch.rand(2,2,3)
b_t = torch.rand(2,2,3)

t_result = torch.matmul(a_t,b_t.T)

  t_result = torch.matmul(a_t,b_t.T)


RuntimeError: The size of tensor a (2) must match the size of tensor b (3) at non-singleton dimension 0

In [29]:
t_result = torch.matmul(a_t,b_t.transpose(1,2))

t_result

tensor([[[0.5704, 0.8776],
         [1.1949, 1.5624]],

        [[0.9798, 0.3756],
         [0.1970, 0.0779]]])