### üì° Broadcasting

Broadcasting √© um mecanismo que permite realizar opera√ß√µes aritm√©ticas entre tensores de diferentes formas (ou tamanhos):

1. **Como foi poss√≠vel observar at√© agora, cada tensor possui pelo menos uma dimens√£o.**
- Isso significa que os tensores envolvidos na opera√ß√£o devem ter pelo menos uma dimens√£o. Um tensor n√£o pode ser um escalar (um √∫nico n√∫mero sem dimens√µes) se quisermos aplicar as regras de broadcasting.

2. **O Broadcasting** √© algo que acontece tanto no **Pytorch** quanto no **Numpy** por√©m √© algo ocorrendo debaixo dos panos nao √© nenhum m√©todo que ser√° aplicado ao tensor por exemplo. Entretanto, o broadcasting possui alguns pr√≠ncipios de funcionamento, e compreender isto, aux√≠lia ao desenvolvedor ter um maior dom√≠nio do que est√° acontecendo com seus tensores.

 Para que o broadcasting entao aconteca esta operacao ir√° sempre comecar verificando se a dimens√£o final possui os tamanhos das compativ√©is que permitem o broadcasting sendo rem resumo:
 
   - As dimensoes mais a direita devem ser iguais;
   - Algum dos valores ou dimensao √© 1, ou um deles n√£o existe;
  
  Como mencionado, o brodcasting inicia:
   - Comparando as dimens√µes dos dois tensores, come√ßando pela √∫ltima dimens√£o (a mais √† direita) e movendo-se para a primeira dimens√£o (a mais √† esquerda).
   
  Agora de maneira detalhada como j√° foi citado anteriormente para cada par de dimens√µes comparadas, tr√™s cen√°rios permitem o broadcasting:
     1. **Os tamanhos das dimens√µes s√£o iguais:** Se as dimens√µes correspondentes nos dois tensores t√™m o mesmo tamanho, ent√£o elas s√£o compat√≠veis. (ocorre broadcasting)
     2. **Uma das dimens√µes √© 1:** Se um tensor tem uma dimens√£o de tamanho 1 na posi√ß√£o que est√° sendo comparada, ele pode ser "esticado" ou "expandido" para corresponder ao tamanho da outra dimens√£o. Isso √© feito sem realmente copiar dados em mem√≥ria, mas sim apenas adaptando a opera√ß√£o aritm√©tica para se comportar como se o tensor menor tivesse sido expandido.
     3. **Uma das dimens√µes n√£o existe:** Se um dos tensores tem menos dimens√µes que o outro, podemos considerar que ele tem dimens√µes extras de tamanho 1 na frente (mais √† esquerda). Essas dimens√µes "faltantes" s√£o implicitamente consideradas como 1, permitindo o broadcasting.

![](https://deeplearninguniversity.com/wp-content/uploads/2020/11/Screenshot-2020-11-20-at-1.02.50-PM.png)

(Fonte: https://deeplearninguniversity.com/pytorch/pytorch-broadcasting/)

O broadcasting permite que voc√™ realize opera√ß√µes aritm√©ticas entre tensores de formas diferentes de uma maneira eficiente e intuitiva. Por exemplo, voc√™ pode adicionar um vetor a cada linha de uma matriz ou multiplicar uma matriz 3D por um vetor, aplicando a opera√ß√£o em cada "fatia" da matriz 3D, sem a necessidade de loops expl√≠citos ou duplica√ß√£o de dados.

Vamos, observar alguns exemplos para que fique ainda mais claro, e tamb√©m para podermos entender como o broadcasting ocorre na pr√°tica

In [1]:
import torch

n = torch.rand(2,2)

n

tensor([[0.8484, 0.3655],
        [0.6376, 0.4929]])

In [2]:
j = torch.rand(2)

j

tensor([0.6048, 0.5671])

Perceba que aqui as regras, para a existencia do **Broadcasting** estao sendo satisfeitas, pois, temos que a dimensao mais a direita √© `1` ou uma dimensao maior, e neste caso se percebermos ambos os tensores possuem o mesmo n√∫mero de colunas (dimensao mais a direita) ambos possuem 2 colunas (dimensoes iguais), portanto o **Tensor j** sofrer√° **Broadcasting** e ter√° seus valores duplicados de tal forma que tenhamos uma matriz (2 x 2)

In [3]:
broad = n + j

broad

tensor([[1.4532, 0.9326],
        [1.2424, 1.0600]])

Um outro comentario interessante a se fazer em relacao ao Broadcasting √© que ele √© aplicado a todas as operacoes aritim√©ticas que vimos at√© aqui, incluindo por exemplo produtos escalares entre Tensores, sem nos esquecermos das operacoes arit√©mticas entre **Tensores** fundamentais como por exemplo (+, - , * , /) e etc.

O que devemos salientar √© para os produtos escalares que no final das contas, a grosso modo sao modelos simplificados de um neuronio artificial e portanto, ao lidar com Redes MLP, ou Redes Convolucionais, estamos a todo momento trabalhando com o Broadcasting. Vamos ver um exemplo para consildar este conhecimento tao importante:

In [13]:
x = torch.rand(2,2,3)
w = torch.rand(3,2)
b = torch.rand(2)

In [15]:
neuron = torch.matmul(x, w) + b

neuron

tensor([[[1.6143, 1.1010],
         [1.2022, 1.0477]],

        [[1.0583, 1.0030],
         [2.0519, 1.3876]]])

In [16]:
neuron.shape

torch.Size([2, 2, 2])