### 🥇 Funcoes de reducao utilizadas no Pytorch

No Pytorch as funcoes de reducao, sao utilizadas para reduzir a dimensionalidade dos tensores, agregando valores ao longo de uma ou mais dimensoes.

No Pytorch, têm-se uma série de métodos, entretanto vamos nos concentrar em alguns dos mais utilizados no dia a dia ao se trabalhar com Deep Learning


##### 🔎 O parametro dim (dimension)

Antes de ja irmos direto para os métodos é necessário antes abordar um conceito importantissimo ao se trabalhar com funcoes de reducao no Pytorch que é o **dimension**.

Logo, ao trabalhar com métodos de reducao no Pytorch, o parametro `dim=<value>`, serve para auxiliar o usuário pois ao utilizá-lo, é necessário informar em **qual ou para qual dimensao o método deve ser aplicado**.

O parâmetro `dim` representa literalmente a dimensao e portanto, ao utilizarmos precisamos **informar passando um número inteiro que representa a dimensao**. 

Um conceito muito importante, em relacao ao `dim` é que os valores devem ser **números inteiros**, que **sempre iniciam em 0** e esses valores, podem aumentar sequencialmente, ao passo que o Tensor aumenta a sua ordem. 

Outro conceito importante é que sempre o maior valor de `dim`, sempre será relativo as colunas, e os demais valores serao responsavéis pelas linhas, independente da ordem do tensor que se estiver trabalhando.

Sendo assim, as dimensoes em vetores de ordem 2, sao númeradas por:

- **0 = Representa as Linhas** 
- **1 = Representa as Colunas**

Para facilitar um pouco o entendimento, pense que quando voce delimita `dim=0` voce está aplicando o método de reducao no eixo Y. Já quando voce delimita `dim=1` voce está aplicando o método no eixo X.

Vamos entao ver como trabalhar com um tensores de ordem 2 (matriz) para verificar como que esses métodos de agregacao funcionam nestes tensores:

#### 1. torch.sum():
O método `torch.sum()`, basicamente faz o que o nome exprime, calcula a soma de todos os elementos de um Tensor ao longo de uma dimensao que é passada por argumento

In [1]:
import torch

v = torch.ones(10,dtype=torch.int16)
v

tensor([1, 1, 1, 1, 1, 1, 1, 1, 1, 1], dtype=torch.int16)

Veja que ao utilizarmos logo abaixo o método `torch.sum()` e informando a ele o tensor `v` ele acessa este tensor de ordem 1, que foi gerado através de um método de inicializacao neste caso o `torch.ones()` e realiza uma soma neste tensor, ou seja faz uma agregacao o transformando em um escalar de valor 10. Ou seja, realizou a agregacao e reduziu a dimensao 

In [2]:
torch.sum(v)

tensor(10)

Agora, vamos utilizar a mesma ideia porém utilizando um tensor de ordem superior neste caso, um tensor de ordem 2 (matriz) e veremos que a mesma ideia feita para o tensor de ordem 1 também é válida para tensores de ordem superiores

In [3]:
matrice_m = torch.ones(2,3,dtype=torch.int16)
matrice_m

tensor([[1, 1, 1],
        [1, 1, 1]], dtype=torch.int16)

Veja que novamente, o que o método `torch.sum` realizou foi literalmente somar cada elemento tanto das linhas quanto das colunas 1 a 1 e reduziu a dimensionalidade do tensor para um tensor de ordem 0, ou seja, retornou um escalar valendo 6

In [4]:
tensor_sum = torch.sum(matrice_m)
tensor_sum


tensor(6)

In [15]:
random_matrice = torch.rand(2,3)
random_matrice

tensor([[0.3830, 0.9119, 0.8695],
        [0.2018, 0.0105, 0.6678]])

Veja que aqui neste caso, o método `torch.sum()`, realizou a soma de cada elemento da primeira e da segunda linha do tensor random_matrice, pois especificamos o parâmetro `dim` tire a prova real calculando:

In [16]:
torch.sum(random_matrice,dim = 0)

tensor([0.5848, 0.9224, 1.5372])

Veja que ao somar todos os valores de cada elemento de cada linha, obtivemos o valor de **1.3356**, pois questoes de precisao nos algarismos e o tamanho do tipo de dados o último digito da casa decimal foi arredondada. Porém o valor de fato esta identico ao valor encontrado quando aplicamos o método `torch.sum()`

In [64]:
0.0307 + 0.5181 + 0.7868

1.3356

Vamos, replicar a ideia porém agora, para a dimensao 0. Veja que agora, o método somou apenas os valores que estavam nas colunas **dim = 0**, de maneira análoga ao que fizemos para a dimensao 1, vamos tirar a "prova real" para verificar a acurácia.

Portanto, temos exatamente os valores encontrados ao utilizar o parametro torch.sum porém agora apenas em uma diferenca diferente o que podemos concluir que o comando está correto.

In [17]:
torch.sum(random_matrice,dim = 1)


tensor([2.1644, 0.8801])

In [66]:
(0.0307 + 0.0635) , (0.5181 + 0.6163) , (0.7868 + 0.9788)

(0.0942, 1.1343999999999999, 1.7656)

Agora, vamos aplicar estes conceitos para Tensores de ordem superior ou ordem 3 e ver se as funcoes de agregacao, seguem os conceitos vistos anteriormente até aqui.

Antes de comecarmos, a trabalhar com métodos de agregacao em Tensores de ordem superior gostaria de lembrar um conceito visto em estudos anteriores

**O que sao tensores de ordem superior por exemplo um tensor de ordem 3 ?**

Vimos, que um tensor de ordem 3 em termos práticos é um vetor que carrega em si matrizes guarde este conceito pois ele será importante!

In [67]:
tensor3d = torch.rand(2,2,3)

tensor3d

tensor([[[0.3254, 0.0531, 0.1916],
         [0.3600, 0.9394, 0.0500]],

        [[0.5365, 0.5318, 0.1528],
         [0.3453, 0.2539, 0.2998]]])

In [68]:
torch.sum(tensor3d, dim = 2)


tensor([[0.5701, 1.3494],
        [1.2211, 0.8990]])

Vamos, somar manualmente para verificar se de fato a operacao está correta e visualizar que ele está somando as colunas:

In [69]:
(0.9441 + 0.8208 + 0.8714) , (0.3552 + 0.5126 + 0.0713) , (0.1126 + 0.4456 + 0.1654) , (0.276 + 0.4406 + 0.5306)

# Logo, vimos que sim está sendo somado corretamente


(2.6363, 0.9390999999999999, 0.7236, 1.2471999999999999)

Agora, vamos explorar a `dim = 0` que irá realizar a operacao na dimensao "3". Pois como tinhamos abordado um tensor de ordem superior, como neste caso de ordem 3, em termos práticos é um vetor que carrega matrizes e portanto, neste caso o que ocorrerá é uma operacao de soma entre as matrizes vamos ver:

In [70]:
tensor3d

tensor([[[0.3254, 0.0531, 0.1916],
         [0.3600, 0.9394, 0.0500]],

        [[0.5365, 0.5318, 0.1528],
         [0.3453, 0.2539, 0.2998]]])

In [71]:

torch.sum(tensor3d, dim = 0)

tensor([[0.8619, 0.5849, 0.3444],
        [0.7054, 1.1933, 0.3497]])

Com isso, vamos realizar os calculos para ver se de fato a operacao foi aplicada na dimensao correta.

In [72]:
(0.9441 + 0.1126) , (0.8208 + 0.4456) , (0.8714 + 0.1654)

# Veja que sim, a operacao foi aplicada na dimensao correta, realizando a soma de elemento por elemento

(1.0567, 1.2664, 1.0368)

#### 2. torch.mean():

O método `torch.mean()`, basicamente faz o que o nome exprime, calcula a média de todos os elementos de um Tensor ao longo de uma dimensao especificada

In [73]:
another_vector = torch.rand(7)

another_vector

tensor([0.2145, 0.9650, 0.5482, 0.3012, 0.4591, 0.2867, 0.2246])

In [74]:
torch.mean(another_vector)

tensor(0.4285)

Vamos entao testar de maneira "brute force" para ver se de fato a operacao esta correta:


In [75]:
(0.8636 + 0.0433 + 0.0769 + 0.6007 + 0.6226 + 0.4043 + 0.2674) / 7

#Portanto, de fato está correto a operacao utilizando o método mean()

0.4112571428571429

Agora, vamos realizar a aplicacao do `torch.mean()`, porém para tensores de ordem 2. E vamos utilizar o parametro `dim`, que vimos anteriormente para que o método seja aplicado para a dimensao determinada como também já foi visto anteriormente.

In [76]:
another_matrice = torch.rand(2,3)
another_matrice

tensor([[0.2118, 0.7054, 0.9934],
        [0.8409, 0.3987, 0.9036]])

In [77]:
torch.mean(another_matrice, dim = 1)

tensor([0.6369, 0.7144])

In [None]:
# Testando:

# o dim = 1, como visto representa as colunas, portanto:

# Cálculo do primeiro elemento
a11 = (0.7593 + 0.8597 + 0.5941) / 3

# Cálculo do segundo elemento
a12 = (0.8635 + 0.3544 + 0.4002) / 3

print(a11,a12)

0.7376999999999999 0.5393666666666667


Portanto, veja que os mesmos conceitos como por exemplo: uso do `dim` que utilizamos para o `torch.sum()`, também funcionam para os demais métodos como por exemplo neste caso o `torch.mean()`

In [79]:
another_matrice

tensor([[0.2118, 0.7054, 0.9934],
        [0.8409, 0.3987, 0.9036]])

In [80]:
torch.mean(another_matrice, dim = 0)

tensor([0.5264, 0.5521, 0.9485])

In [None]:
# Testando: 
# dim = 0 , representa as colunas:

a11 = (0.7593 + 0.8635) / 2
a12 = (0.8597 + 0.3544) / 2
a13 = (0.5941 + 0.4002) / 2

print(a11,a12,a13)

0.8114 0.60705 0.49715


In [82]:
another_tensor = torch.rand(2,2,3)
another_tensor

tensor([[[0.0260, 0.6126, 0.7707],
         [0.7533, 0.9096, 0.1928]],

        [[0.7389, 0.7655, 0.2077],
         [0.2560, 0.9505, 0.2074]]])

In [83]:
torch.mean(another_tensor, dim = 0)

tensor([[0.3824, 0.6890, 0.4892],
        [0.5047, 0.9300, 0.2001]])

In [84]:
torch.mean(another_tensor, dim = 1)

tensor([[0.3896, 0.7611, 0.4817],
        [0.4975, 0.8580, 0.2075]])

In [85]:
torch.mean(another_tensor, dim = 2)

tensor([[0.4697, 0.6186],
        [0.5707, 0.4713]])

#### 3. torch.max():

O método `torch.max()`, nos mostra qual é o maior valor presente dentro de um tensor. Retornando isso, através do seu valor ou da sua posicao(index). Além disso, como ja visto nos métodos anteriores como `torch.sum()` e `torch.mean()`, aqui com o `torch.max()` também podemos especificar em qual dimensao, queremos que o método seja aplicado.

Um ponto importante a ser salientado é que quando estamos trabalhando com os métodos de reducao, eles verificam elemento por elemento aplicando suas operacoes, entao por exemplo no método `torch.max()` ele irá sair comparando elemento a elemento para verificar qual deles é maior. E isso vale também para quando passamos parametros adicionais como por exemplo `torch.max(dim='0 ou 1')` Ou seja, quando delimitamos a dimensao o que irá acontecer é que o método irá aplicar sua lógica neste caso "filtrar" pelo elemento de maior valor e para isso ele irá comparar elemento por elemento na dimensao informada, se `dim=0` ele irá comparar elemento por elemento presente nas linhas e retornará o valor e a respectiva posicao dos maiores elementos.



##### Aplicando torch.max() em tensores de ordem 2 ou matrizes

In [10]:
matrix4 = torch.rand(2,3)

matrix4

tensor([[0.7485, 0.3832, 0.5739],
        [0.8960, 0.9712, 0.3480]])

Veja que aqui nao informamos a dimensao, entao de maneira geral o método `torch.max` procurou pelo maior valor entre todos os valores do Tensor e nos retornou.

In [11]:
torch.max(matrix4)

tensor(0.9712)

In [12]:
torch.max(matrix4, dim = 0)

torch.return_types.max(
values=tensor([0.8960, 0.9712, 0.5739]),
indices=tensor([1, 1, 0]))

In [19]:
index, values = torch.max(matrix4, dim = 0)

index, values

(tensor([0.8960, 0.9712, 0.5739]), tensor([1, 1, 0]))

Vamos, ver como isso funciona na `dim=1`

In [20]:
index, values = torch.max(matrix4, dim = 1)

index, values

(tensor([0.7485, 0.9712]), tensor([0, 1]))

##### Aplicando o torch.max() em tensores de ordem 3 ou superior

In [3]:
t = torch.rand(2,2,3)

t

tensor([[[0.1781, 0.4586, 0.5749],
         [0.3675, 0.2402, 0.2650]],

        [[0.6796, 0.1474, 0.3033],
         [0.5824, 0.4717, 0.6007]]])

Vimos até entao que nos tensores de ordem menor que 3, o parametro `dim` pode ser `dim=0` e `dim=1`. Isso informa para o **Pytorch** que neste caso é para aplicar o método de reducao em questao na dimensao especificada onde `dim = 0`, aplica o método na dimensao das linhas e `dim = 1`, aplica o método na dimensao na dimensao das colunas. Porém, agora ao trabalharmos com tensores de ordem 3 ou superior, estamos de fato tendo que lidar com um Tensor propriamente dito, ou para simplificar estamos lidando com um "vetor de matrizes". E sendo assim, agora nos tensores de ordem 3, estamos lidando com uma dimensao a mais, com isso nosso parametro `dim` também "ganha" uma dimensao a mais e temos o seguinte:

- `dim = 0`: Aplica o método na dimensao das **matrizes**
- `dim = 1`: Aplica o método na dimensao das **linhas**
- `dim = 2`: Aplica o método na dimensao das **colunas**
  
Para que isso fique um pouco mais claro de entender, é que nos Tensores de ordem maior que 3, o valor **0** está associado com a primeira dimensao que neste caso sao as "matrizes", o valor **1** está ligado com as linhas das matrizes em questao e o valor **2** fica ligado com as colunas e portanto, temos está pequena diferenca e podemos fazer inclusive uma analogia com o eixo de coordenadas x,y,z , pois é como se tivessemos controlando o eixo:
$$x = 0; y = 1;  z = 2; $$

##### Testando a dimensao `dim = 2` que controla as colunas em tensores de ordem superior

In [5]:
values , index = torch.max(t, dim = 2)

In [8]:
t

tensor([[[0.1781, 0.4586, 0.5749],
         [0.3675, 0.2402, 0.2650]],

        [[0.6796, 0.1474, 0.3033],
         [0.5824, 0.4717, 0.6007]]])

In [6]:
values

tensor([[0.5749, 0.3675],
        [0.6796, 0.6007]])

In [7]:
index

tensor([[2, 0],
        [0, 2]])

##### Testando a dimensao `dim = 1` que controla as linhas em tensores de ordem superior

Entao veja que aqui ele está comparando elemento por elemento de cada linha e vendo qual deles é maior

In [15]:
t

tensor([[[0.1781, 0.4586, 0.5749],
         [0.3675, 0.2402, 0.2650]],

        [[0.6796, 0.1474, 0.3033],
         [0.5824, 0.4717, 0.6007]]])

In [11]:
values,index = torch.max(t, dim = 1)

In [13]:
values

tensor([[0.3675, 0.4586, 0.5749],
        [0.6796, 0.4717, 0.6007]])

In [14]:
index

tensor([[1, 0, 0],
        [0, 1, 1]])

##### Testando a dimensao `dim = 0` que controla as matrizes em tensores de ordem superior

Já aqui veja que ele está comparando elemento por elemento de cada uma das matrizes e vendo qual é o maior 

In [16]:
t

tensor([[[0.1781, 0.4586, 0.5749],
         [0.3675, 0.2402, 0.2650]],

        [[0.6796, 0.1474, 0.3033],
         [0.5824, 0.4717, 0.6007]]])

In [17]:
values,index = torch.max(t, dim = 0)

In [18]:
values

tensor([[0.6796, 0.4586, 0.5749],
        [0.5824, 0.4717, 0.6007]])

In [19]:
index

tensor([[1, 0, 0],
        [1, 1, 1]])

#### 4. torch.min():

O `torch.min()` tem o príncipio de funcinamento exatamente igual ao `torch.max()` visto anteriormente, a única diferenca é que o `torch.min()` irá retornar o menor valor do Tensor ou irá aplicar o método e retornará os menores valores de um tensor em uma dada dimensao.

In [21]:
t2 = torch.rand(2,2,3)

t2

tensor([[[0.0557, 0.1917, 0.2341],
         [0.6657, 0.9000, 0.5472]],

        [[0.1237, 0.9808, 0.5441],
         [0.7009, 0.8810, 0.6214]]])

Perceba, que se eu nao informar nenhuma dimensao ou seja nao informar o parametro `dim` o método `torch.min()` irá retornar o menor valor do Tensor entre todos independente das dimensoes do Tensor, isso vale para qualquer um dos métodos de reducao como por exemplo: `torch.sum()`, `torch.max()` e etc.

In [22]:
torch.min(t2)

tensor(0.0557)

Veja que no momento em que uma dimensao é informada, ele irá realizar e procurar o menor valor daquela dimensao exatamente igual vimos, quando trabalhamos com `torch.max()`

In [23]:
values, index = torch.min(t2, dim = 2)

In [24]:
values

tensor([[0.0557, 0.5472],
        [0.1237, 0.6214]])

In [25]:
index

tensor([[0, 2],
        [0, 2]])

In [26]:
values, index = torch.max(t2, dim = 1)

In [27]:
values, index

(tensor([[0.6657, 0.9000, 0.5472],
         [0.7009, 0.9808, 0.6214]]),
 tensor([[1, 1, 1],
         [1, 0, 1]]))

In [28]:
values, index = torch.min(t2, dim = 0)

In [29]:
values, index

(tensor([[0.0557, 0.1917, 0.2341],
         [0.6657, 0.8810, 0.5472]]),
 tensor([[0, 0, 0],
         [0, 1, 0]]))

#### 5. torch.argmax():

O `torch.argmax()` tem um funcionamento e lógica muito semelhante, ao funcionamento do `torch.max()`, porém a diferenca existente entre eles é que o `torch.max()` retorna os maiores valores jutamente com os indices ou melhor as posicoes onde está localizado estes maiores valores e já no `torch.argmax()` o retorno que temos como resultado é apenas as posicoes de onde estao os maiores valores neste Tensor. Assim como no `torch.max()`, podemos realizar a busca por este maior valor através de uma dimensao especifica, como ja vimos passando o parametro adicional `dim = 0` , `dim = 1` e `dim = 2`

In [3]:
t3 = torch.rand(2,2,3)

t3

tensor([[[0.9311, 0.6232, 0.2368],
         [0.4186, 0.9345, 0.9238]],

        [[0.7209, 0.4918, 0.0780],
         [0.7135, 0.0741, 0.5789]]])

In [8]:
torch.argmax(t3, dim = 0)

tensor([[0, 0, 0],
        [1, 0, 0]])

In [6]:
torch.argmax(t3, dim = 1)

tensor([[0, 1, 1],
        [0, 0, 1]])

In [5]:
torch.argmax(t3, dim = 2)

tensor([[0, 1],
        [0, 0]])

#### 6. torch.argmin():

O `torch.argmin()` também é exatamente o mesmo método, que o `torch.argmax()` porém com a diferenca de que a lógica aqui é que teremos como retorno a posicao(index) do menor valor dentro do vetor.

In [9]:
t3

tensor([[[0.9311, 0.6232, 0.2368],
         [0.4186, 0.9345, 0.9238]],

        [[0.7209, 0.4918, 0.0780],
         [0.7135, 0.0741, 0.5789]]])

In [10]:
torch.argmin(t3, dim = 0)

tensor([[1, 1, 1],
        [0, 1, 1]])

In [11]:
torch.argmin(t3, dim = 1)

tensor([[1, 0, 0],
        [1, 1, 0]])

In [12]:
torch.argmin(t3, dim = 2)

tensor([[2, 0],
        [2, 1]])