# Cap 2 - Álgebra Linear

Escalares, vetores, matrizes e tensores são os objetos matemáticos básicos usados álgebra linear e possuem zero,
um, dois e um número arbitrário de eixos, respectivamente.

Tensores podem ter qualquer quantidade de eixos. É um 'vetor/array' com número arbitrário de eixos.

In [3]:
import torch

# -------------------------------------------------------------------------------
# 2.3.1. Scalars
# Scalars are implemented as tensors that contain only one element.
x = torch.tensor(3.0)
y = torch.tensor(2.0)

x + y, x * y, x / y, x**y

# -------------------------------------------------------------------------------
# 2.3.2. Vectors
# We denote vectors by bold lowercase letters.
# Vectors are implemented as 1st-order tensors.
# Caution: in Python, as in most programming languages, vector indices start at
# , also known as zero-based indexing, whereas in linear algebra subscripts begin at
#  (one-based indexing).

x1 = torch.arange(3)
x1
x1[2]
len(x1) # dimensionality of the vector = qtd of elements. Or
x1.shape
# To avoid confusion, we use order to refer to the number of axes and dimensionality exclusively to refer to the number of components.

# -------------------------------------------------------------------------------
# 2.3.3. Matrices
# Scalar: 0th order
# Tensor/vector: 1st order
# Tensor/matrices: 2nd order
# We denote matrices by bold CAPITAL letters

A = torch.arange(6).reshape(3, 2)
A

tensor([[0, 1],
        [2, 3],
        [4, 5]])

In [6]:
# In code, we can access any matrix’s transpose as follows:
A.T   # aplicado apenas em matrizes e não em vetores.
# D1 e D2 são diferentes. A transposta de D1 não é calculada corretamente, já a de D2 sim.
D1 = torch.tensor([1, 2, 3])  # Tensor:(3,)
D2 = torch.tensor([[1, 2, 3]]) # Tensor:(3,1)
D1
# Out[41]: tensor([1, 2, 3])
D2
# Out[42]: tensor([[1, 2, 3]])
D1.T
# Out[43]: tensor([1, 2, 3])
D2.T
# Out[44]:
# tensor([[1],
#         [2],
#         [3]])

tensor([[1],
        [2],
        [3]])

# 2.3.4. Tensors

Embora você possa ir longe em sua jornada de aprendizado de máquina apenas com escalares, vetores e matrizes, eventualmente poderá precisar
trabalhar com tensores de ordem superior.
Os tensores se tornarão mais importantes quando começarmos a trabalhar com imagens. Cada imagem chega como um 3rd
Tensor de ordem com eixos correspondentes à altura, largura e canal. Em cada localização espacial, as intensidades de cada cor
(vermelho, verde e azul) são empilhadas ao longo do canal.

In [7]:
# -------------------------------------------------------------------------------
# 2.3.5. Basic Properties of Tensor Arithmetic

A = torch.arange(6, dtype=torch.float32).reshape(2, 3)
B = A.clone()  # Assign a copy of A to B by allocating new memory
A, A + B

# The elementwise product of two matrices
A*B

# Adding or multiplying a scalar and a tensor produces a result with the same shape as the original tensor.
a = 2
X = torch.arange(24).reshape(2, 3, 4)
a + X

tensor([[[ 2,  3,  4,  5],
         [ 6,  7,  8,  9],
         [10, 11, 12, 13]],

        [[14, 15, 16, 17],
         [18, 19, 20, 21],
         [22, 23, 24, 25]]])

In [8]:
# -------------------------------------------------------------------------------
# 2.3.6. Reduction

x = torch.arange(3, dtype=torch.float32)
# tensor([0., 1., 2.])

x.sum()
# Out[8]: tensor(3.)

A = torch.arange(6, dtype=torch.float32).reshape(2, 3)
# tensor([[0., 1., 2.],
#         [3., 4., 5.]])

A.shape
# Out[11]: torch.Size([2, 3])

A.sum(axis=0) # Soma as colunas
# tensor([3., 5., 7.])

A.sum(axis=1) # soma as linhas
# tensor([ 3., 12.])

A.sum(axis=[0, 1])  # Soma todos os elementos da matriz
# Out[16]: tensor(15.)

A.numel()   # Quantidade de elementos na matriz
# Out[17]: 6

A.mean() # Média dos elementos da matriz
# Out[18]: tensor(2.5000)   #A.sum() / A.numel()

A.mean(axis=0) #Média de cada coluna
# Out[20]: tensor([1.5000, 2.5000, 3.5000])

A.mean(axis=1)  #Média de cada linha
# Out[21]: tensor([1., 4.])

tensor([1., 4.])

In [9]:
# -------------------------------------------------------------------------------
# 2.3.7. Non-Reduction Sum

sum_A = A.sum(axis=1, keepdims=True)  # mantem os resultados nas respectivas linhas
sum_A, sum_A.shape
# (tensor([[ 3.],
#          [12.]]),
#  torch.Size([2, 1]))

(tensor([[ 3.],
         [12.]]),
 torch.Size([2, 1]))

# 2.3.8. Produto escalar (Dot Products - also known as inner product) 

Resultado é uma grandeza escalar

É a soma dos produtos dos elementos na mesma posição

In [10]:
y = torch.ones(3, dtype = torch.float32)
x, y, torch.dot(x, y)    # O que é equivalente a fazer: torch.sum(x * y)
# (tensor([0., 1., 2.]), tensor([1., 1., 1.]), tensor(3.))

(tensor([0., 1., 2.]), tensor([1., 1., 1.]), tensor(3.))

# 2.3.9. Produtos matriciais e vetoriais 

Resutaldo é um vetor/matriz

In [11]:
# Produto vetorial entre vetores utilizando numpy
import numpy as np
u = np.array([1,2,3])
v = np.array([3,1,2])
w = np.cross(u,v)
print(w)
# [ 1  7 -5]

# Os produtos matriz-vetor também descrevem o cálculo principal envolvido no cálculo das saídas de cada camada em uma rede neural,
# dadas as saídas da camada anterior.

# Produto vetorial utilizando tensores:
A.shape  # torch.Size([2, 3])    # 2 linhas e 3 colunas
x.shape  # torch.Size([3])       # 1 linha e 3 colunas (ao invés de 3x1 como na matemática) - aqui deve coincidir a quantidade de colunas
torch.mv(A, x)   # produto matriz(m) x vetor(v): mv  # tensor([ 5., 14.])
A@x   # tensor([ 5., 14.])
# A regra difere da matemática na maneira de ordenar a matriz e o vetor:
# If input is a (nxm) tensor, vector is a 1-D tensor of size m, out will be 1-=D of size n.
# No exemplo: Matriz A (2x3) e vetor x com m=3 elementos. Out será n=2.

[ 1  7 -5]


tensor([ 5., 14.])

In [12]:
# -------------------------------------------------------------------------------
# 2.3.10. Matrix–Matrix Multiplication

# Neste caso segue a regra convencional da matemática:
# [A](2x3) x [B](3x4) = [C](2x4)
# A já foi definido com 2 linhas e 3 colunas.
B = torch.ones(3, 4) # matriz de 1s com 3 linhas e 4 colunas
torch.mm(A, B) # produto entre matrizes.
A@B # produto entre matrizes.

tensor([[ 3.,  3.,  3.,  3.],
        [12., 12., 12., 12.]])

# 2.3.11. Norms (Norma ou Módulo)

In [13]:
u = torch.tensor([3.0, -4.0])
torch.norm(u)
# tensor(5.)


# The Frobenius norm behaves as if it were an l2 norm of a matrix-shaped vector.
# Invoking the following function will calculate the Frobenius norm of a matrix.

torch.norm(torch.ones((4, 9))) # matriz unitária de 4 linhas e 9 colunas, portanto, 36 elementos.
# Somando todos os 1s temos 36, raiz quadrada de 36 é 6, a norma Frobenius da matriz.


# -------------------------------------------------------------------------------

tensor(6.)

In [14]:
import torch
a = torch.tensor([[1,2,3,4,5]])
a
b = torch.tensor([1,2,3,4,5])
b
a==b
# Apesar de terem os mesmo elementos e serem vetores com 5 colunas, certas operações não é possível fazer com b,
# como por exemplo a transposta.

tensor([[True, True, True, True, True]])

# EXERCÍCIOS

import torch

In [15]:
# Exercício 1
import torch
A = torch.arange(6).reshape(3, 2)
B = A.T
C = B.T
C==A

tensor([[True, True],
        [True, True],
        [True, True]])

In [16]:
# Exercício 2
A = torch.arange(6).reshape(3, 2)
B = torch.tensor([[1, 4], [5, 6], [2, 7]])
C = A + B
D = C.T
E = A.T + B.T
D==E

tensor([[True, True, True],
        [True, True, True]])

In [17]:
# Exercício 3
# Conhecemos como matriz simétrica aquela cuja matriz transposta é igual a ela mesma.
B = torch.tensor([[1, 4, 1], [5, 6, 8], [2, 7, 3]])
R=B+B.T
RT = R.T
R == RT

tensor([[True, True, True],
        [True, True, True],
        [True, True, True]])

In [18]:
#Exercício 4
X = torch.arange(24).reshape(2, 3, 4)
len(X)

2

In [20]:
#Exercício 5
a = torch.tensor([[1],[2],[3]])
a
# Out[38]:
# tensor([[1],
#         [2],
#         [3]])
len(a)
# Out[39]: 3
# Corresponde sempre a primeira dimensão (1-D) ou axis=0.

3

In [22]:
#Exercício 6
A.sum(axis=1) # Somatório das linhas
A / A.sum(axis=1) # Erro
# Gera erro, pois está dividindo uma matriz 2x3 por um vetor 1x3

RuntimeError: The size of tensor a (2) must match the size of tensor b (3) at non-singleton dimension 1

In [23]:
#Exercício 7
# Não podemos percorrer na diagonal, o que seria a norma ou módulo entre os pontos.

In [24]:
#Exercício 8
X = torch.arange(24).reshape(2, 3, 4)
X.sum(axis = 0).shape # axis=0: somatório de ELEMENTO (escalar) a ELEMENTO equivalente # torch.Size([3, 4])
X.sum(axis = 1).shape # axis=1: somatório dos elementos de cada COLUNA (eixo x)        # torch.Size([2, 4])
X.sum(axis = 2).shape # axis=2: somatório dos elementos de cada LINHA (eixo y)         # torch.Size([2, 3])

torch.Size([2, 3])

In [25]:
#Exercício 9
Y = torch.arange(24).reshape(2, 3, 4)
Y1 = Y.float()
X = torch.linalg.norm(Y1)
print(X)
# Out[91]: tensor(65.7571)

Y = torch.arange(24).reshape(2, 3, 4)
Y1 = Y.float()
sum = 0
for i in Y1.flatten():
    sum = sum + i**2
print(sum.sqrt())
# Portanto, soma o quadrado de todos os elementos dentro do tensor e obtém a raiz quadrada.

tensor(65.7571)
tensor(65.7571)


In [None]:
# #Exercício 10
# Acredito que (AB)C gera custa computacional muito maior do que A(BC), pois o primeiro produto é da ordem de 2^47 enquanto o segundo
# produto é da ordem de 2^40 --> ERRADO. De acordo com a simulação realizada A(BC) gasta mais memória para ser realizada.
# A = torch.randn( (2 ** 10, 2 ** 16) )
# B = torch.randn( (2 ** 16, 2 ** 5) )
# C = torch.randn( (2 ** 5, 2 ** 14) )

# # (AB)C: 175 ms ± 1.54 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
# %%timeit          # exclusivo do jupyter notebook
# p1 = A @ B
# p1@C

# # A(BC): DefaultCPUAllocator: not enough memory
# %%timeit         # exclusivo do jupyter notebook
# p1 = B @ C
# A@p1

# -------------------------------
# OPÇÃO 2:
import torch
import time

A = torch.randn([2**10,2**16])
B = torch.randn([2**16,2**5])
C = torch.randn([2**5,2**14])
start = time.time()
p1 = A @ B
p1@C
end = time.time()
delay0 = end-start
# RESULTADO: delay0 = 0.07573723793029785

start = time.time()
p1 = B @ C
A@p1
end = time.time()
delay1 = end-start
# RESULTADO: DefaultCPUAllocator: not enough memory: you tried to allocate 17179869184 bytes
# -------------------------------

In [3]:
# #Exercício 11
import torch
import time
A = torch.randn( (2 ** 10, 2 ** 16) )
B = torch.randn( (2 ** 16, 2 ** 5) )
C = torch.randn( (2 ** 5, 2 ** 16) )
# Levando em consideração que a operação para a obtenção da matriz transposta já foi realizada anteriormente,
# acredito que ambas possuem o mesmo custo computacional pois geram matrizes da ordem de 2^47.

start = time.time()
p1 = A @ B
end = time.time()
delay1 = end-start  # 0.08734321594238281

D = C.T  # Desconsiderando o tempo que gasta para a operação de transposição.

start = time.time()
p1 = A @ D
end = time.time()
delay2 = end-start  # 0.05059695243835449
# RESPOSTA: O tempo gasto é praticamente o mesmo, caso desconsideramos o tempo gasto para a operação de transposição.

In [1]:
# #Exercício 12
import torch
import time
A = torch.randn( [100, 200] )
B = torch.randn( [100, 200] )
C = torch.randn( [100, 200] )
D = torch.stack([A,B,C]) # Empilhando os 3 tensores
D.shape       # Out[27]: torch.Size([3, 100, 200])
D[1] == B

tensor([[True, True, True,  ..., True, True, True],
        [True, True, True,  ..., True, True, True],
        [True, True, True,  ..., True, True, True],
        ...,
        [True, True, True,  ..., True, True, True],
        [True, True, True,  ..., True, True, True],
        [True, True, True,  ..., True, True, True]])