# Fundamentos de Álgebra Linear com PyTorch

Este notebook serve como uma introdução aos conceitos fundamentais da Álgebra Linear, a matemática dos dados. A compreensão profunda destes conceitos é um pré-requisito para o estudo avançado de qualquer campo da Inteligência Artificial.

## 1. Escalares, Vetores, Matrizes e Tensores

A Álgebra Linear lida fundamentalmente com vetores. No entanto, é útil começar com as estruturas que os englobam.

-   **Escalar**: Um único número, como $x \in \mathbb{R}$.
-   **Vetor**: Um array de números ordenados. Um vetor $v \in \mathbb{R}^n$ possui $n$ componentes, $v = [v_1, v_2, ..., v_n]$. Geralmente, nos referimos a ele como um vetor coluna:
$$ v = \begin{bmatrix} v_1 \\ v_2 \\ \vdots \\ v_n \end{bmatrix} $$
-   **Matriz**: Um array bidimensional de números. Uma matriz $A \in \mathbb{R}^{m \times n}$ tem $m$ linhas e $n$ colunas.
$$ A = \begin{bmatrix}
A_{1,1} & A_{1,2} & \cdots & A_{1,n} \\
A_{2,1} & A_{2,2} & \cdots & A_{2,n} \\
\vdots & \vdots & \ddots & \vdots \\
A_{m,1} & A_{m,2} & \cdots & A_{m,n}
\end{bmatrix} $$
-   **Tensor**: É uma generalização de um escalar (tensor de ordem 0), um vetor (tensor de ordem 1) e uma matriz (tensor de ordem 2) para um número arbitrário de dimensões (ordem $d$).

In [None]:
import torch

# Verificando a versão do PyTorch
print(f"Versão do PyTorch: {torch.__version__}")

In [None]:
# Escalar (Tensor de ordem 0)
escalar = torch.tensor(3.14)
print("Escalar:")
print(escalar)
print("Ordem (ndim):", escalar.ndim)
print("Shape:", escalar.shape)

In [None]:
# Vetor (Tensor de ordem 1)
vetor = torch.tensor([1, 2, 3])
print("Vetor:")
print(vetor)
print("Ordem (ndim):", vetor.ndim)
print("Shape:", vetor.shape)

In [None]:
# Matriz (Tensor de ordem 2)
matriz = torch.tensor([[1, 2], [3, 4], [5, 6]])
print("Matriz:")
print(matriz)
print("Ordem (ndim):", matriz.ndim)
print("Shape:", matriz.shape) # 3 linhas, 2 colunas

## 2. Criação e Manipulação de Tensores em PyTorch

Embora possamos criar tensores a partir de listas Python, PyTorch oferece funções otimizadas para criar tensores comumente utilizados e para manipular seu formato.

### Funções de Criação
- `torch.ones(shape)`: Cria um tensor preenchido com o valor 1.
- `torch.zeros(shape)`: Cria um tensor preenchido com o valor 0.
- `torch.rand(shape)`: Cria um tensor com valores aleatórios de uma distribuição uniforme em $[0, 1)$.
- `torch.randn(shape)`: Cria um tensor com valores aleatórios de uma distribuição normal padrão (média 0, variância 1).
- `torch.arange(start, end, step)`: Cria um tensor com valores em um intervalo.
- `torch.linspace(start, end, steps)`: Cria um tensor com um número específico de valores (`steps`) espaçados linearmente entre `start` e `end`.

### Manipulação de Formato
- `.shape`: Atributo que retorna a dimensionalidade do tensor.
- `.reshape(new_shape)` / `.view(new_shape)`: Remodelam o tensor para um novo formato. `view` é mais rápido, mas só funciona em tensores contíguos na memória. `reshape` é mais flexível.
- `.flatten()`: Transforma um tensor multidimensional em um tensor 1D (um vetor).

In [None]:
x = torch.zeros(2, 3)
print("Tensor de Zeros (2, 3):\n", x)

In [None]:
x = torch.ones(3, 2)
print("Tensor de Uns (3, 2):\n", x)

In [None]:
x = torch.arange(0, 5)
print("Tensor com arange(0, 5):\n", x)

In [None]:
x = torch.linspace(0, 1, 5)
print("Tensor com linspace(0, 1, 5 passos):\n", x)

In [None]:
x = torch.rand(2, 2)
print("Tensor Rand (dist. uniforme):\n", x)

In [None]:
x = torch.randn(2, 2)
print("Tensor Randn (dist. normal):\n", x)

In [None]:
# Manipulação de formato
x = torch.arange(12)
print("--- Manipulação de Formato ---")
print("\nTensor original (x):\n", x)
print("Shape de x:", x.shape)

In [None]:
# Reshape
x_reshaped = x.reshape(3, 4)
print("x com reshape(3, 4):\n", x_reshaped)
print("Shape de x_reshaped:", x_reshaped.shape)

In [None]:
# Flatten
x_flattened = x_reshaped.flatten()
print("x_reshaped achatado (flatten):\n", x_flattened)
print("Shape de x_flattened:", x_flattened.shape)

### Exercícios: Criação e Manipulação de Tensores

1.  **Tensor Aleatório**: Crie um tensor de formato `(5, 5)` com números aleatórios provenientes de uma distribuição normal padrão.
2.  **Sequência Linear**: Crie um vetor (tensor 1D) que comece em -10, termine em 10 e contenha exatamente 50 pontos.
3.  **Remodelagem**: Crie um vetor com 100 elementos usando `torch.arange`. Em seguida, remodele-o para que tenha o formato `(10, 10)`.
4.  **Achatamento para Redes Neurais**: Crie um tensor que simule um lote (batch) de 4 imagens em escala de cinza de tamanho 28x28 (formato `(4, 28, 28)`). Em seguida, "achate" cada imagem para que o tensor final tenha o formato `(4, 784)`, que é um formato comum para a entrada de uma camada densa (fully-connected).

## 3. Indexação e Fatiamento

Acessar e modificar subconjuntos de um tensor é uma operação rotineira. A sintaxe em PyTorch é similar à do NumPy, utilizando colchetes `[]` e o operador de fatiamento `:` (dois pontos). A indexação começa em zero.

-   Acessar um elemento: `T[i, j]` para o elemento na linha `i` e coluna `j`.
-   Acessar uma linha: `T[i, :]` para a linha `i` inteira.
-   Acessar uma coluna: `T[:, j]` para a coluna `j` inteira.
-   Acessar um subconjunto: `T[start_row:end_row, start_col:end_col]`.

In [None]:
# Criando um tensor 2D para os exemplos
T = torch.arange(20).reshape(5, 4)

print("Tensor original (5x4):\n", T)

In [None]:
# Acessando a linha de índice 1
T_linha_1 = T[1, :]
print("Linha de índice 1 (T[1, :]):\n", T_linha_1)

In [None]:
# Acessando a coluna de índice 2
T_coluna_2 = T[:, 2]
print("Coluna de índice 2 (T[:, 2]):\n", T_coluna_2)

In [None]:
# Acessando o elemento na linha 3, coluna 1
T_el = T[3, 1]
print("Elemento em (3, 1):", T_el.item())

In [None]:
# Fatiando para obter um sub-bloco (linhas 1 e 2, colunas 0 e 1)
sub_bloco = T[1:3, 0:2]
print("Sub-bloco T[1:3, 0:2]:\n", sub_bloco)

### Exercícios: Indexação e Fatiamento

Use o tensor abaixo para resolver os exercícios:
`T = torch.arange(25).reshape(5, 5)`

1.  **Seleção Simples**: Selecione e imprima o número `13` do tensor `T`.
2.  **Linha Inteira**: Selecione e imprima a terceira linha inteira (a que contém os elementos 10, 11, 12, 13, 14).
3.  **Sub-bloco Central**: Selecione e imprima o sub-bloco 3x3 que fica no centro da matriz `T`. O resultado deve ser:
    ```
    tensor([[ 6,  7,  8],
            [11, 12, 13],
            [16, 17, 18]])
    ```
4.  **Padrão Xadrez (Desafio)**: Selecione todos os elementos nas "casas pares" da matriz (e.g., T[0,0], T[0,2], T[0,4], T[2,0], etc.).
5.  **Modificação por Fatiamento**: Usando fatiamento, substitua o sub-bloco central 3x3 (o mesmo do exercício 3) por uma matriz de zeros do mesmo tamanho. Imprima o tensor `T` modificado.

## 4. Redução de Tensores

Operações de redução agregam todos os valores de um tensor (ou de uma de suas dimensões) em um único valor, como soma, média, produto, etc.

- `torch.sum()`: Soma dos elementos.
- `torch.mean()`: Média dos elementos.
- `torch.prod()`: Produto dos elementos.
- `torch.max()` / `torch.min()`: Valores máximo e mínimo.

O argumento `dim` especifica a dimensão ao longo da qual a operação é aplicada.
- `dim=0`: Reduz ao longo das linhas (resultando em um valor por coluna).
- `dim=1`: Reduz ao longo das colunas (resultando em um valor por linha).

In [None]:
T = torch.arange(1, 7, dtype=torch.float32).reshape(2, 3)
print("Tensor original:\n", T)

# Redução total
print("\nSoma total (sum):", T.sum().item())
print("Média total (mean):", T.mean().item())

# Redução por dimensão
soma_colunas = T.sum(dim=0)
print("\nSoma ao longo das linhas (dim=0):", soma_colunas)

soma_linhas = T.sum(dim=1)
print("Soma ao longo das colunas (dim=1):", soma_linhas)

max_vals, max_indices = T.max(dim=1)
print("\nValores máximos por linha (dim=1):", max_vals)

### Exercícios: Redução de Tensores

Crie um tensor aleatório de formato `(4, 6)` para os exercícios a seguir.
`dados = torch.rand(4, 6)`

1.  **Média Geral**: Calcule a média de todos os elementos no tensor `dados`.
2.  **Soma por Coluna**: Calcule a soma de cada coluna. O resultado deve ser um vetor com 6 elementos.
3.  **Valor Mínimo por Linha**: Encontre o valor mínimo de cada linha. O resultado deve ser um vetor com 4 elementos.
4.  **Desvio Padrão**: Calcule o desvio padrão de cada coluna do tensor. (Dica: use `torch.std`).

## 5. Operações com Vetores

As operações mais básicas em Álgebra Linear são a adição de vetores e a multiplicação por escalar.

### Adição de Vetores
A soma de dois vetores $u, v \in \mathbb{R}^n$ é realizada elemento a elemento:
$$ w = u + v \quad \text{onde} \quad w_i = u_i + v_i $$

### Multiplicação por Escalar
A multiplicação de um vetor $v \in \mathbb{R}^n$ por um escalar $c \in \mathbb{R}$ resulta em um novo vetor onde cada elemento é multiplicado por $c$:
$$ w = c v \quad \text{onde} \quad w_i = c \cdot v_i $$
Geometricamente, isso "escala" (estica ou encolhe) o vetor $v$.

In [None]:
# Adição de Vetores
u = torch.tensor([1, 2, 3])
v = torch.tensor([10, 20, 30])
soma_vetores = u + v
print("Adição de Vetores (u + v):")
print(soma_vetores)

In [None]:
# Multiplicação por Escalar
c = 2
w = c * u
print(f"Multiplicação por Escalar ({c} * u):")
print(w)

### Exercícios: Operações com Vetores

Considere os vetores  
$u = \begin{bmatrix}1 \\ 2\end{bmatrix}, \quad v = \begin{bmatrix}3 \\ -1\end{bmatrix}$  

1. **Adição e Subtração**: Calcule $u + v$ e $u - v$

2. **Multiplicação por Escalar**: Calcule $3u$

3. **Combinação Linear**: Calcule o vetor $w = 2u + 0.5v$ 

4. **Interpretação Geométrica (Teórico)**: Sem calcular, apenas descreva geometricamente, qual seria a relação entre o vetor $u$ e o vetor $z = -u$

## 6. Norma de um Vetor

A norma de um vetor é uma medida do seu "comprimento" ou "magnitude". A norma mais comum é a norma Euclidiana, ou norma $\ell_2$. Para um vetor $v \in \mathbb{R}^n$, a norma $\ell_2$, denotada por $||v||_2$, é calculada como:

$$ ||v||_2 = \sqrt{\sum_{i=1}^{n} v_i^2} = \sqrt{v_1^2 + v_2^2 + \cdots + v_n^2} $$

A norma de um vetor é sempre um valor não-negativo.

In [None]:
v = torch.tensor([3.0, 4.0])

# Calculando a norma l2
# sqrt(3^2 + 4^2) = sqrt(9 + 16) = sqrt(25) = 5
norma_v = torch.linalg.norm(v)

print("Vetor v:", v)
print("Norma l2 de v:", norma_v.item())

In [None]:
# Vetor unitário: um vetor com norma igual a 1
# Para obter um vetor unitário, dividimos o vetor pela sua norma
v_unitario = v / norma_v
print("Vetor unitário de v:", v_unitario)
print("Norma do vetor unitário:", torch.linalg.norm(v_unitario).item())

### Exercícios: Norma de um Vetor

1. **Cálculo de Norma $\ell_2$**: Calcule a norma Euclidiana ($\ell_2$) do vetor $v = \begin{bmatrix}5 \\ 12\end{bmatrix}$. O resultado deve ser um número inteiro.  

2. **Cálculo de Norma $\ell_1$**: A norma $\ell_1$ (ou norma de Manhattan) é a soma dos valores absolutos dos componentes do vetor:  
   $||v||_1 = \sum_{i=1}^{n} |v_i|$  
   Calcule a norma $\ell_1$ do mesmo vetor $v$ do exercício 1.  

3. **Vetor Unitário (Versor)**: Crie um vetor unitário (um vetor com norma $\ell_2$ igual a 1) a partir do vetor $w = \begin{bmatrix}1 \\ 2 \\ 3\end{bmatrix}$. Para isso, divida o vetor $w$ pela sua norma.  

4. **Verificação**: Verifique que o vetor que você criou no exercício 3 realmente tem norma igual a 1. (Pode haver um erro mínimo de ponto flutuante, e.g., 0.999999).  

## 7. Produto Interno e Ângulo entre Vetores

O produto interno (ou produto escalar, *dot product*) de dois vetores $u, v \in \mathbb{R}^n$ é a soma dos produtos dos elementos correspondentes:

$$ u^T v = u \cdot v = \sum_{i=1}^{n} u_i v_i $$

Ele possui uma propriedade geométrica fundamental que o relaciona ao ângulo $\theta$ entre os vetores:

$$ u \cdot v = ||u||_2 \ ||v||_2 \ \cos(\theta) $$

Podemos usar esta relação para encontrar o ângulo entre os vetores. Rearranjando a equação, temos:

$$ \cos(\theta) = \frac{u \cdot v}{||u||_2 \ ||v||_2} $$

E, finalmente, o ângulo $\theta$ é obtido pela função arco cosseno:

$$ \theta = \arccos\left(\frac{u \cdot v}{||u||_2 \ ||v||_2}\right) $$

Um produto interno de zero indica que os vetores são ortogonais ($\theta=90^\circ$).

In [None]:
u = torch.tensor([1, 2, 3])
v = torch.tensor([4, 5, 6])

# Calculando o produto interno
# 1*4 + 2*5 + 3*6 = 4 + 10 + 18 = 32
produto_interno = torch.dot(u, v)

print("Vetor u:", u)
print("Vetor v:", v)
print("Produto Interno (u . v):", produto_interno.item())

In [None]:
u = torch.tensor([1., 2.])
v = torch.tensor([3., 1.])

# 1. Calcular o produto interno
produto_interno = torch.dot(u, v)

# 2. Calcular a norma de cada vetor
norma_u = torch.linalg.norm(u)
norma_v = torch.linalg.norm(v)

# 3. Calcular o cosseno do ângulo
cos_theta = produto_interno / (norma_u * norma_v)

# 4. Calcular o ângulo em radianos usando arccos
theta_rad = torch.acos(cos_theta)

# Converter para graus
theta_deg = theta_rad * 180.0 / torch.pi

print(f"Cosseno do ângulo: {cos_theta.item():.2f}")
print(f"Ângulo em radianos: {theta_rad.item():.2f}")
print(f"Ângulo em graus: {theta_deg:.2f}°")

In [None]:
# Exemplo de vetores ortogonais
u_ort = torch.tensor([1., 0.])
v_ort = torch.tensor([0., 1.])
print("Produto Interno de vetores ortogonais:", torch.dot(u_ort, v_ort).item())

### Exercícios: Produto Interno e Ângulo

1. **Ortogonalidade**: Considere os vetores $u = \begin{bmatrix}2 \\ -1 \\ 1\end{bmatrix}$ e $v = \begin{bmatrix}1 \\ 2 \\ 0\end{bmatrix}$. Calcule o produto interno entre eles. Eles são ortogonais? Justifique.  

2. **Projeção**: O produto interno pode ser usado para calcular a projeção de um vetor sobre o outro. A projeção escalar de $u$ sobre $v$ é dada por  
   $\dfrac{u \cdot v}{||v||_2}$  
   Calcule essa projeção para os vetores do exercício anterior.  

3. **Ângulo Geométrico**: Crie dois vetores 2D quaisquer e calcule o ângulo (em graus) entre eles. Lembre que o ângulo pode ser obtido por  
   $\theta = \cos^{-1}\left(\dfrac{u \cdot v}{||u||_2 \, ||v||_2}\right)$.  
   Teste com vetores em que você já saiba o ângulo (ex: $[1,0]$ e $[0,1]$ devem dar $90^\circ$, $[1,0]$ e $[1,1]$ devem dar $45^\circ$).  

## 8. Multiplicação de Matriz por Vetor

A multiplicação de uma matriz $A \in \mathbb{R}^{m \times n}$ por um vetor $v \in \mathbb{R}^n$ resulta em um novo vetor $b \in \mathbb{R}^m$. Essa operação representa uma **transformação linear**.

Pense na matriz $A$ como uma função que "transforma" o vetor $v$, que vive no espaço $\mathbb{R}^n$ (o espaço de entrada), e o mapeia para um novo vetor $b=Av$, que vive no espaço $\mathbb{R}^m$ (o espaço de saída). Essa transformação pode rotacionar, escalar ou cisalhar (shear) o vetor original.

O mecanismo desta transformação é que o vetor resultante $b$ é uma **combinação linear das colunas da matriz $A$**, onde os pesos dessa combinação são exatamente os **elementos do vetor $v$**:

$$ b = A v = v_1 \begin{bmatrix} A_{1,1} \\ \vdots \\ A_{m,1} \end{bmatrix} + v_2 \begin{bmatrix} A_{1,2} \\ \vdots \\ A_{m,2} \end{bmatrix} + \cdots + v_n \begin{bmatrix} A_{1,n} \\ \vdots \\ A_{m,n} \end{bmatrix} $$

In [None]:
# Matriz de transformação A (leva de R^2 para R^3)
A = torch.tensor([[1, 0],
                  [0, 1],
                  [1, 1]], dtype=torch.float32)

# Vetor original no espaço R^2
v = torch.tensor([2., 3.])

# Aplicar a transformação: A @ v
# O resultado será um novo vetor no espaço R^3
b = A @ v

print("Matriz de Transformação A (leva de R^2 para R^3):\n", A)
print("\nVetor original v (em R^2):\n", v)
print("\nVetor transformado b = A@v (em R^3):\n", b)

In [None]:
# Verificando a intuição da combinação linear:
# b = 2 * A[:,0] + 3 * A[:,1]
b_combinacao_linear = v[0] * A[:, 0] + v[1] * A[:, 1]
print("Resultado via combinação linear das colunas:\n", b_combinacao_linear)

### Exercícios: Multiplicação de Matriz por Vetor

1. **Transformação Simples**: Dada a matriz $A = \begin{bmatrix}2 & 0 \\ 0 & 1\end{bmatrix}$ e o vetor $v = \begin{bmatrix}3 \\ 5\end{bmatrix}$, calcule o produto $b = A v$. Como a matriz $A$ transformou o vetor $v$? (Observe o que aconteceu com cada componente de $v$).  

2. **Rotação**: Uma matriz de rotação em 2D que gira um vetor em $\theta$ graus no sentido anti-horário é dada por $R = \begin{bmatrix}\cos(\theta) & -\sin(\theta) \\ \sin(\theta) & \cos(\theta)\end{bmatrix}$. Crie essa matriz $R$ para uma rotação de $90^\circ$. Em seguida, aplique essa transformação ao vetor $v = \begin{bmatrix}2 \\ 0\end{bmatrix}$. Qual é o vetor resultante? O resultado faz sentido geometricamente?  

In [None]:
# Para plotar as setas:

# import matplotlib.pyplot as plt

# ax = plt.gca()
# ax.arrow(0, 0, v[0], v[1], head_width=0.05, color='blue', length_includes_head=True, label="v original")
# ax.arrow(0, 0, w[0], w[1], head_width=0.05, color='green', length_includes_head=True, label="A*v")
# plt.xlim(-.1, 1)
# plt.ylim(-.1, 1)
# plt.grid()
# plt.legend()
# plt.show()

## 9. Multiplicação de Matrizes: Composição de Transformações

Seguindo a mesma lógica, a multiplicação de duas matrizes, $C = AB$, representa a **composição de duas transformações lineares**.

Se uma matriz $B \in \mathbb{R}^{n \times p}$ transforma um vetor do espaço $\mathbb{R}^p$ para $\mathbb{R}^n$, e uma matriz $A \in \mathbb{R}^{m \times n}$ transforma um vetor de $\mathbb{R}^n$ para $\mathbb{R}^m$, então a matriz produto $C \in \mathbb{R}^{m \times p}$ representa a transformação única que leva diretamente do espaço $\mathbb{R}^p$ para $\mathbb{R}^m$.

Em outras palavras, aplicar a transformação $C$ a um vetor $v$ é o mesmo que aplicar primeiro a transformação $B$ e depois aplicar a transformação $A$ ao resultado:

$$ C v = (A B) v = A (B v) $$

Cada elemento $C_{ij}$ da matriz resultante é o produto interno da $i$-ésima linha da matriz $A$ com a $j$-ésima coluna da matriz $B$.

$$ C_{ij} = \sum_{k=1}^{n} A_{ik} B_{kj} $$

In [None]:
A = torch.tensor([[1, 2], [3, 4]]) # Matriz 2x2
B = torch.tensor([[10, 20], [30, 40]]) # Matriz 2x2

# Usando torch.matmul ou o operador @
C = torch.matmul(A, B)
# C = A @ B

print("Matriz A:\n", A)
print("\nMatriz B:\n", B)
print("\nResultado da multiplicação A @ B:\n", C)

# Verificando a não-comutatividade
print("\nResultado da multiplicação B @ A:\n", B @ A)

### Exercícios: Multiplicação de Matrizes

1.  **Compatibilidade**: Dadas as matrizes `A = torch.randn(4, 2)` e `B = torch.randn(2, 5)`, calcule o produto `C = A @ B`. Qual é o formato da matriz resultante? O produto `B @ A` é possível de ser calculado?
2.  **Não Comutatividade**: Crie duas matrizes quadradas `X` e `Y` de formato `(3, 3)` com números aleatórios. Mostre que `X @ Y` não é igual a `Y @ X`.
3.  **Matriz Identidade**: A matriz identidade `I` é o elemento neutro da multiplicação de matrizes ($AI = IA = A$). Crie uma matriz aleatória `A` de formato `(3, 3)` e uma matriz identidade `I` de mesmo formato (Dica: `torch.eye(3)`). Verifique que `A @ I` resulta na própria matriz `A`.

## 10. Distância entre Vetores

A distância entre dois pontos (representados por vetores) no espaço Euclidiano é o comprimento do vetor que conecta esses dois pontos. A distância Euclidiana entre dois vetores $u, v \in \mathbb{R}^n$ é definida como a norma do vetor diferença $u-v$:

$$ \text{dist}(u, v) = ||u - v||_2 = \sqrt{\sum_{i=1}^{n} (u_i - v_i)^2} $$

Este conceito é a base para muitos algoritmos de Machine Learning, como o k-Nearest Neighbors (k-NN).

In [None]:
u = torch.tensor([1., 5.])
v = torch.tensor([4., 1.])

# Calculando o vetor diferença
diferenca = u - v

# Calculando a norma do vetor diferença
distancia = torch.linalg.norm(diferenca)
# sqrt((1-4)^2 + (5-1)^2) = sqrt((-3)^2 + 4^2) = sqrt(9 + 16) = sqrt(25) = 5

print("Vetor u:", u)
print("Vetor v:", v)
print("Distância Euclidiana entre u e v:", distancia.item())

In [None]:
# PyTorch também tem uma função de conveniência para isso
distancia_pdist = torch.cdist(u.unsqueeze(0), v.unsqueeze(0))
print("Distância calculada com torch.cdist:", distancia_pdist.item())

### Exercícios: Distância entre Vetores

1.  **Distância Euclidiana**: Calcule a distância Euclidiana entre os pontos (vetores) `p1 = torch.tensor([2., 3.])` e `p2 = torch.tensor([5., 7.])`.
2.  **Ponto mais Próximo**: Dados três pontos, `A = torch.tensor([0., 0.])`, `B = torch.tensor([10., 0.])` e `C = torch.tensor([4., 5.])`, qual dos pontos (A ou B) está mais próximo do ponto C?
3.  **Impacto da Escala**: Calcule a distância entre `u = torch.tensor([1000., 1.])` e `v = torch.tensor([1001., 2.])`. Observe como a grande diferença na primeira dimensão domina completamente a distância total. Este é um dos motivos pelos quais a normalização de dados (vista nos exercícios de broadcasting) é tão importante em muitos algoritmos de IA.

## 11. Broadcasting: Operações Inteligentes entre Tensores

Em muitas situações, desejamos realizar operações entre tensores que não possuem exatamente o mesmo formato. O caso mais simples é operar um escalar com um tensor (e.g., somar o número 5 a todos os elementos de uma matriz). Uma abordagem mais complexa seria somar um vetor a cada linha de uma matriz.

Broadcasting é um mecanismo poderoso e eficiente que realiza essas operações sem a necessidade de criar cópias dos dados na memória. Ele define um conjunto de regras para tratar tensores de formatos diferentes. A operação é possível se, ao comparar os formatos dos tensores da direita para a esquerda (a partir da última dimensão), uma das duas condições for verdadeira para cada par de dimensões:

1.  As dimensões são iguais.
2.  Uma das dimensões é 1 (um escalar é tratado como se tivesse dimensões de tamanho 1).

Se essas condições forem satisfeitas, o tensor com a dimensão menor é virtualmente "esticado" (broadcasted) para corresponder ao tamanho da dimensão do outro tensor.

**Exemplo:** Somar um vetor de formato `(3,)` a uma matriz de formato `(2, 3)`.

1.  Alinhamos os formatos pela direita:
    - Matriz: `2, 3`
    - Vetor: `   3`
2.  Comparando a última dimensão: `3` e `3`. Elas são iguais. (OK)
3.  Comparando a penúltima dimensão: `2` e (não existe). O PyTorch adiciona uma dimensão de tamanho 1 ao vetor:
    - Matriz: `2, 3`
    - Vetor:  `1, 3`
4.  Agora, comparamos a primeira dimensão: `2` e `1`. Como uma delas é `1`, a condição é satisfeita. (OK)

O vetor de formato `(1, 3)` é então "esticado" para o formato `(2, 3)` e a soma é realizada.

In [None]:
# Exemplo 0: Somando um escalar a um tensor (caso mais simples)
matriz_base = torch.arange(6).reshape(2, 3)
escalar = 100

# Formatos:
# Matriz:   (2, 3)
# Escalar:  () -> é "esticado" para o formato (2, 3)
resultado_escalar = matriz_base + escalar

print("--- Broadcasting de Escalar ---")
print("Matriz (2, 3):\n", matriz_base)
print("\nEscalar:", escalar)
print("\nResultado (Matriz + Escalar):\n", resultado_escalar)

In [None]:
# Exemplo 1: Somando um vetor-linha a uma matriz
matriz = torch.ones((3, 4)) # Matriz 3x4
vetor_linha = torch.arange(4, dtype=torch.float32) # Vetor 1x4

# Formatos:
# Matriz:      (3, 4)
# Vetor-linha:    (4,) -> alinhado como (1, 4)
# O vetor é "esticado" para o formato (3, 4) e somado a cada linha
resultado = matriz + vetor_linha

print("--- Broadcasting de Vetor-Linha ---")
print("Matriz (3, 4):\n", matriz)
print("\nVetor-linha (4,):\n", vetor_linha)
print("\nResultado (Matriz + Vetor-linha):\n", resultado)

In [None]:
# Exemplo 2: Somando um vetor-coluna a uma matriz
vetor_coluna = torch.arange(3, dtype=torch.float32).reshape(3, 1) # Vetor 3x1

# Formatos:
# Matriz:       (3, 4)
# Vetor-coluna: (3, 1)
# O vetor-coluna é "esticado" nas colunas para o formato (3, 4)
resultado_col = matriz + vetor_coluna

print("--- Broadcasting de Vetor-Coluna ---")
print("Matriz (3, 4):\n", matriz)
print("\nVetor-coluna (3, 1):\n", vetor_coluna)
print("\nResultado (Matriz + Vetor-coluna):\n", resultado_col)

### Exercícios: Broadcasting

1.  **Normalização Z-score (Standard Scaler)**: Um passo comum em pré-processamento de dados é subtrair a média e dividir pelo desvio padrão de cada característica (coluna).
    - Crie uma matriz de dados "falsos" de formato `(10, 3)`.
    - Calcule a média de cada coluna (o resultado será um vetor de formato `(3,)`).
    - Calcule o desvio padrão de cada coluna (resultado também será `(3,)`).
    - Usando broadcasting, subtraia o vetor de médias da matriz de dados.
    - Usando broadcasting novamente, divida o resultado pelo vetor de desvios padrão.
    O resultado é a sua matriz normalizada.
2.  **Compatibilidade (Teórico)**: Sem usar código, diga se as operações de broadcasting a seguir são válidas. Se sim, qual o formato do tensor resultante?
    - Tensor A `(5, 3)` + Tensor B `(1, 3)`
    - Tensor A `(5, 3)` + Tensor B `(5, 1)`
    - Tensor A `(5, 3)` + Tensor B `(3,)`
    - Tensor A `(4, 1, 3)` + Tensor B `(4, 5, 3)`