# Operaciones Básicas de Álgebra Lineal en Deep Learning

**Instructores:** 
- Ph.D Juan David Martínez Vargas
- PhD. Raúl Andrés Castañeda Quintero

**Institución:** Escuela de Ciencias Aplicadas e Ingeniería - Universidad EAFIT

---

## Contenido

1. Tensores en el aprendizaje profundo
2. Tensores y PyTorch
3. Vectores, matrices y broadcasting
4. Convenciones de notación para redes neuronales
5. Una capa totalmente conectada (lineal) en PyTorch

## Motivación: El Problema XOR

<!-- INSERT FIGURE: Page 2 - Neural network diagram showing MLP with one hidden layer -->

Para resolver el problema XOR necesitamos un **MLP (Multi-Layer Perceptron) con una capa oculta** y función de activación no lineal (ReLU). Este es un ejemplo clásico que muestra por qué necesitamos redes neuronales multicapa.

## 1. Conceptos Fundamentales

### 1.1 Escalares

Un **escalar** es un número real que representa una magnitud sin dirección. A diferencia de los vectores y matrices, un escalar no tiene dimensiones ni orientación.

**Notación matemática:**
$$c \in \mathbb{R}$$

**En Deep Learning, los escalares se utilizan para:**
- Ajustar pesos
- Medir errores (función de pérdida)
- Controlar el aprendizaje (learning rate)
- Representar salidas numéricas (regresión)

In [None]:
# Ejemplo de escalares en Python
learning_rate = 0.01
loss = 0.5
weight = 1.5

print(f"Learning rate: {learning_rate}")
print(f"Loss: {loss}")
print(f"Weight: {weight}")

### 1.2 Vectores

Un **vector** es un objeto matemático que representa una colección ordenada de números, los cuales pueden interpretarse como componentes de magnitud y dirección en un espacio.

**Notación matemática:**
$$\vec{b} = (b_1, b_2, b_3, ..., b_n)$$

**En Deep Learning, un vector representa información estructurada:**
- Entrada de una red neuronal
- Pesos de una neurona
- Salida de una capa
- Embeddings

In [None]:
import numpy as np

# Crear un vector
vector = np.array([1, 2, 3, 4, 5])
print(f"Vector: {vector}")
print(f"Dimensión: {vector.shape}")
print(f"Tipo: {type(vector)}")

### 1.3 Suma de Vectores

La suma de vectores es una operación que combina dos vectores de igual dimensión sumando sus componentes correspondientes.

<!-- INSERT FIGURE: Page 4 - Vector addition diagram -->

**En Deep Learning se utiliza para:**
- Añadir el sesgo (bias) en una neurona
- Combinar activaciones
- Implementar conexiones residuales

**Notación matemática:**
$$\vec{R} = \vec{a} + \vec{b}$$

**En 2D:**
$$\vec{R} = (a_x + b_x)\hat{i} + (a_y + b_y)\hat{j}$$

**Magnitud:**
$$|\vec{R}| = \sqrt{R_x^2 + R_y^2}$$

**Dirección:**
$$\theta = \tan^{-1}\left(\frac{R_y}{R_x}\right)$$

In [None]:
# Suma de vectores
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

resultado = a + b
print(f"a = {a}")
print(f"b = {b}")
print(f"a + b = {resultado}")

# Propiedades
print(f"\nPropiedades:")
print(f"Conmutativa: a + b = {a + b}, b + a = {b + a}")
print(f"¿Son iguales? {np.array_equal(a + b, b + a)}")

### 1.4 Multiplicación Escalar por Vector

La multiplicación de un escalar por un vector consiste en multiplicar cada componente del vector por un mismo número real.

**Efectos según el valor del escalar $c$:**

- Si $0 < c < 1$: la magnitud disminuye
- Si $c > 1$: la magnitud aumenta
- Si $-1 < c < 0$: la dirección cambia 180° y la magnitud disminuye
- Si $c < -1$: la dirección cambia 180° y la magnitud aumenta
- Si $c = 0$: el vector resultado es nulo

**En Deep Learning se utiliza para:**
- Ajustar la contribución de características
- Pesos y activaciones: escalan las entradas antes de combinarlas
- Learning rate: $\mathbf{w} \leftarrow \mathbf{w} - \eta\nabla L$
- Normalización y estabilidad numérica

In [None]:
# Multiplicación escalar por vector
vector = np.array([1, 2, 3])

# Diferentes escalares
escalares = [0.5, 2, -1, -2, 0]

for c in escalares:
    resultado = c * vector
    print(f"{c} * {vector} = {resultado}")

### 1.5 Producto Punto (Dot Product)

El producto punto es una operación fundamental que resulta en un escalar. Se considera la proyección de un vector sobre otro.

<!-- INSERT FIGURE: Page 6 - Dot product geometric interpretation -->

**Notación:** $\vec{a} \cdot \vec{b}$

**Dos formas de calcularlo:**

1. **Forma geométrica:**
$$\vec{a} \cdot \vec{b} = |\vec{a}||\vec{b}|\cos\theta$$

2. **Forma algebraica:**
$$\vec{x} \cdot \vec{w} = \sum_{i=1}^{n} w_i x_i = w_1x_1 + w_2x_2 + \cdots + w_nx_n$$

**Propiedades:**
- Conmutativa: $\vec{a} \cdot \vec{b} = \vec{b} \cdot \vec{a}$
- Distributiva: $\vec{a} \cdot (\vec{b} + \vec{c}) = \vec{a} \cdot \vec{b} + \vec{a} \cdot \vec{c}$
- Asociativa (escalar): $p(\vec{b} \cdot \vec{c}) = (p\vec{a}) \cdot \vec{b}$
- $\vec{a} \cdot \vec{0} = 0$
- $\vec{a} \cdot \vec{a} = |\vec{a}|^2$

**En Deep Learning:**
El producto punto se usa para combinar entradas con pesos y medir similitud entre representaciones, siendo la operación central de neuronas, atención y convoluciones.

In [None]:
# Producto punto en NumPy
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

# Método 1: usando .dot()
producto_1 = a.dot(b)
print(f"Usando .dot(): {producto_1}")

# Método 2: usando np.dot()
producto_2 = np.dot(a, b)
print(f"Usando np.dot(): {producto_2}")

# Método 3: manual
producto_3 = sum(a * b)
print(f"Manual: {producto_3}")

# Todos deberían dar el mismo resultado
print(f"\nTodos iguales: {producto_1 == producto_2 == producto_3}")

### Ejemplo: Producto Punto (Forma Geométrica vs Algebraica)

<!-- INSERT FIGURE: Page 7 - Vector diagram showing angle calculation -->

Considere los vectores:
- $\vec{a} = -5\hat{i} + 4\hat{j}$
- $\vec{b} = -3\hat{i} - 8\hat{j}$

In [None]:
# Definir vectores
a = np.array([-5, 4])
b = np.array([-3, -8])

# Método 1: Algebraico
producto_algebraico = np.dot(a, b)
print(f"Método algebraico: {producto_algebraico}")

# Método 2: Geométrico
# Calcular magnitudes
mag_a = np.linalg.norm(a)
mag_b = np.linalg.norm(b)

# Calcular ángulos
angulo_a = np.degrees(np.arctan2(a[1], a[0]))
angulo_b = np.degrees(np.arctan2(b[1], b[0]))
theta = angulo_a - angulo_b

# Producto usando forma geométrica
producto_geometrico = mag_a * mag_b * np.cos(np.radians(theta))

print(f"\nMagnitud de a: {mag_a:.2f}")
print(f"Magnitud de b: {mag_b:.2f}")
print(f"Ángulo α: {angulo_a:.2f}°")
print(f"Ángulo β: {angulo_b:.2f}°")
print(f"Ángulo θ entre vectores: {theta:.2f}°")
print(f"\nProducto geométrico: {producto_geometrico:.2f}")
print(f"\nAmbos métodos coinciden: {np.isclose(producto_algebraico, producto_geometrico)}")

## 2. Matrices

Una **matriz** es un arreglo bidimensional de números organizado en filas y columnas. Representa relaciones entre múltiples variables y permite describir transformaciones lineales y sistemas de datos estructurados.

**Notación:**
$$\mathbf{W} = \begin{bmatrix}
w_{11} & w_{12} & \cdots & w_{1n} \\
w_{21} & w_{22} & \cdots & w_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
w_{m1} & w_{m2} & \cdots & w_{mn}
\end{bmatrix}$$

**En Deep Learning, las matrices se utilizan para:**
- Representar pesos de una capa neuronal
- Modelar transformaciones lineales entre capas
- Implementar convoluciones y operaciones lineales
- Calcular atención y relaciones entre múltiples vectores

<!-- INSERT FIGURE: Page 8 - Image showing matrix representation of image pixels -->

In [None]:
# Crear matrices
matriz_2x3 = np.array([[1, 2, 3],
                       [4, 5, 6]])

print("Matriz 2x3:")
print(matriz_2x3)
print(f"Forma: {matriz_2x3.shape}")
print(f"Número de dimensiones: {matriz_2x3.ndim}")

### 2.1 Multiplicación de Matrices

<!-- INSERT FIGURE: Page 9 - Matrix multiplication step by step diagram -->

La multiplicación de matrices $\mathbf{C} = \mathbf{A} \cdot \mathbf{B}$ se realiza calculando el producto punto de cada fila de $\mathbf{A}$ con cada columna de $\mathbf{B}$.

Para una matriz 2×2:

$$\mathbf{C} = \begin{bmatrix}
A_{11} & A_{12} \\
A_{21} & A_{22}
\end{bmatrix}
\begin{bmatrix}
B_{11} & B_{12} \\
B_{21} & B_{22}
\end{bmatrix}
= \begin{bmatrix}
C_{11} & C_{12} \\
C_{21} & C_{22}
\end{bmatrix}$$

Donde:
- $C_{11} = A_{11}B_{11} + A_{12}B_{21}$
- $C_{12} = A_{11}B_{12} + A_{12}B_{22}$
- $C_{21} = A_{21}B_{11} + A_{22}B_{21}$
- $C_{22} = A_{21}B_{12} + A_{22}B_{22}$

In [None]:
# Multiplicación de matrices
A = np.array([[1, 2],
              [3, 4]])

B = np.array([[5, 6],
              [7, 8]])

# Método 1: usando @
C1 = A @ B

# Método 2: usando np.matmul
C2 = np.matmul(A, B)

# Método 3: usando .dot()
C3 = A.dot(B)

print("Matriz A:")
print(A)
print("\nMatriz B:")
print(B)
print("\nProducto A @ B:")
print(C1)

# Verificar que todos dan el mismo resultado
print(f"\nTodos los métodos coinciden: {np.array_equal(C1, C2) and np.array_equal(C2, C3)}")

### 2.2 Cálculo con Múltiples Ejemplos de Entrenamiento

Cuando tenemos $n$ ejemplos de entrenamiento, podemos procesarlos todos a la vez usando multiplicación de matrices:

$$\mathbf{X}\mathbf{w} + b = \mathbf{z}$$

Donde:
- $\mathbf{X} \in \mathbb{R}^{n \times m}$ (n ejemplos, m características)
- $\mathbf{w} \in \mathbb{R}^{m \times 1}$ (pesos)
- $\mathbf{z} \in \mathbb{R}^{n \times 1}$ (salidas)

**Dos oportunidades de paralelismo:**
1. Multiplicar elementos para calcular el producto punto
2. Calcular múltiples productos punto simultáneamente

In [None]:
# Ejemplo con múltiples muestras
n_samples = 5
n_features = 3

# Datos de entrada (5 muestras, 3 características)
X = np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9],
              [10, 11, 12],
              [13, 14, 15]])

# Pesos
w = np.array([[0.5],
              [0.3],
              [0.2]])

# Bias
b = 1.0

# Calcular salidas para todas las muestras a la vez
z = X @ w + b

print(f"X shape: {X.shape}")
print(f"w shape: {w.shape}")
print(f"z shape: {z.shape}")
print(f"\nSalidas z:\n{z}")

## 3. Tensores

Un **tensor** es una generalización de los escalares, vectores y matrices a un número arbitrario de dimensiones.

<!-- INSERT FIGURE: Page 10 - Tensor hierarchy diagram showing scalar, vector, matrix, tensor -->

En Deep Learning no trabajamos con un solo número, ni con un solo vector o una sola matriz, sino con **datos multidimensionales**. Para manejar todo eso de forma unificada usamos tensores.

| Objeto | Tensor de orden | Ejemplo |
|--------|----------------|----------|
| Escalar | Orden 0 | $x \in \mathbb{R}$ |
| Vector | Orden 1 | $\mathbf{x} \in \mathbb{R}^n$ |
| Matriz | Orden 2 | $\mathbf{W} \in \mathbb{R}^{m \times n}$ |
| Tensor | Orden ≥ 3 | $\mathcal{X} \in \mathbb{R}^{n_1 \times n_2 \times n_3 \times \cdots}$ |

## 4. Introducción a PyTorch

PyTorch es una biblioteca de aprendizaje profundo que proporciona:
- Arreglos multidimensionales (tensores)
- Soporte para GPU
- Diferenciación automática
- Funciones convenientes para deep learning

In [None]:
# Instalar PyTorch (si es necesario)
# !pip install torch --break-system-packages

import torch

print(f"Versión de PyTorch: {torch.__version__}")
print(f"¿CUDA disponible? {torch.cuda.is_available()}")

### 4.1 Creación de Tensores en PyTorch

<!-- INSERT FIGURE: Page 11 - PyTorch tensor creation code example -->

In [None]:
# Crear un tensor
t = torch.tensor([[1, 2, 3], [4, 5, 6]])

print("Tensor:")
print(t)
print(f"\nDimensiones (.shape): {t.shape}")
print(f"Dimensiones (.size()): {t.size()}")
print(f"Número de dimensiones (.ndim): {t.ndim}")
print(f"Tipo de dato: {t.dtype}")

### 4.2 NumPy vs PyTorch

La sintaxis de NumPy y PyTorch es muy similar:

| Concepto | NumPy | PyTorch |
|----------|-------|----------|
| Vector | `np.array` | `torch.tensor` |
| Producto punto | `a.dot(b)` | `b.matmul(b)` o `b @ b` |
| Resultado | escalar | tensor escalar |
| Conversión | — | `b.numpy()` |

<!-- INSERT FIGURE: Page 12 & 13 - NumPy and PyTorch comparison code -->

In [None]:
# Comparación NumPy vs PyTorch

# NumPy
a_np = np.array([1., 2., 3.])
print(f"NumPy - Tipo: {type(a_np)}")
print(f"NumPy - dtype: {a_np.dtype}")
print(f"NumPy - shape: {a_np.shape}")

# PyTorch
b_torch = torch.tensor([1., 2., 3.])
print(f"\nPyTorch - Tipo: {type(b_torch)}")
print(f"PyTorch - dtype: {b_torch.dtype}")
print(f"PyTorch - shape: {b_torch.shape}")

# Conversión
b_to_numpy = b_torch.numpy()
print(f"\nConversión a NumPy: {type(b_to_numpy)}")
print(f"Convertido - dtype: {b_to_numpy.dtype}")

### 4.3 Tipos de Datos en PyTorch

<!-- INSERT FIGURE: Page 14 - Data types table -->

**Tipos importantes:**
- `int32/int64`: Enteros (default int en NumPy & PyTorch)
- `float32`: Flotante de 32 bits (default float en PyTorch)
- `float64`: Flotante de 64 bits (default float en NumPy)

**Notas:**
- Los flotantes de 32 bits son menos precisos que los de 64 bits
- Para redes neuronales, 32 bits es suficiente
- Para GPUs regulares, 32 bits es más rápido

In [None]:
# Tipos de datos

# Especificar tipo al crear
c_float = torch.tensor([1, 2, 3], dtype=torch.float)
print(f"float: {c_float.dtype}")

c_double = torch.tensor([1, 2, 3], dtype=torch.double)
print(f"double: {c_double.dtype}")

c_float64 = torch.tensor([1, 2, 3], dtype=torch.float64)
print(f"float64: {c_float64.dtype}")

# Convertir tipos
d = torch.tensor([1, 2, 3])
print(f"\nOriginal: {d.dtype}")

e = d.double()
print(f"Convertido a double: {e.dtype}")

f = d.to(torch.float64)
print(f"Convertido con .to(): {f.dtype}")

### 4.4 ¿Por qué PyTorch en lugar de NumPy?

**PyTorch ofrece:**

1. **Soporte para GPU:**
   - Cargar datasets y parámetros del modelo en memoria GPU
   - Mejor paralelismo para multiplicaciones de matrices

2. **Diferenciación automática** (más adelante)

3. **Funciones convenientes para deep learning** (más adelante)

**PyTorch permite entrenar modelos grandes de forma eficiente usando GPU, calcular derivadas automáticamente y construir redes profundas con herramientas ya implementadas.**

### 4.5 Uso de GPU en PyTorch

<!-- INSERT FIGURE: Page 18 - GPU code example -->

Cargar datos en la GPU es muy fácil en PyTorch:

In [None]:
# Verificar disponibilidad de CUDA
print(f"¿CUDA disponible? {torch.cuda.is_available()}")

if torch.cuda.is_available():
    # Mover tensor a GPU
    b = torch.tensor([1., 2., 3.])
    b_gpu = b.to(torch.device('cuda:0'))
    print(f"Tensor en GPU: {b_gpu}")
    
    # Mover de vuelta a CPU
    b_cpu = b_gpu.to(torch.device('cpu'))
    print(f"Tensor en CPU: {b_cpu}")
else:
    print("CUDA no disponible. Usando CPU.")
    # El código seguirá funcionando en CPU

### 4.6 Verificar Dispositivos CUDA

<!-- INSERT FIGURE: Page 19 - nvidia-smi output -->

Si tienes CUDA instalado, puedes usar `nvidia-smi` para verificar tus GPUs.

In [None]:
# Información de GPU
if torch.cuda.is_available():
    print(f"Número de GPUs: {torch.cuda.device_count()}")
    print(f"GPU actual: {torch.cuda.current_device()}")
    print(f"Nombre de GPU: {torch.cuda.get_device_name(0)}")
    
    # Memoria
    print(f"\nMemoria asignada: {torch.cuda.memory_allocated(0) / 1e9:.2f} GB")
    print(f"Memoria en caché: {torch.cuda.memory_reserved(0) / 1e9:.2f} GB")
else:
    print("No hay GPU CUDA disponible")

## 5. Broadcasting en PyTorch

Los tensores de PyTorch no son tensores matemáticos "reales" - tienen operaciones extendidas que son muy útiles.

**Broadcasting** permite operaciones entre tensores de diferentes formas automáticamente.

In [None]:
# Ejemplos de broadcasting

# Escalar + Vector
result1 = torch.tensor([1, 2, 3]) + 1
print(f"[1,2,3] + 1 = {result1}")

# Vector * Vector (elemento por elemento)
a = torch.tensor([1, 2, 3])
b = torch.tensor([4, 5, 6])
result2 = a * b
print(f"[1,2,3] * [4,5,6] = {result2}")

# Matriz + Vector
t = torch.tensor([[4, 5, 6], [7, 8, 9]])
result3 = t + torch.tensor([1, 2, 3])
print(f"\nMatriz + Vector:\n{result3}")

<!-- INSERT FIGURE: Page 30 & 31 - Broadcasting visualization -->

**Cómo funciona broadcasting:**

Se agregan dimensiones implícitas y los elementos se duplican implícitamente para que las formas coincidan.

In [None]:
# Visualización de broadcasting

# Caso 1: escalar → vector
print("Broadcasting escalar a vector:")
print("[1, 2, 3] + 1")
print("→ [1, 2, 3] + [1, 1, 1]")
print(f"= {torch.tensor([1, 2, 3]) + 1}")

# Caso 2: vector → matriz
print("\nBroadcasting vector a matriz:")
matrix = torch.tensor([[4, 5, 6], [7, 8, 9]])
vector = torch.tensor([1, 2, 3])
print("Matrix shape:", matrix.shape)
print("Vector shape:", vector.shape)
result = matrix + vector
print("Result shape:", result.shape)
print(f"Resultado:\n{result}")

## 6. Convenciones de Notación para Redes Neuronales

### 6.1 Perceptrón Simple

<!-- INSERT FIGURE: Page 33 - Single perceptron diagram -->

Para un solo ejemplo de entrenamiento:

$$\mathbf{x}^T\mathbf{w} + b = z$$

Donde:
- $\mathbf{x} = [x_1, x_2, ..., x_m]^T$
- $\mathbf{w} = [w_1, w_2, ..., w_m]^T$
- $b$ es el bias
- $z$ es la entrada neta

In [None]:
# Perceptrón simple
x = torch.tensor([1.0, 2.0, 3.0])
w = torch.tensor([0.5, 0.3, 0.2])
b = 1.0

# Calcular entrada neta
z = torch.dot(x, w) + b
print(f"Entrada neta z: {z}")

# Función de activación (por ejemplo, sigmoide)
def sigmoid(z):
    return 1 / (1 + torch.exp(-z))

y_pred = sigmoid(z)
print(f"Salida del perceptrón: {y_pred}")

### 6.2 Capa Totalmente Conectada

<!-- INSERT FIGURE: Page 35 - Fully connected layer diagram -->

**Para 1 ejemplo de entrenamiento:**

$$\sigma(\mathbf{W}\mathbf{x} + \mathbf{b}) = \mathbf{a}$$

Donde:
- $\mathbf{a} \in \mathbb{R}^{h \times 1}$ (h neuronas en la capa)
- $\mathbf{W} \in \mathbb{R}^{h \times m}$ (pesos)
- $\mathbf{x} \in \mathbb{R}^{m \times 1}$ (entrada)

**Nota importante:** $w_{i,j}$ se refiere al peso que conecta la entrada $j$-ésima con la salida $i$-ésima.

### 6.3 Capa con Múltiples Ejemplos

<!-- INSERT FIGURE: Page 36 - Multiple examples diagram -->

**Para n ejemplos de entrenamiento:**

$$\sigma([\mathbf{W}\mathbf{X}^T]^T + \mathbf{b}) = \mathbf{A}$$

Donde:
- $\mathbf{A} \in \mathbb{R}^{n \times h}$
- $\mathbf{X} \in \mathbb{R}^{n \times m}$ (ejemplos en filas)
- $\mathbf{W}^T \in \mathbb{R}^{m \times h}$

**Convención de PyTorch (más conveniente):**

$$\sigma([\mathbf{X}\mathbf{W}^T] + \mathbf{b}) = \mathbf{A}$$

## 7. Capa Lineal en PyTorch

<!-- INSERT FIGURE: Page 42 & 43 - PyTorch Linear layer code -->

In [None]:
# Crear datos de entrada (10 ejemplos, 5 características)
X = torch.arange(50, dtype=torch.float).view(10, 5)
print("Datos de entrada X:")
print(X)
print(f"X shape: {X.size()}")

In [None]:
# Crear una capa lineal (5 entradas → 3 salidas)
fc_layer = torch.nn.Linear(in_features=5, out_features=3)

print("\nPesos de la capa:")
print(fc_layer.weight)
print(f"W shape: {fc_layer.weight.size()}")

print("\nBias de la capa:")
print(fc_layer.bias)
print(f"b shape: {fc_layer.bias.size()}")

In [None]:
# Aplicar la capa a los datos
A = fc_layer(X)

print("\nSalida de la capa A:")
print(A)
print(f"A shape: {A.size()}")

# Verificar dimensiones
print(f"\nResumen de dimensiones:")
print(f"X: {X.size()} (10 ejemplos, 5 características)")
print(f"W: {fc_layer.weight.size()} (3 neuronas, 5 entradas)")
print(f"b: {fc_layer.bias.size()} (3 neuronas)")
print(f"A: {A.size()} (10 ejemplos, 3 salidas)")

## 8. Transformaciones Matriciales: Intuición Geométrica

### 8.1 ¿Por qué la notación Wx es intuitiva?

<!-- INSERT FIGURE: Page 37, 38, 39 - Matrix transformation visualizations -->

Una matriz puede verse como una transformación que:
- Escala coordenadas
- Rota vectores
- Cambia el espacio

In [None]:
# Ejemplo: Matriz identidad (no transforma)
I = torch.tensor([[1., 0.],
                  [0., 1.]])

x = torch.tensor([[0.25],
                  [0.5]])

result = I @ x
print("Matriz identidad × vector:")
print(result)
print("(El vector no cambia)")

In [None]:
# Ejemplo: Escalamiento
# Escalar x por 3, y por 2
S = torch.tensor([[3., 0.],
                  [0., 2.]])

x = torch.tensor([[1.],
                  [1.]])

result = S @ x
print("Matriz de escalamiento × vector:")
print(f"Original: {x.T}")
print(f"Escalado: {result.T}")

### 8.2 Interpretación de Transformaciones

Para una matriz general:

$$\begin{bmatrix} a & b \\ c & d \end{bmatrix} \begin{bmatrix} x \\ y \end{bmatrix} = x\begin{bmatrix} a \\ c \end{bmatrix} + y\begin{bmatrix} b \\ d \end{bmatrix}$$

Donde:
- Primera columna: efecto en la dirección x
- Segunda columna: efecto en la dirección y

In [None]:
# Matriz general
W = torch.tensor([[2., 1.],
                  [1., 3.]])

x = torch.tensor([[1.],
                  [1.]])

result = W @ x

print("Transformación:")
print(f"W =\n{W}")
print(f"\nx = {x.T}")
print(f"\nW @ x = {result.T}")

# Interpretación
col1 = W[:, 0:1]
col2 = W[:, 1:2]

print(f"\nInterpretación:")
print(f"x * col1 = {x[0, 0]} * {col1.T} = {(x[0, 0] * col1).T}")
print(f"y * col2 = {x[1, 0]} * {col2.T} = {(x[1, 0] * col2).T}")
print(f"Suma = {result.T}")

## 9. Reglas Útiles para Conversión entre Teoría y Código

Al cambiar entre la teoría matemática y el código de PyTorch, estas reglas son útiles:

$$\mathbf{AB} = (\mathbf{B}^T\mathbf{A}^T)^T$$

$$(\mathbf{AB})^T = \mathbf{B}^T\mathbf{A}^T$$

In [None]:
# Verificar las reglas de transposición
A = torch.randn(3, 4)
B = torch.randn(4, 5)

# Regla 1: AB = (B^T A^T)^T
AB_direct = A @ B
AB_rule1 = (B.T @ A.T).T

print("Verificando regla 1: AB = (B^T A^T)^T")
print(f"¿Son iguales? {torch.allclose(AB_direct, AB_rule1)}")

# Regla 2: (AB)^T = B^T A^T
AB_T_direct = (A @ B).T
AB_T_rule2 = B.T @ A.T

print("\nVerificando regla 2: (AB)^T = B^T A^T")
print(f"¿Son iguales? {torch.allclose(AB_T_direct, AB_T_rule2)}")

## 10. Resumen: Convenciones Tradicionales vs PyTorch

<!-- INSERT FIGURE: Page 46 - Traditional vs PyTorch notation summary -->

### Convención Tradicional (Matemática)

**1 ejemplo:**
$$\sigma(\mathbf{W}\mathbf{x} + \mathbf{b}) = \mathbf{a}, \quad \mathbf{a} \in \mathbb{R}^{h \times 1}, \; \mathbf{x} \in \mathbb{R}^{m \times 1}$$

**n ejemplos:**
$$\sigma([\mathbf{W}\mathbf{X}^T]^T + \mathbf{b}) = \mathbf{A}, \quad \mathbf{A} \in \mathbb{R}^{n \times h}, \; \mathbf{X} \in \mathbb{R}^{n \times m}$$

### Convención PyTorch (Práctica)

**1 ejemplo:**
$$\sigma([\mathbf{x}^T\mathbf{W}^T]^T + \mathbf{b}) = \mathbf{a}, \quad \mathbf{x} \in \mathbb{R}^{m \times 1}$$

Equivalente a:
$$\sigma([\mathbf{x}\mathbf{W}^T] + \mathbf{b}) = \mathbf{a}, \quad \mathbf{x} \in \mathbb{R}^{1 \times m} \text{ (PyTorch)}$$

**n ejemplos:**
$$\sigma([\mathbf{X}\mathbf{W}^T] + \mathbf{b}) = \mathbf{A}, \quad \mathbf{X} \in \mathbb{R}^{n \times m}$$

In [None]:
# Demostración de la diferencia

# Configuración
n_samples = 5
n_features = 3
n_outputs = 2

# Datos
X = torch.randn(n_samples, n_features)  # PyTorch: (n × m)

# Forma tradicional: W es (h × m)
W_trad = torch.randn(n_outputs, n_features)

# Forma PyTorch: W^T es (m × h), pero PyTorch lo almacena como (h × m)
fc = torch.nn.Linear(n_features, n_outputs)

print(f"X shape (PyTorch): {X.shape} - ejemplos en filas")
print(f"W shape (PyTorch Linear): {fc.weight.shape} - se usará transpuesta")

# Aplicar
output_pytorch = fc(X)  # Internamente hace: X @ W^T + b
print(f"\nOutput shape: {output_pytorch.shape}")

## 11. Ejercicio Práctico

<!-- INSERT FIGURE: Page 47 - Exercise description -->

**Ejercicio:** Revisa el código del perceptrón en NumPy:
https://github.com/rasbt/stat453-deep-learning-ss20/blob/master/L03-perceptron/code/perceptron-numpy.ipynb

**Preguntas:**

1. Sin ejecutar el código, ¿puede el perceptrón predecir etiquetas si alimentamos un arreglo de múltiples ejemplos?
   - ¿Sí? ¿Por qué?
   - ¿No? ¿Qué cambio necesitarías?

2. Ejecuta el código para verificar tu intuición.

3. ¿Podemos tener paralelismo en el método `train` sin afectar la regla de aprendizaje?

In [None]:
# Implementación simple del perceptrón para el ejercicio

class Perceptron:
    def __init__(self, num_features):
        self.weights = torch.zeros(num_features)
        self.bias = 0.
    
    def forward(self, x):
        """Propagación hacia adelante"""
        linear = torch.matmul(x, self.weights) + self.bias
        predictions = torch.where(linear > 0., 1, 0)
        return predictions
    
    def train_step(self, x, y):
        """Un paso de entrenamiento"""
        predictions = self.forward(x)
        errors = y - predictions
        
        # Actualización de pesos
        self.weights += torch.matmul(x.T, errors.float())
        self.bias += errors.sum().float()
        
        return errors.abs().sum().item()

# Prueba con datos simples
perceptron = Perceptron(num_features=2)

# Un solo ejemplo
x_single = torch.tensor([1., 2.])
pred_single = perceptron.forward(x_single)
print(f"Predicción para un ejemplo: {pred_single}")

# Múltiples ejemplos
X_batch = torch.tensor([[1., 2.],
                        [2., 3.],
                        [-1., -2.]])
pred_batch = perceptron.forward(X_batch)
print(f"Predicciones para múltiples ejemplos: {pred_batch}")

## 12. Recursos Adicionales

**Documentación oficial de PyTorch:**
- Tutoriales: https://docs.pytorch.org/tutorials/
- Documentación: https://pytorch.org/docs/

**Para instalar PyTorch:**
- Página oficial: https://pytorch.org
- Herramienta de selección de versión disponible
- Para CPU (portátiles): selecciona "None" en CUDA
- Comando recomendado: `conda install pytorch`

## Conclusiones

### Puntos Clave:

1. **Piensa siempre en productos punto** al escribir e implementar multiplicación de matrices

2. **La intuición teórica y la convención no siempre coinciden** con la conveniencia práctica al programar

3. **Reglas útiles para conversión:**
   - $\mathbf{AB} = (\mathbf{B}^T\mathbf{A}^T)^T$
   - $(\mathbf{AB})^T = \mathbf{B}^T\mathbf{A}^T$

4. **PyTorch vs NumPy:**
   - PyTorch ofrece soporte GPU
   - Diferenciación automática
   - Herramientas especializadas para deep learning

5. **Broadcasting** hace las operaciones más convenientes pero hay que entender cómo funciona

6. **Convención PyTorch:** Los ejemplos van en filas, PyTorch usa $\mathbf{X}\mathbf{W}^T$ internamente

---

## ¡Gracias!

<!-- INSERT FIGURE: Page 49 - Thank you slide -->

**Universidad EAFIT**

Escuela de Ciencias Aplicadas e Ingeniería