<a href="https://colab.research.google.com/github/financieras/math_for_ai/blob/main/210_vectores.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Vectores

## 1. Fundamentos

### Concepto de Vector

- Un vector es una cantidad matemática que posee tanto magnitud (tamaño) como dirección.
- A diferencia de los escalares (que solo tienen magnitud), los vectores son fundamentales para representar cantidades direccionales en matemáticas y sus aplicaciones.
- En el contexto de la Inteligencia Artificial, los vectores son estructuras de datos fundamentales que permiten representar características, atributos o propiedades de manera ordenada y matemáticamente manipulable.
- A efectos prácticos, podemos ver un vector como una lista ordenada de números.
- Podemos hacer operaciones de traslación (suma) y de escala (multiplicación).

<img src="https://github.com/financieras/math_for_ai/blob/main/img/vector_1.svg?raw=1" alt="vector en una direccion" width="320"/>

### Componentes de un Vector

Un vector se puede representar mediante sus componentes, que son las proyecciones del vector sobre los ejes coordenados:

- En 2D: un vector $\vec{v}$ se representa como un par ordenado $(v_x, v_y)$
- En 3D: un vector $\vec{v}$ se representa como una terna ordenada $(v_x, v_y, v_z)$
- En IA: un vector $\vec{v}$ puede tener $n$ componentes $(v_1, v_2, ..., v_n)$

<img src="https://github.com/financieras/math_for_ai/blob/main/img/vector_11.gif?raw=1" alt="componentes de un vector" width="320"/>

Cada componente representa una magnitud en la dirección de un eje coordenado particular.

**Ejemplos:**
- Vector en 2D: $\vec{v} = (4, 5)$ tiene componente $x = 4$ y componente $y = 5$
- Vector en 3D: $\vec{w} = (1, -2, 5)$ tiene componente $x = 1$, componente $y = -2$ y componente $z = 5$
- Vector de características: $\vec{f} = (8, \,1.5,\, -2.1,\, 0.4)$ podría representar diferentes atributos de un dato

<img src="https://github.com/financieras/math_for_ai/blob/main/img/vector_2.svg?raw=1" alt="modulo direccion sentido" width="320"/>

### Representación Gráfica

#### En 2D
Los vectores bidimensionales se representan en un plano cartesiano:
- El origen del vector se ubica típicamente en $(0,0)$
- La flecha indica la dirección y magnitud
- Las componentes $(v_x, v_y)$ determinan que el vector comienza en el punto $(0,0)$ y finalizan en el punto $(v_x, v_y)$ del plano.
- Ejemplo, si el vector es el $(3, 2)$, este vector se representa mediante una flecha que parte del $(0, 0)$ y termina en el punto $(3, 2)$ del plano cartesiano.

<img src="https://github.com/financieras/math_for_ai/blob/main/img/vector_3.svg?raw=1" alt="componentes de un vector 2D" width="320"/>

#### En 3D
Los vectores tridimensionales se representan en un espacio cartesiano:
- El origen suele ubicarse en $(0,0,0)$
- Las componentes $(v_x, v_y, v_z)$ determinan el punto final
- La visualización requiere perspectiva para mostrar la profundidad

<img src="https://github.com/financieras/math_for_ai/blob/main/img/vector_4.webp?raw=1" alt="punto en el espacio" width="320"/>

### Aplicaciones en IA

Los vectores son fundamentales en IA por varias razones:

1. **Representación de Datos**
   - Cada dato se puede representar como un vector de características
   - Ejemplo: Una imagen de 28×28 píxeles se convierte en un vector de 784 componentes

2. **Embeddings**
   - Las palabras se pueden representar como vectores en un espacio semántico
   - Ejemplo: La palabra "gato" podría representarse como $\vec{v} = (0.2, -0.5, 0.8, ...)$

3. **Redes Neuronales**
   - Las entradas y salidas son vectores
   - Los pesos de las conexiones se almacenan como vectores
   - Los gradientes durante el entrenamiento son vectores

4. **Procesamiento de Datos**
   - La normalización se aplica a vectores de características
   - Las distancias entre vectores miden similitud entre datos
   - La reducción de dimensionalidad opera sobre vectores

Este concepto fundamental de vectores sirve como base para entender operaciones más complejas en machine learning y deep learning, donde los datos multidimensionales son la norma.

Los vectores permiten:
- Representar datos de manera uniforme
- Aplicar operaciones matemáticas consistentes
- Medir similitudes y diferencias entre datos
- Transformar y manipular información de manera sistemática

# 2. Operaciones Básicas

## Suma y Resta de Vectores

Las operaciones de suma y resta de vectores son fundamentales en IA, especialmente en el procesamiento de datos y en el entrenamiento de modelos.

### Método Algebraico

#### Suma de Vectores

La suma de dos vectores se realiza componente a componente:

Si $\vec{u} = (u_1, u_2, ..., u_n)$ y $\vec{v} = (v_1, v_2, ..., v_n)$, entonces:

$$\vec{u} + \vec{v} = (u_1 + v_1, u_2 + v_2, ..., u_n + v_n)$$

**Ejemplo:**
- $\vec{u} = (3, 4)$ y $\vec{v} = (1, 2)$
- $\vec{u} + \vec{v} = (3+1, 4+2) = (4, 6)$

In [1]:
# sumando los elementos de una lista de listas
x = [3, 4]
y = [1, 2]

z = [u + v for u, v in zip(x, y)]   # sumando componente a componente

print(f"{x} + {y} = {z}")

[3, 4] + [1, 2] = [4, 6]


In [2]:
# sumando con la librería NumPy
# con NumPy se manejan ndarray que están preparados para álgebra lineal

import numpy as np

u = np.array([3, 4])
v = np.array([1, 2])

w = u + v           # sumando los dos vectores como ndarrays
print(f"{u}  + {v}  = {w}")

[3 4]  + [1 2]  = [4 6]


#### Resta de Vectores
La resta se realiza también componente a componente:

$$\vec{u} - \vec{v} = (u_1 - v_1, u_2 - v_2, ..., u_n - v_n)$$

**Ejemplo:**
- $\vec{u} = (3, 4)$ y $\vec{v} = (1, 2)$
- $\vec{u} - \vec{v} = (3-1,\, 4-2) = (2, 2)$

In [3]:
# Resta de Vectores con NumPy

w = u - v           # restando los dos vectores como ndarrays
print(f"{u}  - {v}  = {w}")

[3 4]  - [1 2]  = [2 2]


### Método Gráfico

#### Suma de Vectores
1. Dibujar el primer vector
2. Desde el final del primer vector, dibujar el segundo vector
3. El vector resultante va desde el origen hasta el final del segundo

<img src="https://github.com/financieras/math_for_ai/blob/main/img/vector_5.png?raw=1" alt="suma de vectores" width="320"/>

#### Resta de Vectores
1. Dibujar el primer vector
2. Dibujar el segundo vector en dirección opuesta
3. El vector resultante va desde el origen hasta el final del segundo vector

<img src="https://github.com/financieras/math_for_ai/blob/main/img/vector_6.png?raw=1" alt="resta de vectores" width="380"/>

## Multiplicación por Escalar

La multiplicación de un vector por un escalar $k$ multiplica cada componente del vector por ese número:

Sea el vector $\vec{v} = (v_1, v_2, ..., v_n)$ y $k$ el escalar:

$$k\vec{v} = (kv_1, kv_2, ..., kv_n)$$

<img src="https://github.com/financieras/math_for_ai/blob/main/img/vector_7.png?raw=1" alt="producto por escalar" width="280"/>

**Propiedades**
1. Distributiva respecto a la suma de vectores: $k(\vec{u} + \vec{v}) = k\vec{u} + k\vec{v}$
2. Distributiva respecto a la suma de escalares:: $(k_1 + k_2)\vec{v} = k_1\vec{v} + k_2\vec{v}$
3. Asociativa respecto a la multiplicación de escalares:: $k_1(k_2\vec{v}) = (k_1k_2)\vec{v}$
4. Identidad: $1\vec{v} = \vec{v}$
5. La multiplicación por cero da el vector cero: $0\vec{v} = \vec{0}$

**Ejemplos**

1. **Vector en 2D:**
   - **Ejemplo 1:** Multiplicar el vector $\vec{v} = (3, 4)$ por el escalar $k = 2$.

   $$\vec{w} = 2 \vec{v} = (2 \cdot 3,\, 2 \cdot 4) = (6, 8)$$

   - **Ejemplo 2:** Multiplicar el vector $\vec{u} = (-2, 1)$ por el escalar $k = -3$.

   $$
   \vec{w} = -3 \vec{u} = (-3 \cdot -2,\, -3 \cdot 1) = (6, -3)
   $$

2. **Vector en 3D:**
   - **Ejemplo:** Multiplicar el vector $\vec{w} = (-2, 0, 6)$ por el escalar $k = -\frac{1}{2}$.

   $$\vec{z} =  -\tfrac{1}{2} \vec{w} = (( -\tfrac{1}{2}) \cdot (-2), \, ( -\tfrac{1}{2}) \cdot 0, \, ( -\tfrac{1}{2}) \cdot 6) = (1, 0, -3)$$

In [6]:
v = np.array([3, 4])
w = 2 * v
w

array([6, 8])


## Ejemplos en contexto de IA

### 1. Actualización de Pesos en Redes Neuronales
En el entrenamiento de redes neuronales, los pesos se actualizan mediante:

$$\vec{w}_{\text{nuevo}} = \vec{w}_{\text{actual}} - \alpha\nabla\vec{w}$$

Donde:
- $\vec{w}$ es el vector de pesos
- $\alpha$ es la tasa de aprendizaje (escalar)
- $\nabla\vec{w}$ es el gradiente (vector de las derivadas parciales)

### 2. Promedio de Vectores de Características
Para calcular el centroide de un cluster:

$$\vec{c} = \frac{1}{n}\sum_{i=1}^n \vec{x}_i$$

Donde:
- $\vec{x}_i$ son los vectores de características
- $n$ es el número de vectores
- $\vec{c}$ es el vector

<img src="https://github.com/financieras/math_for_ai/blob/main/img/vector_8.webp?raw=1" alt="centroides de clusters" width="420"/>

### 3. Combinación de Embeddings
En procesamiento de lenguaje natural:

$$\vec{v}_{\text{frase}} = \frac{\vec{v}_{\text{palabra1}} + \vec{v}_{\text{palabra2}} + ... + \vec{v}_{\text{palabraN}}}{N}$$

### 4. Normalización de Datos
Escalado de vectores de características:

$$\vec{x}_{\text{normalizado}} = \frac{\vec{x} - \mu}{\sigma}$$

Donde:
- $\mu$ es la media
- $\sigma$ es la desviación estándar

Estas operaciones básicas son fundamentales en muchos algoritmos de IA, desde el preprocesamiento de datos hasta el entrenamiento de modelos complejos.

# 3. Propiedades Fundamentales

## Norma

La norma o magnitud de un vector $\vec{v}$ es una medida de su longitud. En el contexto de machine learning, representa la "fuerza" o "intensidad" de un vector de características.

### Definición Formal
Para un vector $\vec{v} = (v_1, v_2, ..., v_n)$, la norma euclidiana (L2) se define como:

$$\|\vec{v}\| = \sqrt{\sum_{i=1}^n v_i^2}$$

**Ejemplos comunes:**
- En 2D: $\|\vec{v}\| = \sqrt{v_1^2 + v_2^2}$
    - Si $\vec{v} = (3, -4)$ entonces su norma es $\|\vec{v}\| = \sqrt{3^2 + (-4)^2}= \sqrt{9 + 16} = \sqrt{25} = 5$

<img src="https://github.com/financieras/math_for_ai/blob/main/img/vector_9.png?raw=1" alt="norma de un vector 2D" width="280"/>

- En 3D: $\|\vec{v}\| = \sqrt{v_1^2 + v_2^2 + v_3^2}$

### Otras Normas Comunes en ML
1. **Norma L1 (Manhattan):**
   $$\|\vec{v}\|_1 = \sum_{i=1}^n |v_i|$$

<img src="https://github.com/financieras/math_for_ai/blob/main/img/vector_10.png?raw=1" alt="norma Manhattan" width="320"/>

2. **Norma L∞ (Máximo):**
   $$\|\vec{v}\|_∞ = \max_{i} |v_i|$$

## Distancia entre Puntos

La distancia entre dos puntos es crucial en muchos algoritmos de ML, especialmente en clustering y clasificación.

### Distancia Euclidiana
Para dos vectores $\vec{u}$ y $\vec{v}$:

$$d(\vec{u}, \vec{v}) = \|\vec{u} - \vec{v}\| = \sqrt{\sum_{i=1}^n (u_i - v_i)^2}$$

### Otras Métricas de Distancia en ML
1. **Distancia Manhattan:**
   $$d_1(\vec{u}, \vec{v}) = \sum_{i=1}^n |u_i - v_i|$$

2. **Distancia de Coseno:**
   $$d_{\cos}(\vec{u}, \vec{v}) = 1 - \frac{\vec{u} \cdot \vec{v}}{\|\vec{u}\| \|\vec{v}\|}$$

## Normalización y Vectores Unitarios

### Vector Unitario
Un vector unitario tiene norma igual a 1. Se obtiene dividiendo un vector por su norma:

$$\hat{v} = \frac{\vec{v}}{\|\vec{v}\|}$$


**Ejemplos**

1. **Vector en 2D:**
   - **Ejemplo 1:** Normalizar el vector $\vec{v} = (3, 4)$.

   Primero, calculamos la norma de $\vec{v}$:

   $$
   \|\vec{v}\| = \sqrt{3^2 + 4^2} = \sqrt{9 + 16} = \sqrt{25} = 5
   $$

   Luego, dividimos $\vec{v}$ por su norma:

   $$
   \hat{u} = \frac{\vec{v}}{\|\vec{v}\|} = \frac{(3, 4)}{5} = \left(\frac{3}{5}, \frac{4}{5}\right)
   $$

   - **Ejemplo 2:** Normalizar el vector $\vec{u} = (-2, 1)$.

   Primero, calculamos la norma de $\vec{u}$:

   $$
   \|\vec{u}\| = \sqrt{(-2)^2 + 1^2} = \sqrt{4 + 1} = \sqrt{5}
   $$

   Luego, dividimos $\vec{u}$ por su norma:

   $$
   \hat{u} = \frac{\vec{u}}{\|\vec{u}\|} = \frac{(-2, 1)}{\sqrt{5}} = \left(\frac{-2}{\sqrt{5}}, \frac{1}{\sqrt{5}}\right)
   $$

2. **Vector en 3D:**
   - **Ejemplo 1:** Normalizar el vector $\vec{w} = (1, 2, 3)$.

   Primero, calculamos la norma de $\vec{w}$:

   $$
   \|\vec{w}\| = \sqrt{1^2 + 2^2 + 3^2} = \sqrt{1 + 4 + 9} = \sqrt{14}
   $$

   Luego, dividimos $\vec{w}$ por su norma:

   $$
   \hat{u} = \frac{\vec{w}}{\|\vec{w}\|} = \frac{(1, 2, 3)}{\sqrt{14}} = \left(\frac{1}{\sqrt{14}}, \frac{2}{\sqrt{14}}, \frac{3}{\sqrt{14}}\right)
   $$

   - **Ejemplo 2:** Normalizar el vector $\vec{z} = (0, -1, 2)$.

   Primero, calculamos la norma de $\vec{z}$:

   $$
   \|\vec{z}\| = \sqrt{0^2 + (-1)^2 + 2^2} = \sqrt{0 + 1 + 4} = \sqrt{5}
   $$

### Proceso de Normalización
1. **Min-Max Scaling:**
   $$x_{\text{norm}} = \frac{x - x_{\min}}{x_{\max} - x_{\min}}$$

2. **Z-Score Normalization:**
   $$x_{\text{norm}} = \frac{x - \mu}{\sigma}$$

## Aplicaciones en Machine Learning

### 1. Preprocesamiento de Datos
- **Normalización de características:** Asegura que todas las características contribuyan equitativamente al modelo
```python
X_normalized = (X - X.mean()) / X.std()
```

### 2. Medición de Similitud
- **Similitud coseno:** Usada en sistemas de recomendación y procesamiento de texto
```python
similarity = np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))
```

### 3. Algoritmos de Clustering
- **K-means:** Usa distancia euclidiana para agrupar puntos
```python
distance = np.linalg.norm(point - centroid)
```

### 4. Regularización
- **Norma L1 y L2:** Usadas para penalizar pesos grandes en modelos
```python
L1_penalty = np.sum(np.abs(weights))
L2_penalty = np.sqrt(np.sum(weights**2))
```

### 5. Redes Neuronales
- **Normalización de capas:** Mejora la estabilidad del entrenamiento
```python
layer_norm = (layer - layer.mean()) / layer.std()
```

### 6. Embeddings
- **Normalización de word embeddings:** Facilita la comparación de similitud entre palabras
```python
normalized_embedding = embedding / np.linalg.norm(embedding)
```

Las propiedades fundamentales de los vectores son esenciales en machine learning porque:
- Permiten cuantificar similitudes y diferencias entre datos
- Facilitan la optimización de modelos
- Mejoran la estabilidad numérica
- Ayudan en la interpretación de resultados

El entendimiento de estas propiedades es crucial para:
- Diseñar y ajustar modelos efectivamente
- Elegir las métricas apropiadas
- Interpretar resultados correctamente
- Optimizar el rendimiento del modelo

# 4. Productos entre Vectores

## Producto Escalar (Dot Product)

El producto escalar es una operación fundamental en deep learning que produce un escalar a partir de dos vectores.

### Definición
Para dos vectores $\vec{u} = (u_1, u_2, ..., u_n)$ y $\vec{v} = (v_1, v_2, ..., v_n)$:

$$\vec{u} \cdot \vec{v} = \sum_{i=1}^n u_i v_i = u_1v_1 + u_2v_2 + ... + u_nv_n$$

**Ejemplo**

Calcular el producto escalar de $\vec{u} = (1, 2, 3)$ y $\vec{v} = (-4, 5, 6)$.

   $$
   \vec{u} \cdot \vec{v} = 1 \cdot (-4) + 2 \cdot 5 + 3 \cdot 6 = -4 + 10 + 18 = 24
   $$

In [None]:
import numpy as np
v1 = np.array([1,2,3])
v2 = np.array([-4,5,6])     # v1 y v2 deben ser de la misma longitud
print(f"Producto punto: 1*(-4) + 2*5 + 3*6 = {1*(-4) + 2*5 + 3*6}")
print(v1.dot(v2))   # forma clásica de hacer el producto punto de dos vectores
v1 @ v2             # la @ funciona desde la versión 3.5 de Python

Producto punto: 1*(-4) + 2*5 + 3*6 = 24
24


24

### Propiedades
1. **Conmutativa:** $\vec{u} \cdot \vec{v} = \vec{v} \cdot \vec{u}$
2. **Distributiva:** $\vec{u} \cdot (\vec{v} + \vec{w}) = \vec{u} \cdot \vec{v} + \vec{u} \cdot \vec{w}$
3. **Asociativa respecto a la multiplicación por escalar:** $(k\vec{u}) \cdot \vec{v} = k(\vec{u} \cdot \vec{v})$
4. **Producto escalar de un vector consigo mismo:** $\vec{v} \cdot \vec{v} = \|\vec{v}\|^2$

### Ángulo entre Vectores
El producto escalar está relacionado con el ángulo $\theta$ entre dos vectores:

$$\cos \theta = \frac{\vec{u} \cdot \vec{v}}{\|\vec{u}\| \|\vec{v}\|}$$

## Producto Vectorial (Cross Product)

El producto vectorial es menos común en deep learning, pero es importante en ciertas aplicaciones de visión por computador y gráficos.

### Definición
Para vectores en 3D, $\vec{u} = (u_1, u_2, u_3)$ y $\vec{v} = (v_1, v_2, v_3)$:

$$\vec{u} \times \vec{v} = (u_2v_3 - u_3v_2, u_3v_1 - u_1v_3, u_1v_2 - u_2v_1)$$

### Propiedades
1. **Anticonmutativa:** $\vec{u} \times \vec{v} = -(\vec{v} \times \vec{u})$
2. **Distributiva:** $\vec{u} \times (\vec{v} + \vec{w}) = \vec{u} \times \vec{v} + \vec{u} \times \vec{w}$
3. **Escalar:** $(k\vec{u}) \times \vec{v} = k(\vec{u} \times \vec{v})$

## Aplicaciones en Deep Learning

### 1. Capas Densas (Fully Connected)
El producto escalar es la operación básica en las capas densas:

$$y = \vec{w} \cdot \vec{x} + b$$

Donde:
- $\vec{w}$ es el vector de pesos
- $\vec{x}$ es el vector de entrada
- $b$ es el bias
- $y$ es la salida

### 2. Atención y Self-Attention
```python
# Cálculo de scores de atención
attention_scores = torch.matmul(query, key.transpose(-2, -1))
```

### 3. Similitud Coseno
Usada en recuperación de información y sistemas de recomendación:

$$\text{similitud} = \frac{\vec{u} \cdot \vec{v}}{\|\vec{u}\| \|\vec{v}\|}$$

### 4. Convoluciones
Las operaciones de convolución utilizan productos escalares:
```python
# Convolución 2D simplificada
output = torch.sum(input * kernel)
```

### 5. Métricas de Rendimiento
El producto escalar se usa en métricas como:
- Precisión coseno
- Distancia euclidiana al cuadrado
```python
distance = torch.sum((x - y)**2)
```

### 6. Backpropagation
Los gradientes se calculan usando productos escalares:
```python
# Gradiente simplificado
gradient = torch.matmul(error, weights.T)
```

El producto escalar es especialmente importante en deep learning porque:
- Es computacionalmente eficiente
- Se paraleliza bien en GPUs
- Es la base de muchas operaciones de red neuronal
- Permite medir similitudes y diferencias

El producto vectorial es menos común pero útil en:
- Procesamiento de datos 3D
- Visión por computador
- Gráficos por computador
- Robótica y control

La comprensión de estas operaciones es fundamental para:
- Implementar redes neuronales
- Optimizar el rendimiento
- Diseñar nuevas arquitecturas
- Depurar problemas de entrenamiento

# 2. Operaciones Básicas

## Suma y Resta de Vectores

Las operaciones de suma y resta de vectores son fundamentales en IA, especialmente en el procesamiento de datos y en el entrenamiento de modelos.

### Método Algebraico

#### Suma de Vectores

La suma de dos vectores se realiza componente a componente:

Si $\vec{u} = (u_1, u_2, ..., u_n)$ y $\vec{v} = (v_1, v_2, ..., v_n)$, entonces:

$$\vec{u} + \vec{v} = (u_1 + v_1, u_2 + v_2, ..., u_n + v_n)$$

<img src="https://github.com/financieras/math_for_ai/blob/main/img/vector_5.png?raw=1" alt="suma de vectores" width="320"/>

**Ejemplo:**
- $\vec{u} = (3, 4)$ y $\vec{v} = (1, 2)$
- $\vec{u} + \vec{v} = (3+1, 4+2) = (4, 6)$

In [None]:
u = np.array([3, 4])
v = np.array([1, 2])
print(np.sum([u, v]))           # sumando los dos vectores como ndarrays

print(np.sum([[3, 4], [1, 2]])) # sumando los elementos de una lista de listas

print(np.sum([u, v], axis=0))   # [4,6] sumando los elementos de cada columna
print(np.sum(np.sum([u, v], axis=0)))   # sumando lo anterior con otro np.sum

print(np.sum([u, v], axis=1))   # [7,3] sumando los elementos de cada fila
print(np.sum(np.sum([u, v], axis=1)))   # sumando lo anterior con otro np.sum

10
10
[4 6]
10
[7 3]
10




#### Resta de Vectores
La resta se realiza también componente a componente:

$$\vec{u} - \vec{v} = (u_1 - v_1, u_2 - v_2, ..., u_n - v_n)$$

**Ejemplo:**
- $\vec{u} = (3, 4)$ y $\vec{v} = (1, 2)$
- $\vec{u} - \vec{v} = (3-1, 4-2) = (2, 2)$

### Método Gráfico

#### Suma de Vectores
1. Dibujar el primer vector
2. Desde el final del primer vector, dibujar el segundo vector
3. El vector resultante va desde el origen hasta el final del segundo vector

#### Resta de Vectores
1. Dibujar el primer vector
2. Dibujar el segundo vector en dirección opuesta
3. El vector resultante va desde el origen hasta el final del segundo vector

<img src="https://github.com/financieras/math_for_ai/blob/main/img/vector_6.png?raw=1" alt="resta de vectores" width="320"/>

## Multiplicación por Escalar

La multiplicación de un vector por un escalar $k$ multiplica cada componente del vector por ese número:

Sea el vector $\vec{v} = (v_1, v_2, ..., v_n)$ y $k$ el escalar:

$$k\vec{v} = (kv_1, kv_2, ..., kv_n)$$


<img src="https://github.com/financieras/math_for_ai/blob/main/img/vector_7.png?raw=1" alt="producto por escalar" width="280"/>

**Propiedades**
1. Distributiva respecto a la suma de vectores: $k(\vec{u} + \vec{v}) = k\vec{u} + k\vec{v}$
2. Distributiva respecto a la suma de escalares:: $(k_1 + k_2)\vec{v} = k_1\vec{v} + k_2\vec{v}$
3. Asociativa respecto a la multiplicación de escalares:: $k_1(k_2\vec{v}) = (k_1k_2)\vec{v}$
4. Identidad: $1\vec{v} = \vec{v}$
5. La multiplicación por cero da el vector cero: $0\vec{v} = \vec{0}$

**Ejemplos**

1. **Vector en 2D:**
   - **Ejemplo 1:** Multiplicar el vector $\vec{v} = (3, 4)$ por el escalar $k = 2$.

   $$
   \vec{w} = 2 \vec{v} = (2 \cdot 3, 2 \cdot 4) = (6, 8)
   $$

   - **Ejemplo 2:** Multiplicar el vector $\vec{u} = (-2, 1)$ por el escalar $k = -3$.

   $$
   \vec{w} = -3 \vec{u} = (-3 \cdot -2, -3 \cdot 1) = (6, -3)
   $$

2. **Vector en 3D:**
   - **Ejemplo:** Multiplicar el vector $\vec{w} = (-2, 0, 6)$ por el escalar $k = -\frac{1}{2}$.

   $$\vec{z} =  -\tfrac{1}{2} \vec{w} = (( -\tfrac{1}{2}) \cdot (-2), \, ( -\tfrac{1}{2}) \cdot 0, \, ( -\tfrac{1}{2}) \cdot 6) = (1, 0, -3)$$

## Ejemplos en contexto de IA

### 1. Actualización de Pesos en Redes Neuronales
En el entrenamiento de redes neuronales, los pesos se actualizan mediante:

$$\vec{w}_{\text{nuevo}} = \vec{w}_{\text{actual}} - \alpha\nabla\vec{w}$$

Donde:
- $\vec{w}$ es el vector de pesos
- $\alpha$ es la tasa de aprendizaje (escalar)
- $\nabla\vec{w}$ es el gradiente

### 2. Promedio de Vectores de Características
Para calcular el centroide de un cluster:

$$\vec{c} = \frac{1}{n}\sum_{i=1}^n \vec{x}_i$$

Donde:
- $\vec{x}_i$ son los vectores de características
- $n$ es el número de vectores
- $\vec{c}$ es el vector

<img src="https://github.com/financieras/math_for_ai/blob/main/img/vector_8.webp?raw=1" alt="centroides de clusters" width="420"/>

### 3. Combinación de Embeddings
En procesamiento de lenguaje natural:

$$\vec{v}_{\text{frase}} = \frac{\vec{v}_{\text{palabra1}} + \vec{v}_{\text{palabra2}} + ... + \vec{v}_{\text{palabraN}}}{N}$$

### 4. Normalización de Datos
Escalado de vectores de características:

$$\vec{x}_{\text{normalizado}} = \frac{\vec{x} - \mu}{\sigma}$$

Donde:
- $\mu$ es la media
- $\sigma$ es la desviación estándar

Estas operaciones básicas son fundamentales en muchos algoritmos de IA, desde el preprocesamiento de datos hasta el entrenamiento de modelos complejos.

# 3. Propiedades Fundamentales

## Norma

La norma o magnitud de un vector $\vec{v}$ es una medida de su longitud. En el contexto de machine learning, representa la "fuerza" o "intensidad" de un vector de características.

### Definición Formal
Para un vector $\vec{v} = (v_1, v_2, ..., v_n)$, la norma euclidiana (L2) se define como:

$$\|\vec{v}\| = \sqrt{\sum_{i=1}^n v_i^2}$$

**Ejemplos comunes:**
- En 2D: $\|\vec{v}\| = \sqrt{v_1^2 + v_2^2}$
    - Si $\vec{v} = (3, -4)$ entonces su norma es $\|\vec{v}\| = \sqrt{3^2 + (-4)^2}= \sqrt{9 + 16} = \sqrt{25} = 5$

<img src="https://github.com/financieras/math_for_ai/blob/main/img/vector_9.png?raw=1" alt="norma de un vector 2D" width="280"/>

- En 3D: $\|\vec{v}\| = \sqrt{v_1^2 + v_2^2 + v_3^2}$

### Otras Normas Comunes en ML
1. **Norma L1 (Manhattan):**
   $$\|\vec{v}\|_1 = \sum_{i=1}^n |v_i|$$

<img src="https://github.com/financieras/math_for_ai/blob/main/img/vector_10.png?raw=1" alt="norma Manhattan" width="320"/>

2. **Norma L∞ (Máximo):**
   $$\|\vec{v}\|_∞ = \max_{i} |v_i|$$

## Distancia entre Puntos

La distancia entre dos puntos es crucial en muchos algoritmos de ML, especialmente en clustering y clasificación.

### Distancia Euclidiana
Para dos vectores $\vec{u}$ y $\vec{v}$:

$$d(\vec{u}, \vec{v}) = \|\vec{u} - \vec{v}\| = \sqrt{\sum_{i=1}^n (u_i - v_i)^2}$$

### Otras Métricas de Distancia en ML
1. **Distancia Manhattan:**
   $$d_1(\vec{u}, \vec{v}) = \sum_{i=1}^n |u_i - v_i|$$

2. **Distancia de Coseno:**
   $$d_{\cos}(\vec{u}, \vec{v}) = 1 - \frac{\vec{u} \cdot \vec{v}}{\|\vec{u}\| \|\vec{v}\|}$$

## Normalización y Vectores Unitarios

### Vector Unitario
Un vector unitario tiene norma igual a 1. Se obtiene dividiendo un vector por su norma:

$$\hat{v} = \frac{\vec{v}}{\|\vec{v}\|}$$


**Ejemplos**

1. **Vector en 2D:**
   - **Ejemplo 1:** Normalizar el vector $\vec{v} = (3, 4)$.

   Primero, calculamos la norma de $\vec{v}$:

   $$
   \|\vec{v}\| = \sqrt{3^2 + 4^2} = \sqrt{9 + 16} = \sqrt{25} = 5
   $$

   Luego, dividimos $\vec{v}$ por su norma:

   $$
   \hat{u} = \frac{\vec{v}}{\|\vec{v}\|} = \frac{(3, 4)}{5} = \left(\frac{3}{5}, \frac{4}{5}\right)
   $$

   - **Ejemplo 2:** Normalizar el vector $\vec{u} = (-2, 1)$.

   Primero, calculamos la norma de $\vec{u}$:

   $$
   \|\vec{u}\| = \sqrt{(-2)^2 + 1^2} = \sqrt{4 + 1} = \sqrt{5}
   $$

   Luego, dividimos $\vec{u}$ por su norma:

   $$
   \hat{u} = \frac{\vec{u}}{\|\vec{u}\|} = \frac{(-2, 1)}{\sqrt{5}} = \left(\frac{-2}{\sqrt{5}}, \frac{1}{\sqrt{5}}\right)
   $$

2. **Vector en 3D:**
   - **Ejemplo 1:** Normalizar el vector $\vec{w} = (1, 2, 3)$.

   Primero, calculamos la norma de $\vec{w}$:

   $$
   \|\vec{w}\| = \sqrt{1^2 + 2^2 + 3^2} = \sqrt{1 + 4 + 9} = \sqrt{14}
   $$

   Luego, dividimos $\vec{w}$ por su norma:

   $$
   \hat{u} = \frac{\vec{w}}{\|\vec{w}\|} = \frac{(1, 2, 3)}{\sqrt{14}} = \left(\frac{1}{\sqrt{14}}, \frac{2}{\sqrt{14}}, \frac{3}{\sqrt{14}}\right)
   $$

   - **Ejemplo 2:** Normalizar el vector $\vec{z} = (0, -1, 2)$.

   Primero, calculamos la norma de $\vec{z}$:

   $$
   \|\vec{z}\| = \sqrt{0^2 + (-1)^2 + 2^2} = \sqrt{0 + 1 + 4} = \sqrt{5}
   $$

### Proceso de Normalización
1. **Min-Max Scaling:**
   $$x_{\text{norm}} = \frac{x - x_{\min}}{x_{\max} - x_{\min}}$$

2. **Z-Score Normalization:**
   $$x_{\text{norm}} = \frac{x - \mu}{\sigma}$$

## Aplicaciones en Machine Learning

### 1. Preprocesamiento de Datos
- **Normalización de características:** Asegura que todas las características contribuyan equitativamente al modelo
```python
X_normalized = (X - X.mean()) / X.std()
```

### 2. Medición de Similitud
- **Similitud coseno:** Usada en sistemas de recomendación y procesamiento de texto
```python
similarity = np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))
```

### 3. Algoritmos de Clustering
- **K-means:** Usa distancia euclidiana para agrupar puntos
```python
distance = np.linalg.norm(point - centroid)
```

### 4. Regularización
- **Norma L1 y L2:** Usadas para penalizar pesos grandes en modelos
```python
L1_penalty = np.sum(np.abs(weights))
L2_penalty = np.sqrt(np.sum(weights**2))
```

### 5. Redes Neuronales
- **Normalización de capas:** Mejora la estabilidad del entrenamiento
```python
layer_norm = (layer - layer.mean()) / layer.std()
```

### 6. Embeddings
- **Normalización de word embeddings:** Facilita la comparación de similitud entre palabras
```python
normalized_embedding = embedding / np.linalg.norm(embedding)
```

Las propiedades fundamentales de los vectores son esenciales en machine learning porque:
- Permiten cuantificar similitudes y diferencias entre datos
- Facilitan la optimización de modelos
- Mejoran la estabilidad numérica
- Ayudan en la interpretación de resultados

El entendimiento de estas propiedades es crucial para:
- Diseñar y ajustar modelos efectivamente
- Elegir las métricas apropiadas
- Interpretar resultados correctamente
- Optimizar el rendimiento del modelo

# 4. Productos entre Vectores

## Producto Escalar (Dot Product)

El producto escalar es una operación fundamental en deep learning que produce un escalar a partir de dos vectores.

### Definición
Para dos vectores $\vec{u} = (u_1, u_2, ..., u_n)$ y $\vec{v} = (v_1, v_2, ..., v_n)$:

$$\vec{u} \cdot \vec{v} = \sum_{i=1}^n u_i v_i = u_1v_1 + u_2v_2 + ... + u_nv_n$$

**Ejemplo**

Calcular el producto escalar de $\vec{u} = (1, 2, 3)$ y $\vec{v} = (-4, 5, 6)$.

   $$
   \vec{u} \cdot \vec{v} = 1 \cdot (-4) + 2 \cdot 5 + 3 \cdot 6 = -4 + 10 + 18 = 24
   $$

In [None]:
import numpy as np
v1 = np.array([1,2,3])
v2 = np.array([-4,5,6])     # v1 y v2 deben ser de la misma longitud
print(f"Producto punto: 1*(-4) + 2*5 + 3*6 = {1*(-4) + 2*5 + 3*6}")
print(v1.dot(v2))   # forma clásica de hacer el producto punto de dos vectores
v1 @ v2             # la @ funciona desde la versión 3.5 de Python

Producto punto: 1*(-4) + 2*5 + 3*6 = 24
24


24

### Propiedades
1. **Conmutativa:** $\vec{u} \cdot \vec{v} = \vec{v} \cdot \vec{u}$
2. **Distributiva:** $\vec{u} \cdot (\vec{v} + \vec{w}) = \vec{u} \cdot \vec{v} + \vec{u} \cdot \vec{w}$
3. **Asociativa respecto a la multiplicación por escalar:** $(k\vec{u}) \cdot \vec{v} = k(\vec{u} \cdot \vec{v})$
4. **Producto escalar de un vector consigo mismo:** $\vec{v} \cdot \vec{v} = \|\vec{v}\|^2$

### Ángulo entre Vectores
El producto escalar está relacionado con el ángulo $\theta$ entre dos vectores:

$$\cos \theta = \frac{\vec{u} \cdot \vec{v}}{\|\vec{u}\| \|\vec{v}\|}$$

## Producto Vectorial (Cross Product)

El producto vectorial es menos común en deep learning, pero es importante en ciertas aplicaciones de visión por computador y gráficos.

### Definición
Para vectores en 3D, $\vec{u} = (u_1, u_2, u_3)$ y $\vec{v} = (v_1, v_2, v_3)$:

$$\vec{u} \times \vec{v} = (u_2v_3 - u_3v_2, u_3v_1 - u_1v_3, u_1v_2 - u_2v_1)$$

### Propiedades
1. **Anticonmutativa:** $\vec{u} \times \vec{v} = -(\vec{v} \times \vec{u})$
2. **Distributiva:** $\vec{u} \times (\vec{v} + \vec{w}) = \vec{u} \times \vec{v} + \vec{u} \times \vec{w}$
3. **Escalar:** $(k\vec{u}) \times \vec{v} = k(\vec{u} \times \vec{v})$

## Aplicaciones en Deep Learning

### 1. Capas Densas (Fully Connected)
El producto escalar es la operación básica en las capas densas:

$$y = \vec{w} \cdot \vec{x} + b$$

Donde:
- $\vec{w}$ es el vector de pesos
- $\vec{x}$ es el vector de entrada
- $b$ es el bias
- $y$ es la salida

### 2. Atención y Self-Attention
```python
# Cálculo de scores de atención
attention_scores = torch.matmul(query, key.transpose(-2, -1))
```

### 3. Similitud Coseno
Usada en recuperación de información y sistemas de recomendación:

$$\text{similitud} = \frac{\vec{u} \cdot \vec{v}}{\|\vec{u}\| \|\vec{v}\|}$$

### 4. Convoluciones
Las operaciones de convolución utilizan productos escalares:
```python
# Convolución 2D simplificada
output = torch.sum(input * kernel)
```

### 5. Métricas de Rendimiento
El producto escalar se usa en métricas como:
- Precisión coseno
- Distancia euclidiana al cuadrado
```python
distance = torch.sum((x - y)**2)
```

### 6. Backpropagation
Los gradientes se calculan usando productos escalares:
```python
# Gradiente simplificado
gradient = torch.matmul(error, weights.T)
```

El producto escalar es especialmente importante en deep learning porque:
- Es computacionalmente eficiente
- Se paraleliza bien en GPUs
- Es la base de muchas operaciones de red neuronal
- Permite medir similitudes y diferencias

El producto vectorial es menos común pero útil en:
- Procesamiento de datos 3D
- Visión por computador
- Gráficos por computador
- Robótica y control

La comprensión de estas operaciones es fundamental para:
- Implementar redes neuronales
- Optimizar el rendimiento
- Diseñar nuevas arquitecturas
- Depurar problemas de entrenamiento