# Taller computacional Vectores en $\mathbb{R}^n$

Objetivo: Utilizar un ejemplo práctico de procesamiento de texto para visualizar y comprender conceptos fundamentales de álgebra lineal como vectores en $\mathbb{R}^n$, bases, dimensión e independencia/dependencia lineal.

Ene l procesamiento de texto, en sus inicios se uso la representación de documentos como una bolsa de palabras, donde cada documento se representaba como un vector en $\mathbb{R}^n$ y cada palabra como una dimensión. En este taller, utilizaremos un conjunto de documentos para ilustrar estos conceptos.


Para realizar esto a cada documento se le hace un preprocesamiento, que consiste en:

1. **Tokenización**: Separar el texto en palabras o tokens.
2. **Lematización**: Reducir las palabras a su forma base o lema.
3. **Eliminación de stopwords**: Quitar palabras comunes que no aportan significado (como "y", "el", "de").
4. **Vectorización**: Representar cada documento como un vector en $\mathbb{R}^n$ donde $n$ es el número de palabras únicas en el conjunto de documentos.
5. **Normalización**: Escalar los vectores para que tengan una longitud de 1 (opcional).

## Ejemplo práctico


Supongamos que nuestro documento es el siguiente:

"la casa es grande y la casa es azul"

### Paso 1: Tokenización

En la tokenización, separamos el texto en palabras. En este caso, obtenemos:

```
["la", "casa", "es", "grande", "y", "la", "casa", "es", "azul"]
```
### Paso 2: Lematización
La lematización consiste en reducir las palabras a su forma base. En este caso, podemos obtener:

```
["la", "casa", "ser", "grande", "y", "la", "casa", "ser", "azul"]
```
### Paso 3: Eliminación de stopwords
En este paso, eliminamos las palabras que no aportan significado. En este caso, eliminamos "la", "y" y "es". Obtenemos:

```
["casa", "grande", "casa", "azul"]
```
### Paso 4: Vectorización
Ahora, representamos cada documento como un vector en $\mathbb{R}^n$. Para esto, creamos un vocabulario con las palabras únicas del documento. En este caso, el vocabulario es:

```
["casa", "grande", "azul"]
```
Ahora, representamos el documento como un vector en $\mathbb{R}^3$ (ya que tenemos 3 palabras únicas):

```
[2, 1, 1]
```
### Paso 5: Normalización
Finalmente, normalizamos el vector para que tenga una longitud de 1. La longitud del vector es:
$$
\sqrt{2^2 + 1^2 + 1^2} = \sqrt{4 + 1 + 1} = \sqrt{6}
$$
Por lo tanto, el vector normalizado es:
$$
\left[\frac{2}{\sqrt{6}}, \frac{1}{\sqrt{6}}, \frac{1}{\sqrt{6}}\right]
$$

## Ejemplo práctico en Python

In [8]:
# Para realizar este este ejercicio usaremos algunas librerías de Python
# que nos ayudarán a realizar la manipulación de datos y la visualización
import numpy as np
import pandas as pd
from nltk.tokenize import RegexpTokenizer

In [9]:
# Textos del ejemplo 

texts = [
    "El perro corre",                        # Texto 1
    "El perro corre en el parque",           # Texto 2
    "El gato duerme en la casa tranquila",  # Texto 3
    "El gato duerme en la casa",             # Texto 4
    "Los estudiantes estudian álgebra lineal" # Texto 5
]


In [10]:


# Preprocesamiento

tokenizer = RegexpTokenizer(r'\w+')
# Generar las Stop words
# En este caso, las stop words son palabras comunes que no aportan mucho significado
stop_words = {"el", "la", "los", "las", "en", "y", "de", "a", "es", "una", "un", "que"}

# Tokenizar y eliminar stop words
processed = [
    [t for t in tokenizer.tokenize(txt.lower()) if t not in stop_words]
    for txt in texts
]

# Construir vocabulario
vocab = sorted({word for tokens in processed for word in tokens})

# Construir matriz término-documento (filas=vocab, columnas=textos)
term_doc = np.array([[tokens.count(w) for tokens in processed] for w in vocab])



In [11]:
vocab 

['casa',
 'corre',
 'duerme',
 'estudian',
 'estudiantes',
 'gato',
 'lineal',
 'parque',
 'perro',
 'tranquila',
 'álgebra']

In [12]:
term_doc # Matriz término-documento

array([[0, 0, 1, 1, 0],
       [1, 1, 0, 0, 0],
       [0, 0, 1, 1, 0],
       [0, 0, 0, 0, 1],
       [0, 0, 0, 0, 1],
       [0, 0, 1, 1, 0],
       [0, 0, 0, 0, 1],
       [0, 1, 0, 0, 0],
       [1, 1, 0, 0, 0],
       [0, 0, 1, 0, 0],
       [0, 0, 0, 0, 1]])

**Nots** Recuerda que una matriz 
$$A=\begin{bmatrix}
1 & 2 & 3 \\
4 & 5 & 6 \\
7 & 8 & 9
\end{bmatrix}$$

se puede representar en Python como un array de numpy
```python
import numpy as np
A = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
```
y si queremos acceder a la columna $2$
```python
A[:, 1]
```
y si queremos acceder a la fila $2$
```python
A[1, :]
```


Note que aquí la primera columna de la matriz indica indica la frecuencia de la palabra que aparece en el texto 1, la segunda columna la frecuencia de la palabra que aparece en el texto 2 y así sucesivamente. 

**Ejercicio 1**: Las columnas de esta matriz son linealmente independientes. ¿Por qué? ¿Qué significa esto en el contexto de la representación de documentos como vectores en $\mathbb{R}^n$? ¿Cual es la dimensión del espacio generado por las columnas de la matriz?


En algebra lineal computacional se acostumbra a trabajar con vectores normalizados esto es porque se busca que la longitud de los vectores sea 1. Lo cual hace que se disminuya los errores de redondeo y se pueda trabajar con una mayor precisión.

**Ejercicio 2**: Normalice los vectores de la matriz anterior y genere una nueva matriz con los vectores normalizados. Recuerde que la normalización de un vector $v$ se hace dividiendo cada componente del vector por la longitud del vector. La longitud de un vector $v$ en $\mathbb{R}^n$ en 'python' se puede calcular como:

```python
import numpy as np
v = np.array([2, 1, 1])
longitud = np.linalg.norm(v)
v_normalizado = v / longitud
print(v_normalizado)
```

## Coseno  entre vectores 

El coseno entre dos vectores $u$ y $v$ en $\mathbb{R}^n$ se puede calcular utilizando el producto punto y la longitud de los vectores. La fórmula es:

$$
\cos(\theta) = \frac{u \cdot v}{||u|| \cdot ||v||}
$$

Donde $u \cdot v$ es el producto punto de los vectores $u$ y $v$, y $||u||$ y $||v||$ son las longitudes de los vectores $u$ y $v$, respectivamente.
El ángulo $\theta$ se puede obtener utilizando la función `np.arccos` de NumPy, que devuelve el ángulo en radianes. Para convertirlo a grados, se puede usar la función `np.degrees`.

**Ejercicio 3**: Calcule el coseno entre cada uno de los vectores del ejercicio 2. Lea atentamente las frases y el resultado que obtiene. ¿Qué relación existe entre el coseno de los vectores y el significado de cada uno de los documentos? **Nota** Recuerde que el valor del coseno entre dos vectores es un número entre -1 y 1. Un valor de 1 indica que los vectores son paralelos y apuntan en la misma dirección, un valor de -1 indica que son paralelos pero apuntan en direcciones opuestas, y un valor de 0 indica que son ortogonales (perpendiculares) entre sí.



**Ejercicio 4** ¿Qué conjunto forma la base de este espacio vectorial de textos? Si añadiéramos una nueva frase como "La inteligencia artificial aprende rápido", ¿cómo cambiaría la base y la dimensión del espacio vectorial?



**Ejercicio 5** Inventa una frase que pueda ser producto de la combinacion lineal unicamente de la tercera y cuarta columna de la matriz generada en el ejercicio 2.

Aunque en la actualidad esta técnica de representación de documentos ha sido reemplazada por técnicas más avanzadas como TF-IDF y Word Embeddings, sigue siendo una buena forma de entender los conceptos fundamentales de álgebra lineal y su aplicación en el procesamiento de texto.
## Referencias
- Albright, S. C., Winston, W. L., & Zapp, A. (2011). Data analysis and decision making (4th ed.). Cengage Learning.
- Bishop, C. M. (2006). Pattern recognition and machine learning. Springer.
- Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep learning. MIT Press.