# ¿Qué es la similitud del coseno?

La **similitud del coseno** es una métrica empleada para cuantificar la similitud entre dos vectores no nulos en un espacio de producto interior. Se define como el coseno del ángulo entre ellos. Es particularmente útil en el procesamiento de lenguaje natural y en la recuperación de información para medir la similitud entre documentos o textos, ya que su cálculo no se ve afectado por la magnitud de los vectores, sino únicamente por su dirección. Esto permite que documentos de diferentes longitudes pero con temáticas similares sean considerados afines.

---

### Fórmula Matemática

La fórmula para calcular la similitud del coseno entre dos vectores $A$ y $B$ es la siguiente:

$$\text{similitud}(A, B) = \frac{A \cdot B}{\|A\| \|B\|} = \frac{\sum_{i=1}^{n} A_i B_i}{\sqrt{\sum_{i=1}^{n} A_i^2} \sqrt{\sum_{i=1}^{n} B_i^2}}$$

Donde:
* $A \cdot B$: Es el **producto escalar** (o producto punto) de los vectores $A$ y $B$.
* $\|A\|$: Representa la **norma euclidiana** (o magnitud) del vector $A$.
* $\|B\|$: Representa la **norma euclidiana** (o magnitud) del vector $B$.
* $A_i$ y $B_i$: Son los componentes $i$-ésimos de los vectores $A$ y $B$, respectivamente.

---

### Interpretación de los Resultados

El valor de la similitud del coseno se encuentra siempre en el rango de -1 a 1:

* **1:** Indica que los vectores son idénticos en dirección, lo que se traduce en una **similitud perfecta**.
* **0:** Indica que los vectores son ortogonales (perpendiculares), es decir, no tienen relación alguna o son completamente independientes.
* **-1:** Indica que los vectores tienen direcciones completamente opuestas, lo que implica una **total disimilitud**.

En contextos como el procesamiento de lenguaje natural, donde los vectores a menudo representan frecuencias de palabras y sus componentes son no negativos, la similitud del coseno generalmente se encuentra en el rango de 0 a 1, dado que los ángulos entre vectores de este tipo no suelen superar los 90 grados.

In [1]:
import numpy as np

# Definimos dos vectores de ejemplo
# En el contexto de PNL, estos podrían ser representaciones vectoriales
# (embeddings) de documentos o palabras.
vector_a = np.array([1, 1, 0, 1, 0, 1])
vector_b = np.array([1, 1, 1, 0, 1, 0])

print(f"Vector A: {vector_a}")
print(f"Vector B: {vector_b}")

# Paso 1: Calcular el producto escalar (dot product) de los dos vectores
# Fórmula: A . B = sum(Ai * Bi)
dot_product = np.dot(vector_a, vector_b)
print(f"\nProducto escalar (A . B): {dot_product}")

# Paso 2: Calcular la magnitud (norma euclidiana) de cada vector
# Fórmula: ||A|| = sqrt(sum(Ai^2))
norm_a = np.linalg.norm(vector_a)
norm_b = np.linalg.norm(vector_b)
print(f"Magnitud de Vector A (||A||): {norm_a:.4f}")
print(f"Magnitud de Vector B (||B||): {norm_b:.4f}")

# Paso 3: Calcular la similitud del coseno
# Fórmula: similitud(A, B) = (A . B) / (||A|| * ||B||)
# Se añade una verificación para evitar división por cero si alguna norma es 0
if norm_a == 0 or norm_b == 0:
    cosine_similarity = 0.0
    print("\nAl menos uno de los vectores es un vector cero, la similitud del coseno es 0.")
else:
    cosine_similarity = dot_product / (norm_a * norm_b)
    print(f"\nSimilitud del Coseno: {cosine_similarity:.4f}")

# Un enfoque más compacto y común es usar una función:
def calcular_similitud_coseno(vec1, vec2):
    dot_product = np.dot(vec1, vec2)
    norm_vec1 = np.linalg.norm(vec1)
    norm_vec2 = np.linalg.norm(vec2)

    if norm_vec1 == 0 or norm_vec2 == 0:
        return 0.0
    return dot_product / (norm_vec1 * norm_vec2)

print(f"\nSimilitud del Coseno (usando función): {calcular_similitud_coseno(vector_a, vector_b):.4f}")


# Ejemplo con vectores que deberían tener alta similitud (dirección similar)
vector_c = np.array([1, 2, 3])
vector_d = np.array([2, 4, 6]) # Este es un múltiplo de vector_c
print(f"\nVector C: {vector_c}")
print(f"Vector D: {vector_d}")
print(f"Similitud Coseno (C, D): {calcular_similitud_coseno(vector_c, vector_d):.4f}") # Debería ser 1.0

# Ejemplo con vectores con baja similitud (ortogonales o casi)
vector_e = np.array([1, 0, 0])
vector_f = np.array([0, 1, 0])
print(f"\nVector E: {vector_e}")
print(f"Vector F: {vector_f}")
print(f"Similitud Coseno (E, F): {calcular_similitud_coseno(vector_e, vector_f):.4f}") # Debería ser 0.0

Vector A: [1 1 0 1 0 1]
Vector B: [1 1 1 0 1 0]

Producto escalar (A . B): 2
Magnitud de Vector A (||A||): 2.0000
Magnitud de Vector B (||B||): 2.0000

Similitud del Coseno: 0.5000

Similitud del Coseno (usando función): 0.5000

Vector C: [1 2 3]
Vector D: [2 4 6]
Similitud Coseno (C, D): 1.0000

Vector E: [1 0 0]
Vector F: [0 1 0]
Similitud Coseno (E, F): 0.0000


# ¿Los elementos individuales de los vectores tienen que estar normalizados?

---

Cuando hablamos de "elementos" de un vector en el contexto de la similitud del coseno, nos referimos a los valores individuales que componen el vector (por ejemplo, las frecuencias de palabras en un vector de conteo, o los valores de características numéricas).

**No, los elementos individuales de los vectores no tienen que estar normalizados previamente.**

La normalización en el contexto de la similitud del coseno se refiere a la **normalización de la magnitud del vector completo**, no a la escala de sus componentes individuales. La fórmula de la similitud del coseno ya se encarga de este aspecto:

$$\text{similitud}(A, B) = \frac{A \cdot B}{\|A\| \|B\|}$$

Aquí, $\|A\|$ y $\|B\|$ son las **normas euclidianas (magnitudes) de los vectores completos**. Al dividir por estas magnitudes, el cálculo inherentemente "normaliza" los vectores para que su longitud no influya en la similitud. Esto significa que si tienes un vector $A = [1, 2, 3]$ y un vector $B = [2, 4, 6]$, sus elementos no están normalizados individualmente en el sentido de que no suman 1 ni están en un rango específico como [0, 1]. Sin embargo, la similitud del coseno entre ellos será 1, porque apuntan en la misma dirección, a pesar de que $B$ es el doble de "grande" que $A$.

### Diferencia con otras normalizaciones

Es importante no confundir esta propiedad con otras formas de normalización que se usan en preprocesamiento de datos, como:

* **Normalización Min-Max:** Escala los valores a un rango específico (ej. [0, 1]).
* **Estandarización (Z-score):** Transforma los datos para que tengan una media de 0 y una desviación estándar de 1.
* **Normalización L1:** Escala el vector para que la suma de sus valores absolutos sea 1.

Estas otras normalizaciones se aplican a los elementos de los vectores por diferentes razones (por ejemplo, para que un algoritmo de aprendizaje automático no se vea sesgado por la escala de ciertas características), pero **no son un requisito previo para que la similitud del coseno funcione correctamente**. La similitud del coseno está diseñada para funcionar directamente con los valores originales de los elementos, ya que su propia fórmula maneja la "normalización de dirección".

# ¿Puedo darle más peso a algunos elementos de los vectores que a otros en la similitud del coseno?

---

**Sí, puedes darle más peso a ciertos elementos de los vectores que a otros** al calcular la similitud del coseno. Esto se logra mediante una técnica llamada **ponderación** antes de aplicar la fórmula de la similitud del coseno.

La similitud del coseno estándar trata a todos los elementos del vector por igual. Sin embargo, en muchas aplicaciones (especialmente en procesamiento de lenguaje natural o sistemas de recomendación), algunos atributos o términos pueden ser más importantes que otros para determinar la similitud.

### ¿Cómo se aplica la ponderación?

La ponderación se aplica multiplicando los elementos del vector por un factor de peso. Hay varias formas de hacerlo:

1.  **Ponderación Directa de Elementos:**
    Puedes multiplicar cada elemento del vector por un peso específico que refleje su importancia. Por ejemplo, si tienes vectores de características donde la característica `X` es más importante que la característica `Y`, simplemente multiplicas el valor de `X` por un peso mayor.

    * **Ejemplo en PNL (TF-IDF):** Un método muy común es usar la ponderación TF-IDF (Term Frequency-Inverse Document Frequency). Aquí, los elementos del vector (que representan palabras) se ponderan no solo por su frecuencia en el documento (`TF`) sino también por su rareza o importancia en todo el corpus de documentos (`IDF`). Las palabras que aparecen en muchos documentos (y son menos distintivas, como "el", "la") obtienen un peso bajo de IDF, mientras que las palabras raras y distintivas obtienen un peso alto.

2.  **Ponderación mediante una Matriz Diagonal:**
    Si estás trabajando con transformaciones matriciales, podrías pensar en una matriz diagonal donde los elementos de la diagonal son los pesos. Al multiplicar tus vectores por esta matriz, estarías aplicando la ponderación. Sin embargo, para la mayoría de los casos prácticos, la ponderación directa de elementos es más sencilla.

### Ejemplo conceptual con ponderación:

Imagina que tienes dos documentos representados por vectores de conteo de palabras, y sabes que la palabra "algoritmo" es mucho más relevante que la palabra "y" para determinar la similitud temática.

* **Vector Documento 1 (original):** `[frec_algoritmo, frec_y, frec_dato]`
* **Vector Documento 2 (original):** `[frec_algoritmo, frec_y, frec_dato]`

Si decides que "algoritmo" debe tener el doble de peso, aplicarías una ponderación así:

* **Vector Documento 1 (ponderado):** `[frec_algoritmo * 2, frec_y * 1, frec_dato * 1]`
* **Vector Documento 2 (ponderado):** `[frec_algoritmo * 2, frec_y * 1, frec_dato * 1]`

Luego, calculas la similitud del coseno sobre estos **vectores ponderados**.

### Consideraciones

* **Justificación de los Pesos:** La clave es tener una buena razón o un método fundamentado (como TF-IDF) para determinar qué pesos asignar a cada elemento. Los pesos suelen derivarse del dominio del problema, análisis de datos o algoritmos de aprendizaje.
* **Impacto en la Interpretación:** Al ponderar, el concepto de "similitud direccional" sigue siendo el mismo, pero ahora esa dirección está influenciada más fuertemente por los elementos a los que se les dio mayor peso.

En conclusión, la ponderación es una técnica poderosa para refinar el cálculo de la similitud del coseno, permitiendo que la importancia relativa de las características influya en el resultado final.

# Ejemplo en Python de ponderación de elementos en la similitud del coseno

---

Aquí te muestro cómo puedes aplicar ponderación a los elementos de tus vectores antes de calcular la similitud del coseno. Usaremos un ejemplo donde ciertos "términos" o "características" son más importantes que otros.

Imagina que estás analizando la similitud entre dos reseñas de películas, y sabes que las palabras relacionadas con la "trama" son más importantes que las relacionadas con el "casting" o la "banda sonora" para determinar si las reseñas son similares en contenido.


In [2]:
import numpy as np

# Definimos dos vectores de ejemplo (representan reseñas de películas)
# Supongamos que los elementos corresponden a:
# [ 'acción', 'trama', 'personajes', 'casting', 'música' ]
vector_reseña_1 = np.array([2, 5, 1, 3, 1])
vector_reseña_2 = np.array([1, 4, 2, 2, 0])

print(f"Vector Reseña 1 (original): {vector_reseña_1}")
print(f"Vector Reseña 2 (original): {vector_reseña_2}")

# --- Calculamos la similitud del coseno SIN ponderación ---
def calcular_similitud_coseno(vec1, vec2):
    dot_product = np.dot(vec1, vec2)
    norm_vec1 = np.linalg.norm(vec1)
    norm_vec2 = np.linalg.norm(vec2)

    if norm_vec1 == 0 or norm_vec2 == 0:
        return 0.0
    return dot_product / (norm_vec1 * norm_vec2)

similitud_sin_ponderacion = calcular_similitud_coseno(vector_reseña_1, vector_reseña_2)
print(f"\n--- Similitud SIN PONDERACIÓN: {similitud_sin_ponderacion:.4f} ---\n")

# --- Aplicamos PONDERACIÓN a los elementos ---
# Queremos darle más peso a 'trama' (índice 1) y 'personajes' (índice 2)
# y menos peso a 'casting' (índice 3) y 'música' (índice 4).
# Los pesos deben ser arrays numpy para la multiplicación elemento a elemento.
# [ 'acción', 'trama', 'personajes', 'casting', 'música' ]
pesos = np.array([1.0, 2.5, 1.8, 0.5, 0.7]) # Ajusta estos pesos según tu necesidad

print(f"Pesos aplicados: {pesos}")

# Aplicar los pesos a cada vector multiplicando elemento a elemento
vector_reseña_1_ponderado = vector_reseña_1 * pesos
vector_reseña_2_ponderado = vector_reseña_2 * pesos

print(f"\nVector Reseña 1 (ponderado): {vector_reseña_1_ponderado}")
print(f"Vector Reseña 2 (ponderado): {vector_reseña_2_ponderado}")

# --- Calculamos la similitud del coseno CON ponderación ---
similitud_con_ponderacion = calcular_similitud_coseno(vector_reseña_1_ponderado, vector_reseña_2_ponderado)
print(f"\n--- Similitud CON PONDERACIÓN: {similitud_con_ponderacion:.4f} ---\n")

# --- Análisis del resultado ---
print("Análisis:")
print(f"- Sin ponderación, la similitud fue: {similitud_sin_ponderacion:.4f}")
print(f"- Con ponderación, la similitud fue: {similitud_con_ponderacion:.4f}")
if similitud_con_ponderacion > similitud_sin_ponderacion:
    print("  La similitud con ponderación es mayor, lo que indica que las características importantes (trama, personajes) hicieron que las reseñas se percibieran como más similares.")
elif similitud_con_ponderacion < similitud_sin_ponderacion:
    print("  La similitud con ponderación es menor, lo que indica que las características importantes hicieron que las reseñas se percibieran como menos similares.")
else:
    print("  La ponderación no alteró significativamente la similitud en este caso específico.")


Vector Reseña 1 (original): [2 5 1 3 1]
Vector Reseña 2 (original): [1 4 2 2 0]

--- Similitud SIN PONDERACIÓN: 0.9487 ---

Pesos aplicados: [1.  2.5 1.8 0.5 0.7]

Vector Reseña 1 (ponderado): [ 2.  12.5  1.8  1.5  0.7]
Vector Reseña 2 (ponderado): [ 1.  10.   3.6  1.   0. ]

--- Similitud CON PONDERACIÓN: 0.9764 ---

Análisis:
- Sin ponderación, la similitud fue: 0.9487
- Con ponderación, la similitud fue: 0.9764
  La similitud con ponderación es mayor, lo que indica que las características importantes (trama, personajes) hicieron que las reseñas se percibieran como más similares.
