# Distancia Coseno
> Daniel Acosta
- Mide el **ángulo entre dos vectores**.
- Útil cuando importa la **dirección** más que la magnitud.
- Común en minería de texto y sistemas de recomendación.




## Elementos
- [Suma de vectores](https://www.geogebra.org/m/fhYh9Sqp)
- [Función trigonometrica](https://www.geogebra.org/m/HdnfNmwA): $\text{coseno}(\theta)=\frac{\text{cateto adyacente}}{\text{hipotenusa}}$


## ¿Cómo se calcula la distancia?

$$d(x, y) = 1 - \text{coseno}(x, y)$$

$$\text{coseno}(x, y) = \frac{x \cdot y}{\|x\| \|y\|}$$

## Ejemplos en Python

In [1]:
import numpy as np

### Ejemplo 1

Tenemos dos vectores:

$$
x = (2, 3) \quad y = (4, 1)
$$


In [2]:
x = np.array([2, 3])
y = np.array([4, 1])

#### Producto punto

$$
x \cdot y = (2 \times 4) + (3 \times 1) = 11
$$

In [3]:
sum(x * y)

np.int64(11)

In [4]:
x @ y

np.int64(11)

In [5]:
np.dot(x, y)

np.int64(11)

In [6]:
producto_punto = np.dot(x, y)

#### Normas

$$
\|x\| = \sqrt{2^2 + 3^2} = \sqrt{13} \approx 3.603
$$

$$
\|y\| = \sqrt{4^2 + 1^2} = \sqrt{17} \approx 4.123
$$

In [7]:
print (np.sqrt(sum(x**2)))
print (np.sqrt(sum(y**2)))

3.605551275463989
4.123105625617661


In [8]:
print(np.linalg.norm(x))
print(np.linalg.norm(y))

3.605551275463989
4.123105625617661


In [9]:
norma_x = np.linalg.norm(x)
norma_y = np.linalg.norm(y)

#### Similitud coseno
$$
\text{coseno}(x, y) = \frac{11}{\sqrt{13} \times \sqrt{17}} \approx 0.739
$$

In [10]:
coseno = producto_punto / (norma_x * norma_y)
print(coseno)

0.7399400733959438


In [11]:
def fcoseno(x,y):
    return np.dot(x, y) / ( np.linalg.norm(x) *  np.linalg.norm(y))

In [12]:
print (fcoseno(x,y))

0.7399400733959438


#### Distancia coseno

$$
d(x, y) = 1 - 0.7339 \approx 0.26
$$

In [13]:
print (1- coseno)

0.2600599266040562


In [14]:
def fdcoseno(x,y):
    return 1 - fcoseno(x,y)

In [15]:
print (fdcoseno(x,y))

0.2600599266040562


### Ejemplo 2
Tenemos los vectores:
$$
x = (3, 2, 0, 5) \quad \text{y} \quad y = (1, 0, 0, 0)
$$

In [16]:
x = np.array([3, 2, 0, 5])
y = np.array([1, 0, 0, 0])

#### Producto punto
$$
x \cdot y = (3 \times 1) + (2 \times 0) + (0 \times 0) + (5 \times 0) = 3
$$

In [17]:
print(np.dot(x, y))

3


#### Normas
$$
\|x\| = \sqrt{3^2 + 2^2 + 0^2 + 5^2} = \sqrt{38} \approx 6.16
$$

$$
\|y\| = \sqrt{1^2 + 0^2 + 0^2 + 0^2} = 1
$$

In [18]:
print(np.linalg.norm(x))
print(np.linalg.norm(y))

6.164414002968976
1.0


#### Similitud coseno
$$
\text{coseno}(x, y) = \frac{3}{\sqrt{38} \times 1} \approx 0.4867
$$

In [19]:
print (fcoseno(x,y))

0.48666426339228763


#### Distancia coseno
$$
\text{coseno}(x, y) = \frac{3}{\sqrt{38} \times 1} \approx 0.4867
$$

In [20]:
print (fdcoseno(x,y))

0.5133357366077124


## Librerías de Python


### scipy


In [21]:
from scipy.spatial.distance import cosine

x = np.array([3, 2, 0, 5])
y = np.array([1, 0, 0, 0])

distancia = cosine(x, y)

print(distancia)


0.5133357366077124


### scikit-learn

In [22]:
from sklearn.metrics.pairwise import cosine_similarity

x = np.array([3, 2, 0, 5])
y = np.array([1, 0, 0, 0])


print (cosine_similarity(x, y))


ValueError: Expected 2D array, got 1D array instead:
array=[3. 2. 0. 5.].
Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample.

In [None]:
cosine_similarity?

In [23]:


x = np.array([[3, 2, 0, 5]])
y = np.array([[1, 0, 0, 0]])


print (cosine_similarity(x, y))

[[0.48666426]]


In [24]:
print (1 - cosine_similarity(x, y))

[[0.51333574]]


## Comparando frases

[Los siete samuráis 1954](https://www.imdb.com/es/title/tt0047478/?ref_=nv_sr_srsg_0_tt_8_nm_0_in_0_q_7%2520samu) : "Un pobre pueblo bajo la amenaza de unos bandidos recluta a siete samuráis para ayudarles a defenderse."

[Los siete magníficos 1960](https://www.imdb.com/es/title/tt0054047/?ref_=nv_sr_srsg_3_tt_8_nm_0_in_0_q_siete%2520magnificos) : "Un pueblo campesino mexicano contrata a siete pistoleros para que protejan sus hogares."

[Los siete magníficos 2016](https://www.imdb.com/es/title/tt2404435/?ref_=nv_sr_srsg_0_tt_8_nm_0_in_0_q_los%2520siete%2520ma) : "Siete pistoleros del antiguo oeste forman equipo para ayudar a un pobre pueblo contra unos ladrones salvajes."

In [25]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity

frases = [ "Un pobre pueblo bajo la amenaza de unos bandidos recluta a siete samuráis para ayudarles a defenderse",
          "Un pueblo campesino mexicano contrata a siete pistoleros para que protejan sus hogares",
          "Siete pistoleros del antiguo oeste forman equipo para ayudar a un pobre pueblo contra unos ladrones salvajes"
         ]

Convertir texto a vectores (bolsa de palabras)

In [27]:
vectorizador = CountVectorizer()
X = vectorizador.fit_transform(frases)
X

<Compressed Sparse Row sparse matrix of dtype 'int64'
	with 43 stored elements and shape (3, 32)>

Mostrar vectores (bolsas de palabras)

In [29]:
print("Vocabulario:", vectorizador.get_feature_names_out())
print("Matriz de vectores:\n", X.toarray())

Vocabulario: ['amenaza' 'antiguo' 'ayudar' 'ayudarles' 'bajo' 'bandidos' 'campesino'
 'contra' 'contrata' 'de' 'defenderse' 'del' 'equipo' 'forman' 'hogares'
 'la' 'ladrones' 'mexicano' 'oeste' 'para' 'pistoleros' 'pobre' 'protejan'
 'pueblo' 'que' 'recluta' 'salvajes' 'samuráis' 'siete' 'sus' 'un' 'unos']
Matriz de vectores:
 [[1 0 0 1 1 1 0 0 0 1 1 0 0 0 0 1 0 0 0 1 0 1 0 1 0 1 0 1 1 0 1 1]
 [0 0 0 0 0 0 1 0 1 0 0 0 0 0 1 0 0 1 0 1 1 0 1 1 1 0 0 0 1 1 1 0]
 [0 1 1 0 0 0 0 1 0 0 0 1 1 1 0 0 1 0 1 1 1 1 0 1 0 0 1 0 1 0 1 1]]


Calcular similitud coseno

In [30]:
similitud = cosine_similarity(X)

print(f"\nMatriz de similitud coseno:\n{similitud}")



Matriz de similitud coseno:
[[1.         0.2981424  0.38729833]
 [0.2981424  1.         0.36084392]
 [0.38729833 0.36084392 1.        ]]


In [31]:
distancia = 1 - similitud

print(f"\nMatriz de distancias coseno:\n{distancia}")


Matriz de distancias coseno:
[[ 2.22044605e-16  7.01857603e-01  6.12701665e-01]
 [ 7.01857603e-01 -2.22044605e-16  6.39156082e-01]
 [ 6.12701665e-01  6.39156082e-01  0.00000000e+00]]


## Comparando frases 2

In [32]:
frases = [ "Más vale tarde que nunca",
          "Es mejor llegar tarde que no llegar"
         ]

In [34]:
vectorizador = CountVectorizer()
X = vectorizador.fit_transform(frases)
X

<Compressed Sparse Row sparse matrix of dtype 'int64'
	with 11 stored elements and shape (2, 9)>

In [35]:
print("Vocabulario:", vectorizador.get_feature_names_out())
print("Matriz de vectores:\n", X.toarray())

Vocabulario: ['es' 'llegar' 'mejor' 'más' 'no' 'nunca' 'que' 'tarde' 'vale']
Matriz de vectores:
 [[0 0 0 1 0 1 1 1 1]
 [1 2 1 0 1 0 1 1 0]]


In [36]:
similitud = cosine_similarity(X)

print(f"\nMatriz de similitud coseno:\n{similitud}")


Matriz de similitud coseno:
[[1.        0.2981424]
 [0.2981424 1.       ]]


### Comparando frases 3

In [38]:
frases = ["Vamos al cine",
          "Vamos al teatro"
         ]

vectorizador = CountVectorizer()
X = vectorizador.fit_transform(frases)

print("Vocabulario:", vectorizador.get_feature_names_out())
print("Matriz de vectores:\n", X.toarray())

similitud = cosine_similarity(X)

print(f"\nMatriz de similitud coseno:\n{similitud}")

Vocabulario: ['al' 'cine' 'teatro' 'vamos']
Matriz de vectores:
 [[1 1 0 1]
 [1 0 1 1]]

Matriz de similitud coseno:
[[1.         0.66666667]
 [0.66666667 1.        ]]


### Comparando frases 4


In [39]:
frases = ["Un gato en el tejado",
          "Un gato en la azotea"
         ]

vectorizador = CountVectorizer()
X = vectorizador.fit_transform(frases)

print("Vocabulario:", vectorizador.get_feature_names_out())
print("Matriz de vectores:\n", X.toarray())

similitud = cosine_similarity(X)

print(f"\nMatriz de similitud coseno:\n{similitud}")

Vocabulario: ['azotea' 'el' 'en' 'gato' 'la' 'tejado' 'un']
Matriz de vectores:
 [[0 1 1 1 0 1 1]
 [1 0 1 1 1 0 1]]

Matriz de similitud coseno:
[[1.  0.6]
 [0.6 1. ]]
