In [None]:
import numpy as np

In [None]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

# **Datos**

In [4]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

**1 - Obtener el vocabulario del corpus (los términos utilizados)**

In [5]:
lista_terminos = np.char.split(corpus, sep=' ')
vocabulario = []
for item in lista_terminos:
    vocabulario += item
vocabulario = np.unique(vocabulario)   
print('Vocabulario:  ', vocabulario)

Vocabulario:   ['de' 'dia' 'el' 'es' 'gracias' 'hoy' 'martes' 'muchas' 'que']


**2- OneHot encoding**

In [8]:
one_hot = np.empty((corpus.size,vocabulario.size), int)
matriz = np.empty((0,3))
for palabra in vocabulario:
  lista = []
  for oracion in corpus:
   lista.append(int(palabra in oracion.split()))
   
  matriz = np.append(matriz, np.array([lista]), axis=0)
print("  #### Onehot encoding ####")
print(matriz.transpose())  

  #### Onehot encoding ####
[[0. 1. 0. 1. 0. 1. 0. 0. 1.]
 [1. 1. 1. 1. 0. 1. 1. 0. 0.]
 [0. 0. 0. 0. 1. 0. 1. 1. 0.]]


**3- Vectores de frecuencia**

In [10]:
tf = np.empty((corpus.size,vocabulario.size), int)
matriz = np.empty((0,3))
for palabra in vocabulario:
  lista = []
  for oracion in corpus:
   suma = 0
   for valor in oracion.split():
     if valor == palabra:
       suma += 1
   lista.append(suma)
   
  matriz = np.append(matriz, np.array([lista]), axis=0)
print("  #### Vector de Frecuecia ####")
tf = matriz.transpose()
print(tf)  

  #### Vector de Frecuecia ####
[[0. 1. 0. 1. 0. 1. 0. 0. 1.]
 [1. 1. 1. 1. 0. 1. 2. 0. 0.]
 [0. 0. 0. 0. 1. 0. 1. 1. 0.]]


**4- TF-IDF**


In [19]:
lista = []
longitud = len(corpus)
for palabra in vocabulario:
  frecuencia = 0
  for oracion in corpus:
    if palabra in oracion.split():
      frecuencia += 1

  lista.append(longitud / frecuencia)
idf = np.log10(lista)
print("########################### Factor IDF ###########################")
print(idf)
print("########################### TF-IDF ###############################")
tf_idf = tf * idf
print(tf_idf)

########################### Factor IDF ###########################
[0.47712125 0.17609126 0.47712125 0.17609126 0.47712125 0.17609126
 0.17609126 0.47712125 0.47712125]
########################### TF-IDF ###############################
[[0.         0.17609126 0.         0.17609126 0.         0.17609126
  0.         0.         0.47712125]
 [0.47712125 0.17609126 0.47712125 0.17609126 0.         0.17609126
  0.35218252 0.         0.        ]
 [0.         0.         0.         0.         0.47712125 0.
  0.17609126 0.47712125 0.        ]]


**5 - Comparación de documentos**

In [30]:
def comparacion_documentos(cor, index):
  resultado = []
  a = tf_idf[index]
  for idx in range(0, len(corpus)):
    resultado.append(cosine_similarity(a, tf_idf[idx]))
  
  return resultado  
    


print("Corpus : ",corpus)
print("Comparar contra el documento en el índice nro 0")
similitud = comparacion_documentos(corpus, 0)
print("########## Vector similitud de coseno ##########")
print(similitud)
print("##### Documentos ordenados ##########")
sort_index = np.argsort(similitud)
corpus[sort_index[::-1].argsort()]

Corpus :  ['que dia es hoy' 'martes el dia de hoy es martes' 'martes muchas gracias']
Comparar contra el documento en el índice nro 0
########## Vector similitud de coseno ##########
[0.9999999999999998, 0.20034190268098703, 0.0]
##### Documentos ordenados ##########


array(['que dia es hoy', 'martes el dia de hoy es martes',
       'martes muchas gracias'], dtype='<U30')

In [29]:

print("Corpus : ",corpus)
print("Comparar contra el documento en el índice nro 1")
similitud = comparacion_documentos(corpus, 1)
print("########## Vector similitud de coseno ##########")
print(similitud)
print("##### Documentos ordenados ##########")
sort_index = np.argsort(similitud)
corpus[sort_index[::-1].argsort()]

Corpus :  ['que dia es hoy' 'martes el dia de hoy es martes' 'martes muchas gracias']
Comparar contra el documento en el índice nro 1
########## Vector similitud de coseno ##########
[0.20034190268098703, 1.0000000000000002, 0.10845711727883083]
##### Documentos ordenados ##########


array(['martes el dia de hoy es martes', 'que dia es hoy',
       'martes muchas gracias'], dtype='<U30')

In [31]:

print("Corpus : ",corpus)
print("Comparar contra el documento en el índice nro 2")
similitud = comparacion_documentos(corpus, 2)
print("########## Vector similitud de coseno ##########")
print(similitud)
print("##### Documentos ordenados ##########")
sort_index = np.argsort(similitud)
corpus[sort_index[::-1].argsort()]

Corpus :  ['que dia es hoy' 'martes el dia de hoy es martes' 'martes muchas gracias']
Comparar contra el documento en el índice nro 2
########## Vector similitud de coseno ##########
[0.0, 0.10845711727883083, 0.9999999999999999]
##### Documentos ordenados ##########


array(['martes muchas gracias', 'martes el dia de hoy es martes',
       'que dia es hoy'], dtype='<U30')