<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Word2vect


In [1]:
import numpy as np

In [2]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [3]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [7]:
docum = []
sum_words = []

for doc in range(len(corpus)):
  words = np.char.split(corpus[doc], ' ').item()
  sum_words += words
  docum.append(words)

terminos = np.fromiter(set(sum_words), 'U10')

print('Documentos como lista de términos:\n')
print(docum)

print('\nVector de términos:\n')
print(terminos)

Documentos como lista de términos:

[['que', 'dia', 'es', 'hoy'], ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'], ['martes', 'muchas', 'gracias']]

Vector de términos:

['el' 'es' 'martes' 'muchas' 'de' 'gracias' 'hoy' 'que' 'dia']


### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [8]:
ohe = np.zeros((len(corpus),len(terminos)))

for doc in range(len(corpus)):
  ohe_doc = np.zeros(len(terminos))
  for word in docum[doc]:
    ohe_doc[np.argwhere(word == terminos).item()] = 1
  ohe[doc] = ohe_doc 

print('Matriz de OHE:\n')
print(ohe)

Matriz de OHE:

[[0. 1. 0. 0. 0. 0. 1. 1. 1.]
 [1. 1. 1. 0. 1. 0. 1. 0. 1.]
 [0. 0. 1. 1. 0. 1. 0. 0. 0.]]


### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [9]:
frec = np.zeros((len(corpus), len(terminos)))

for doc in range(len(corpus)):
  frec_doc = np.zeros((len(docum[doc]), len(terminos)))
  i = 0
  for word in docum[doc]:
    frec_doc[i, np.argwhere(word == terminos).item()] = 1
    i += 1
  frec[doc] = np.sum(frec_doc, axis = 0) 

print('Matriz de frecuencia:\n')
print(frec)

Matriz de frecuencia:

[[0. 1. 0. 0. 0. 0. 1. 1. 1.]
 [1. 1. 2. 0. 1. 0. 1. 0. 1.]
 [0. 0. 1. 1. 0. 1. 0. 0. 0.]]


### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [14]:
idf = np.log10((len(corpus) * np.ones(len(terminos))) / np.sum(ohe, axis = 0))
tf_idf = frec * idf

print('Matriz TF-IDF:\n')
print(np.round(tf_idf, 3))

Matriz TF-IDF:

[[0.    0.176 0.    0.    0.    0.    0.176 0.477 0.176]
 [0.477 0.176 0.352 0.    0.477 0.    0.176 0.    0.176]
 [0.    0.    0.176 0.477 0.    0.477 0.    0.    0.   ]]


### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [15]:
def doc_compare(corpus, idx):
  similarity = {}
  for i in range(len(corpus)):
    if i == idx:
      continue
    else:
      similarity[corpus[i]] = cosine_similarity(tf_idf[idx], tf_idf[i])
  list_sort = sorted(((value, key) for (key, value) in similarity.items()), reverse = True)
  return list_sort

doc_compare(corpus, 1)

[(0.20034190268098703, 'que dia es hoy'),
 (0.10845711727883083, 'martes muchas gracias')]