<a href="https://colab.research.google.com/github/davidbro-in/natural-language-processing/blob/main/1_word2vec.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<a href="https://www.inove.com.ar"><img src="https://github.com/hernancontigiani/ceia_memorias_especializacion/raw/master/Figures/logoFIUBA.jpg" width="500" align="center"></a>


# Procesamiento de lenguaje natural
## Word2vect


In [2]:
import numpy as np
import pandas as pd


In [3]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [4]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [5]:
vocab = set()
for document in corpus:
  vocab = vocab.union(set(document.split()))

print(vocab)


{'dia', 'gracias', 'el', 'hoy', 'muchas', 'de', 'es', 'que', 'martes'}


### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [6]:
vocab_list = list(vocab)

one_hot_encoded = np.zeros((len(corpus), len(vocab_list)))
print(one_hot_encoded)

[[0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0.]]


In [7]:


for i in range(len(corpus)):
  for j in range(len(vocab_list)):  
    if vocab_list[j] in str(corpus[i]):
      one_hot_encoded[i, j] = 1

print(vocab_list)
print(one_hot_encoded)

#['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias']
#{'dia', 'martes', 'de', 'el', 'que', 'hoy', 'gracias', 'es', 'muchas'}

['dia', 'gracias', 'el', 'hoy', 'muchas', 'de', 'es', 'que', 'martes']
[[1. 0. 0. 1. 0. 0. 1. 1. 0.]
 [1. 0. 1. 1. 0. 1. 1. 0. 1.]
 [0. 1. 0. 0. 1. 0. 1. 0. 1.]]


### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [8]:
vocab_list = list(vocab)

freq = np.zeros((len(corpus), len(vocab_list)))
print(freq)

[[0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0.]]


In [9]:
for i in range(len(corpus)):
  for j in range(len(vocab_list)):
      freq[i, j] = corpus[i].split().count(vocab_list[j])

print(vocab_list)
print(freq)

#['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias']
#['hoy', 'de', 'dia', 'martes', 'el', 'gracias', 'muchas', 'que', 'es']

['dia', 'gracias', 'el', 'hoy', 'muchas', 'de', 'es', 'que', 'martes']
[[1. 0. 0. 1. 0. 0. 1. 1. 0.]
 [1. 0. 1. 1. 0. 1. 1. 0. 2.]
 [0. 1. 0. 0. 1. 0. 0. 0. 1.]]


### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [14]:
def corpus_to_tf_idf(corpus):
  flat_list = [item for sublist in (document.split() for document in corpus) for item in sublist]
  doc_freq = np.vectorize(flat_list.count)(vocab_list)

  N = corpus.shape[0]
  IDF = np.log(N/doc_freq)
  TF_IDF = IDF * freq
  return TF_IDF


print(corpus_to_tf_idf(corpus))

[[0.40546511 0.         0.         0.40546511 0.         0.
  0.40546511 1.09861229 0.        ]
 [0.40546511 0.         1.09861229 0.40546511 0.         1.09861229
  0.40546511 0.         0.        ]
 [0.         1.09861229 0.         0.         1.09861229 0.
  0.         0.         0.        ]]


### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [68]:
def ordenar_simil_coseno(corpus):
  tf_idf = corpus_to_tf_idf(corpus)
  idx = np.array([])
  for i in range(len(tf_idf)):
    #print(f'Compare {i} against {i-1}')
    simil = cosine_similarity(tf_idf[i], tf_idf[i-1])
    #print(simil)
    idx = np.append(idx, [simil])
  #print(idx)
  ordered_corpus = corpus[np.argsort(idx)]
  return ordered_corpus

print(corpus)
print(ordenar_simil_coseno(corpus))


['que dia es hoy' 'martes el dia de hoy es martes' 'martes muchas gracias']
['que dia es hoy' 'martes muchas gracias' 'martes el dia de hoy es martes']
