<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Word2vect


In [29]:
import numpy as np
from operator import itemgetter

In [2]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [3]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [4]:
d1 = corpus[0]
td1 = d1.split(' ')
d2 = corpus[1]
td2 = d2.split(' ')
d3 = corpus[2]
td3 = d3.split(' ')
print(td1)
print(td2)
print(td3)
bow = td1 + td2 + td3

vocabulary = set(bow)
print(vocabulary)

['que', 'dia', 'es', 'hoy']
['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes']
['martes', 'muchas', 'gracias']
{'de', 'dia', 'que', 'martes', 'muchas', 'es', 'el', 'hoy', 'gracias'}


### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [43]:
class word2vect():
    def __init__(self, corpus):
        self.corpus = corpus
        self.make_vocab()

    def make_vocab(self):
        self.docs_qty = len(self.corpus)
        bow = []
        for doc in corpus:
            bow += doc.split(' ')
        self.vocab = set(bow)
        self.vocab_size = len(self.vocab)
        self.word2idx = {}
        for i,word in enumerate(self.vocab):
            self.word2idx[word] = i

    def doc2onehot(self,docs_list):
        output = np.zeros(shape=(len(docs_list),self.vocab_size))
        for i,doc in enumerate(docs_list):
            doc_terms = doc.split(' ')
            for term in doc_terms:
                if term in vocabulary:
                    output[i][self.word2idx[term]] = 1
                else:
                    pass #se ignoran las palabras que no pertenecen al vocabulario
        return output

    def doc2frec(self,docs_list):
        output = np.zeros(shape=(len(docs_list),self.vocab_size))
        for i,doc in enumerate(docs_list):
            doc_terms = doc.split(' ')
            for term in doc_terms:
                if term in vocabulary:
                    output[i][self.word2idx[term]] += 1
                else:
                    pass #se ignoran las palabras que no pertenecen al vocabulario
        return output

    def tf(self,corpus_doc_idx = None, custom_doc = None):
        
        if (corpus_doc_idx == None) and (custom_doc == None):
            docs = self.corpus
        else:
            if custom_doc != None:
                docs = np.array(custom_doc)
            else:
                docs = np.array([self.corpus[corpus_doc_idx]])

        return self.doc2frec(docs)


    def idf(self):
        return np.log(self.docs_qty/np.sum(self.doc2onehot(self.corpus),axis = 0))

    def tfidf(self,corpus_doc_idx = None, custom_doc = None):
         return self.tf(corpus_doc_idx = corpus_doc_idx,custom_doc = custom_doc)*self.idf()

    def cos_sort(self, corpus_doc_idx):
        simil = []
        doc = np.array([self.corpus[corpus_doc_idx]])

        for idx, d in enumerate(self.corpus):
            simil.append(cosine_similarity(self.tfidf(custom_doc = [d])[0], self.tfidf(custom_doc = doc)[0]))

        zipped = np.array(list(zip(simil,list(range(len(simil))))))
        sort = sorted(zipped,key=itemgetter(0) )
        return np.flip(sort)[1:]
    

w2v = word2vect(corpus)




[[1.        0.2003419]
 [2.        0.       ]]


In [6]:
w2v.doc2onehot(corpus)

array([[0., 1., 1., 0., 0., 1., 0., 1., 0.],
       [1., 1., 0., 1., 0., 1., 1., 1., 0.],
       [0., 0., 0., 1., 1., 0., 0., 0., 1.]])

### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [7]:
w2v.doc2frec(corpus)

array([[0., 1., 1., 0., 0., 1., 0., 1., 0.],
       [1., 1., 0., 2., 0., 1., 1., 1., 0.],
       [0., 0., 0., 1., 1., 0., 0., 0., 1.]])

### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [8]:
w2v.tfidf(0)

array([[0.        , 0.40546511, 1.09861229, 0.        , 0.        ,
        0.40546511, 0.        , 0.40546511, 0.        ]])

### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [44]:
print(w2v.cos_sort(0))

[[1.        0.2003419]
 [2.        0.       ]]
