<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Word2vect


In [2]:
import numpy as np

In [3]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [4]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [5]:
corpus = [doc.split(" ") for doc in corpus]
corpus

[['que', 'dia', 'es', 'hoy'],
 ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'],
 ['martes', 'muchas', 'gracias']]

In [6]:
vocabulary = set()
for document in corpus:
    for term in document:
        vocabulary.add(term)

vocabulary = list(vocabulary)
vocabulary

['que', 'el', 'es', 'martes', 'gracias', 'dia', 'muchas', 'de', 'hoy']

### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [7]:
def one_hot_encoding(corpus):
    vocabulary = set()
    for document in corpus:
        for term in document:
            vocabulary.add(term)
    
    one_hot_matrix = list()

    for document in corpus:
        temp = list()
        for term in vocabulary:
            if term in document:
                temp.append(1)
            else:
                temp.append(0)
        one_hot_matrix.append(temp)

    return one_hot_matrix

one_hot = one_hot_encoding(corpus)
one_hot

[[1, 0, 1, 0, 0, 1, 0, 0, 1],
 [0, 1, 1, 1, 0, 1, 0, 1, 1],
 [0, 0, 0, 1, 1, 0, 1, 0, 0]]

### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [8]:
def get_term_freq_matrix(corpus):
    vocabulary = set()
    for document in corpus:
        for term in document:
            vocabulary.add(term)
            
    term_freq_matrix = list()

    for document in corpus:
        temp = list()
        for term in vocabulary:
            count = document.count(term)
            temp.append(count)
        term_freq_matrix.append(temp)

    return term_freq_matrix

TF = get_term_freq_matrix(corpus)
TF

[[1, 0, 1, 0, 0, 1, 0, 0, 1],
 [0, 1, 1, 2, 0, 1, 0, 1, 1],
 [0, 0, 0, 1, 1, 0, 1, 0, 0]]

### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [9]:
def tf_idf(corpus):
    vocabulary = set()
    for document in corpus:
        for term in document:
            vocabulary.add(term)
            
    N = len(corpus)
    
    DF = dict()
    for term in vocabulary:
        count = 0
        for document in corpus:
            if term in document:
                count += 1
        DF[term] = count
    
    IDF = list()
    for term in vocabulary:
        IDF.append(np.log(N/DF[term]))
    
    TF = list()
    for document in corpus:
        temp = list()
        for term in vocabulary:
            count = document.count(term)
            temp.append(count)
        TF.append(temp)
    
    return np.array(TF) * np.array(IDF) 

TF_IDF = tf_idf(corpus)
TF_IDF

array([[1.09861229, 0.        , 0.40546511, 0.        , 0.        ,
        0.40546511, 0.        , 0.        , 0.40546511],
       [0.        , 1.09861229, 0.40546511, 0.81093022, 0.        ,
        0.40546511, 0.        , 1.09861229, 0.40546511],
       [0.        , 0.        , 0.        , 0.40546511, 1.09861229,
        0.        , 1.09861229, 0.        , 0.        ]])

### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [10]:
def compare_documents(corpus, doc_index):
    TF = get_term_freq_matrix(corpus)
    cosines = list()
    for j in range(len(TF)):
        cosines.append(cosine_similarity(np.array(TF[doc_index]), np.array(TF[j])))
    return [x for _, x in sorted(zip(cosines, corpus), reverse=True)]

In [11]:
corpus[1]

['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes']

In [12]:
compare_documents(corpus, 1)

[['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'],
 ['que', 'dia', 'es', 'hoy'],
 ['martes', 'muchas', 'gracias']]

In [13]:
compare_documents(corpus, 0)

[['que', 'dia', 'es', 'hoy'],
 ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'],
 ['martes', 'muchas', 'gracias']]

In [14]:
compare_documents(corpus, 2)

[['martes', 'muchas', 'gracias'],
 ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'],
 ['que', 'dia', 'es', 'hoy']]