<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Vectorización


In [1]:
import numpy as np

In [2]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [3]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [21]:
def get_documentos(corpus):
    lista_documentos = []
    for document in corpus:
        lista_documentos.append(document.split())
    return lista_documentos

def get_terminos(corpus):
    set_terminos = set()
    for document in corpus:
        set_terminos.update(document.split())
    return list(set_terminos)

print(get_documentos(corpus))
print(get_terminos(corpus))

[['que', 'dia', 'es', 'hoy'], ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'], ['martes', 'muchas', 'gracias']]
['gracias', 'dia', 'hoy', 'martes', 'de', 'el', 'es', 'que', 'muchas']


### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [23]:
def one_hot_encoding_text(vocabulario, lista_textos):
    matrix_ohe = []
    for document in lista_textos:
        row_ohe = []
        for termino in vocabulario:
            row_ohe.append(1) if termino in document else row_ohe.append(0)
        matrix_ohe.append(row_ohe)
    return matrix_ohe

In [24]:
vocabulario = get_terminos(corpus)
lista_textos = get_documentos(corpus)
one_hot_encoding_text(vocabulario, lista_textos)

[[0, 1, 1, 0, 0, 0, 1, 1, 0],
 [0, 1, 1, 1, 1, 1, 1, 0, 0],
 [1, 0, 0, 1, 0, 0, 0, 0, 1]]

### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [26]:
def get_frequency_vector(vocabulario, lista_textos):
    frequency_vector = []
    for document in lista_textos:
        vector = [0 for _ in range(len(vocabulario))]
        for word in document:
            word_index  = vocabulario.index(word)
            if word_index >= 0:
                vector[word_index]+=1
        frequency_vector.append(vector)
    return frequency_vector

In [11]:
get_frequency_vector(vocabulario, lista_textos)

[[0, 1, 1, 0, 0, 0, 1, 1, 0],
 [0, 1, 1, 2, 1, 1, 1, 0, 0],
 [1, 0, 0, 1, 0, 0, 0, 0, 1]]

### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [27]:
def get_tf_idf(vocabulario, lista_textos):
    return np.log10(len(lista_textos)/np.sum(one_hot_encoding_text(vocabulario, lista_textos), axis=0))

In [28]:
get_tf_idf(vocabulario, lista_textos)

array([0.47712125, 0.17609126, 0.17609126, 0.17609126, 0.47712125,
       0.47712125, 0.17609126, 0.47712125, 0.47712125])

### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [41]:
def similarity(corpus, index):
    vocabulario = get_terminos(corpus)
    lista_textos = get_documentos(corpus)
    ohe = one_hot_encoding_text(vocabulario, lista_textos)
    sim_list = []
    for i in range(len(ohe)):
        if i != index:
            sim_list.append([corpus[i], cosine_similarity(ohe[index], ohe[i])])
    return sorted(sim_list, key=lambda x: x[1], reverse=True)

In [45]:
similarity(corpus, 1)

[['que dia es hoy', 0.6123724356957946],
 ['martes muchas gracias', 0.23570226039551587]]