<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Vectorización


In [1]:
import numpy as np
import pandas as pd

In [2]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [3]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [4]:
# Genero un vocabulario con todos los documentos del corpus eliminando los términos repetidos convirtiendolo a un set
def vocabulary(corpus):
    # Creo la variable para guardar las palabras del corpus
    words = []
    for doc in corpus:
        # Separo el documento en términos
        doc_terms = doc.split()
        for word in doc_terms:
            # Guardo los terminos en la lista words
                words.append(word)
    vocabulario = set(words)
    return vocabulario

In [5]:
# Genero el vocabulario del corpus
vocab = vocabulary(corpus)
# Imprimo el vocabulario obtenido de la funcion
print('\nVOCABULARIO DEL CORPUS\n')
print('\n'.join(vocab))


VOCABULARIO DEL CORPUS

hoy
que
gracias
martes
dia
es
de
el
muchas


### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [6]:
# Realizo la codificacion one hot de los documentos del corpus
def one_hot_encoding(vocabulario):
    vocab = list(vocabulario)
    # Inicializo matriz One Hot Encoding
    one_hot_mat = []
    for doc in corpus:
        doc_terms = doc.split()
        doc_encoding = []
        for term in doc_terms:
            # Agrego un 1 en el índice del término y en el resto de los índices ceros
            doc_encoding.append(np.eye(len(vocab))[vocab.index(term)])
        one_hot_mat.append(np.array(doc_encoding))
    return one_hot_mat

# Imprime la matriz de codificacion de los documentos del corpus
def print_mat_enconding(corpus, one_hot_mat):
    i = 0
    for doc in corpus:
        print("\nDocumento:\n", doc)
        print("One Hot Encoding:\n", one_hot_mat[i])
        i += 1

In [7]:
# Cargo el vocabulario
vocab = vocabulary(corpus)
# Resultado de la función one_hot_encoding
one_hot_mat = one_hot_encoding(vocab)
# Imprimo la codificacion
print_mat_enconding(corpus, one_hot_mat)


Documento:
 que dia es hoy
One Hot Encoding:
 [[0. 1. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0. 0.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0.]]

Documento:
 martes el dia de hoy es martes
One Hot Encoding:
 [[0. 0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0. 0.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0. 0.]]

Documento:
 martes muchas gracias
One Hot Encoding:
 [[0. 0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [0. 0. 1. 0. 0. 0. 0. 0. 0.]]


### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [8]:
# Obtengo la frecuencia de las words del vocabulario en los documentos del corpus
def frequency_vector(one_hot_mat):
    freq = []
    for doc in one_hot_mat:
        # Sumo la cantidad de repeticiones de cada término en el documento
        one_hot = np.sum(doc, axis=0).astype(int)
        freq.append(one_hot) 
    return np.array(freq)

In [9]:
# Cargo el vocabulario
vocab = vocabulary(corpus)
# Resultado de la función one_hot_encoding
one_hot_mat = one_hot_encoding(vocab)
# Obtengo la frecuencia de las palabras en los documentos e imprimo la matriz resultante
freq = frequency_vector(one_hot_mat)
print(freq)

[[1 1 0 0 1 1 0 0 0]
 [1 0 0 2 1 1 1 1 0]
 [0 0 1 1 0 0 0 0 1]]


In [10]:
# Creo dataframe para visualizar los resultados de frequency_vector
pd.DataFrame(freq, 
             index=corpus, 
             columns=list(vocab))

Unnamed: 0,hoy,que,gracias,martes,dia,es,de,el,muchas
que dia es hoy,1,1,0,0,1,1,0,0,0
martes el dia de hoy es martes,1,0,0,2,1,1,1,1,0
martes muchas gracias,0,0,1,1,0,0,0,0,1


### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [11]:
# Obtengo el TF-IDF del corpus
def tf_idf(one_hot_mat):
    encoded = []
    for doc in one_hot_mat:
        one_hot = np.any(doc, axis=0).astype(int)
        encoded.append(one_hot) 
    # Calculo IDF
    IDF = np.log10(np.divide(len(one_hot_mat), np.sum(encoded, axis=0).astype(int)))
    # Calculo TF-IDF
    return frequency_vector(one_hot_mat) * IDF

In [12]:
# Cargo el vocabulario
vocab = vocabulary(corpus)
# Resultado de la función one_hot_encoding
one_hot_mat = one_hot_encoding(vocab)
# Imprimo resultado de la función
TF_IDF = tf_idf(one_hot_mat)
print(TF_IDF)

[[0.17609126 0.47712125 0.         0.         0.17609126 0.17609126
  0.         0.         0.        ]
 [0.17609126 0.         0.         0.35218252 0.17609126 0.17609126
  0.47712125 0.47712125 0.        ]
 [0.         0.         0.47712125 0.17609126 0.         0.
  0.         0.         0.47712125]]


In [13]:
# Creo dataframe para visualizar los resultados de tf_idf
pd.DataFrame(TF_IDF, 
             index=corpus, 
             columns=list(vocab))

Unnamed: 0,hoy,que,gracias,martes,dia,es,de,el,muchas
que dia es hoy,0.176091,0.477121,0.0,0.0,0.176091,0.176091,0.0,0.0,0.0
martes el dia de hoy es martes,0.176091,0.0,0.0,0.352183,0.176091,0.176091,0.477121,0.477121,0.0
martes muchas gracias,0.0,0.0,0.477121,0.176091,0.0,0.0,0.0,0.0,0.477121


### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [14]:
# Calculo la similitud coseno entre los documentos y los devuelvo ordenados
def compare_docs(corpus, idx):
    # Calculo el vocabulario, lo codifico y obtengo el tf_idf
    vocab = vocabulary(corpus)
    one_hot_mat = one_hot_encoding(vocab)
    TF_IDF = tf_idf(one_hot_mat)
    # Documento que quiero comparar
    doc = TF_IDF[idx]
    # Inicializo vector de similitudes
    similar = []

    for i, doc_i in enumerate(TF_IDF):
        if i != idx:
            # Si el documento no es el que pasa el usuario, calculo la similitud coseno y almaceno los valores
            similarity =  cosine_similarity(doc, doc_i)
            similar.append((i, similarity))
    # Ordeno por similitud coseno
    similar.sort(key=lambda x: x[1], reverse=True)
    
    
    # Imprimo similitud coseno entre el documento que pasa el usuario y los demás documentos del corpus
    for doc_idx, similarity in similar:
        print(f"Documento {idx} ({corpus[idx]}) con {doc_idx} ({corpus[doc_idx]}) = {similarity:.4f}")
    
    # Retorno documentos ordenados
    ordered_docs = [corpus[i] for i, _ in similar]
    print(f"Documentos ordenados por similitud coseno con el documento {idx}: {ordered_docs}\n")
    return ordered_docs

In [16]:
# Imprimo resultados de la función compare_docs
print('\nSIMILITUD COSENO ENTRE DOCUMENTOS DEL CORPUS\n')
for doc in range(3):
    ordered_docs = compare_docs(corpus, doc)


SIMILITUD COSENO ENTRE DOCUMENTOS DEL CORPUS

Documento 0 (que dia es hoy) con 1 (martes el dia de hoy es martes) = 0.2003
Documento 0 (que dia es hoy) con 2 (martes muchas gracias) = 0.0000
Documentos ordenados por similitud coseno con el documento 0: ['martes el dia de hoy es martes', 'martes muchas gracias']

Documento 1 (martes el dia de hoy es martes) con 0 (que dia es hoy) = 0.2003
Documento 1 (martes el dia de hoy es martes) con 2 (martes muchas gracias) = 0.1085
Documentos ordenados por similitud coseno con el documento 1: ['que dia es hoy', 'martes muchas gracias']

Documento 2 (martes muchas gracias) con 1 (martes el dia de hoy es martes) = 0.1085
Documento 2 (martes muchas gracias) con 0 (que dia es hoy) = 0.0000
Documentos ordenados por similitud coseno con el documento 2: ['martes el dia de hoy es martes', 'que dia es hoy']

