<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Vectorización


In [1]:
import numpy as np
import pandas as pd

In [2]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [3]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [4]:
def vocabulary(corpus):
    # 1. Genero vocabulario con todos los documentos
    # 2. Elimino términos repetidos convirtiendo a un set
    vocab = set([word for doc in corpus for word in doc.split()])
    return vocab

In [5]:
vocab = vocabulary(corpus)
print('-'*35 + '\nVOCABULARIO DEL CORPUS\n'+'-'*35)
print('\n'.join(vocab))

-----------------------------------
VOCABULARIO DEL CORPUS
-----------------------------------
martes
de
dia
gracias
muchas
que
el
es
hoy


### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [6]:
def one_hot_encoding(corpus, visual = False):
    # Creo vocabulario del corpus
    vocab = list(vocabulary(corpus))
    # Inicializo matriz One Hot Encoding
    one_hot_mat = []
    
    for doc in corpus:
        # Separo documento en términos
        doc_terms = doc.split()
        doc_encoding = []
        for term in doc_terms:
            # Agrego un 1 en el índice del término y 0's en el resto de los índices
            doc_encoding.append(np.eye(len(vocab))[vocab.index(term)])
        one_hot_mat.append(np.array(doc_encoding))
        if visual == True:
            print("Documento:\n", doc)
            print("\nOne Hot Encoding:\n", np.array2string(np.array(doc_encoding), prefix=''))
            print("-"*35)
    if visual == False:
        return one_hot_mat

In [7]:
# Imprimo Dataframe con términos y el índice que le corresponde 
vocab = list(vocabulary(corpus))
pd.DataFrame(list(range(len(vocab))),
             index=vocab,
             columns=['Índice del término'])

Unnamed: 0,Índice del término
martes,0
de,1
dia,2
gracias,3
muchas,4
que,5
el,6
es,7
hoy,8


In [8]:
# Resultado de la función one_hot_encoding
one_hot_encoding(corpus, visual = True)

Documento:
 que dia es hoy

One Hot Encoding:
 [[0. 0. 0. 0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 1.]]
-----------------------------------
Documento:
 martes el dia de hoy es martes

One Hot Encoding:
 [[1. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 0. 0. 0. 0. 1. 0.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0.]]
-----------------------------------
Documento:
 martes muchas gracias

One Hot Encoding:
 [[1. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0. 0.]]
-----------------------------------


In [9]:
# Creo dataframe para visualizar los resultados de one_hot_encoding
one_hot_mat = one_hot_encoding(corpus)
encoded = []
for doc in one_hot_mat:
    # Si alguno de los vectores tiene un 1, asigno 1. Si no, asigno 0.
    one_hot = np.any(doc, axis=0).astype(int)
    encoded.append(one_hot) 
    
pd.DataFrame(encoded, 
             index=corpus, 
             columns=vocab)

Unnamed: 0,martes,de,dia,gracias,muchas,que,el,es,hoy
que dia es hoy,0,0,1,0,0,1,0,1,1
martes el dia de hoy es martes,1,1,1,0,0,0,1,1,1
martes muchas gracias,1,0,0,1,1,0,0,0,0


### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [10]:
def frequency_vector(corpus):
    # Calculo matriz one_hot encoded
    one_hot_mat = one_hot_encoding(corpus)
    freq = []
    for doc in one_hot_mat:
        # Sumo cantidad de ocurrencias de cada término en un documento
        one_hot = np.sum(doc, axis=0).astype(int)
        freq.append(one_hot) 
    return np.array(freq)

In [11]:
# Imprimo resultado de la función
frequency_vector(corpus)

array([[0, 0, 1, 0, 0, 1, 0, 1, 1],
       [2, 1, 1, 0, 0, 0, 1, 1, 1],
       [1, 0, 0, 1, 1, 0, 0, 0, 0]])

In [12]:
# Creo dataframe para visualizar los resultados de frequency_vector
freq = frequency_vector(corpus)

pd.DataFrame(freq, 
             index=corpus, 
             columns=vocab)

Unnamed: 0,martes,de,dia,gracias,muchas,que,el,es,hoy
que dia es hoy,0,0,1,0,0,1,0,1,1
martes el dia de hoy es martes,2,1,1,0,0,0,1,1,1
martes muchas gracias,1,0,0,1,1,0,0,0,0


### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

$TF-IDF$ se utiliza como indicador de cuán importante es un término en un documento. Se define como:
$$
TF-IDF_{(n,d)} = TF_{(n,d)}\ x \ IDF_{(n)}
$$

donde:
- $TF$ es la frecuencia de aparición de un término (n) en un documento (d)
- $IDF$ es el factor definido como: $IDF_{(n)} = log_{10}(\frac{N}{DF_{(n)}})$,
    donde $N$ es el número total de documentos de la colección y $DF$ es el número de documentos en los que aparece el término (n) a lo largo de toda la colección

In [13]:
def tf_idf(corpus):
    # Hago One Hot Encoding
    one_hot_mat = one_hot_encoding(corpus)
    encoded = []
    for doc in one_hot_mat:
        one_hot = np.any(doc, axis=0).astype(int)
        encoded.append(one_hot) 
    # Caluclo IDF
    IDF = np.log10(np.divide(corpus.shape[0],
                            np.sum(encoded, axis=0).astype(int)))
    # Calculo TF-IDF
    return frequency_vector(corpus) * IDF

In [14]:
# Imprimo resultado de la función
tf_idf(corpus)

array([[0.        , 0.        , 0.17609126, 0.        , 0.        ,
        0.47712125, 0.        , 0.17609126, 0.17609126],
       [0.35218252, 0.47712125, 0.17609126, 0.        , 0.        ,
        0.        , 0.47712125, 0.17609126, 0.17609126],
       [0.17609126, 0.        , 0.        , 0.47712125, 0.47712125,
        0.        , 0.        , 0.        , 0.        ]])

In [16]:
# Creo dataframe para visualizar los resultados de tf_idf
pd.DataFrame(tf_idf(corpus), 
             index=corpus, 
             columns=vocab)

Unnamed: 0,martes,de,dia,gracias,muchas,que,el,es,hoy
que dia es hoy,0.0,0.0,0.176091,0.0,0.0,0.477121,0.0,0.176091,0.176091
martes el dia de hoy es martes,0.352183,0.477121,0.176091,0.0,0.0,0.0,0.477121,0.176091,0.176091
martes muchas gracias,0.176091,0.0,0.0,0.477121,0.477121,0.0,0.0,0.0,0.0


### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [17]:
def compare_docs(corpus, idx):
    # Calculo TF-IDF del corpus
    TF_IDF = tf_idf(corpus)
    # Documento que quiero comparar
    doc = TF_IDF[idx]
    # Inicializo vector de similitudes
    similar = []

    for i, doc_i in enumerate(TF_IDF):
        if i != idx:
            # Si el documento no es el que pasa el usuario, calculo la similitud coseno y almaceno los valores
            similarity =  cosine_similarity(doc, doc_i)
            similar.append((i, similarity))
    # Ordeno por similitud coseno
    similar.sort(key=lambda x: x[1], reverse=True)
    
    
    # Imprimo similitud coseno entre el documento que pasa el usuario y los demás documentos del corpus
    for doc_idx, similarity in similar:
        print(f"Documento {idx} ({corpus[idx]}) con {doc_idx} ({corpus[doc_idx]}) = {similarity:.4f}")
    
    # Retorno documentos ordenados
    ordered_docs = [corpus[i] for i, _ in similar]
    print(f"Documentos ordenados por similitud coseno con el documento {idx}: {ordered_docs}\n")
    return ordered_docs

In [18]:
# Imprimo resultados de la función compare_docs
print('-'*50 + '\nSIMILITUD COSENO ENTRE DOCUMENTOS DEL CORPUS\n'+'-'*50)
for doc in range(3):
    ordered_docs = compare_docs(corpus, doc)

--------------------------------------------------
SIMILITUD COSENO ENTRE DOCUMENTOS DEL CORPUS
--------------------------------------------------
Documento 0 (que dia es hoy) con 1 (martes el dia de hoy es martes) = 0.2003
Documento 0 (que dia es hoy) con 2 (martes muchas gracias) = 0.0000
Documentos ordenados por similitud coseno con el documento 0: ['martes el dia de hoy es martes', 'martes muchas gracias']

Documento 1 (martes el dia de hoy es martes) con 0 (que dia es hoy) = 0.2003
Documento 1 (martes el dia de hoy es martes) con 2 (martes muchas gracias) = 0.1085
Documentos ordenados por similitud coseno con el documento 1: ['que dia es hoy', 'martes muchas gracias']

Documento 2 (martes muchas gracias) con 1 (martes el dia de hoy es martes) = 0.1085
Documento 2 (martes muchas gracias) con 0 (que dia es hoy) = 0.0000
Documentos ordenados por similitud coseno con el documento 2: ['martes el dia de hoy es martes', 'que dia es hoy']

