<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Word2vect


### Marcelo Chichiri

In [1]:
import numpy as np
from tabulate import tabulate
import pandas as pd

In [2]:
# Se define funciin de similitud por coseno
def cosine_similarity(a, b, mostrar_calculos=False):
    if mostrar_calculos:
        print(f'a : {a}')    
        print(f'b : {b}')       
        print(f'np.dot(a, b) : {np.dot(a, b)}')
        print(f'np.linalg.norm(a) : {np.linalg.norm(a)}')
        print(f'np.linalg.norm(b) : {np.linalg.norm(b)}')
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [3]:
# Se carga el corpus
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

#Otro corpus de prueba
#corpus = np.array(['que bueno que esta', 'esta muy bueno', 'esta excelente'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [4]:
# Se separa cada termino de cada documento y se genera el vocabulario
Term = corpus[0].split(" ")
for i in range(len(corpus)-1):
    Term = Term + corpus[i+1].split(" ")
    
Terms = sorted(set(Term))
print(f'Vocabulario : {Terms}')

Vocabulario : ['de', 'dia', 'el', 'es', 'gracias', 'hoy', 'martes', 'muchas', 'que']


### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [5]:
# Se calcula la matriz One Hot
matriz_OH = np.zeros((len(corpus), len(Terms))) 
for i in range(len(corpus)):
    t = list(corpus)[i]
    for j in range(len(Terms)):
        if list(Terms)[j] in t:
            matriz_OH[i,j] = 1

print(f'Terminos : {Terms}')
print(f'Corpus : {corpus.T} \n')
print(f'Tabla One Hot encodding')
print(tabulate(matriz_OH, headers=Terms))

Terminos : ['de', 'dia', 'el', 'es', 'gracias', 'hoy', 'martes', 'muchas', 'que']
Corpus : ['que dia es hoy' 'martes el dia de hoy es martes' 'martes muchas gracias'] 

Tabla One Hot encodding
  de    dia    el    es    gracias    hoy    martes    muchas    que
----  -----  ----  ----  ---------  -----  --------  --------  -----
   0      1     0     1          0      1         0         0      1
   1      1     1     1          0      1         1         0      0
   0      0     0     1          1      0         1         1      0


### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [6]:
# Se calcula la matriz frecuencia
matriz_F = np.zeros((len(corpus), len(Terms))) #, dtype=int)
for i in range(len(corpus)):
    t = corpus[i].split(" ") 
    for j in range(len(Terms)):
        for k in range(len(t)):
            if list(t)[k] == list(Terms)[j]:            
                matriz_F[i,j] = matriz_F[i,j] + 1
                
print(f'Terminos : {Terms}')
print(f'Corpus : {corpus.T} \n')
print(f'Tabla Vector de frecuencia')
print(tabulate(matriz_F, headers=Terms))

Terminos : ['de', 'dia', 'el', 'es', 'gracias', 'hoy', 'martes', 'muchas', 'que']
Corpus : ['que dia es hoy' 'martes el dia de hoy es martes' 'martes muchas gracias'] 

Tabla Vector de frecuencia
  de    dia    el    es    gracias    hoy    martes    muchas    que
----  -----  ----  ----  ---------  -----  --------  --------  -----
   0      1     0     1          0      1         0         0      1
   1      1     1     1          0      1         2         0      0
   0      0     0     0          1      0         1         1      0


### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [7]:
# Se calcula la patriz IDF
N = len(corpus)
matriz_IDF = np.zeros((len(Terms))) 
for i in range(len(Terms)):
    matriz_IDF[i] = np.log10(N/sum(matriz_OH[0:N,i]))
    
print(f'\nTabla IDF')
print(tabulate(matriz_IDF.reshape((len(Terms),1)).T, headers=Terms), '\n')


Tabla IDF
      de       dia        el    es    gracias       hoy    martes    muchas       que
--------  --------  --------  ----  ---------  --------  --------  --------  --------
0.477121  0.176091  0.477121     0   0.477121  0.176091  0.176091  0.477121  0.477121 



In [8]:
matriz_TF_IDF = np.zeros((len(corpus), len(Terms))) 
for i in range(len(corpus)):
    for j in range(len(Terms)):
        matriz_TF_IDF[i, j] = matriz_F[i, j] * matriz_IDF[j]

print(f'\nTabla TF-IDF')
print(tabulate(matriz_TF_IDF.round(4), headers=Terms), '\n')


Tabla TF-IDF
    de     dia      el    es    gracias     hoy    martes    muchas     que
------  ------  ------  ----  ---------  ------  --------  --------  ------
0       0.1761  0          0     0       0.1761    0         0       0.4771
0.4771  0.1761  0.4771     0     0       0.1761    0.3522    0       0
0       0       0          0     0.4771  0         0.1761    0.4771  0 



In [9]:
# Se muestran todas las matrices calculadas
print(f'Tabla One Hot encodding')
print(tabulate(matriz_OH, headers=Terms))

print(f'\nTabla Vector de frecuencia')
print(tabulate(matriz_F, headers=Terms))

print(f'\nTabla IDF')
print(tabulate(matriz_IDF.reshape((len(Terms),1)).T, headers=Terms), '\n')

print(f'\nTabla TF-IDF')
print(tabulate(matriz_TF_IDF.round(4), headers=Terms), '\n')


Tabla One Hot encodding
  de    dia    el    es    gracias    hoy    martes    muchas    que
----  -----  ----  ----  ---------  -----  --------  --------  -----
   0      1     0     1          0      1         0         0      1
   1      1     1     1          0      1         1         0      0
   0      0     0     1          1      0         1         1      0

Tabla Vector de frecuencia
  de    dia    el    es    gracias    hoy    martes    muchas    que
----  -----  ----  ----  ---------  -----  --------  --------  -----
   0      1     0     1          0      1         0         0      1
   1      1     1     1          0      1         2         0      0
   0      0     0     0          1      0         1         1      0

Tabla IDF
      de       dia        el    es    gracias       hoy    martes    muchas       que
--------  --------  --------  ----  ---------  --------  --------  --------  --------
0.477121  0.176091  0.477121     0   0.477121  0.176091  0.176091  0.477121

### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [10]:
# Se prepara un dataframe para guardar la comparacion de cada documento para obtener los mas similares
df_compara = pd.DataFrame([], columns=['Similitud', 'Ind.Doc.1', 'Ind.Doc.2', 'Doc.1', 'Doc.2'])


In [11]:
# Calcula la similitud entre documentos

for i in range(len(corpus)):
    for j in range(i+1, len(corpus)):
        a = matriz_TF_IDF[i, :]
        b = matriz_TF_IDF[j, :]
        cos = cosine_similarity(a, b)
        nuevo_reg = pd.Series({'Similitud': cos.round(4),'Ind.Doc.1': i, 'Ind.Doc.2': j, 'Doc.1': corpus[i], 'Doc.2':corpus[j]})
        df_compara = pd.concat([df_compara, nuevo_reg.to_frame().T], ignore_index=True)


In [12]:
# Ordena y muestra los resultados de la relacion entre documentos
from IPython.display import HTML

#Muestra el corpus
print('Indice de documentos')
for i in range(len(corpus)):
    print(f'Documento {i} : {corpus[i]}')
print('\n')

# Muestra similitud
df_compara.sort_values('Similitud', ascending=False, inplace=True)
print('Tabla comparativa de similitudes entre documentos')
print('* Por simplicidad, para cada par de documentos solo se muestran una combinación')
HTML(df_compara.to_html(index=False))

Indice de documentos
Documento 0 : que dia es hoy
Documento 1 : martes el dia de hoy es martes
Documento 2 : martes muchas gracias


Tabla comparativa de similitudes entre documentos
* Por simplicidad, para cada par de documentos solo se muestran una combinación


Similitud,Ind.Doc.1,Ind.Doc.2,Doc.1,Doc.2
0.1439,0,1,que dia es hoy,martes el dia de hoy es martes
0.111,1,2,martes el dia de hoy es martes,martes muchas gracias
0.0,0,2,que dia es hoy,martes muchas gracias
