<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Vectorización


In [1]:
import numpy as np

In [2]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [3]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [37]:
vocabulario = []

for i in corpus:
    separa = i.split(' ')
    for j in separa:
        if not(j in vocabulario):
            vocabulario.append(j)

print('El vocabulario del corpus es:\n',vocabulario)

El vocabulario del corpus es:
 ['que', 'dia', 'es', 'hoy', 'martes', 'el', 'de', 'muchas', 'gracias']


### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [34]:
out = []

for c in corpus:
    for v in vocabulario:
        if v in c.split(' '):
            out = np.append(out,1)
        else:
            out = np.append(out,0)
        
out = out.reshape(corpus.shape[0],len(vocabulario))

print('Resultado del One-Hot Encoding\n')
print(out)


Resultado del One-Hot Encoding

[[1. 1. 1. 1. 0. 0. 0. 0. 0.]
 [0. 1. 1. 1. 1. 1. 1. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 1. 1.]]


### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [33]:

def VectorFrecuencias(corpus,vocabulario):
    out_fre = np.zeros((corpus.shape[0],len(vocabulario)))

    for jdx, v in enumerate(vocabulario): #9
        for idx, c in enumerate(corpus): #3
            for val in c.split(' '):
                if v == val:
                    out_fre[idx,jdx] = out_fre[idx,jdx] + 1
    
    return out_fre

out_fre = VectorFrecuencias(corpus,vocabulario)

print('Resultado del Vector de Frecuencias\n')
print(out_fre)


Resultado del Vector de Frecuencias

[[1. 1. 1. 1. 0. 0. 0. 0. 0.]
 [0. 1. 1. 1. 2. 1. 1. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 1. 1.]]


### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [31]:
# calculo de en cuantos docuemntos aparace el termino
df_docs = np.sum(out,axis=0) # 3x9
# calculo de IDF
cal_idf = np.log10(len(corpus)/df_docs)  #1x9

# calculo final de TF-IDF
tf_idf = out_fre * cal_idf


print(tf_idf)

[[0.47712125 0.17609126 0.17609126 0.17609126 0.         0.
  0.         0.         0.        ]
 [0.         0.17609126 0.17609126 0.17609126 0.35218252 0.47712125
  0.47712125 0.         0.        ]
 [0.         0.         0.         0.         0.17609126 0.
  0.         0.47712125 0.47712125]]


### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [28]:
# Funcion que da como resultado la comparacion de los documentos del corpus vs al documento seleccionado
# La vectorizacion utilizada para realizar la comparacion fue codificando por frecuencia, esto puede ser cambiado a tf-idf

def OrdenSimilitud(corps, sele_doc):
    result = []

    #frecuencias
    out_fre = VectorFrecuencias(corps,vocabulario)

    for doc_corpus in out_fre:
        result.append(cosine_similarity(doc_corpus,out_fre[sele_doc]))
    return result

In [38]:
# selecciona el indice (desde 0) para indicar el documento
sele_idx = 2

print('Se compara el siguiente documento --> ', corpus[sele_idx])
print('\nDocumento 1 |',' Documento 2 |',' Documento 3')
OrdenSimilitud(corpus,sele_idx)

Se compara el siguiente documento -->  martes muchas gracias

Documento 1 |  Documento 2 |  Documento 3


[0.0, 0.3849001794597505, 1.0000000000000002]