<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Word2vect


In [2]:
import numpy as np

In [3]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [4]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [27]:
terms = np.char.split(corpus, sep=' ')
terms

array([list(['que', 'dia', 'es', 'hoy']),
       list(['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes']),
       list(['martes', 'muchas', 'gracias'])], dtype=object)

In [28]:
vocabulary=[]
for lista in terms:
    for word in lista:
        vocabulary.append(word)

In [29]:
vocabulary=np.unique(vocabulary)
vocabulary

array(['de', 'dia', 'el', 'es', 'gracias', 'hoy', 'martes', 'muchas',
       'que'], dtype='<U7')

### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [48]:
corpus_encoded = []
for document in terms:
    aux = np.zeros((len(vocabulary)))
    for i in range(len(document)):
        aux[np.where(vocabulary == document[i])]=1
    corpus_encoded.append(aux)

In [49]:
corpus_encoded

[array([0., 1., 0., 1., 0., 1., 0., 0., 1.]),
 array([1., 1., 1., 1., 0., 1., 1., 0., 0.]),
 array([0., 0., 0., 0., 1., 0., 1., 1., 0.])]

### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [47]:
TF=[]
for document in terms:
    aux = np.zeros((len(vocabulary))) 
    for i in range(len(document)):
        aux[np.where(vocabulary == document[i])]+=1
    TF.append(aux)

TF

[array([0., 1., 0., 1., 0., 1., 0., 0., 1.]),
 array([1., 1., 1., 1., 0., 1., 2., 0., 0.]),
 array([0., 0., 0., 0., 1., 0., 1., 1., 0.])]

### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [50]:
TF_IDF = TF.copy()

In [51]:
IDF = np.zeros(len(vocabulary))
for i in range(len(vocabulary)):
    for document in TF:
        if document[i]>=1:
            IDF[i]+=1

print(IDF)
IDF=np.log10(len(corpus)/IDF) 
print(IDF)         

[1. 2. 1. 2. 1. 2. 2. 1. 1.]
[0.47712125 0.17609126 0.47712125 0.17609126 0.47712125 0.17609126
 0.17609126 0.47712125 0.47712125]


In [52]:
TF_IDF = TF * IDF
TF_IDF

array([[0.        , 0.17609126, 0.        , 0.17609126, 0.        ,
        0.17609126, 0.        , 0.        , 0.47712125],
       [0.47712125, 0.17609126, 0.47712125, 0.17609126, 0.        ,
        0.17609126, 0.35218252, 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.        , 0.47712125,
        0.        , 0.17609126, 0.47712125, 0.        ]])

### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [109]:
def simil_coseno(corpus_encoded, index):
    cosenos = []

    for document in corpus_encoded: 
        cosenos.append(cosine_similarity(corpus_encoded[index], document))

    cosenos=np.array(cosenos)
    cosenos_ordenados=-np.sort(-cosenos)
    indexes_ordenados = np.argsort(-cosenos)

    for i in range(len(cosenos_ordenados)-1):
        print("Documento "+str(indexes_ordenados[i+1])+": Valor de similitud "+str(cosenos_ordenados[i+1]))

    return cosenos_ordenados, indexes_ordenados

In [110]:
simil_coseno(corpus_encoded, 1)

Documento 0: Valor de similitud 0.6123724356957946
Documento 2: Valor de similitud 0.23570226039551587


(array([1.        , 0.61237244, 0.23570226]), array([1, 0, 2]))