<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Word2vect


In [1]:
import numpy as np

In [4]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [3]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [35]:
corpus_list = np.char.split(corpus, " ")

print(f"corpus:\n {corpus_list}\n")

vocabulary = list(set(corpus_list.sum()))

print(f"Vocabulario:\n {vocabulary}")

corpus:
 [list(['que', 'dia', 'es', 'hoy'])
 list(['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'])
 list(['martes', 'muchas', 'gracias'])]

Vocabulario:
 ['el', 'que', 'es', 'dia', 'de', 'gracias', 'hoy', 'martes', 'muchas']


### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [46]:
ohe = np.zeros((corpus_list.shape[0], len(vocabulary)))

In [47]:
for i,dt in enumerate(corpus_list):
    for word in dt:
        ohe[i, np.where(np.array(vocabulary)==word)] = 1

In [48]:
print("Resultado Ohe: ")
ohe

Resultado Ohe: 


array([[0., 1., 1., 1., 0., 0., 1., 0., 0.],
       [1., 0., 1., 1., 1., 0., 1., 1., 0.],
       [0., 0., 0., 0., 0., 1., 0., 1., 1.]])

### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [37]:
tf = np.zeros((corpus_list.shape[0], len(vocabulary)))

In [38]:
for i,dt in enumerate(corpus_list):
    for word in dt:
        tf[i, np.where(np.array(vocabulary)==word)] +=1

In [40]:
print("Resultado TF: ")
tf

Resultado TF: 


array([[0., 1., 1., 1., 0., 0., 1., 0., 0.],
       [1., 0., 1., 1., 1., 0., 1., 2., 0.],
       [0., 0., 0., 0., 0., 1., 0., 1., 1.]])

### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [66]:
idf = np.log10(corpus_list.shape[0]/ohe.sum(axis=0))
print("IDF: ")
idf

IDF: 


array([0.47712125, 0.47712125, 0.17609126, 0.17609126, 0.47712125,
       0.47712125, 0.17609126, 0.17609126, 0.47712125])

In [71]:
print("TF-IDF: ")
tf * idf

TF-IDF: 


array([[0.        , 0.47712125, 0.17609126, 0.17609126, 0.        ,
        0.        , 0.17609126, 0.        , 0.        ],
       [0.47712125, 0.        , 0.17609126, 0.17609126, 0.47712125,
        0.        , 0.17609126, 0.35218252, 0.        ],
       [0.        , 0.        , 0.        , 0.        , 0.        ,
        0.47712125, 0.        , 0.17609126, 0.47712125]])

### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [85]:
def compare_docs(corpus, index_doc):
    corpus_list = np.char.split(corpus, " ")
    vocabulary = list(set(corpus_list.sum()))
    
    ohe = np.zeros((corpus_list.shape[0], len(vocabulary)))
    tf = np.zeros((corpus_list.shape[0], len(vocabulary)))
    
    for i,dt in enumerate(corpus_list):
        for word in dt:
            ohe[i, np.where(np.array(vocabulary)==word)] = 1
            tf[i, np.where(np.array(vocabulary)==word)] += 1
    
    idf = np.log10(corpus_list.shape[0]/ohe.sum(axis=0))
    
    tf_idf = tf * idf
        
    
    similarity = []
    for i,doc in enumerate(corpus_list):
        result = cosine_similarity(tf_idf[index_doc], tf_idf[i])
        similarity.append(result)
    
    return np.delete(similarity, index_doc)
    

In [89]:
corpus

array(['que dia es hoy', 'martes el dia de hoy es martes',
       'martes muchas gracias'], dtype='<U30')

In [88]:
print("Ejemplos: ")

Ejemplos: 


In [84]:
compare_docs(corpus, 2) # 'martes muchas gracias'  tiene poca similitud con 'martes el dia de hoy es martes' y cero con 'que dia es hoy'

array([0.        , 0.10845712])

In [86]:
compare_docs(corpus, 1) # 'martes el dia de hoy es martes'  tiene mas similitud con 'que dia es hoy' que con 'martes muchas gracias'

array([0.2003419 , 0.10845712])

In [87]:
compare_docs(corpus, 0)

array([0.2003419, 0.       ])