<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Word2vect


In [1]:
import numpy as np

In [2]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [3]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [23]:
new_corpus = []
for i in corpus:
    terms = i.split()
    new_corpus.append(terms)
print(new_corpus)

unique_corpus = np.hstack(new_corpus)
unique_corpus = np.unique(unique_corpus)
print(unique_corpus)

[['que', 'dia', 'es', 'hoy'], ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'], ['martes', 'muchas', 'gracias']]
['de' 'dia' 'el' 'es' 'gracias' 'hoy' 'martes' 'muchas' 'que']


### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [26]:
one_hot_encoding = np.zeros((len(new_corpus), unique_corpus.size))
for document_index, document in enumerate(new_corpus):
    for token in document:
        if token in unique_corpus:
            token_index = np.where(unique_corpus == token)
            one_hot_encoding[document_index, token_index] = 1
one_hot_encoding


array([[0., 1., 0., 1., 0., 1., 0., 0., 1.],
       [1., 1., 1., 1., 0., 1., 1., 0., 0.],
       [0., 0., 0., 0., 1., 0., 1., 1., 0.]])

### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [45]:
vector_frecuency = np.zeros((len(new_corpus), unique_corpus.size))
for document_index, document in enumerate(new_corpus):
    unique, counts = np.unique(document, return_counts=True)
    for index, value in enumerate(unique):
        index_term = np.where(unique_corpus == value)
        particular_term_frecuency=counts[index]
        vector_frecuency[document_index, index_term] = particular_term_frecuency
print(vector_frecuency)

[[0. 1. 0. 1. 0. 1. 0. 0. 1.]
 [1. 1. 1. 1. 0. 1. 2. 0. 0.]
 [0. 0. 0. 0. 1. 0. 1. 1. 0.]]


### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [None]:
term_frecuency = np.zeros((len(new_corpus), unique_corpus.size))
for document_index, document in enumerate(new_corpus):
    unique, counts = np.unique(document, return_counts=True)
    for index, value in enumerate(unique):
        index_term = np.where(unique_corpus == value)
        particular_term_frecuency=counts[index]/len(document)
        term_frecuency[document_index, index_term] = particular_term_frecuency
print(term_frecuency)

In [46]:
inverse_document_frecuency=np.sum(one_hot_encoding, axis=0)
inverse_document_frecuency=len(new_corpus)/inverse_document_frecuency
inverse_document_frecuency=np.log10(inverse_document_frecuency)
inverse_document_frecuency

array([0.47712125, 0.17609126, 0.47712125, 0.17609126, 0.47712125,
       0.17609126, 0.17609126, 0.47712125, 0.47712125])

In [49]:
tf_idf=term_frecuency*inverse_document_frecuency
tf_idf

array([[0.        , 0.04402281, 0.        , 0.04402281, 0.        ,
        0.04402281, 0.        , 0.        , 0.11928031],
       [0.06816018, 0.02515589, 0.06816018, 0.02515589, 0.        ,
        0.02515589, 0.05031179, 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.        , 0.15904042,
        0.        , 0.05869709, 0.15904042, 0.        ]])

### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [53]:
print("the cosine similarity between document 1 and 2 is:",cosine_similarity(tf_idf[0],tf_idf[1]))
print("the cosine similarity between document 1 and 3 is:",cosine_similarity(tf_idf[0],tf_idf[2]))
print("the cosine similarity between document 2 and 3 is:",cosine_similarity(tf_idf[1],tf_idf[2]))

the cosine similarity between document 1 and 2 is: 0.200341902680987
the cosine similarity between document 1 and 3 is: 0.0
the cosine similarity between document 2 and 3 is: 0.10845711727883087
