<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Word2vect


In [3]:
import numpy as np

In [33]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [5]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [6]:
# FORMA NRO 1
def get_vocabulary(corpus):
    documents = [] # Lista para guardar los documentos del corpus
    for document in range(len(corpus)):
        documents.append(corpus[document].split()) # Separo palabras y guardo el documento en la lista
    vocabulary = np.unique(np.concatenate(documents).ravel()) # Armo array con todas las palabras y tomo las no repetidas
    return documents, vocabulary
        

In [7]:
# VERIFICO RESULTADOS CON LA PRIMERA FUNCIÓN
documents1, vocabulary1 = get_vocabulary(corpus)

print(f"VOCABULARIO:{vocabulary1}")
print(f"DOCUMENTOS:{documents1}")


VOCABULARIO:['de' 'dia' 'el' 'es' 'gracias' 'hoy' 'martes' 'muchas' 'que']
DOCUMENTOS:[['que', 'dia', 'es', 'hoy'], ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'], ['martes', 'muchas', 'gracias']]


In [8]:
# FORMA NRO 2
def get_vocab(corpus):
    documents = np.char.split(corpus.reshape(len(corpus),1)).flatten()
    vocabulary = np.unique(np.concatenate(documents))
    return documents.tolist(), vocabulary

In [9]:
# VERIFICO RESULTADOS CON SEGUNDA FUNCIÓN
documents2, vocabulary2 = get_vocab(corpus)

print(f"VOCABULARIO:{vocabulary2}")
print(f"DOCUMENTOS:{documents2}")


VOCABULARIO:['de' 'dia' 'el' 'es' 'gracias' 'hoy' 'martes' 'muchas' 'que']
DOCUMENTOS:[['que', 'dia', 'es', 'hoy'], ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'], ['martes', 'muchas', 'gracias']]


### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [10]:
def get_ohe(corpus):
    documents, vocabulary = get_vocab(corpus) # Con la función anterior calculo arrays de documentos y vocabulario
    ohe_result = np.zeros((len(documents),len(vocabulary)), dtype='int8') # Creo un ndarray con ceros para guardar el resultado
    for document in range(len(documents)):
       mask = np.in1d(vocabulary, documents[document]) # Con esta máscara ubico los índices de palabras en el vocabulario para cada doc
       ohe_result[document,mask] = 1 # Convierto a 1s usando la máscara en mi matriz de resultados
    return ohe_result, vocabulary, documents

In [11]:
ohe_result, vocabulary, documents = get_ohe(corpus)

print(f"DOCUMENTOS:{documents}")
print(f"VOCABULARIO:{vocabulary}")
print(f"ONE-HOT ENCODING:\n {ohe_result}")

DOCUMENTOS:[['que', 'dia', 'es', 'hoy'], ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'], ['martes', 'muchas', 'gracias']]
VOCABULARIO:['de' 'dia' 'el' 'es' 'gracias' 'hoy' 'martes' 'muchas' 'que']
ONE-HOT ENCODING:
 [[0 1 0 1 0 1 0 0 1]
 [1 1 1 1 0 1 1 0 0]
 [0 0 0 0 1 0 1 1 0]]


### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [12]:
def get_freq(corpus):
    documents, vocabulary = get_vocab(corpus) # Con la función anterior calculo arrays de documentos y vocabulario
    frequencies = np.zeros((len(documents),len(vocabulary)), dtype='int8') # Creo un ndarray con ceros para guardar el resultado
    for document in range(len(documents)):
      mask = np.in1d(vocabulary, documents[document]) # Con esta máscara ubico los índices de palabras en el vocabulario para cada doc
      uniques, counts = np.unique(documents[document], return_counts=True) 
      frequencies[document, mask] = counts
    return frequencies, vocabulary, documents

In [21]:
frequencies, vocabulary, documents  = get_freq(corpus)

print(f"DOCUMENTOS:{documents}")
print(f"VOCABULARIO:{vocabulary}")
print(f"VECTOR DE FRECUENCIAS (TF):\n {frequencies}")

DOCUMENTOS:[['que', 'dia', 'es', 'hoy'], ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'], ['martes', 'muchas', 'gracias']]
VOCABULARIO:['de' 'dia' 'el' 'es' 'gracias' 'hoy' 'martes' 'muchas' 'que']
VECTOR DE FRECUENCIAS (TF):
 [[0 1 0 1 0 1 0 0 1]
 [1 1 1 1 0 1 2 0 0]
 [0 0 0 0 1 0 1 1 0]]


### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [19]:
def get_tfidf(corpus):
    ohe_result, _, _ = get_ohe(corpus) # Calculo OHE porque lo voy a usar para el idf (para hallar el denominador del log)
    tf, _, _ = get_freq(corpus)
    idf = np.log10(len(corpus)/(np.sum(ohe_result, axis=0))) 
    tfidf = tf * idf
    return tfidf, tf, idf

In [24]:
tfidf, tf, idf = get_tfidf(corpus)

print(f"TF:\n {tf}\n")
print(f"IDF:\n {idf}\n")
print(f"TF-IDF):\n {tfidf}")

TF:
 [[0 1 0 1 0 1 0 0 1]
 [1 1 1 1 0 1 2 0 0]
 [0 0 0 0 1 0 1 1 0]]

IDF:
 [0.47712125 0.17609126 0.47712125 0.17609126 0.47712125 0.17609126
 0.17609126 0.47712125 0.47712125]

TF-IDF):
 [[0.         0.17609126 0.         0.17609126 0.         0.17609126
  0.         0.         0.47712125]
 [0.47712125 0.17609126 0.47712125 0.17609126 0.         0.17609126
  0.35218252 0.         0.        ]
 [0.         0.         0.         0.         0.47712125 0.
  0.17609126 0.47712125 0.        ]]


### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [359]:
def compare(corpus, doc_idx):
    tfidf_vector, _, _ = get_tfidf(corpus)
    target_vector = tfidf[doc_idx]
    similarity_result = []
    similarity_idx = np.arange(len(corpus))
    for vector in range(len(tfidf_vector)):
        cosine_sim = cosine_similarity(tfidf_vector[vector], target_vector)
        similarity_result.append(cosine_sim)
    similarity_result = np.array(similarity_result)
    print(f"Similitud coseno: {similarity_result}")
    order_idx = np.argsort(similarity_result)[::-1]
    result = corpus[order_idx][1:]
    
    return result



In [360]:
# Prueba Nro 1

doc_nbr = 0
result1 = compare(corpus, doc_nbr)
print(f"Documento seleccionado: {corpus[doc_nbr]}")
print(f"Documentos ordenados por mayor similitud coseno:{result1}")



Similitud coseno: [1.        0.2003419 0.       ]
Documento seleccionado: que dia es hoy
Documentos ordenados por mayor similitud coseno:['martes el dia de hoy es martes' 'martes muchas gracias']


In [361]:
# Prueba Nro 2

doc_nbr = 1
result2 = compare(corpus, doc_nbr)
print(f"Documento seleccionado: {corpus[doc_nbr]}")
print(f"Documentos ordenados por mayor similitud coseno:{result2}")



Similitud coseno: [0.2003419  1.         0.10845712]
Documento seleccionado: martes el dia de hoy es martes
Documentos ordenados por mayor similitud coseno:['que dia es hoy' 'martes muchas gracias']


In [362]:
# Prueba Nro 3

doc_nbr = 2
result3 = compare(corpus, doc_nbr)
print(f"Documento seleccionado: {corpus[doc_nbr]}")
print(f"Documentos ordenados por mayor similitud coseno:{result3}")



Similitud coseno: [0.         0.10845712 1.        ]
Documento seleccionado: martes muchas gracias
Documentos ordenados por mayor similitud coseno:['martes el dia de hoy es martes' 'que dia es hoy']
