<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Word2vect


In [153]:
import numpy as np

In [154]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [155]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [156]:
terms = []
documents = []
for document in corpus:
  word = str.split(document)
  documents.append(word)
  terms.extend(word) #Utilizo el método .extend() en lugar de .append() para evitar crear una lista de listas

print(documents)
print(terms)

[['que', 'dia', 'es', 'hoy'], ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'], ['martes', 'muchas', 'gracias']]
['que', 'dia', 'es', 'hoy', 'martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes', 'martes', 'muchas', 'gracias']


In [157]:
vocabulary = set(terms)
print(vocabulary)

{'que', 'martes', 'de', 'el', 'gracias', 'dia', 'muchas', 'es', 'hoy'}


### 2- OneHot encoding
Dada una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [158]:
ohe = np.zeros((len(corpus), len(vocabulary)))
for i, document in enumerate(corpus):
  for j, term in enumerate(vocabulary):
    if term in document:
      ohe[i, j] = 1

print(ohe)

[[1. 0. 0. 0. 0. 1. 0. 1. 1.]
 [0. 1. 1. 1. 0. 1. 0. 1. 1.]
 [0. 1. 0. 0. 1. 0. 1. 1. 0.]]


### 3- Vectores de frecuencia
Dada una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [159]:
tf = np.zeros((len(corpus), len(vocabulary)))
for i, document in enumerate(corpus):
  for j, term in enumerate(vocabulary):
    if term in document:
      tf[i, j] = document.count(term)

print(tf)

[[1. 0. 0. 0. 0. 1. 0. 1. 1.]
 [0. 2. 1. 1. 0. 1. 0. 3. 1.]
 [0. 1. 0. 0. 1. 0. 1. 1. 0.]]


### 4- TF-IDF
Dada una lista de textos, devolver una matriz con la representacion TFIDF

In [160]:
sum_ohe_axis0 = np.sum(ohe, axis=0)
idf = np.log(len(corpus)/sum_ohe_axis0)
print(idf)

[1.09861229 0.40546511 1.09861229 1.09861229 1.09861229 0.40546511
 1.09861229 0.         0.40546511]


In [161]:
tf_idf = tf*idf
print(tf_idf)

[[1.09861229 0.         0.         0.         0.         0.40546511
  0.         0.         0.40546511]
 [0.         0.81093022 1.09861229 1.09861229 0.         0.40546511
  0.         0.         0.40546511]
 [0.         0.40546511 0.         0.         1.09861229 0.
  1.09861229 0.         0.        ]]


### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [162]:
# Funcion para obtener vocabulario de un corpus
def getVocabulary(corpus):
  terms = []
  for document in corpus:
    word = str.split(document)
    terms.extend(word) #Utilizo el método .extend() en lugar de .append() para evitar crear una lista de listas

  return set(terms)

In [163]:
# Funcion para obtener lamatriz one-hot-encoding dados un corpus y su vocabulario
def getOHE(corpus, vocabulary):
  ohe = np.zeros((len(corpus), len(vocabulary)))
  for i, document in enumerate(corpus):
    for j, term in enumerate(vocabulary):
      if term in document:
        ohe[i, j] = 1
  return ohe

In [164]:
# Funcion para obtener la matriz TF-IDF dados un corpus, su vocabulario, y la matriz OHE
def getTFIDF(corpus, vocabulary, ohe):
  lc = len(corpus)
  sum_ohe_axis0 = np.sum(ohe, axis=0)
  idf = np.log(lc/sum_ohe_axis0)

  tf = np.zeros((len(corpus), len(vocabulary)))
  for i, document in enumerate(corpus):
    for j, term in enumerate(vocabulary):
      if term in document:
        tf[i, j] = document.count(term)
        
  return tf*idf

In [165]:
# Funcion para obtener la similaridad coseno de un documento del corpus (dado por el indice idx) respecto a todos los documentos del corpus
def getSimilarity(corpus, idx):
  lc = len(corpus)
  vocab = getVocabulary(corpus)
  ohe = getOHE(corpus, vocab)
  tf_idf = getTFIDF(corpus, vocab, ohe)
  similarity = []
  for i in range(lc):
    similarity.append(cosine_similarity(tf_idf[i], tf_idf[idx]))

  sim_idx_sort = np.argsort(similarity)[::-1]
  sim_sort = np.sort(similarity)[::-1]
  for i in range(lc):
    print('La similaridad coseno entre el documento', sim_idx_sort[i], 'del corpus con el documento de indice', idx, 'es', sim_sort[i])

  #return similarity

In [166]:
check_sim_to_idx = 0
similarity_one_vs_others = getSimilarity(corpus, check_sim_to_idx)
print(similarity_one_vs_others)

La similaridad coseno entre el documento 0 del corpus con el documento de indice 0 es 1.0
La similaridad coseno entre el documento 1 del corpus con el documento de indice 0 es 0.14388551287405218
La similaridad coseno entre el documento 2 del corpus con el documento de indice 0 es 0.0
None


In [167]:
check_sim_to_idx = 1
similarity_one_vs_others = getSimilarity(corpus, check_sim_to_idx)
print(similarity_one_vs_others)

La similaridad coseno entre el documento 1 del corpus con el documento de indice 1 es 0.9999999999999999
La similaridad coseno entre el documento 0 del corpus con el documento de indice 1 es 0.14388551287405218
La similaridad coseno entre el documento 2 del corpus con el documento de indice 1 es 0.1110480720364697
None


In [168]:
check_sim_to_idx = 2
similarity_one_vs_others = getSimilarity(corpus, check_sim_to_idx)
print(similarity_one_vs_others)

La similaridad coseno entre el documento 2 del corpus con el documento de indice 2 es 1.0
La similaridad coseno entre el documento 1 del corpus con el documento de indice 2 es 0.1110480720364697
La similaridad coseno entre el documento 0 del corpus con el documento de indice 2 es 0.0
None


# Prueba con documentos y corpus mas largos

In [169]:
corpus = np.array(['hoy es un dia nublado frio y esta por llover',
                   'mañana es martes y va a llover un poco mas que hoy',
                   'el fin de semana descanse y me fui de viaje a rosario',
                   'estoy cursando el tercer bimestre de la especializacion en inteligencia artificial',
                   'la materia nlp es muy interesante',
                   'la fecha de entrega de esta primera practica es el jueves',
                   'el lunes de la semana que viene empiezan las vacaciones de invierno',
                   'falta mucho tiempo para las vacaciones de verano',
                   'la distancia de rosario a santa fe es de doscientos kilometros',
                   'en el sur hubo rafagas de viento de ochenta kilometros por hora'])

In [170]:
vocab = getVocabulary(corpus)

In [171]:
print(vocab)
print(len(vocab))

{'jueves', 'empiezan', 'santa', 'sur', 'tercer', 'de', 'un', 'el', 'fecha', 'interesante', 'las', 'rosario', 'bimestre', 'semana', 'vacaciones', 'verano', 'viento', 'mañana', 'lunes', 'va', 'es', 'frio', 'llover', 'estoy', 'tiempo', 'nublado', 'fui', 'para', 'esta', 'kilometros', 'hora', 'dia', 'en', 'viene', 'hoy', 'por', 'la', 'nlp', 'artificial', 'fe', 'me', 'viaje', 'especializacion', 'materia', 'a', 'falta', 'descanse', 'distancia', 'entrega', 'mucho', 'muy', 'doscientos', 'que', 'hubo', 'martes', 'rafagas', 'fin', 'practica', 'mas', 'inteligencia', 'invierno', 'ochenta', 'y', 'cursando', 'primera', 'poco'}
66


In [172]:
check_sim_to_idx = 5
similarity_one_vs_others = getSimilarity(corpus, check_sim_to_idx)
print(similarity_one_vs_others)

La similaridad coseno entre el documento 5 del corpus con el documento de indice 5 es 1.0
La similaridad coseno entre el documento 8 del corpus con el documento de indice 5 es 0.14422911426770627
La similaridad coseno entre el documento 0 del corpus con el documento de indice 5 es 0.08762254851386317
La similaridad coseno entre el documento 9 del corpus con el documento de indice 5 es 0.0764752768299573
La similaridad coseno entre el documento 3 del corpus con el documento de indice 5 es 0.07621674767231879
La similaridad coseno entre el documento 2 del corpus con el documento de indice 5 es 0.05609392656916562
La similaridad coseno entre el documento 6 del corpus con el documento de indice 5 es 0.05094093456691924
La similaridad coseno entre el documento 7 del corpus con el documento de indice 5 es 0.012336775558736534
La similaridad coseno entre el documento 4 del corpus con el documento de indice 5 es 0.007123449282956937
La similaridad coseno entre el documento 1 del corpus con el 