<a href="https://colab.research.google.com/github/maricari/NLP/blob/main/1a_word2vec.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Word2vect


## Alumna: María Carina Roldán

In [1]:
import numpy as np

### Datos

In [2]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [3]:
def get_terminos(corpus):
  t = np.empty(len(corpus), dtype=object) 
  l = len(corpus)
  for i in range(l):
    t[i] = corpus[i].split()
  return(t)

def vocabulario(corpus):
  v = set()
  l = len(corpus)
  for i in range(l):
    v.update(corpus[i].split())
  return(v)

In [4]:
terminos = get_terminos(corpus)
print(f"Términos:\n{terminos}")
vec = vocabulario(corpus)
print(f"\nVocabulario:\n{vec}")

Términos:
[list(['que', 'dia', 'es', 'hoy'])
 list(['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'])
 list(['martes', 'muchas', 'gracias'])]

Vocabulario:
{'de', 'el', 'hoy', 'que', 'dia', 'gracias', 'es', 'martes', 'muchas'}


### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [5]:
def onehotencoding(corpus):
  terminos = get_terminos(corpus)
  vec = vocabulario(corpus)

  onehot = np.zeros((len(corpus),len(vec)), dtype=int)
  # armo la representación onehot por columnas
  for j, term in enumerate(vec): # recorro la lista de términos no repetidos
    for i in range(len(terminos)): # recorro los documentos
      onehot[i, j] = 1 if term in terminos[i] else 0  
  return(onehot)

In [6]:
onehot = onehotencoding(corpus)

print("Corpus:")
for i in range(len(terminos)):
  print(terminos[i])
print(f"\nTérminos:\n{vec}")
print(f"\nOnehot encoding:\n{onehot}")

Corpus:
['que', 'dia', 'es', 'hoy']
['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes']
['martes', 'muchas', 'gracias']

Términos:
{'de', 'el', 'hoy', 'que', 'dia', 'gracias', 'es', 'martes', 'muchas'}

Onehot encoding:
[[0 0 1 1 1 0 1 0 0]
 [1 1 1 0 1 0 1 1 0]
 [0 0 0 0 0 1 0 1 1]]


### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [7]:
def vec_frecuencia(corpus):
  terminos = get_terminos(corpus)

  vec = vocabulario(corpus)
  # auxiliar para saber en que posición está cada palabra
  vec_dict = dict()
  for i in enumerate(vec):
    vec_dict[i[1]] = i[0]

  freq = np.zeros((len(corpus),len(vec)), dtype=int)
  # armo el vector de frecuencia por filas
  for i in range(len(terminos)): # recorro los documentos
    for j in terminos[i]: # recorro los términos no repetidos
      freq[i, vec_dict[j]]+=1
  return(freq)

In [15]:
freq = vec_frecuencia(corpus)

print("Corpus:")
for i in range(len(terminos)):
  print(terminos[i])
print(f"\nTérminos:\n{vec}")
print(f"\nVectores de frecuencia:\n{freq}")

Corpus:
['que', 'dia', 'es', 'hoy']
['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes']
['martes', 'muchas', 'gracias']

Términos:
{'de', 'el', 'hoy', 'que', 'dia', 'gracias', 'es', 'martes', 'muchas'}

Vectores de frecuencia:
[[0 0 1 1 1 0 1 0 0]
 [1 1 1 0 1 0 1 2 0]
 [0 0 0 0 0 1 0 1 1]]


### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [9]:
def get_tf_idf(corpus):
  terminos = get_terminos(corpus)
  vec = vocabulario(corpus)
  freq = vec_frecuencia(corpus)
  onehot = onehotencoding(corpus)

  idf = np.ones((1,len(vec)), dtype=int) # inicializo idf en 1
  N = len(corpus)                        # numerador
  den = sum(onehot)                      # denominador
  idf = idf*np.log(N/den)                # idf
  tf_idf = freq * idf                    # tf_idf

  return(vec, freq, idf, tf_idf)

In [10]:
(vec, freq, idf, tf_idf) = get_tf_idf(corpus)

In [16]:
print("Documentos:")
terminos = get_terminos(corpus)
for i in range(len(terminos)):
  print(terminos[i])
print(f"\nTérminos:\n{vec}")
print(f"\nTF:\n{freq}")
print(f"\nIDF:\n{np.array_str(idf, precision=3)}")
print(f"\nTF_IDF:\n{np.array_str(tf_idf, precision=3)}")

Documentos:
['que', 'dia', 'es', 'hoy']
['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes']
['martes', 'muchas', 'gracias']

Términos:
{'de', 'el', 'hoy', 'que', 'dia', 'gracias', 'es', 'martes', 'muchas'}

TF:
[[0 0 1 1 1 0 1 0 0]
 [1 1 1 0 1 0 1 2 0]
 [0 0 0 0 0 1 0 1 1]]

IDF:
[[1.099 1.099 0.405 1.099 0.405 1.099 0.405 0.405 1.099]]

TF_IDF:
[[0.    0.    0.405 1.099 0.405 0.    0.405 0.    0.   ]
 [1.099 1.099 0.405 0.    0.405 0.    0.405 0.811 0.   ]
 [0.    0.    0.    0.    0.    1.099 0.    0.405 1.099]]


### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [12]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

In [13]:
def compara_doc(corpus, idx):
  if (idx<0 or idx>len(corpus)-1):
    return None

  docs = np.empty(len(corpus), dtype=object) # los docs que va a retornar
  cs = np.zeros(len(corpus), dtype=float)    # array con las similaridades

  terminos = get_terminos(corpus)
  (vec, freq, idf, tf_idf) = get_tf_idf(corpus)

  N = len(corpus)
  for i in range(N):
    cs[i] = cosine_similarity(tf_idf[idx], tf_idf[i])

  idxs = np.argsort(cs)
  cs_sorted = np.zeros(len(corpus), dtype=float) # array con las similaridades (descendente)
  for i_rev in range(N):
    i = N-i_rev-1
    docs[i_rev] = corpus[idxs[i]]
    cs_sorted[i_rev] = cs[idxs[i]]
  return docs, cs_sorted

In [14]:
star = "(*)"
for cual in range(len(corpus)):
  print(f"Similitud con '{corpus[cual]}'\n")
  docs, cs = compara_doc(corpus, cual)
  for i in range(len(corpus)):
    el_mismo = star if docs[i] == corpus[cual] else ""
    print(f"  {docs[i]} (cosine similarity:{cs[i]:.3f}) {el_mismo}")
  print("\n")
print(f"{star} Es el mismo documento")

Similitud con 'que dia es hoy'

  que dia es hoy (cosine similarity:1.000) (*)
  martes el dia de hoy es martes (cosine similarity:0.200) 
  martes muchas gracias (cosine similarity:0.000) 


Similitud con 'martes el dia de hoy es martes'

  martes el dia de hoy es martes (cosine similarity:1.000) (*)
  que dia es hoy (cosine similarity:0.200) 
  martes muchas gracias (cosine similarity:0.108) 


Similitud con 'martes muchas gracias'

  martes muchas gracias (cosine similarity:1.000) (*)
  martes el dia de hoy es martes (cosine similarity:0.108) 
  que dia es hoy (cosine similarity:0.000) 


(*) Es el mismo documento


### Ejemplo aumentando el corpus

In [20]:
corpus2 = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias',
                   'los lunes son lunes', 'el dia de hoy es lunes'])
cual=4
print(f"Similitud con '{corpus2[cual]}'\n")
docs, cs = compara_doc(corpus2, cual)
for i in range(len(corpus2)):
  el_mismo = star if docs[i] == corpus2[cual] else ""
  print(f"  {docs[i]} (cosine similarity:{cs[i]:.3f}) {el_mismo}")
print("\n")
print(f"{star} Es el mismo documento")

Similitud con 'el dia de hoy es lunes'

  el dia de hoy es lunes (cosine similarity:1.000) (*)
  martes el dia de hoy es martes (cosine similarity:0.562) 
  los lunes son lunes (cosine similarity:0.316) 
  que dia es hoy (cosine similarity:0.235) 
  martes muchas gracias (cosine similarity:0.000) 


(*) Es el mismo documento


### Comentarios
Una mejora que se puede hacer es crear una clase y colocar todas las funciones como métodos. De esta forma evitaría recalcular los términos y el vocabulario cada vez que se llama a una de las funciones.