<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Word2vect


In [None]:
import numpy as np

In [None]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [None]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [None]:
def Vocab(corpus):
  terminos = []
  vocabulario = []

  for term in corpus:
    terminos = term.split()
    for voc in terminos:
      if voc not in vocabulario:
        vocabulario.append(voc)  
  return(vocabulario)

### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [None]:
def OneHotEnc(corpus):
  
  vocabulario = Vocab(corpus)

  OneHot = np.zeros((len(corpus),len(vocabulario)))
  
  i = 0
  for doc in corpus:
    for ter in doc.split():
      j = 0
      for voca in vocabulario:
        if ter == voca:
          OneHot[i,j] = 1
        j += 1
    i += 1

  return(OneHot)

### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [None]:
def VectorFrec(corpus):

  vocabulario = Vocab(corpus)

  CountVectorizer = np.zeros((len(corpus),len(vocabulario)))

  i = 0
  for doc in corpus:
    for ter in doc.split():
      j = 0
      for voca in vocabulario:
        if ter == voca:
          CountVectorizer[i,j] += 1
        j += 1
    i += 1

  return(CountVectorizer)

### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [None]:
def TF_IDF(corpus):
  
  onehot = OneHotEnc(corpus)
  vectorfrec = VectorFrec(corpus)

  n = len(corpus)
  df = np.sum(onehot, axis=0)
  IDF = np.log10(n / df)
  TF_IDF = vectorfrec * IDF

  return(TF_IDF)

### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [None]:
def similitud(corpus,idx):

  if idx >= len(corpus):
    print("Indice inexistente en el corpus")
  else:
    lista = {}
    tf_ifd = TF_IDF(corpus)
    i=0
    for doc in tf_ifd:
      a = cosine_similarity(tf_ifd[idx], doc)
      lista.setdefault(a,corpus[i])
      i += 1
    lista_ord = dict(sorted(lista.items(), reverse=True))
  
    print('Documento a comparar: ',corpus[idx])
    print('Documentos ordenados por similitud de cosenos: ',list(lista_ord.values()))

In [None]:
similitud(corpus,0)

Documento a comparar:  que dia es hoy
Documentos ordenados por similitud de cosenos:  ['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias']
