<a href="https://colab.research.google.com/github/anadiedrichs/2023-nlp-tps/blob/main/1a_vectorizacion.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Vectorización


In [13]:
import numpy as np

In [14]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [15]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [16]:
documentos = np.char.split(corpus)
documentos

array([list(['que', 'dia', 'es', 'hoy']),
       list(['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes']),
       list(['martes', 'muchas', 'gracias'])], dtype=object)

In [17]:
np.isin(documentos[0][0],documentos[0])

array(True)

In [18]:
tokens = []

for doc in documentos:
  for word in doc:
    if np.isin(word,tokens) == False:
      tokens = np.append(tokens,word)
      #print(word)

print(tokens)

['que' 'dia' 'es' 'hoy' 'martes' 'el' 'de' 'muchas' 'gracias']


### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [19]:
n_tokens = len(tokens)
n_doc = documentos.size

matriz = np.zeros((n_doc,n_tokens),dtype = np.uint8)
matriz

array([[0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0]], dtype=uint8)

In [20]:
fila = 0
for doc in documentos:
  #print(doc)
  for word in doc:
    #print(word)
    if word in tokens:
      i = tokens.tolist().index(word)
      #print(i)
      matriz[fila,i] = 1

  fila = fila + 1

print(matriz)

[[1 1 1 1 0 0 0 0 0]
 [0 1 1 1 1 1 1 0 0]
 [0 0 0 0 1 0 0 1 1]]


In [21]:
def one_hot_encoding(documento_list, tokens_list):

  n_tokens = len(tokens_list)
  n_doc = documento_list.size
  matriz = np.zeros((n_doc,n_tokens),dtype = np.uint8)
  fila = 0

  for doc in documento_list:
    #print(doc)
    for word in doc:
      #print(word)
      if word in tokens_list:
        i = tokens.tolist().index(word)
        #print(i)
        matriz[fila,i] = 1

    fila = fila + 1

  return matriz

print(one_hot_encoding(documentos, tokens))


[[1 1 1 1 0 0 0 0 0]
 [0 1 1 1 1 1 1 0 0]
 [0 0 0 0 1 0 0 1 1]]


### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [22]:
n_tokens = len(tokens)
n_doc = documentos.size

frecuencias = np.zeros((n_doc,n_tokens),dtype = np.uint8)
frecuencias


array([[0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0]], dtype=uint8)

In [23]:
fila = 0
for doc in documentos:
  #print(doc)
  for word in doc:
    #print(word)
    if word in tokens:
      i = tokens.tolist().index(word)
      #print(i)
      frecuencias[fila,i]= frecuencias[fila,i]+1

  fila = fila + 1

print(frecuencias)

[[1 1 1 1 0 0 0 0 0]
 [0 1 1 1 2 1 1 0 0]
 [0 0 0 0 1 0 0 1 1]]


In [24]:
def frecuency_matrix(documento_list, tokens_list):
  n_tokens = len(tokens_list)
  n_doc = documento_list.size
  frecuencias = np.zeros((n_doc,n_tokens),dtype = np.uint8)

  fila = 0
  for doc in documento_list:
    #print(doc)
    for word in doc:
      #print(word)
      if word in tokens_list:
        i = tokens_list.tolist().index(word)
        #print(i)
        frecuencias[fila,i]= frecuencias[fila,i]+1

    fila = fila + 1

  return frecuencias

print(frecuency_matrix(documentos, tokens))

[[1 1 1 1 0 0 0 0 0]
 [0 1 1 1 2 1 1 0 0]
 [0 0 0 0 1 0 0 1 1]]


### 4- TF-IDF
Dada una lista de textos, devolver una matriz con la representacion TFIDF

In [25]:
# calcular IDF
# Se obtiene como la división de la cantidad de documentos sobre la
# suma en axis=0 (vertical) del OneHotEncoding.
def inverse_document_frequency(documento_list, tokens_list):

  n_doc = documento_list.size

  Freq = frecuency_matrix(documento_list, tokens_list)

  div = (n_doc * 1.0) / (np.sum(Freq,axis=0) * 1.0)

  #print(div)

  return np.log10(div)

IDF = inverse_document_frequency(documentos, tokens)

print(IDF )
# calcular TF
TF = frecuency_matrix(documentos, tokens)
print(TF)
# regresar TF-IDF

def TF_IDF_function(documento_list, tokens_list):
  return frecuency_matrix(documentos, tokens) * inverse_document_frequency(documentos, tokens)


TF_IDF_function(documentos, tokens)



[0.47712125 0.17609126 0.17609126 0.17609126 0.         0.47712125
 0.47712125 0.47712125 0.47712125]
[[1 1 1 1 0 0 0 0 0]
 [0 1 1 1 2 1 1 0 0]
 [0 0 0 0 1 0 0 1 1]]


array([[0.47712125, 0.17609126, 0.17609126, 0.17609126, 0.        ,
        0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.17609126, 0.17609126, 0.17609126, 0.        ,
        0.47712125, 0.47712125, 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.47712125, 0.47712125]])

### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [26]:
# funcion ya brindada por los profes
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

def compute_cosine_similarity(documento_list, tokens_list):

  # vectorizo los documentos
  df = TF_IDF_function(documento_list, tokens_list)
  # calculo la similitud del coseno
  c = cosine_similarity(df,df.T)
  # ordeno de mayor a menor similitud
  # to be done

  return c



compute_cosine_similarity(documentos, tokens)

array([[0.2421474 , 0.07024567, 0.        ],
       [0.07024567, 0.41404913, 0.        ],
       [0.        , 0.        , 0.34380346]])

Consulta y referencia para explicación: https://studymachinelearning.com/cosine-similarity-text-similarity-metric/
