<a href="https://colab.research.google.com/github/Zu92/nlp/blob/main/1a_word2vec_Zubieta.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Vectorización


In [None]:
import numpy as np

In [None]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [None]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [None]:
def vocabulario(corpus):

  terminos = set()
  vocabulario = []

  for texto in corpus:

    palabras = texto.split()
    for palabra in palabras:
      if palabra not in terminos:
        terminos.add(palabra) # Agregar la palabra al conjunto
        vocabulario.append(palabra) # Agregar la palabra al vocabulario

  return vocabulario

In [None]:
vocabulario(corpus)

['que', 'dia', 'es', 'hoy', 'martes', 'el', 'de', 'muchas', 'gracias']

### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [None]:


def one_hot_encoding(corpus):
  voc = vocabulario(corpus)

  OneHot = np.zeros((len(corpus), len(voc)))

  for i, texto in enumerate(corpus):
    for j, palabra in enumerate(voc):
      if palabra in texto:
       
        OneHot[i, j] = 1

  return OneHot

In [None]:
one_hot_encoding(corpus)

array([[1., 1., 1., 1., 0., 0., 0., 0., 0.],
       [0., 1., 1., 1., 1., 1., 1., 0., 0.],
       [0., 0., 1., 0., 1., 0., 0., 1., 1.]])

### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [None]:

def count_vectorizer(corpus):
  voc = vocabulario(corpus)

 
  CountVectorizer = np.zeros((len(corpus), len(voc)))

  for i, texto in enumerate(corpus):
    for j, palabra in enumerate(voc):
     
      CountVectorizer[i, j] = texto.split().count(palabra)

  return CountVectorizer

In [None]:
count_vectorizer(corpus)

array([[1., 1., 1., 1., 0., 0., 0., 0., 0.],
       [0., 1., 1., 1., 2., 1., 1., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 1., 1.]])

### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [None]:

def TF_IDF(corpus):
  
  onehot = one_hot_encoding(corpus)
  vectorfrec = count_vectorizer(corpus)

  n = len(corpus)
  df = np.sum(onehot, axis=0)
  IDF = np.log10(n / df)
  TF_IDF = vectorfrec * IDF

  return(TF_IDF)
     

In [None]:
TF_IDF(corpus)

array([[0.47712125, 0.17609126, 0.        , 0.17609126, 0.        ,
        0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.17609126, 0.        , 0.17609126, 0.35218252,
        0.47712125, 0.47712125, 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.        , 0.17609126,
        0.        , 0.        , 0.47712125, 0.47712125]])

### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [None]:
def similitud(corpus, idx):
    # Verificar si el índice existe en el corpus
    if idx >= len(corpus):
        print("Indice inexistente en el corpus")
    else:
        # Crear un diccionario vacío para almacenar la similitud de cosenos y los documentos correspondientes
        lista = {}
        
        # Obtener la matriz de características TF-IDF del corpus
        tf_idf = TF_IDF(corpus)
        i=0
        # Recorrer cada documento en la matriz de características TF-IDF
        for doc in tf_idf:
            # Calcular la similitud de cosenos entre el documento de interés y el documento actual
            similarity = cosine_similarity(tf_idf[idx], doc)
            
            # Almacenar la similitud de cosenos y el documento correspondiente en el diccionario "lista"
            lista.setdefault(similarity,corpus[i])
            i += 1
      
        # Ordenar el diccionario "lista" en orden descendente de similitud de cosenos
        lista_ord = dict(sorted(lista.items(), reverse=True))

        # Imprimir el documento de interés y los documentos del corpus ordenados por similitud de cosenos
        print('Documento a comparar: ', corpus[idx])
        print('Documentos ordenados por similitud de cosenos: ', list(lista_ord.values()))

In [None]:

similitud(corpus,0)

Documento a comparar:  que dia es hoy
Documentos ordenados por similitud de cosenos:  ['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias']
