<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Vectorización


In [17]:
import numpy as np

In [18]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [19]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [20]:
# Prompt ChatGPT con model gpt-4:
#
# Como precondicion, se tiene el siguiente corpus:
# ```
# corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])
# ```
# Se define la siguiente consigna:
# ```
# ### 1 - Obtener el vocabulario del corpus (los términos utilizados)
# - Cada documento transformarlo en una lista de términos
# - Armar un vector de términos no repetidos de todos los documentos
# ```
# Dar solucion en codigo python para ser ejecutado en Google Colab

# Transformar cada documento en una lista de términos
corpus_terms = [doc.split() for doc in corpus]

print(corpus_terms)

# Aplanar la lista de listas y eliminar términos repetidos
vocabulario = list(set([term for sublist in corpus_terms for term in sublist]))

print(vocabulario)

[['que', 'dia', 'es', 'hoy'], ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'], ['martes', 'muchas', 'gracias']]
['de', 'muchas', 'gracias', 'hoy', 'es', 'que', 'el', 'martes', 'dia']


### 2- OneHot encoding
Dada una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [21]:
# Continuando chat abierto con ChatGPT:
#
# Realizar una funcion que dada una lista de textos, devolver una matriz con la representación oneHotEncoding de estos, sin utilizar CountVectorizer

def one_hot_encoding(corpus):
    # Transformar cada documento en una lista de términos
    corpus_terms = [doc.split() for doc in corpus]

    # Aplanar la lista de listas y eliminar términos repetidos para formar el vocabulario
    vocabulario = list(set([term for sublist in corpus_terms for term in sublist]))

    # Crear una matriz de ceros con filas igual a la longitud del corpus (número de documentos)
    # y columnas igual a la longitud del vocabulario (número de términos únicos)
    one_hot_matrix = np.zeros((len(corpus), len(vocabulario)), dtype=int)

    # Para cada documento en el corpus
    for i, doc in enumerate(corpus_terms):
        # Para cada término en el documento
        for term in doc:
            # Encuentra el índice del término en el vocabulario
            j = vocabulario.index(term)
            # Coloca un 1 en la posición correspondiente en la matriz
            one_hot_matrix[i, j] = 1
            
    return one_hot_matrix

# Probamos la función
print(one_hot_encoding(corpus))


[[0 0 0 1 1 1 0 0 1]
 [1 0 0 1 1 0 1 1 1]
 [0 1 1 0 0 0 0 1 0]]


### 3- Vectores de frecuencia
Dada una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [22]:
# Continuando chat abierto con ChatGPT:
#
# Siguiendo la misma logica, dada una lista de textos, devolver una matriz con la representación de frecuencia de estos. Sin utilizar la lib de sklearn

def term_frequency(corpus):
    # Transformar cada documento en una lista de términos
    corpus_terms = [doc.split() for doc in corpus]

    # Aplanar la lista de listas y eliminar términos repetidos para formar el vocabulario
    vocabulario = list(set([term for sublist in corpus_terms for term in sublist]))

    # Crear una matriz de ceros con filas igual a la longitud del corpus (número de documentos)
    # y columnas igual a la longitud del vocabulario (número de términos únicos)
    tf_matrix = np.zeros((len(corpus), len(vocabulario)), dtype=int)

    # Para cada documento en el corpus
    for i, doc in enumerate(corpus_terms):
        # Para cada término en el documento
        for term in doc:
            # Encuentra el índice del término en el vocabulario
            j = vocabulario.index(term)
            # Incrementa el contador en la posición correspondiente en la matriz
            tf_matrix[i, j] += 1
            
    return tf_matrix

# Probamos la función
print(term_frequency(corpus))


[[0 0 0 1 1 1 0 0 1]
 [1 0 0 1 1 0 1 2 1]
 [0 1 1 0 0 0 0 1 0]]


### 4- TF-IDF
Dada una lista de textos, devolver una matriz con la representacion TFIDF

In [23]:
# Continuando chat abierto con ChatGPT:
#
# Siguiendo la misma logica, dada una lista de textos, devolver una matriz con la representacion TFIDF sin usar sklearn

import math

def idf(corpus_terms, vocabulario):
    # Crear un vector de ceros con longitud igual a la longitud del vocabulario (número de términos únicos)
    idf_vector = np.zeros((len(vocabulario), ))

    N = len(corpus_terms)

    # Para cada término en el vocabulario
    for i, term in enumerate(vocabulario):
        # Calcula cuántos documentos contienen el término
        df_t = sum([term in doc for doc in corpus_terms])
        # Calcula el IDF del término
        idf_vector[i] = math.log(N / df_t)
        
    return idf_vector

def tfidf(textos):
    # Transformar cada documento en una lista de términos
    corpus_terms = [doc.split() for doc in textos]

    # Aplanar la lista de listas y eliminar términos repetidos para formar el vocabulario
    vocabulario = list(set([term for sublist in corpus_terms for term in sublist]))

    # Calcular la matriz de Frecuencia de Término (TF)
    tf_matrix = term_frequency(textos)

    # Calcular el vector de Frecuencia Inversa de Documento (IDF)
    idf_vector = idf(corpus_terms, vocabulario)

    # Multiplicar la matriz TF por el vector IDF para obtener la matriz TF-IDF
    tfidf_matrix = tf_matrix * idf_vector

    return tfidf_matrix


# Probamos la función
print(tfidf(corpus))

[[0.         0.         0.         0.40546511 0.40546511 1.09861229
  0.         0.         0.40546511]
 [1.09861229 0.         0.         0.40546511 0.40546511 0.
  1.09861229 0.81093022 0.40546511]
 [0.         1.09861229 1.09861229 0.         0.         0.
  0.         0.40546511 0.        ]]


### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [24]:
# Continuando chat abierto con ChatGPT:
#
# Se tiene definida la siguiente funcion:
#
# ```
# def cosine_similarity(a, b):
#     return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))
# ```
#
# Se tiene la siguiente consigna:
#
# ```
# ### 5 - Comparación de documentos
# Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno
# ```

def compare_documents(corpus, index):
    # Obtener los vectores tf-idf del corpus
    vectors = tfidf(corpus)
    
    # Obtener el vector del documento de interés
    doc_vector = vectors[index]
    
    # Calcular la similitud coseno entre el documento de interés y cada documento en el corpus
    similarities = [cosine_similarity(doc_vector, vector) for vector in vectors]
    
    # Ordenar los índices de los documentos en el corpus por su similitud con el documento de interés
    sorted_indices = np.argsort(similarities)[::-1]
    
    # Devolver los documentos ordenados por similitud
    return corpus[sorted_indices]

# Probamos la función
for i in range(0, len(corpus)):
    print( "Documento: ", corpus[i], ", Documentos ordenados por similitud:", compare_documents(corpus, i))

Documento:  que dia es hoy , Documentos ordenados por similitud: ['que dia es hoy' 'martes el dia de hoy es martes' 'martes muchas gracias']
Documento:  martes el dia de hoy es martes , Documentos ordenados por similitud: ['martes el dia de hoy es martes' 'que dia es hoy' 'martes muchas gracias']
Documento:  martes muchas gracias , Documentos ordenados por similitud: ['martes muchas gracias' 'martes el dia de hoy es martes' 'que dia es hoy']
