<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Vectorización


In [1]:
import numpy as np

In [2]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [3]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [4]:
corpus_list = np.char.split(corpus)
corpus_list

array([list(['que', 'dia', 'es', 'hoy']),
       list(['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes']),
       list(['martes', 'muchas', 'gracias'])], dtype=object)

In [5]:
vocabulary = np.unique(np.sum(corpus_list))
vocabulary

array(['de', 'dia', 'el', 'es', 'gracias', 'hoy', 'martes', 'muchas',
       'que'], dtype='<U7')

### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

Uso de GPT-3.5

Prompt : "give me a python function that returns a one hot encoding matrix of a list of texts using only numpy"

"This code defines a function one_hot_encode that takes a list of texts and an optional vocabulary as input. If a vocabulary is not provided, it constructs one from the unique words in the input texts. It then creates an empty one-hot encoding matrix and fills it based on the vocabulary and the words in the input texts. Finally, it returns the one-hot encoding matrix and the vocabulary.

Note that the vocabulary is a list of unique words in the texts, and the one-hot encoding matrix has rows corresponding to each input text and columns corresponding to each word in the vocabulary"

In [6]:
def one_hot_encode(texts, vocab=None):
    if vocab is None:
        # Create a vocabulary from the unique words in the texts
        vocab = list(set(" ".join(texts).split()))

    # Create an empty one-hot encoding matrix
    one_hot_matrix = np.zeros((len(texts), len(vocab)))

    # Create a dictionary to map words to their index in the vocabulary
    word_to_index = {word: i for i, word in enumerate(vocab)}

    # Fill in the one-hot matrix
    for i, text in enumerate(texts):
        words = text.split()
        for word in words:
            # if word in word_to_index: # modifico codigo de GPT - Este if no es necesario en estos casos
            one_hot_matrix[i, word_to_index[word]] = 1

    return one_hot_matrix, vocab

# Example usage:
one_hot_matrix, vocab = one_hot_encode(corpus)
print("One-hot encoding matrix:")
print(one_hot_matrix)
print("\nVocabulary:")
print(vocab)

One-hot encoding matrix:
[[1. 1. 1. 0. 0. 0. 0. 1. 0.]
 [1. 1. 1. 0. 1. 1. 0. 0. 1.]
 [0. 0. 0. 1. 0. 1. 1. 0. 0.]]

Vocabulary:
['hoy', 'es', 'dia', 'gracias', 'el', 'martes', 'muchas', 'que', 'de']


In [7]:
one_hot_matrix, _ = one_hot_encode(corpus, vocabulary)
one_hot_matrix

array([[0., 1., 0., 1., 0., 1., 0., 0., 1.],
       [1., 1., 1., 1., 0., 1., 1., 0., 0.],
       [0., 0., 0., 0., 1., 0., 1., 1., 0.]])

### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

Uso de GPT-3.5

Prompt : "give me a python function that returns a frequency representation matrix of a list of texts using only numpy"

"This code defines a function frequency_representation that takes a list of texts and an optional vocabulary as input. If a vocabulary is not provided, it constructs one from the unique words in the input texts. It then creates an empty frequency representation matrix and fills it based on the vocabulary and the words in the input texts. The matrix will contain the word frequencies for each word in each text. Finally, it returns the frequency representation matrix and the vocabulary.

The vocabulary is a list of unique words in the texts, and the frequency representation matrix has rows corresponding to each input text and columns corresponding to each word in the vocabulary, with cell values representing word frequencies."

In [8]:
def frequency_representation(texts, vocab=None):
    if vocab is None:
        # Create a vocabulary from the unique words in the texts
        vocab = list(set(" ".join(texts).split()))

    # Create an empty frequency representation matrix
    freq_matrix = np.zeros((len(texts), len(vocab)))

    # Create a dictionary to map words to their index in the vocabulary
    word_to_index = {word: i for i, word in enumerate(vocab)}

    # Fill in the frequency matrix
    for i, text in enumerate(texts):
        words = text.split()
        for word in words:
            #if word in word_to_index: # modifico codigo de GPT - Este if no es necesario en estos casos
            freq_matrix[i, word_to_index[word]] += 1

    return freq_matrix, vocab

# Example usage:
freq_matrix, vocab = frequency_representation(corpus)
print("Frequency representation matrix:")
print(freq_matrix)
print("\nVocabulary:")
print(vocab)

Frequency representation matrix:
[[1. 1. 1. 0. 0. 0. 0. 1. 0.]
 [1. 1. 1. 0. 1. 2. 0. 0. 1.]
 [0. 0. 0. 1. 0. 1. 1. 0. 0.]]

Vocabulary:
['hoy', 'es', 'dia', 'gracias', 'el', 'martes', 'muchas', 'que', 'de']


In [9]:
freq_matrix, _ = frequency_representation(corpus, vocabulary)
freq_matrix

array([[0., 1., 0., 1., 0., 1., 0., 0., 1.],
       [1., 1., 1., 1., 0., 1., 2., 0., 0.],
       [0., 0., 0., 0., 1., 0., 1., 1., 0.]])

### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

Uso de GPT-3.5

Prompt : "give me a python function that returns a matrix  representation Factor TF-IDF of a list of texts using only numpy"

"This code performs the following steps:

1. Builds a vocabulary from the unique words in the texts.
2. Calculates the term frequencies (TF) for each term in each document.
3. Computes the inverse document frequency (IDF) for each term.
4. Finally, it calculates the TF-IDF matrix using TF and IDF.

Please note that this is a basic implementation of TF-IDF using NumPy, and it may not be as optimized or feature-rich as libraries like scikit-learn. In practice, using a library like scikit-learn is recommended for TF-IDF calculations due to its efficiency and extensive functionality."

In [10]:
# Modifique el codigo par que quede de la misma manera que las funciones anteriores.

def tfidf_representation(texts, vocab=None):
    # Step 1: Create a vocabulary
    if vocab is None:
        # Create a vocabulary from the unique words in the texts
        vocab = list(set(" ".join(texts).split()))
    
    # Step 2: Calculate term frequencies (TF)
    tf_matrix = np.zeros((len(texts), len(vocab)))
    for i, text in enumerate(texts):
        words = text.split()
        for j, word in enumerate(vocab):
            tf_matrix[i, j] = words.count(word) / len(words)

    # Step 3: Calculate inverse document frequency (IDF)
    df = np.sum(tf_matrix > 0, axis=0)
    idf = np.log(len(texts) / (df + 1)) + 1

    # Step 4: Calculate TF-IDF
    tfidf_matrix = tf_matrix * idf

    return tfidf_matrix, vocab

# Example usage:
tfidf_matrix, vocab = tfidf_representation(corpus)
print("TF-IDF representation matrix:")
print(tfidf_matrix)
print("\nVocabulary:")
print(vocab)

TF-IDF representation matrix:
[[0.25       0.25       0.25       0.         0.         0.
  0.         0.35136628 0.        ]
 [0.14285714 0.14285714 0.14285714 0.         0.20078073 0.28571429
  0.         0.         0.20078073]
 [0.         0.         0.         0.46848837 0.         0.33333333
  0.46848837 0.         0.        ]]

Vocabulary:
['hoy', 'es', 'dia', 'gracias', 'el', 'martes', 'muchas', 'que', 'de']


In [11]:
tfidf_matrix, _ = tfidf_representation(corpus, vocabulary)
tfidf_matrix

array([[0.        , 0.25      , 0.        , 0.25      , 0.        ,
        0.25      , 0.        , 0.        , 0.35136628],
       [0.20078073, 0.14285714, 0.20078073, 0.14285714, 0.        ,
        0.14285714, 0.28571429, 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.        , 0.46848837,
        0.        , 0.33333333, 0.46848837, 0.        ]])

### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [12]:
def compare_cos(document, method = 'one_hot_encode'):
    # Se Codifica el documento
    if method == 'one_hot_encode':
        matrix,_ = one_hot_encode(document)
    if method == 'frequency_representation':
        matrix,_ = frequency_representation(document)
    if method == 'tfidf_representation':
        matrix,_ = tfidf_representation(document)

    similitud = []
    # Realiza la comparación de cada elemento y lo guarda en 'similitud'
    for i in range(len(document)-1):
        for j in range(i,len(document)):
            if i!=j:
                similarity = cosine_similarity(matrix[i], matrix[j])
                similitud.append([i , j , similarity])
    similitud = np.array(similitud)

    # Imprime los resultados
    for i in similitud:
        print(f'doc:{int(i[0])} con doc:{int(i[1])} tiene similitud de coseno de: {i[2]}')
    
    # Ordena los resultados por similitud de a pares
    similitud1 = similitud[similitud[:, 2].argsort()][::-1][:,:2].flatten()
    indexes = np.unique(similitud1, return_index=True)[1]
    index = [similitud1[index] for index in sorted(indexes)]

    print('\nOrden por similitud de mayor a menor:')
    for i in index:
        print(f'Documento {int(i)}: {document[int(i)]}')
    

In [13]:
compare_cos(corpus)

doc:0 con doc:1 tiene similitud de coseno de: 0.6123724356957946
doc:0 con doc:2 tiene similitud de coseno de: 0.0
doc:1 con doc:2 tiene similitud de coseno de: 0.23570226039551587

Orden por similitud de mayor a menor:
Documento 0: que dia es hoy
Documento 1: martes el dia de hoy es martes
Documento 2: martes muchas gracias


In [14]:
compare_cos(corpus, 'frequency_representation')

doc:0 con doc:1 tiene similitud de coseno de: 0.5
doc:0 con doc:2 tiene similitud de coseno de: 0.0
doc:1 con doc:2 tiene similitud de coseno de: 0.3849001794597505

Orden por similitud de mayor a menor:
Documento 0: que dia es hoy
Documento 1: martes el dia de hoy es martes
Documento 2: martes muchas gracias


In [15]:
compare_cos(corpus, 'tfidf_representation')

doc:0 con doc:1 tiene similitud de coseno de: 0.40643395243330166
doc:0 con doc:2 tiene similitud de coseno de: 0.0
doc:1 con doc:2 tiene similitud de coseno de: 0.2716301798632699

Orden por similitud de mayor a menor:
Documento 0: que dia es hoy
Documento 1: martes el dia de hoy es martes
Documento 2: martes muchas gracias


In [16]:
# Cambienado el orden de los docs
corpus = np.array(['que dia es hoy', 'martes muchas gracias', 'martes el dia de hoy es martes'])

In [17]:
compare_cos(corpus)

doc:0 con doc:1 tiene similitud de coseno de: 0.0
doc:0 con doc:2 tiene similitud de coseno de: 0.6123724356957946
doc:1 con doc:2 tiene similitud de coseno de: 0.23570226039551587

Orden por similitud de mayor a menor:
Documento 0: que dia es hoy
Documento 2: martes el dia de hoy es martes
Documento 1: martes muchas gracias


In [18]:
compare_cos(corpus, 'frequency_representation')

doc:0 con doc:1 tiene similitud de coseno de: 0.0
doc:0 con doc:2 tiene similitud de coseno de: 0.5
doc:1 con doc:2 tiene similitud de coseno de: 0.3849001794597505

Orden por similitud de mayor a menor:
Documento 0: que dia es hoy
Documento 2: martes el dia de hoy es martes
Documento 1: martes muchas gracias


In [19]:
compare_cos(corpus, 'tfidf_representation')

doc:0 con doc:1 tiene similitud de coseno de: 0.0
doc:0 con doc:2 tiene similitud de coseno de: 0.40643395243330166
doc:1 con doc:2 tiene similitud de coseno de: 0.2716301798632699

Orden por similitud de mayor a menor:
Documento 0: que dia es hoy
Documento 2: martes el dia de hoy es martes
Documento 1: martes muchas gracias
