#### TF-IDF - Term Frequency-Inverse Document Frequency

In [1]:
import torch
from collections import Counter
import math

In [2]:
# Definindo o corpus de texto
corpus = ['Este é o primeiro documento.', 'Este é o segundo documento.', 'Este é o terceiro documento.', 'Este é o quarto documento.']

In [3]:
# Criando um vocabulário a partir do corpus
vocab = set([word for doc in corpus for word in doc.split()])

In [4]:
# Mapeando cada palavra do vocabulário para um índice inteiro
word_to_ix = {word: i for i, word in enumerate(vocab)}

In [6]:
# Calculando o IDF de cada palavra do vocabulário
num_docs = len(corpus)
idf = {}

for word in vocab:
    count = sum([1 for doc in corpus if word in doc.split()])
    idf[word] = math.log(num_docs / count)

In [10]:
idf

{'quarto': 1.3862943611198906,
 'o': 0.0,
 'Este': 0.0,
 'primeiro': 1.3862943611198906,
 'documento.': 0.0,
 'é': 0.0,
 'terceiro': 1.3862943611198906,
 'segundo': 1.3862943611198906}

In [11]:
docs_as_tfidf = []
for doc in corpus:
    tf_vector = torch.zeros(len(vocab))
    for word in doc.split():
        tf_vector[word_to_ix[word]] += 1
    
    tf_vector = tf_vector / len(doc.split()) # Normalizando o vetor pelo tamanho do documento
    tfidf_vector = tf_vector * torch.tensor([idf[word] for word in vocab]) # Multiplicando pelo IDF de cada palavra

    docs_as_tfidf.append(tfidf_vector)

In [13]:
for i, doc in enumerate(docs_as_tfidf):
    print(f"Documento {i+1}:\n{doc}\n")

Documento 1:
tensor([0.0000, 0.0000, 0.0000, 0.2773, 0.0000, 0.0000, 0.0000, 0.0000])

Documento 2:
tensor([0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.2773])

Documento 3:
tensor([0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.2773, 0.0000])

Documento 4:
tensor([0.2773, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000])

