Task 0. Using https://www.nltk.org/howto/corpus.html#overview, implement TF-IDF vectorizer for e.g. Treebank corpus
Реалізація TF-IDF векторизатора для корпусу Treebank
Завдання 0. Використовуючи https://www.nltk.org/howto/corpus.html#overview,, реалізуйте TF-IDF векторизатор для корпусу Treebank.

In [1]:
import nltk
from nltk.corpus import treebank
from nltk.text import TextCollection
from nltk.tokenize import word_tokenize
import math

# Завантаження корпусу Treebank
nltk.download('treebank')
nltk.download('punkt')

# Отримання документів з корпусу
documents = [treebank.words(fileid) for fileid in treebank.fileids()]

# Створення колекції текстів для TF-IDF
text_collection = TextCollection(documents)

# Обчислює TF-IDF ваги для кожного унікального слова в документі
def compute_tfidf(document):
    tfidf_scores = {}
    for word in set(document):
        # Term Frequency (TF) в поточному документі
        tf = document.count(word) / len(document)
        
        # Inverse Document Frequency (IDF)
        idf = text_collection.idf(word)
        
        # TF-IDF score
        tfidf_scores[word] = tf * idf
    
    return tfidf_scores

# Приклад використання для перших 5 документів
for i, doc in enumerate(documents[:5]):
    print(f"\nДокумент {i+1} - Топ-5 слів за TF-IDF:")
    tfidf_scores = compute_tfidf(doc)
    
    # Сортування слів за значенням TF-IDF (спадання)
    sorted_words = sorted(tfidf_scores.items(), key=lambda x: x[1], reverse=True)
    
    # Вивід топ-5 слів
    for word, score in sorted_words[:5]:
        print(f"{word}: {score:.4f}")

# Функція для векторизації нового документа
def vectorize_new_text(text):
    tokens = word_tokenize(text.lower())
    return compute_tfidf(tokens)

# Тестування на новому тексті
test_text = "This is an example sentence for TF-IDF vectorization."
print("\nTF-IDF вектори для тестового тексту:")
vector = vectorize_new_text(test_text)
for word, score in sorted(vector.items(), key=lambda x: x[1], reverse=True)[:5]:
    print(f"{word}: {score:.4f}")

[nltk_data] Downloading package treebank to
[nltk_data]     /Users/boykosvitlana/nltk_data...
[nltk_data]   Package treebank is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     /Users/boykosvitlana/nltk_data...
[nltk_data]   Package punkt is already up-to-date!



Документ 1 - Топ-5 слів за TF-IDF:
Vinken: 0.3415
Pierre: 0.1708
Elsevier: 0.1708
Dutch: 0.1484
N.V.: 0.1484

Документ 2 - Топ-5 слів за TF-IDF:
Agnew: 0.1960
Fields: 0.1704
Consolidated: 0.1704
Gold: 0.1704
Rudolph: 0.1704

Документ 3 - Топ-5 слів за TF-IDF:
asbestos: 0.0745
filters: 0.0474
Lorillard: 0.0338
crocidolite: 0.0338
fibers: 0.0271

Документ 4 - Топ-5 слів за TF-IDF:
yield: 0.0630
funds: 0.0461
yields: 0.0411
seven-day: 0.0389
maturities: 0.0389

Документ 5 - Топ-5 слів за TF-IDF:
Grace: 0.3651
W.R.: 0.2738
holds: 0.1446
J.P.: 0.0913
Daniels: 0.0913

TF-IDF вектори для тестового тексту:
sentence: 0.5881
example: 0.2499
this: 0.0999
an: 0.0649
is: 0.0465
