### Task 0. Using https://www.nltk.org/howto/corpus.html#overview, implement TF-IDF vectorizer for e.g. Treebank corpus

In [18]:
import nltk
from nltk.corpus import gutenberg
from sklearn.feature_extraction.text import TfidfVectorizer

# Завантажуємо всі речення з корпусу Treebank
sentences = gutenberg.sents()

# Перетворюємо речення в рядки, об'єднуючи слова
documents = [' '.join(sentence) for sentence in sentences]

# Ініціалізуємо TfidfVectorizer для перетворення тексту в числові вектори
vectorizer = TfidfVectorizer()

# Навчаємо та перетворюємо документи на TF-IDF матрицю
tfidf_matrix = vectorizer.fit_transform(documents)

# Отримуємо імена фіч (слова, які використовуються у документах)
feature_names = vectorizer.get_feature_names_out()

# Перетворюємо матрицю TF-IDF в щільний формат і виводимо її
dense_tfidf_matrix = tfidf_matrix[:1000].todense()  # Convert only the first 1000 rows to dense format
print(dense_tfidf_matrix)
print(feature_names)


[[0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 ...
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]]
['00' '000' '00021053' ... 'zurishaddai' 'zuyder' 'zuzims']


In [19]:
import nltk
from nltk.corpus import gutenberg, treebank
from sklearn.feature_extraction.text import TfidfVectorizer

# Завантажуємо всі речення з корпусу Treebank
sentences = treebank.sents()

# Перетворюємо речення в рядки, об'єднуючи слова
documents = [' '.join(sentence) for sentence in sentences]

# Ініціалізуємо TfidfVectorizer для перетворення тексту в числові вектори
vectorizer = TfidfVectorizer()

# Навчаємо та перетворюємо документи на TF-IDF матрицю
tfidf_matrix = vectorizer.fit_transform(documents)

# Отримуємо імена фіч (слова, які використовуються у документах)
feature_names = vectorizer.get_feature_names_out()

# Перетворюємо матрицю TF-IDF в щільний формат і виводимо її
dense_tfidf_matrix = tfidf_matrix.todense()  # Convert only the first 1000 rows to dense format
print(dense_tfidf_matrix)
print(feature_names)


[[0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 ...
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]]
['00' '000' '004' ... 'zoomed' 'zuckerman' 'zurich']


In [20]:
import nltk
from nltk.corpus import treebank
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import CountVectorizer
import numpy as np

# Завантажуємо корпус Treebank
nltk.download('treebank')

# Завантажуємо всі речення з корпусу Treebank
sentences = treebank.sents()

# Перетворюємо речення в рядки, об'єднуючи слова
documents = [' '.join(sentence) for sentence in sentences]

[nltk_data] Downloading package treebank to
[nltk_data]     C:\Users\kleot\AppData\Roaming\nltk_data...
[nltk_data]   Package treebank is already up-to-date!


###  1. Створення Bag-of-Words моделі

In [21]:
# Ініціалізуємо CountVectorizer (для Bag-of-Words)
bow_vectorizer = CountVectorizer()

# Навчаємо та перетворюємо документи на матрицю термін-документ
bow_matrix = bow_vectorizer.fit_transform(documents)

# Отримуємо список всіх слів (feature names)
bow_feature_names = bow_vectorizer.get_feature_names_out()

# Перетворюємо матрицю в щільний формат і виводимо
dense_bow_matrix = bow_matrix.todense()

print("Bag-of-Words представлення:")
print(dense_bow_matrix)


Bag-of-Words представлення:
[[0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 ...
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]


### 2. Обчислення TF-IDF

In [22]:
# Ініціалізуємо TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer()

# Навчаємо та перетворюємо документи на TF-IDF матрицю
tfidf_matrix = tfidf_vectorizer.fit_transform(documents)

# Отримуємо імена фіч для TF-IDF
tfidf_feature_names = tfidf_vectorizer.get_feature_names_out()

# Перетворюємо TF-IDF матрицю в щільний формат і виводимо
dense_tfidf_matrix = tfidf_matrix.todense()

print("\nTF-IDF представлення:")
print(dense_tfidf_matrix)


TF-IDF представлення:
[[0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 ...
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]]


### 3. Обчислення PPMI (Positive Pointwise Mutual Information)

In [23]:
# Створюємо термін-термін матрицю (для простоти використовуємо кількість появ слів разом)
co_occurrence_matrix = np.dot(bow_matrix.T, bow_matrix).todense()

# Загальна кількість документів
num_docs = bow_matrix.shape[0]

# Рахуємо PPMI
ppmi_matrix = np.maximum(0, np.log((co_occurrence_matrix * num_docs) /
                                   (np.dot(np.sum(co_occurrence_matrix, axis=1).reshape(-1, 1),
                                           np.sum(co_occurrence_matrix, axis=0).reshape(1, -1)))))

print("\nPPMI матриця:")
print(ppmi_matrix)

# Для порівняння, можна вивести кілька перших слів для кожної матриці
print("\nПерші 10 слів Bag-of-Words:")
print(bow_feature_names[:10])

print("\nПерші 10 слів TF-IDF:")
print(tfidf_feature_names[:10])

  ppmi_matrix = np.maximum(0, np.log((co_occurrence_matrix * num_docs) /



PPMI матриця:
[[1.14141632 0.         0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]
 [0.         0.         1.53772349 ... 0.         0.         0.        ]
 ...
 [0.         0.         0.         ... 0.99714283 0.         0.        ]
 [0.         0.         0.         ... 0.         0.99714283 0.        ]
 [0.         0.         0.         ... 0.         0.         3.14241643]]

Перші 10 слів Bag-of-Words:
['00' '000' '004' '0085' '01' '03' '04' '040' '05' '050']

Перші 10 слів TF-IDF:
['00' '000' '004' '0085' '01' '03' '04' '040' '05' '050']
