In [10]:
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer  # Імпортуємо векторизатори TFIDF та Count
from sklearn.datasets import fetch_20newsgroups  # Імпортуємо набір текстових даних 20 Newsgroups
from sklearn.linear_model import LogisticRegression  # Імпортуємо модель логістичної регресії
from sklearn.metrics import classification_report, confusion_matrix  # Імпортуємо функції для оцінки моделі

all_train = fetch_20newsgroups(subset='train')  # Завантажуємо всі навчальні дані

all_train.target_names  # Показуємо усі категорії текстів у наборі даних

print("\n".join(all_train.data[0].split("\n")[:10]))  # Виводимо перші 10 рядків першого документа

categories = ['rec.autos', 'rec.sport.baseball', 'sci.space']  # Вибираємо три категорії для прикладу

newsgroups_train = fetch_20newsgroups(
    subset='train',  # Навчальна підмножина
    remove=('headers', 'footers', 'quotes'),  # Видаляємо заголовки, підписи та цитати
    categories=categories  # Беремо лише вибрані категорії
)

newsgroups_test = fetch_20newsgroups(
    subset='test',  # Тестова підмножина
    remove=('headers', 'footers', 'quotes'),  # Видаляємо заголовки, підписи та цитати
    categories=categories  # Беремо лише вибрані категорії
)

newsgroups_train.data[0][:500]  # Переглядаємо перші 500 символів першого документа навчальної вибірки

# -------------------------------
# Vectorization with CountVectorizer
# -------------------------------

n_features = 1000  # Кількість ознак для векторизації

count_vectorizer = CountVectorizer(
    max_df=0.95,  # Ігноруємо слова, які зустрічаються у більше ніж 95% документів
    min_df=0.05,  # Ігноруємо слова, які зустрічаються менше ніж у 5% документів
    max_features=n_features,  # Обмежуємо максимальну кількість ознак
    stop_words='english'  # Ігноруємо англійські стоп-слова
)

train_count_vectorizer = count_vectorizer.fit_transform(newsgroups_train.data)  # Перетворюємо навчальні дані у вектори
test_count_vectorizer = count_vectorizer.transform(newsgroups_test.data)  # Перетворюємо тестові дані у вектори

clf = LogisticRegression(random_state=0).fit(train_count_vectorizer, newsgroups_train.target)  # Навчаємо логістичну регресію
predicted = clf.predict(test_count_vectorizer)  # Прогнозуємо категорії для тестових даних

print(classification_report(newsgroups_test.target, predicted))  # Виводимо звіт класифікації

# -------------------------------
# Vectorization with CountVectorizer + n-grams
# -------------------------------

count_vectorizer = CountVectorizer(stop_words='english', ngram_range=(1, 2))  # Використовуємо уніграми та біграми

train_count_vectorizer = count_vectorizer.fit_transform(newsgroups_train.data)  # Перетворюємо навчальні дані у вектори
test_count_vectorizer = count_vectorizer.transform(newsgroups_test.data)  # Перетворюємо тестові дані у вектори

clf = LogisticRegression(random_state=0).fit(train_count_vectorizer, newsgroups_train.target)  # Навчаємо логістичну регресію
predicted = clf.predict(test_count_vectorizer)  # Прогнозуємо категорії для тестових даних

print(classification_report(newsgroups_test.target, predicted))  # Виводимо звіт класифікації

# -------------------------------
# Vectorization with TFIDF
# -------------------------------

tfidf_vectorizer = TfidfVectorizer(max_df=500, min_df=10)  # Створюємо TFIDF векторизатор і ігноруємо дуже часті та рідкі слова

tfidf_train = tfidf_vectorizer.fit_transform(newsgroups_train.data)  # Перетворюємо навчальні дані у TFIDF вектори
tfidf_test = tfidf_vectorizer.transform(newsgroups_test.data)  # Перетворюємо тестові дані у TFIDF вектори

clf = LogisticRegression().fit(tfidf_train, newsgroups_train.target)  # Навчаємо логістичну регресію

predicted = clf.predict(tfidf_test)  # Прогнозуємо категорії для тестових даних
print(classification_report(newsgroups_test.target, predicted))  # Виводимо звіт класифікації


From: lerxst@wam.umd.edu (where's my thing)
Subject: WHAT car is this!?
Nntp-Posting-Host: rac3.wam.umd.edu
Organization: University of Maryland, College Park
Lines: 15

 I was wondering if anyone out there could enlighten me on this car I saw
the other day. It was a 2-door sports car, looked to be from the late 60s/
early 70s. It was called a Bricklin. The doors were really small. In addition,
the front bumper was separate from the rest of the body. This is 
              precision    recall  f1-score   support

           0       0.69      0.60      0.64       396
           1       0.60      0.79      0.68       397
           2       0.70      0.57      0.63       394

    accuracy                           0.65      1187
   macro avg       0.66      0.65      0.65      1187
weighted avg       0.66      0.65      0.65      1187

              precision    recall  f1-score   support

           0       0.79      0.93      0.85       396
           1       0.88      0.87      0.87   