In [29]:
from sklearn.datasets import fetch_20newsgroups

категории = ['alt.atheism', 'soc.religion.christian', 'comp.graphics', 'sci.med']
новости_обучение = fetch_20newsgroups(subset='train', categories=категории, shuffle=True, random_state=42)

print("Целевые классы набора данных:", новости_обучение.target_names)
print("\nКоличество образцов:", len(новости_обучение.data))
print("\nНекоторые примеры образцов:\n")
for i in range(3):
    print("Класс:", новости_обучение.target_names[новости_обучение.target[i]])
    print("Текст:", новости_обучение.data[i])
    print("\n-------------------------------------------\n")

Целевые классы набора данных: ['alt.atheism', 'comp.graphics', 'sci.med', 'soc.religion.christian']

Количество образцов: 2257

Некоторые примеры образцов:

Класс: comp.graphics
Текст: From: sd345@city.ac.uk (Michael Collier)
Subject: Converting images to HP LaserJet III?
Nntp-Posting-Host: hampton
Organization: The City University
Lines: 14

Does anyone know of a good way (standard PC application/PD utility) to
convert tif/img/tga files into LaserJet III format.  We would also like to
do the same, converting to HPGL (HP plotter) files.

Please email any response.

Is this the correct group?

Thanks in advance.  Michael.
-- 
Michael Collier (Programmer)                 The Computer Unit,
Email: M.P.Collier@uk.ac.city                The City University,
Tel: 071 477-8000 x3769                      London,
Fax: 071 477-8565                            EC1V 0HB.


-------------------------------------------

Класс: comp.graphics
Текст: From: ani@ms.uky.edu (Aniruddha B. Deglurkar)
Subject:

In [30]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

# Инициализация CountVectorizer и TfidfVectorizer
count_vectorizer = CountVectorizer(stop_words='english')
tfidf_vectorizer = TfidfVectorizer(stop_words='english')

# Преобразование обучающих данных в признаковые векторы
X_count = count_vectorizer.fit_transform(новости_обучение.data)
X_tfidf = tfidf_vectorizer.fit_transform(новости_обучение.data)

# Вывод формы признаковых векторов
print("Форма признакового вектора CountVectorizer:", X_count.shape)
print("Форма признакового вектора TfidfVectorizer:", X_tfidf.shape)

Форма признакового вектора CountVectorizer: (2257, 35482)
Форма признакового вектора TfidfVectorizer: (2257, 35482)


In [31]:
from sklearn.model_selection import train_test_split

# Подготовка меток классов
y = новости_обучение.target

# Разделение набора данных на обучающий и тестовый
X_count_train, X_count_test, y_train, y_test = train_test_split(X_count, y, test_size=0.2, random_state=42)
X_tfidf_train, X_tfidf_test, y_train, y_test = train_test_split(X_tfidf, y, test_size=0.2, random_state=42)


In [32]:
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report

# Инициализация классификатора SVC
svc_classifier = SVC()
# Обучение классификатора SVC и предсказание
svc_classifier.fit(X_count_train, y_train)
svc_count_predictions = svc_classifier.predict(X_count_test)
svc_count_report = classification_report(y_test, svc_count_predictions)

# Инициализация классификатора LogisticRegression
lr_classifier = LogisticRegression(max_iter=1000)
# Обучение классификатора LogisticRegression и предсказание
lr_classifier.fit(X_tfidf_train, y_train)
lr_tfidf_predictions = lr_classifier.predict(X_tfidf_test)
lr_tfidf_report = classification_report(y_test, lr_tfidf_predictions)

# Вывод отчета о классификации
print("Отчет о классификации классификатора SVC (признаки CountVectorizer):\n", svc_count_report)
print("\nОтчет о классификации классификатора LogisticRegression (признаки TfidfVectorizer):\n", lr_tfidf_report)

Отчет о классификации классификатора SVC (признаки CountVectorizer):
               precision    recall  f1-score   support

           0       0.99      0.87      0.93        86
           1       0.77      0.96      0.85       107
           2       0.93      0.86      0.90       132
           3       0.96      0.91      0.93       127

    accuracy                           0.90       452
   macro avg       0.91      0.90      0.90       452
weighted avg       0.91      0.90      0.90       452


Отчет о классификации классификатора LogisticRegression (признаки TfidfVectorizer):
               precision    recall  f1-score   support

           0       0.98      0.92      0.95        86
           1       0.91      1.00      0.95       107
           2       0.98      0.95      0.97       132
           3       0.96      0.94      0.95       127

    accuracy                           0.96       452
   macro avg       0.96      0.95      0.95       452
weighted avg       0.96      