# Задание

Решение задачи классификации текстов.

Необходимо решить задачу классификации текстов на основе любого выбранного Вами датасета (кроме примера, который рассматривался в лекции). Классификация может быть бинарной или многоклассовой. Целевой признак из выбранного Вами датасета может иметь любой физический смысл, примером является задача анализа тональности текста.

Необходимо сформировать два варианта векторизации признаков - на основе CountVectorizer и на основе TfidfVectorizer.

В качестве классификаторов необходимо использовать два классификатора по варианту для Вашей группы.

## Вариант

| Учебная группа | Классификатор №1      | Классификатор №2   |
|----------------|-----------------------|--------------------|
| ИУ5-22М        | RandomForestClassifier| LogisticRegression |

# Ход выполнения работы

In [14]:
from sklearn.datasets import fetch_20newsgroups
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report

In [2]:
категории = ['alt.atheism', 'soc.religion.christian', 'comp.graphics', 'sci.med']
новости_обучение = fetch_20newsgroups(subset='train', categories=категории, shuffle=True, random_state=42)

print("Целевые классы набора данных:", новости_обучение.target_names)
print("\nКоличество образцов:", len(новости_обучение.data))
print("\nНекоторые примеры образцов:\n")
for i in range(3):
    print("Класс:", новости_обучение.target_names[новости_обучение.target[i]])
    print("Текст:", новости_обучение.data[i])
    print("\n-------------------------------------------\n")

Целевые классы набора данных: ['alt.atheism', 'comp.graphics', 'sci.med', 'soc.religion.christian']

Количество образцов: 2257

Некоторые примеры образцов:

Класс: comp.graphics
Текст: From: sd345@city.ac.uk (Michael Collier)
Subject: Converting images to HP LaserJet III?
Nntp-Posting-Host: hampton
Organization: The City University
Lines: 14

Does anyone know of a good way (standard PC application/PD utility) to
convert tif/img/tga files into LaserJet III format.  We would also like to
do the same, converting to HPGL (HP plotter) files.

Please email any response.

Is this the correct group?

Thanks in advance.  Michael.
-- 
Michael Collier (Programmer)                 The Computer Unit,
Email: M.P.Collier@uk.ac.city                The City University,
Tel: 071 477-8000 x3769                      London,
Fax: 071 477-8565                            EC1V 0HB.


-------------------------------------------

Класс: comp.graphics
Текст: From: ani@ms.uky.edu (Aniruddha B. Deglurkar)
Subject:

Инициализация CountVectorizer и TfidfVectorizer

In [15]:
count_vectorizer = CountVectorizer(stop_words='english')
tfidf_vectorizer = TfidfVectorizer(stop_words='english')

Преобразование обучающих данных в признаковые векторы

In [17]:
X_count = count_vectorizer.fit_transform(новости_обучение.data)
X_tfidf = tfidf_vectorizer.fit_transform(новости_обучение.data)

Вывод формы признаковых векторов

In [19]:
print("Форма признакового вектора CountVectorizer:", X_count.shape)
print("Форма признакового вектора TfidfVectorizer:", X_tfidf.shape)

Форма признакового вектора CountVectorizer: (2257, 35482)
Форма признакового вектора TfidfVectorizer: (2257, 35482)


Подготовка меток классов

In [21]:
y = новости_обучение.target# Разделение набора данных на обучающий и тестовый
X_count_train, X_count_test, y_train, y_test = train_test_split(X_count, y, test_size=0.2, random_state=42)
X_tfidf_train, X_tfidf_test, y_train, y_test = train_test_split(X_tfidf, y, test_size=0.2, random_state=42)

Разделение набора данных на обучающий и тестовый

In [22]:
X_count_train, X_count_test, y_train, y_test = train_test_split(X_count, y, test_size=0.2, random_state=42)
X_tfidf_train, X_tfidf_test, y_train, y_test = train_test_split(X_tfidf, y, test_size=0.2, random_state=42)

Инициализация классификатора `Random forest`

In [23]:
rf_classifier = RandomForestClassifier()
# Обучение классификатора Random forest и предсказание
rf_classifier.fit(X_count_train, y_train)
rf_count_predictions = rf_classifier.predict(X_count_test)
rf_count_report = classification_report(y_test, svc_count_predictions)

Инициализация классификатора LogisticRegression

In [25]:
lr_classifier = LogisticRegression(max_iter=1000)

Обучение классификатора LogisticRegression и предсказание

In [26]:
lr_classifier.fit(X_tfidf_train, y_train)
lr_tfidf_predictions = lr_classifier.predict(X_tfidf_test)
lr_tfidf_report = classification_report(y_test, lr_tfidf_predictions)

Вывод отчета о классификации

### Отчет о классификации классификатора случайный лес

In [27]:
svc_count_report

'              precision    recall  f1-score   support\n\n           0       0.97      0.87      0.92        86\n           1       0.78      0.98      0.87       107\n           2       0.96      0.83      0.89       132\n           3       0.93      0.94      0.93       127\n\n    accuracy                           0.90       452\n   macro avg       0.91      0.90      0.90       452\nweighted avg       0.91      0.90      0.90       452\n'

In [None]:
Отчет о классификации классификатора LogisticRegression (признаки TfidfVectorizer):\n", lr_tfidf_report)