# Практика, ФиКЛ 2025

## Датасет

Возьмите [датасет новостей](https://scikit-learn.org/stable/datasets/real_world.html#newsgroups-dataset), встроенный в `sklearn`.

In [None]:
from sklearn.datasets import fetch_20newsgroups

Вообще в нем есть **двадцать категорий** новостей, но мы предлагаем вам взять **от трех до пяти**. Можете взять две пары близких категорий для бинарной классификации или три разных и т.д.

Список всех категорий есть ниже, а выбрать конкретные категории можно так:

```python
my_groups = fetch_20newsgroups(
    categories=[
        ... # список категорий
    ])
```



In [None]:
from pprint import pprint

pprint(list(fetch_20newsgroups().target_names))

['alt.atheism',
 'comp.graphics',
 'comp.os.ms-windows.misc',
 'comp.sys.ibm.pc.hardware',
 'comp.sys.mac.hardware',
 'comp.windows.x',
 'misc.forsale',
 'rec.autos',
 'rec.motorcycles',
 'rec.sport.baseball',
 'rec.sport.hockey',
 'sci.crypt',
 'sci.electronics',
 'sci.med',
 'sci.space',
 'soc.religion.christian',
 'talk.politics.guns',
 'talk.politics.mideast',
 'talk.politics.misc',
 'talk.religion.misc']


В этом датасете есть несколько ключей:

In [None]:
fetch_20newsgroups().keys()

dict_keys(['data', 'filenames', 'target_names', 'target', 'DESCR'])

Нас в первую очередь интересуют `'data'` с самими текстами и `'target'` с номерами категорий (и `'target_names'` с названиями категорий). Обратиться к ним можно при помощи: `my_groups['data']`, `my_groups['target']` и т.д.



## EDA и подготовка датасета

1. Выберите **от трех до пяти** категорий новостей.

In [None]:
# ваш код здесь

2. Запишите сами тексты в `data`, а номера категорий в `y` (или перекодируйте на `True` / `False`, если берете бинарную классификацию). Проверьте, насколько соблюдается баланс классов в целевой переменной:

In [None]:
data = ...
y = ...

3. Разделите данные на обучающую и тестовую выборки:

In [None]:
data_train, data_test, y_train, y_test = ...

## Предобработка текстов

В качестве признаков, по которым модель будет принимать решение, можно использовать один из двух вариантов:
- [`CountVectorizer`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html#sklearn.feature_extraction.text.CountVectorizer): просто наличие слов
- [`TfidfVectorizer`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html#sklearn.feature_extraction.text.TfidfVectorizer): наличие слов в тексте, принимая во внимание их важность

### TF-IDF

В этой аббревиатуре TF обозначает **text frequency** $-$ сколько раз слово (а вернее, «терм») встретилось в документе. Считается как количество раз, которое слово встретилось, делённое на общее количество слов в тексте:

$$TF_{i,j} = \frac{n_{i,j}}{\sum_{k}^{}n_{i,j}}$$

IDF $-$ это **inverse document frequency** $-$ важность терма для конкретного документа. Он считается так:

$$ IDF = log \frac{N}{n_t}$$

Общее количество документов делится на количество документов, где нужный терм встретился хотя бы один раз; от полученной величины берётся логарифм. Таким образом, если терм встретился только в одном документе, то его IDF будет высокой (т.е. это важный для документа терм).

Итоговая величина получается перемножением исходных двух метрик:

$$TFIDF = TF \cdot IDF$$

### Что важно помнить при предобработке текстов?

**Преобработанный текст**

Ваш текст уже должен быть избавлен от знаков препинания, неуместных заглавных букв и т.д., а также лемматизирован. Так вы избавитесь от разных «термов»-форм слова, которые значат по сути одно и то же.

**Стоп-слова**

Лучше убирать из текста стоп-слова: их высокая частотность и присутствие во многих документах может размыть вам картинку.

### Реализация


…уже сделана за нас в пакете `sklearn`.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer

4. Возьмите один из вариантов и настройте его под себя, если нужно (тут на помощь придет документация):

In [None]:
my_text_model = ...

5. Обучите выбранный вариант на `data_train` и преобразуйте (метод `transform`) `data_train` и `data_test`:

In [None]:
my_text_model.fit(data_train)

In [None]:
X_train = my_text_model.transform(data_train).astype(int)
X_test = my_text_model.transform(data_test).astype(int)

## Обучение и оценка


### Логистическая регрессия

6. Постройте логистическую регрессию:

In [None]:
# ваш код здесь

7. Посчитайте качество модели

In [None]:
# ваш код здесь

8. Посмотрите топ-5 слов, влияющих на выбор той или иной категории (по сути, это все те же коэфициенты):

In [None]:
# ваш код здесь

### Деревья решений

9. Постройте дерево решений:

In [None]:
# ваш код здесь

10. Посчитайте качество модели:

In [None]:
# ваш код здесь

11. Визуализируйте ваше итоговое дерево:

In [None]:
# ваш код здесь

### Общие выводы / мысли

-- место для вашего текста --