# Отчет

## Цель работы

Создать эффективный классификатор услуг, который на основании названия услуги сможет правильно присвоить соответствующую категорию услуги.


## Описание данных

датасет, содержащий название услуги в LPU(Лечебно- профилактические учреждения) а так же категорию.


Описание полей:

- Название: Название услуги 
- Категория: Категория услуги

## Этапы проведения работы

- EDA
- Обучение модели TF-IDF + CatBoostClassifier
- Обучение трансформера
- Общий вывод

## Итоги исследования данных (EDA)
В результате анализа было выявлено:
- данные содержат 8451 наблюдений. Состоят из 2 признаков, из них целевой - Категория; 
- задача мультиклассовой классификации;
- количество дубликатов 30.1%;
- наблюдается дисбаланс классов целевого признака;
- отсутствуют пропуски;
- все наименования классов целевого признака уникальны;

![class_distribution_image.png](attachment:class_distribution_image.png)

- при делении данных на тестовые и тренировочные данные перед обучением моделей необходимо указывать stratify по целевой переменной, чтобы классы были пропорционально распределены по всем выборкам;
- в части выбора метрики качества принято решение использовать accuracy - метрику, которая характеризует качество модели, агрегированное по всем классам. Данная метрика выбрана, так как классы для нас имеют одинаковое значение;
- перед обучением моделей требуеся предобработка текстовых данных;
- нет необходимости в удалении статистических выбросов;
- получено облако слов, которое отражает тональность названий услуг.


![word_cloud_image.png](attachment:word_cloud_image.png)


В части обучения моделей было предложено создание связки – TF-IDF + CatBoostClassifier(на основании одного из самых эффективных алгоритмов ML) и трансформера(понимание контекста является главным преимуществом данного подхода).

## Итоги обучения модели TF-IDF + CatBoostClassifier

Перед обучением модели потребовалось проведение предобработки текстовых данных:
    
    - удаление дубликатов;
    - применение к нижнему регистру;
    - регулярное выражение для удаления лишних символов;
    - замена числа и цифры на ' num ';
    - удаление лишних пробелов.
    
Удалили стоп-слов из коллекции стоп-слов для русского языка.

Провели лемматизацию – это процесс преобразования слова в его базовую форму. Использовали WordNetLemmatizer.

Провели векторизацию с помощью TfidfVectorizer.

Обучили CatBoostClassifier с подбором гиперпараметров.

В результате Модель TF-IDF + CatBoostClassifier с подобранными гиперпараметрами позволила достигнуть результата accuracy = 0.93 на тестовых данных. Хуже всего модель определяет 2 класс - Манипуляция.

В данном направлении можно пробовать подбор большего количества гиперпараметров c целью улучшения метрики. 

![Screenshot%202024-04-11%20at%2017.02.45.png](attachment:Screenshot%202024-04-11%20at%2017.02.45.png)

## Итоги обучения трансформера

Была обучена модель, которая представляет собой доработанную версию distilbert-base-uncased. DistilBERT — это модель преобразователя, меньшая по размерам и более быстрая, чем BERT, которая была предварительно обучена на том же корпусе в режиме самоконтроля с использованием базовой модели BERT в качестве учителя.

В качестве предобработки были удалены дубликаты и текст приведен к нижнему регистру.

Для предсказания класса для нового текста используется метод predict который работает следующим образом:

- Токенизируется входной текст;
- Токенизированный текст подается в модель;
- На выходе получаем вероятности классов;
- Возвращаем метку наиболее вероятного класса.

 На оценочном наборе модель достигает следующих результатов:

- Loss: 0.1774
- Accuracy: 0.9490


Во время обучения использовались следующие гиперпараметры:
- learning_rate: 2e-05
- train_batch_size: 16
- eval_batch_size: 16
- seed: 42
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: linear
- num_epochs: 3


Training results



| Training Loss | Epoch | Step | Validation Loss | Accuracy |
|:-------------:|:-----:|:----:|:---------------:|:--------:|
| 0.5964        | 1.0   | 216  | 0.3048          | 0.9015   |
| 0.2687        | 2.0   | 432  | 0.1945          | 0.9432   |
| 0.1787        | 3.0   | 648  | 0.1774          | 0.9490   |


Framework versions


- Transformers 4.38.2
- Pytorch 2.2.1+cu121
- Datasets 2.18.0
- Tokenizers 0.15.2


## Общий вывод

Исследование показало, что трансформеры лучше справляются с задачей классификации текстa. 


Нами предложен классификатор услуг на основе доработанной версии distilbert-base-uncased, способный проводить классификацию названий услуг, с точностью аccuracy: 0.949.


Для проведения дальнейших исследований предлагается продолжить исследования в части применения трансформеров для задач классификации текстов. Понимание контекста является главным преимуществом трансформеров. Данные модели не требуют предварительной обработки текста и лемматизации. 

Следующим шагом предлагается исследовать трансформеры предобученные на рускоязычных текстах. Предполагается, что это позволит повысить качество классификатора.