# Домашнее задание №2

SQL-инъекция (SQLi) представляет собой одну из наиболее распространенных и опасных уязвимостей веб-приложений. Она возникает, когда злоумышленник вставляет вредоносные SQL-запросы в поля ввода пользовательских данных. Эти запросы могут позволить злоумышленнику получить несанкционированный доступ к базе данных, извлечь, изменить или удалить данные, а в некоторых случаях даже получить контроль над сервером.

Обнаружение и предотвращение SQL-инъекций крайне важно, поскольку такие атаки могут нанести значительный ущерб как бизнесу, так и пользователям. Традиционные методы защиты включают использование параметризованных запросов, подготовленных выражений и тщательную проверку и экранирование входных данных. Однако, несмотря на эти меры, уязвимости все же могут возникать из-за ошибок в программировании или человеческого фактора.

С развитием технологий машинного обучения (ML) появились новые подходы к обнаружению и предотвращению SQL-инъекций. Методы машинного обучения позволяют анализировать большие объемы данных и выявлять аномалии или подозрительные шаблоны, указывающие на попытку внедрения вредоносного SQL-запроса. Системы, основанные на ML, могут обучаться на исторических данных и адаптироваться к новым видам атак, что делает их мощным инструментом для обеспечения безопасности веб-приложений.

## Подготовка виртуального окружения Python

Предварительно нужно установить все зависимые модули. Все необходимые зависимости перечислены в requirements.txt файле. Чтобы установить зависимости, выполните в терминале следующую команду:

python3 -m pip install -r requirements.txt

## Описания задания

В данном задании мы постараемся изучить возможность детектирования SQL-инъекций на основе подхода обработки естественного языка (NLP) к анализу данных. Современные методы NLP позволяют эффективно обрабатывать и анализировать текстовые данные, выявляя закономерности и аномалии, которые могут ускользнуть от традиционных методов защиты.

Используя инструменты и методы NLP, мы будем анализировать текстовые входные данные веб-приложений, чаще всего передаваемый в полезной нагрузки прикладных протоколов, чтобы обнаружить подозрительные паттерны, характерные для SQL-инъекций. Это включает в себя такие техники, как токенизация (`RegexpTokenizer`), векторизация текста (`TfidfVectorizer`, `CountVectorizer`), предобработка данных (отброс несущественных токенов на основе анализа главных компонент),обучение моделей классификации.

В рамках работы вам предоставлено два размеченных датасета (`train-dataset.tsv` и `test-dataset.csv`)  с полезной нагрузкой в виде текста и метки 0 (легитимный текст) и 1 (payload содержащий sql инъекцию) 

Для выполнения домашнего задания вам необходимо:
1. Предустановить зависимости:
```shell
$ pip install -r requirements.txt
```
2. Загрузить исходный датасет `train-dataset.tsv` при помощи модуля `pandas` и разбить его на обучающий и тестовый набор данных: 
```python
source_df = pd.read_csv("datasets/train-dataset.tsv", sep='\t', engine='python')
df_train, df_test = train_test_split(source_df, test_size=0.5)
x_train, y_train = df_train['payload'].values, df_train['label'].values
x_test, y_test = df_test['payload'].values, df_test['label'].values
```

3. Извлечь токенезировать и векторизировать данные представленные в `train-dataset.tsv` при помощи инструментов `nltk.tokenize.RegexpTokenizer`, `sklearn.feature_extraction.text.TfidfVectorizer`, `sklearn.feature_extraction.text.CountVectorizer`

4. Выбрать ключевые, наиболее значемые токены при помощи инструментов `sklearn.feature_selection.SelectFromModel` и `sklearn.decomposition.TruncatedSVD`

5. Обучить модель на выбранных ключевых признаках

6. Протестировать обученную модель на тестовых данных из набора `train-dataset.tsv`

7. Подсчитать accuracy, построить матрицу ошибок

8. Загрузить тестовый датасет `test-dataset.tsv` при помощи модуля `pandas`:

9. Протестировать предобученную модель на новом наборе данных

10. Подсчитать accuracy, построить матрицу ошибок

11. Рассмотреть различные модели классификации, а также различные способы векторизации и токенизации данных, сравнить полученные результаты между собой

## Теоретический материал

Процесс машинного обучения моделей классификации позволяющих обнаруживать SQL инъекции можно свести к следующим этапам: 

#### 1. Предварительная обработка данных

Основная цель предварительной обработки данных — подготовить текстовые данные для дальнейшего анализа. Это включает следующие шаги:

- Токенизация: Разбиение текста на отдельные слова или фразы (токены).
- Очистка текста: Удаление лишних символов, знаков препинания, стоп-слов и приведение слов к нижнему регистру.
- Лемматизация или стемминг: Приведение слов к их начальной или базовой форме для уменьшения количества уникальных слов.


**RegexpTokenizer** (регулярный токенизатор) — это инструмент для разбиения текста на токены (слова или фразы) с использованием регулярных выражений. Регулярные выражения позволяют задавать сложные шаблоны для поиска и извлечения нужных частей текста.

#### 2. Векторизация данных

Наиболее простым споосбом векторизации является `CountVectorizer`:

`CountVectorizer` — это инструмент для преобразования текста в числовые векторы путем подсчета количества вхождений каждого слова в документ. В результате каждый документ представляется как вектор, где каждая позиция соответствует определенному слову, а значение в позиции — количество вхождений этого слова в документе.

Пример:

Документ 1: "SELECT * FROM users"
Документ 2: "DROP TABLE users"
Векторизация: [1, 1, 1, 0, 0] и [0, 0, 0, 1, 1]
где каждая позиция соответствует слову(токену) из словаря: ["SELECT", "*", "FROM", "DROP", "TABLE"].

Другим способом векторизации является `TfidfVectorizer`:

`TfidfVectorizer` (Term Frequency-Inverse Document Frequency Vectorizer) — это инструмент обработки текста, используемый для преобразования текстовых данных в числовые векторы на основе значимости слов. Этот метод учитывает как частоту появления слова в документе (term frequency, TF), так и обратную частоту появления слова во всех документах коллекции (inverse document frequency, IDF).

- TF (term frequency): измеряет частоту появления слова в документе. Обычно рассчитывается как отношение количества вхождений слова к общему количеству слов в документе: tf(t, d) = f(t, d) / sum(f(t', d) for t' in d)
- IDF (inverse document frequency): измеряет, насколько редким или распространенным является слово в коллекции документов. Рассчитывается как логарифм отношения общего количества документов к количеству документов, содержащих данное слово: idf(t) = log(N / df(t))

- Итоговый вес токена: tf-idf(t, d) = tf(t, d) * log(N / df(t))

#### 3. Отбор токенов (Отбор признаков)

Отбор токенов (или признаков) является важным шагом, который позволяет уменьшить размерность данных, улучшить производительность модели и избежать переобучения. Для этого используются различные методы, включая статистические и алгоритмические подходы:

- `SelectFromModel`: Метод для отбора признаков, основанный на важности признаков, которую определяет обученная модель. Например, можно использовать Lasso (линейная модель с L1-регуляризацией) для оценки важности признаков.

- `TruncatedSVD`: Метод понижения размерности, который применим к разреженным матрицам, например, к тем, которые получены с помощью `CountVectorizer` или `TfidfVectorizer`. `TruncatedSVD` уменьшает размерность данных, сохраняя наиболее важную информацию.

Также возможно комбинация данных методов, для повышения точности отбора признаков.

#### 4. Обучение модели

После векторизации текстовых данных их можно использовать для обучения моделей машинного обучения. Основные шаги включают:

- Разделение данных: Разделение данных на тренировочные и тестовые наборы.
- Выбор модели: Выбор алгоритма машинного обучения, такого как логистическая регрессия, случайный лес, метод опорных векторов (SVM) или нейронные сети.
- Обучение модели: Обучение модели на тренировочных данных с использованием векторизованных текстов.
- Оценка модели: Оценка точности и эффективности модели на тестовых данных с помощью метрик, таких как точность, полнота, F-мера.

#### 5. Обнаружение SQL-инъекций

После обучения модель можно использовать для классификации новых входных данных. При поступлении нового ввода текстовые данные проходят через этапы предварительной обработки и векторизации, после чего обученная модель определяет, является ли ввод подозрительным на наличие SQL-инъекций.
Преимущества подхода на основе NLP

- Адаптивность: Модели машинного обучения могут адаптироваться к новым типам атак, обучаясь на новых данных.
- Автоматизация: Системы на основе NLP могут автоматически анализировать и классифицировать большое количество входных данных, что повышает эффективность обнаружения уязвимостей.
- Точность: Использование методов векторизации, таких как TF-IDF, позволяет учитывать контекст и значимость слов, что улучшает точность классификации.

Использование методов NLP и машинного обучения для обнаружения SQL-инъекций представляет собой современный и эффективный подход, способный значительно повысить уровень безопасности веб-приложений. 

## Описание лабораторного стенда

#### Описание `FeatureExtractor` 
`FeatureExtractor` — класс, отвечающий за извлечение признаков (токенизацию и векторизацию данных) из исходных датафреймов. Имеет два метода:

`fit_extract` — анализирует предоставленные тексты и строит внутренние структуры данных, такие как словарь терминов (слов) и их IDF (inverse document frequency, обратная частота документа) значения. IDF вычисляется как логарифм отношения общего количества документов к количеству документов, содержащих данный термин, после чего преобразует текстовые данные в векторное представление на основе вычисленных векторов TF-IDF;

`extract_features` — выполняет только преобразование входных текстовых данных в соответствующие вектора TF-IDF с использованием уже обученных внутренних структур, таких как словарь терминов и IDF значения.

`FeatureExtractor` — поддерживает следующие режимы работы:

* TF-IDF ('tf-idf'):

    Описание: TF-IDF (Term Frequency-Inverse Document Frequency) — это метод вычисления веса слова в документе относительно его важности в коллекции документов.
    Применение: Каждый документ представляется в виде вектора, где каждая компонента отражает вес термина (слова), вычисленный по формуле TF-IDF. Этот метод учитывает и частоту встречаемости слова в документе (TF) и обратную частоту документа (IDF).
    Пример: Используется для извлечения ключевых признаков из текста, что полезно для задач, таких как классификация текстов, кластеризация и информационный поиск.

* TF-IDF с N-граммами ('tf-idf_ngram'):

    Описание: Этот режим также использует TF-IDF, но включает векторизацию не только отдельных слов, но и последовательностей из N смежных слов (N-грамм).
    Применение: Учитывает контекстуальные зависимости между последовательными словами, что может улучшить качество представления текста, особенно для задач, где важен порядок слов, например, в задачах машинного перевода или анализе sql запросов.

* Мешок слов ('bag_of_words'):

    Описание: Это простой метод векторизации, который представляет каждый документ в виде вектора, где каждая компонента соответствует наличию или отсутствию конкретного слова из словаря.
    Применение: Подходит для задач, где важно только наличие слова в тексте, а не его частота или важность. Обычно используется в моделях, требующих быстрое обучение и простоту интерпретации, таких как методы наивного Байеса или простые линейные модели.

* Мешок символов ('bag_of_characters'):

    Описание: Этот метод представляет текст в виде вектора, где каждая компонента соответствует наличию или отсутствию конкретного символа в тексте.
    Применение: Полезен в задачах, где важны структура или последовательность символов, таких как распознавание рукописного текста или анализ кодов программ. 

#### Описание `FeatureSelecter`
`FeatureSelecter` — класс, реализующий отбор ключевых токенов из общего набора. Отбор производится двумя комбинацией двух методов: SelectFromModel(Lasso) и TruncatedSVD.

`fit_transform` — Обучает SelectFromModel и TruncatedSVD модели на тренировочных данных. Преобразует тренировочные данные с использованием обученных моделей. Возвращает преобразованные тренировочные данные.

`transform` — выполняет только отбор токенов на основе работы предобученных моделей.


#### Описание `ModelFabric` 
`ModelFabric` — класс, предоставляющий единый интерфейс для создания моделей классификации данных

Поддерживает создание следующих моделей:
* XGBOOST
* SVC
* NU_SVC
* KNEIGHBORS
* DECISION_TREE
* RANDOM_FOREST
* ADABOOST
* BAGGING
* EXTRA_TREES
* LINEAR_SVC

In [2]:
import time
from pathlib import Path

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from nltk.tokenize import RegexpTokenizer

import warnings

warnings.filterwarnings("ignore", category=UserWarning, module='sklearn')

In [4]:
class ExtractMethods:
    TF_IDF = 'tf-idf'
    TF_IDF_NGRAM = 'tf-idf_ngram'
    BAG_OF_WORDS = 'bag_of_words'
    BAG_OF_CHAR = 'bag_of_characters'


class FeatureExtractor:
    def __init__(self, method, *args, **kwargs):
        self.args = args
        self.kwargs = kwargs
        self.notes = {}
        self.vectorizer = self._get_vectorizer(method, args, kwargs)

    def _get_vectorizer(self, method, *args, **kwargs):
        token = RegexpTokenizer(r'[a-zA-Z0-9]+')
        match method:
            case ExtractMethods.TF_IDF:
                return TfidfVectorizer(tokenizer=token.tokenize, *self.args, **self.kwargs)
            case ExtractMethods.TF_IDF_NGRAM:
                return TfidfVectorizer(
                    lowercase=True, stop_words='english',
                    ngram_range=(1, 3),
                    tokenizer=token.tokenize, analyzer='char'
                )
            case ExtractMethods.BAG_OF_WORDS:
                return CountVectorizer(analyzer='word', **self.kwargs)
            case ExtractMethods.BAG_OF_CHAR:
                return CountVectorizer(analyzer='char', tokenizer=token.tokenize, **self.kwargs)
            case _:
                raise ValueError(f"Unknown feature extraction method: {self.method}")

    def fit_extract(self, x_train):
        return self.vectorizer.fit_transform(x_train)

    def extract_features(self, x):
        return self.vectorizer.transform(x)

In [5]:
from sklearn.feature_selection import SelectFromModel
from sklearn.linear_model import Lasso
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import TruncatedSVD

In [6]:
class FeatureSelecter:
    def __init__(self, n_components):
        self._scaler = StandardScaler(with_mean=False)
        self._lasso_selecter = SelectFromModel(Lasso(alpha=0.001, random_state=10))
        self._pca = TruncatedSVD(n_components=n_components)

    def fit_transform(self, x_train, y_train):
        self._scaler.fit(x_train)
        self._lasso_selecter.fit(self._scaler.transform(x_train), y_train)
        self._pca.fit(self._lasso_selecter.transform(self._scaler.transform(x_train)))

        return self._pca.transform(self._lasso_selecter.transform(self._scaler.transform(x_train)))

    def transform(self, x):
        return self._pca.transform(self._lasso_selecter.transform(self._scaler.transform(x)))

In [7]:
import xgboost as xgb
from sklearn import svm
from sklearn.neighbors import KNeighborsClassifier, NearestCentroid, RadiusNeighborsClassifier
from sklearn.svm import SVC, NuSVC, LinearSVC
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier, BaggingClassifier
from sklearn.ensemble import ExtraTreesClassifier

In [8]:
class Models:
    XGBOOST = 'XGBoost'
    SVC = 'SVC'
    NU_SVC = 'NuSVC'
    KNEIGHBORS = 'KNeighbors'
    DECISION_TREE = 'DecisionTree'
    RANDOM_FOREST = 'RandomForest'
    ADABOOST = 'AdaBoost'
    BAGGING = 'Bagging'
    EXTRA_TREES = 'ExtraTrees'
    LINEAR_SVC = 'LinearSVC'


class ModelFabric:
    @staticmethod
    def create_model(model_name, *args, **kwargs):
        match model_name:
            case Models.XGBOOST:
                return xgb.XGBClassifier(*args, **kwargs)
            case Models.SVC:
                return SVC(gamma=2, C=1, *args, **kwargs)
            case Models.NU_SVC:
                return NuSVC(*args, **kwargs)
            case Models.KNEIGHBORS:
                return KNeighborsClassifier(3, *args, **kwargs)
            case Models.DECISION_TREE:
                return DecisionTreeClassifier(max_depth=5, *args, **kwargs)
            case Models.RANDOM_FOREST:
                return RandomForestClassifier(max_depth=5, n_estimators=10, max_features=1, *args, **kwargs)
            case Models.ADABOOST:
                return AdaBoostClassifier(*args, **kwargs)
            case Models.BAGGING:
                return BaggingClassifier(*args, **kwargs)
            case Models.EXTRA_TREES:
                return ExtraTreesClassifier(*args, **kwargs)
            case Models.LINEAR_SVC:
                return LinearSVC(*args, **kwargs)
            case _:
                raise ValueError(f"Unsupported model name: {model_name}")

In [11]:
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.metrics import accuracy_score, confusion_matrix


def plot_confusion_matrix(y_expect, y_pred):
    cm = confusion_matrix(y_expect, y_pred)
    sns.heatmap(cm, annot=True, fmt='g', xticklabels=['Normal', 'SQL-Injection'],
                yticklabels=['Normal', 'SQL-Injection'])
    plt.xlabel('Prediction', fontsize=13)
    plt.ylabel('Actual', fontsize=13)
    plt.title('Confusion Matrix', fontsize=17)
    plt.show()

### 2. Загрузим исходный датасет `train-dataset.tsv` при помощи модуля `pandas` и разобьем его на обучающий и тестовый набор данных:
    Метод train_test_split из библиотеки sklearn.model_selection используется для разделения данных на обучающую и тестовую выборки. Основная цель этого метода – разделить данные таким образом, чтобы часть данных использовалась для обучения модели, а другая часть – для тестирования эффективности этой модели на новых данных, которые модель ранее не видела.
    Основные параметры метода train_test_split
        * arrays – массивы данных, подлежащие разделению. Могут быть указаны как один массив, так и несколько массивов.
        * test_size – доля данных, выделяемых для тестового набора. Значение должно находиться в диапазоне от 0 до 1, где 0.5 означает, что 50% данных будут использоваться для обучения, а оставшиеся 50% – для теста.
        * random_state – целое число, задающее начальное состояние генератора псевдослучайных чисел. Это обеспечивает воспроизводимость результатов при многократном запуске программы.
        * shuffle – логическое значение, определяющее, следует ли перемешивать данные перед разделением.

In [12]:
source_df = pd.read_csv("datasets/train-dataset.tsv", sep='\t', engine='python')
df_train, df_test = train_test_split(source_df, test_size=0.5)
# Выделим из выборки для обучения df_train столбец payload в вектор x_train, а столбц label в вектор y_train
x_train, y_train = df_train['payload'].values, df_train['label'].values
# Выделим из тестовой выборки df_test столбец payload в вектор x_test, а столбц label в вектор y_test
x_test, y_test = df_test['payload'].values, df_test['label'].values

print(f"Размер обучающей выборки: {len(x_train)}, Размер тестовой выборки: {len(x_test)}")

test_df = pd.read_csv('datasets/test-dataset.csv')
test_x = test_df['payload'].values
test_y = test_df['label'].values


Размер обучающей выборки: 15304, Размер тестовой выборки: 15305


### 3. Извлечь токенезировать и векторизировать данные представленные в `train-dataset.tsv` при помощи инструментов `nltk.tokenize.RegexpTokenizer`, `sklearn.feature_extraction.text.TfidfVectorizer`, `sklearn.feature_extraction.text.CountVectorizer`

#### 3.1. Выбор метода векторизации.
Выбор метода векторизации текста — важная задача, поскольку от правильного выбора метода зависят точность и эффективность последующих операций, таких как классификация, кластеризация и поиск информации. Рассмотрим основные методы векторизации и их преимущества.

TF-IDF — один из самых популярных методов векторизации, который объединяет частоту появления термина в документе с обратной частотой его появления в корпусе документов. Этот метод считается мощным благодаря своему умению выявлять важные термины, которые редко встречаются в большинстве документов, но часто встречаются в одном документе.

Метод TF-IDF_NGRAM — это расширение классического метода TF-IDF, которое включает в себя учет не только одиночных слов, но и последовательностей слов (n-grams). В отличие от обычного TF-IDF, который фокусируется исключительно на единицах лексического уровня (словах), TF-IDF_ngram добавляет дополнительный уровень внимания к последовательностям слов, что позволяет более точно учитывать контекст и смысл текста.

BoW — метод, который рассматривает документы как мешанину слов, где каждый уникальный термин рассматривается как единица, вне зависимости от порядка и контекста. BoW просто подсчитывает количество вхождений каждого термина.

Метод bag_of_characters — это один из подходов к векторизации текста, который фокусируется на уровне символов, а не слов. В отличие от более распространённых методов, таких как bag_of_words и TF-IDF, которые работают на уровне слов, bag_of_chars обрабатывает текст как последовательность символов.


In [13]:
attributes = dir(ExtractMethods)
methods = [getattr(ExtractMethods, attr) for attr in attributes if
           not callable(getattr(ExtractMethods, attr)) and not attr.startswith('__')]

for method in methods:
    print(method)

bag_of_characters
bag_of_words
tf-idf
tf-idf_ngram


##### 3.1.1. Инициализация экстрактора признаков для методов 'BAG_OF_CHAR', 'BAG_OF_WORDS', 'TF_IDF', 'TF_IDF_NGRAM'

In [14]:
extractors = {method: FeatureExtractor(method) for method in methods}

##### 3.1.2. Фитинг и трансформация обучающих данных для методов 'BAG_OF_CHAR', 'BAG_OF_WORDS', 'TF_IDF', 'TF_IDF_NGRAM'.

In [15]:
x_train_vectors = {method: extractors[method].fit_extract(x_train) for method in methods}


##### 3.1.3. Трансформация тестовых данных

In [16]:
x_test_vectors = {method: extractors[method].extract_features(x_test) for method in methods}


##### 3.1.4. Теперь у нас есть векторизованные данные, готовые для обучения модели

In [17]:
for method in methods:
    print(method, (int)(1 * (x_train_vectors[method].shape[0])), (int)(1 * (x_train_vectors[method].shape[1])),
          (int)(0.10 * (x_train_vectors[method].shape[1])))

bag_of_characters 15304 75 7
bag_of_words 15304 14733 1473
tf-idf 15304 14763 1476
tf-idf_ngram 15304 22603 2260


### 4. Выбрать ключевые, наиболее значемые токены при помощи инструментов `sklearn.feature_selection.SelectFromModel` и `sklearn.decomposition.TruncatedSVD`

#### 4.1 Инициализация объекта класса FeatureSelecter
Класс FeatureSelecter предназначен для выбора ключевых, наиболее значимых токенов с использованием методов Lasso и TruncatedSVD. Давайте пошагово разберём, как он работает и как его можно применить для получения значимых токенов.
Шаги работы класса FeatureSelecter
Стандартизация данных:
    * Класс использует StandardScaler для стандартизации данных. Стандартизация необходима для приведения всех признаков к одинаковым масштабам, что улучшает работу алгоритмов машинного обучения.
    * Отбор признаков с использованием Lasso: Алгоритм Lasso используется для отбора признаков методом регуляризации. Регуляризация Lasso способствует тому, что многие коэффициенты становятся равны нулю, тем самым исключая малозначимые признаки.
    * Уменьшение размерности с использованием TruncatedSVD: TruncatedSVD применяется для уменьшения размерности данных, сохраняя при этом важные аспекты вариации в данных. Это помогает избавиться от шума и упростить дальнейшую обработку данных.

##### Параметр n_components контролирует количество компонентов (измерений) в новом пространстве после преобразования. В частности, он отвечает за количество компонентов в результирующем пространстве после применения метода.
Контроль над этим параметром необходим для управления качеством сжатия данных. Чем меньше компонентов, тем сильнее сжимается пространство, но при этом увеличивается риск потери важной информации. Чем больше компонентов, тем точнее сохраняется информация, но увеличивается вычислительная сложность и затраты памяти.

In [18]:
method_components = {method: (int)(0.05 * (x_train_vectors[method].shape[1])) for method in methods}
method_components

{'bag_of_characters': 3,
 'bag_of_words': 736,
 'tf-idf': 738,
 'tf-idf_ngram': 1130}

In [19]:
selectors = {method: FeatureSelecter(n_components=method_components[method]) for method in method_components.keys()}

#### 4.2 Применение fit_transform к обучающим данным


In [20]:
x_train_selected_by_method_vectorize = {}
for method in methods:
    print(f"{time.time()} Применение fit_transform к обучающим данным в разрезе медода векторизации: {method}")
    x_train_selected_by_method_vectorize[method] = selectors[method].fit_transform(x_train_vectors[method], y_train)

1732313329.1328604 Применение fit_transform к обучающим данным в разрезе медода векторизации: bag_of_characters
1732313330.1208408 Применение fit_transform к обучающим данным в разрезе медода векторизации: bag_of_words
1732313613.4777737 Применение fit_transform к обучающим данным в разрезе медода векторизации: tf-idf
1732313803.582404 Применение fit_transform к обучающим данным в разрезе медода векторизации: tf-idf_ngram


In [21]:
x_train_selected_by_method_vectorize['tf-idf']


array([[ 1.81655995e+00, -2.32265680e+00, -1.75700403e-02, ...,
         7.19742233e-02,  1.42582098e-01, -1.64947802e-01],
       [ 0.00000000e+00,  0.00000000e+00,  0.00000000e+00, ...,
         0.00000000e+00,  0.00000000e+00,  0.00000000e+00],
       [ 0.00000000e+00,  0.00000000e+00,  0.00000000e+00, ...,
         0.00000000e+00,  0.00000000e+00,  0.00000000e+00],
       ...,
       [ 4.15273844e-02, -4.83715434e-02, -2.69978860e-03, ...,
        -9.36480866e-02,  8.36290372e-01, -4.57110285e-01],
       [ 9.89476737e-01, -1.08485534e+00,  5.03489629e-03, ...,
        -1.40385562e+00,  2.74549579e+00, -3.13848871e+00],
       [ 1.21068428e+00, -1.95609543e+00, -5.69669575e-02, ...,
        -7.97745392e-02,  9.85807737e-01, -7.62880966e-01]])

#### 4.3 Применение transform к тестовым данным


In [22]:
x_test_selected_tf_idf = selectors['tf-idf'].transform(x_test_vectors['tf-idf'])


In [23]:
x_test_selected_tf_idf

array([[ 1.98193937, -2.67339022, -0.07126581, ..., -0.72287046,
        -0.11252313,  0.08979638],
       [ 8.38043389, -2.00088664, -0.09698556, ..., -0.22763743,
         0.60739055,  0.36080972],
       [ 0.        ,  0.        ,  0.        , ...,  0.        ,
         0.        ,  0.        ],
       ...,
       [ 2.10052548, -3.23683363, -0.09859041, ...,  0.6191329 ,
        -0.1729047 , -0.19087283],
       [ 1.17211125, -1.33254097,  0.02778814, ..., -0.00838185,
        -0.07681123,  0.50793046],
       [ 7.54047194,  4.8225702 ,  0.03570947, ..., -0.14966879,
         0.30592337,  0.02896673]])

#### 4.4. Размерность отобранных признаков

In [82]:
print(x_train_selected_by_method_vectorize['tf-idf'].shape)

(15304, 10)


### 5. Обучить модель на выбранных ключевых признаках

#### 5.1 XGBoost — это библиотека для градиентного бустинга деревьев решений. Она известна своей скоростью и точностью, особенно в соревнованиях по машинному обучению.

#### 5.1 RandomForest — это ансамбль деревьев решений, который строит множество деревьев и усредняет результаты.

In [70]:
model_name = Models.RANDOM_FOREST
model = ModelFabric.create_model(model_name)
model.fit(x_train_vectors, y_train)

y_pred = model.predict(x_test_vectors)
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.4f}")

Accuracy: 0.6231
