Из-за пропущенных значений и категориальных признаков невозможно обучать большинство моделей ML, поэтому с ними необходимо работать.

Существует большое количество методов для заполнения пропусков, однако наиболее распространенными являются статистические и машинные подходы.

В задаче бывает тяжело определить, какой метод себя покажет лучше, поэтому разумно на этапе заполнения пропусков сгенерировать 2 датасета с помощью каждого подхода. И потом проверить их работоспособность на основании метрик качества.

С категориальными признаками проще, достаточно выбрать один наиболее подходящий подход и использовать его.

Базовый ход лабораторной работы (5 баллов)
В данной лабораторной работе вам необходимо закодировать категориальные признаки и обработать пропуски в обучающей выборке, которую вы получили в ЛР №2. А потом результаты обработки перенести на тестовую выборку.

1) Выполните кодировку категориальных признаков на обучающем датасете (обучите кодировщик на обучаюшем датасете). Отберите категориальные столбцы и к ним примените кодирование. Обратите внимание на семантику категориальных признаков и их структуру:
  - если категории равнозначные, можно применить One-Hot кодировщик (и откинуть один любой столбец);
  - если в категориях есть отношение порядка, можно применить Label кодировщик (но обязательно контролируйте, чтобы метки сохраняли отношение порядка категорий);
  - если категории смешанные, можно применять Target кодировщик (в целом, его можно применять для каждого случая, однако будьте внимательны с подбором параметров).
2) Примените обученный кодировщик категориальных признаков к тестовым данным. Следите, чтобы не было утечки данных!
3) Выполните заполнение пропущенных значений в обучающем датасете двумя способами:
  - используя статистические подходы (для каждого признака с пропусками определите пул значений, которым можно заполнить этот столбец, для каждого значения пула постройте 
  гистограммы до заполнения пропусков и после заполнения этим значением, вычислите значение KL-дивергенции, на основе всей этой информации отберите значение, которым можно заполнить пропуск);
  - используя машинные подходы (постройте модель MICE/IterativeImputer/KNNImputer для заполнения пропусков);
4) Примените полученные результаты к тестовым данным (обязательно обратите внимание, что значения для заполнения вычисляются на основании обучающей выборке, а потом переносятся на тестовую)

# Начало предварительной обработки данных. Формирование описания задачи

## Описание лабораторной

В Data Science очень важен навык систематизации знаний о задаче: правильно ее описать и найти все входные параметры -- это уже половина пути! И тогда выполнить начальную обработку данных будет очень просто.

Цель лабораторной работы – выполнить описание задачи и признаков, систематизировать знания о проекте, а также провести начальный этап предварительной обработки данных

Начиная с этой лабораторной работы, все дальнейшие ЛР будут связаны общей тематикой. Данная работа необходима для понимания исходной задачи. Без нее последующие лабораторные приниматься не будут

1) Необходимо ознакомиться с информацией о задаче, решению которой будут посвящены лабораторные работы. Сделать это можно, прочитав файл Задание.pdf [здесь](<task/Задание.pdf>).
2) На основании информации из файла выполнить нулевой шаг: описание задачи и признаков. Для этого нужно:
  - сформулировать постановку задачи (посмотреть на вид целевого признака и определить, к какому классу относится исходная задача);
  - выполнить описание признакового пространства (определить входные и целевые признаки, ограничения на значения, выписать зависимости и формулы прикладной области,   
  - сгенерировать таблицу с описанием признаков, обязательно обратите внимание на формулы, которые невозможно применять для решения исходной задачи);
3) сформировать виртуальное окружение (и зафиксировать версию Python, импортировать частовстречающиеся библиотеки, зафиксировать seed).
  - Загрузить предложенный набор данных (данные можно взять [отсюда](<task/portal_data.csv>)) и выполнить начальный этап обработки данных:
создать раздел для обработки данных в структуре jupyter-ноутбука;
  - использовать кодировки и разделители, необходимые для корректного представления данных;
  - выполнить анализ типов данных и приведение (в случае необходимости) к данному типу;
провести первичное отбрасывание признаков, для которых можно подобрать обоснование (уникальные номера, слишком большое количество уникальных значений, утечка данных и т.д.);
4) Разделить данные на train и test выборки, определить объем выборок в соответствие с объемом исходного датасета

`Предсказание Гармонии Бессмертия`

Для того, чтобы решить поставленную задачу, необходимо обработать данные, а после с их помощью построить модели и оценить каждую из них, чтобы отобрать наилучшую -- ту, которая лучше предсказыает Гармонию Бессмертия.

`Содержание ноутбука`

**Table of contents**<a id='toc0_'></a>    
- 1. [Раздел 1. Обработка входных данных и датасета](#toc1_)    
  - 1.1. [Research](#toc1_1_)    
    - 1.1.1. [Загрузка исходных данных](#toc1_1_1_)    
    - 1.1.2. [Анализ типов данных и значений признаков](#toc1_1_2_)    
      - 1.1.2.1. [Коррекция типов данных исходного датасета](#toc1_1_2_1_)    
      - 1.1.2.2. [Уменьшение размера типов данных признаков](#toc1_1_2_2_)   
      - 1.1.2.3. [Первичное отбрасывание признаков](#toc1_1_2_3_)
    - 1.1.3. [Формирование обучающей и тестирующей выборок](#toc1_1_3_)    
  
<!-- vscode-jupyter-toc-config
	numbering=true
	anchor=true
	flat=false
	minLevel=1
	maxLevel=6
	/vscode-jupyter-toc-config -->
<!-- THIS CELL WILL BE REPLACED ON TOC UPDATE. DO NOT WRITE YOUR TEXT IN THIS CELL -->

`Структура ноутбука`

Каждый раздел состоит из двух частей:
 - `research (необязательная)` — включает в себя вспомогательные исследования, тесты, визуализации, диаграммы и аналитические выкладки, используемые в процессе работы;
 - `production (обязательная)` — содержит финальный, чистый и воспроизводимый код, который используется для запуска и проверки.

При этом:
1. research-часть не обязательна и может отсутствовать в некоторых разделах;
2. production-часть не содержит закомментированный код и ветки решений, которые не используются в ходе решения;
3. код в Production-части должен быть оформлен с принципами воспроизводимости и чистоты, избежания лишних промежуточных вычислений и отладочных выводов, и **он будет использоваться для переноса в PY-файлы в будущем**.


`Формирование окружения для работы`

Первоначально необходимо подготовить окружение для работы с данными и их моделирования. Чтобы не возникало конфликтов виртуальной среды Python, зафиксируем используемые в ходе исследования версии основных библиотек и фреймворков, которые будут использоваться далее. А также пропишем последовательность команд для формирования среды.

Работа справедлива для версии > `Python 3.13`. Чтобы все наши библиотеки друг с другом не конфликтовали.

Первоначально установим необходимые библиотеки при помощи venv в изолированное виртуальное окружение.

Создать окружение:
```
python3.11 -m venv venv
``` 

Активировать:


macOS/Linux
```
source venv/bin/activate
```

Windows
```
venv\Scripts\activate
```

Установить библиотеки:

```pip install numpy pandas```

Сохранить зависимости:

```pip freeze > requirements.txt```

Установить из файла:

```pip install -r requirements.txt```

Обновить все:

```pip install --upgrade -r requirements.txt```

Посмотреть библиотеки:

```pip list```

Деактивировать:

```deactivate```

Удалить окружение:


```
rm -rf venv  # macOS/Linux
rd /s /q venv  # Windows
```

Средствами Python импортируем необходимые для работы библиотеки. В силу традиции, присвоим некоторым модулям псевдонимы (например, pd для pandas и т.д.). Роль импортируемых библиотек и фреймворков представлена в таблице. 

| Наименование библиотеки | Описание                                                                             |
| ----------------------- | ------------------------------------------------------------------------------------ |
| pandas                  | Библиотека для работы таблицами и плоскими данными                                   |
| numpy                   | Библиотека для работы с массивами и матрицами                                        |
| scikit-learn            | Популярная библиотека Python для машинного обучения с алгоритмами классификации, регрессии, кластеризации, понижения размерности и предобработки данных.                                       |

In [2]:
import pandas as pd
import numpy as np

In [3]:
import warnings
warnings.filterwarnings('ignore')

Для воспроизводимости результатов исследования зафиксируем основание генератора случайных чисел, который используется для деления выборки на обучение и тест, а также при обучении моделей.

In [4]:
seed = 15
np.random.seed(seed)

# 1. <a id='toc1_'></a>[Раздел 1. Обработка входных данных и датасета](#toc0_)

Исходный набор данных представляет из себя набор параметров, необходимых для поддержания мощи (состояния) портала. полученный путем агрегации исторических наблюдений, в котором необходимо предсказать вещественное число Гармонию Бессмертия - главный показатель состояния портала.

| **№** | **Признак** | **Описание** | **Тип данных признака** |
|---|---|---|---|
| **1** | Вектор мощи | Позиция магического механизма, управляющего интенсивностью перехода через портал | Вещественный |
| **2** | Скорость, с которой портал перемещает объект через пространство | Наименование технологической сборки | Вещественный |
| **3** | Приток Силы Потока | Поток магической силы, текущий через ядро портала, обеспечивая его стабильную работу | Вещественный |
| **4** | Ритм магического ядра | Число оборотов магического ядра портала в минуту | Вещественный |
| **5** | Поток Энергий | Число оборотов генератора эфира, преобразующего внешнюю энергию в магическую | Вещественный |
| **6** | Сила Левого Потока | Мощность магического потока, текущего через левую сторону портала, поддерживая его баланс | Вещественный |
| **7** | Сила Правого Потока | Мощность магического потока, текущего через правую сторону портала, обеспечивая равномерное распределение энергии | Вещественный |
| **8** | Пламя Стихий | Температура магической энергии, исходящей из высокого магического источника портала, в градусах Цельсия | Вещественный |
| **9** | Температура вдоха Истока | Температура воздуха, входящего в магический ускоритель портала, в градусах Цельсия | Целочисленный |
| **10** | Температура выдоха Истока | Температура воздуха, исходящего из магического ускорителя портала, в градусах Цельсия | Вещественный |
| **11** | Приток давления Выдоха Истока | Давление магического потока на выходе из магического источника высокого давления | Вещественный |
| **12** | Давление вдоха Истока | Давление воздуха, входящего в магический ускоритель | Вещественный |
| **13** | Давление выдоха Истока | Давление воздуха, исходящего из магического ускорителя | Вещественный |
| **14** | Древний Ветер | Давление древней магической энергии, покидающей портал в виде выхлопного потока | Вещественный |
| **15** | Печать Чародея | Параметр управления магическим впрыском в сердце портала, выраженный в процентах | Вещественный |
| **16** | Эмульсия Истока | Количество магического топлива, подпитывающего портал | Вещественный |
| **17** | Дыхание Истока | Коэффициент, отображающий степень угасания магического ускорителя | Вещественный |
| **18** | Гармония Бессмертия | Коэффициент, указывающий на состояние магического ядра портала и его стабильность, требующий магического восстановления в случае снижения | Вещественный |
| **19** | Тип Вектора Мощи | Метка типа позиции магического механизма | Категориальный |
| **20** | Номер пометки | Уникальный номер записи о работе портала в блакноте | Целочисленный |

Зависимости и формулы прикладной области:

1) Для определения общей мощности потоков сначала сложите значения "Силы Левого Потока" и "Силы Правого Потока", чтобы получить представление о совокупной мощности. 
   
2) Для более полной картины суммарной силы всех потоков дополнительно объедините "Силу Левого Потока", "Силу Правого Потока" и "Приток Силы Потока".
   
3) Общую силу ядра можно оценить, умножив "Ритм магического ядра" на "Приток Силы Потока", что даст показатель общей мощности ядра. 
   
4) Общее давление на выходе можно рассчитать, сложив значения "Притока давления Выдоха Истока" и "Давления выдоха Истока".
   
5) Магическую производительность определяет отношение "Скорости перехода через портал" к "Эмульсии Истока" — это покажет, насколько эффективно топливо поддерживает скорость перехода. 
   
6)  Эффективность самого ядра можно вычислить, разделив его общую силу на "Эмульсию Истока".
    
7)  Для расчёта магической мощности потребуется учесть "Эмульсию Истока", общее давление и разницу между "Пламенем Стихий" и "Температурой вдоха Истока".
   
8)  Оценить степень износа магических источников поможет отношение "Дыхания Истока" к "Гармонии Бессмертия". - утечка данных
    
9)  Абсолютное значение разницы между "Дыханием Истока" и "Гармонией Бессмертия" отразит расхождения в стабильности магии. - утечка данных
    
10) Баланс угасания можно определить, разделив разницу между "Дыханием Истока" и "Гармонией Бессмертия" на "Скорость перехода через портал". - утечка данных

Целевым значением выступает 1 признак:

"Гармония бессмертия" (вещественный коэффициент, указывающий на состояние магического ядра портала и его стабильность, требующий магического восстановления в случае снижения)

Так как мы предсказываем вещественное число, у нас будет `задача регрессии`.

## 1.1. <a id='toc1_1_'></a>[Research](#toc0_)

### 1.1.1. <a id='toc1_1_1_'></a>[Загрузка исходных данных](#toc0_)

Благодаря сформированному виртуальному окружению можно приступить к загрузке данных.

Данные представлены в формате .csv: это значит, что нам необходимо воспользоваться средствами библиотеки pandas, чтобы прочитать, распарсить и проанализировать полученный объект.
Воспользуемся методом ```pd.read_csv()``` для того, чтобы прочитать файл с данными и представить его в памяти.

Данный метод принимает на вход:
1. путь до файла, который необходимо прочитать;
2. кодировка (кодировка символов в файле);
3. разделитель (символ, который отделяет разные записи друг от друга);
4. и т.д.
Прочитаем файл при помощи метода и результат положим в переменную df, с которой будем в дальнейшем работать.

В данном случае параметры разделителя и кодировки передавать есть необходимость, так как для данного файла они не совпадают с параметрами по умолчанию: вертикальный разделитель и cp1251 соответственно.
Метод вернет объект датафрейма (абстракция над табличными данными и табличными представлениями, предоставляющая возможность реализовывать логику по работе с плоскими данными), который необходимо отобразить после прочтения файла.
Сам датасет представляет из себя набор объектов, каждый из которых является комбинацией параметров необходимых для поддержания работы портала мощи.

In [5]:
df = pd.read_csv('task/portal_data.csv', encoding='cp1251', sep='|')

### 1.1.2. <a id='toc1_1_2_'></a>[Анализ типов данных и значений признаков](#toc0_)

Первоначально необходимо проанализировать типы данных колонок датафрейма, чтобы правильно представить исходные данные.

Поскольку для дальнейшего моделирования необходимо, чтобы все значения признаков являлись вещественными/целочисленными числами (либо специальным значением NaN, обозначающим нечисловое значение), воспользуемся методом датафрейма ```.info()```, который выводит сводную информацию о колонках объекта. После этого выполним преобразование категориальных данных и данных с пропусками, чтобы получить готовый набор данных для работы.

#### 1.1.2.1. <a id='toc1_1_2_1_'></a>[Коррекция типов данных исходного датасета](#toc0_)

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11934 entries, 0 to 11933
Data columns (total 20 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   Вектор Мощи                     11934 non-null  float64
 1   Скорость перехода через портал  11934 non-null  object 
 2   Приток Силы Потока              11934 non-null  float64
 3   Ритм магического ядра           11934 non-null  float64
 4   Поток Энергий                   11934 non-null  float64
 5   Сила Левого Потока              11934 non-null  float64
 6   Сила Правого Потока             11934 non-null  float64
 7   Пламя Стихий                    11934 non-null  float64
 8   Температура вдоха Истока        11934 non-null  int64  
 9   Температура выдоха Истока       11934 non-null  object 
 10  Приток давления Выдоха Истока   11934 non-null  float64
 11  Давление вдоха Истока           11934 non-null  object 
 12  Давление выдоха Истока          

In [7]:
df.head(5)

Unnamed: 0,Вектор Мощи,Скорость перехода через портал,Приток Силы Потока,Ритм магического ядра,Поток Энергий,Сила Левого Потока,Сила Правого Потока,Пламя Стихий,Температура вдоха Истока,Температура выдоха Истока,Приток давления Выдоха Истока,Давление вдоха Истока,Давление выдоха Истока,Древний Ветер,Печать Чародея,Эмульсия Истока,Дыхание Истока,Гармония Бессмертия,Тип Вектора Мощи,Номер пометки
0,1.138,1.54332,289.964,141.318158,6677.38,7.584,7.584,464.006,736,-,1.096,Не определено,5.947,-,7.137,0.082,0.95,0.975,Слабый,0
1,2.088,-,6960.18,144.111767,6828.469,28.204,28.204,635.401,736,581.658,1.331,1.394603,7.282,1.019,10.655,0.287,0.95,0.975,Слабый,1
2,3.144,4.6299600000000005,8379.229,145.220853,7111.811,60.358,60.358,606.002,736,-,1.389,Не определено,7.574,-,13.086,0.259,0.95,0.975,Ниже среднего,2
3,4.161,6.17328,14724.395,162.050156,7792.63,113.774,113.774,661.471,736,-,1.658,Не определено,9.007,-,18.109,0.358,0.95,0.975,Ниже среднего,3
4,5.14,7.7166,21636.432,201.513586,8494.777,175.306,175.306,731.494,736,645.642,2.078,Не определено,11.197,1.026,26.373,0.522,0.95,0.975,Выше среднего,4


Можем заметить что у нас есть признаки, в которых имеется очень нехорошее значение '-', которое портит наши типы данных. pandas распознает такие столбцы как тип object. Поэтому везде где у нас есть такие пропуски, заменими их на NuN

In [8]:
incorrect_type_columns = []
for column in df.select_dtypes(include=['object']):
    incorrect_type_columns.append(column)
incorrect_type_columns.pop()
incorrect_type_columns

['Скорость перехода через портал',
 'Температура выдоха Истока',
 'Давление вдоха Истока',
 'Древний Ветер']

Признаки 'Скорость перехода через портал', 'Температура выдоха Истока', 'Давление вдоха Истока', 'Древний Ветер' на самом деле вещественные, но из за '-' они такими не становятся, поэтому заменим '-' на NuN

In [9]:
df[incorrect_type_columns] = df[incorrect_type_columns].replace('-', np.nan)

In [10]:
df[incorrect_type_columns].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11934 entries, 0 to 11933
Data columns (total 4 columns):
 #   Column                          Non-Null Count  Dtype 
---  ------                          --------------  ----- 
 0   Скорость перехода через портал  10731 non-null  object
 1   Температура выдоха Истока       2387 non-null   object
 2   Давление вдоха Истока           11934 non-null  object
 3   Древний Ветер                   2387 non-null   object
dtypes: object(4)
memory usage: 373.1+ KB


Можем понять что у нас ничего не получилось, выведем все уникальные значения этих признаков

In [11]:
for column in df.select_dtypes(include=['object']):
    print(column, df[column].nunique())

Скорость перехода через портал 9
Температура выдоха Истока 2368
Давление вдоха Истока 2
Древний Ветер 19
Тип Вектора Мощи 4


In [12]:
for column in df.select_dtypes(include=['object']):
    print(column, df[column].unique())

Скорость перехода через портал ['1.54332' nan '4.6299600000000005' '6.17328' '7.7166' '9.25992'
 '10.80324' '12.34656' '13.88988' '3.08664']
Температура выдоха Истока [nan '581.658' '645.642' ... '680.557' '628.95' '680.393']
Давление вдоха Истока ['Не определено' '1.394603']
Древний Ветер [nan '1.019' '1.026' '1.03' '1.02' '1.04' '1.022' '1.035' '1.049' '1.041'
 '1.023' '1.05' '1.036' '1.042' '1.031' '1.027' '1.051' '1.021' '1.052'
 '1.043']
Тип Вектора Мощи ['Слабый' 'Ниже среднего' 'Выше среднего' 'Сильный']


И что можно заметить? Во-первых, столбцы которые должны быть вещественными, у нас строковые и также есть знаечние 'Не определено', а должно быть NuN. Заменим 'Не определено' на Nun

In [13]:
df[incorrect_type_columns] = df[incorrect_type_columns].replace('Не определено', np.nan)

Далее поменяем наши строковые признаки на вещественные

In [14]:
for col in incorrect_type_columns:
    try:
        df[col] = df[col].astype('float64')
    except ValueError:
        print(f"Не удалось преобразовать столбец {col} в float64 — пропускаю.")

Мы успешно смоглм заменить ошибочно категориальные на вещественные

#### 1.1.2.2. <a id='toc1_1_2_2_'></a>[Уменьшение размера типов данных признаков](#toc0_)

In [15]:
df.describe()

Unnamed: 0,Вектор Мощи,Скорость перехода через портал,Приток Силы Потока,Ритм магического ядра,Поток Энергий,Сила Левого Потока,Сила Правого Потока,Пламя Стихий,Температура вдоха Истока,Температура выдоха Истока,Приток давления Выдоха Истока,Давление вдоха Истока,Давление выдоха Истока,Древний Ветер,Печать Чародея,Эмульсия Истока,Дыхание Истока,Гармония Бессмертия,Номер пометки
count,11934.0,10731.0,11934.0,11934.0,11934.0,11934.0,11934.0,11934.0,11934.0,2387.0,11934.0,2439.0,11934.0,2387.0,11934.0,11934.0,11934.0,11934.0,11934.0
mean,5.166667,7.72149,27247.498685,223.711688,8200.947312,227.335768,227.335768,735.495446,736.0,646.092576,2.352963,1.394603,12.297123,1.029413,33.641261,0.66244,0.975,0.9875,5966.5
std,2.626388,3.993642,22148.613155,81.061874,1091.315507,200.495889,200.495889,173.680552,0.0,71.394305,1.08477,0.0,5.337448,0.010217,25.841363,0.507132,0.01472,0.0075,3445.193391
min,1.138,1.54332,253.547,136.939406,6589.002,5.304,5.304,442.364,736.0,542.994,1.093,1.394603,5.828,1.019,0.0,0.068,0.95,0.975,0.0
25%,3.144,4.62996,8375.88375,145.220958,7058.324,60.317,60.317,589.87275,736.0,579.362,1.389,1.394603,7.44725,1.02,13.6775,0.246,0.962,0.981,2983.25
50%,5.14,7.7166,21630.659,201.514947,8482.0815,175.268,175.268,706.038,736.0,636.963,2.083,1.394603,11.092,1.026,25.2765,0.496,0.975,0.9875,5966.5
75%,7.148,10.80324,39001.42675,280.447777,9132.606,332.36475,332.36475,834.06625,736.0,692.152,2.981,1.394603,15.658,1.036,44.5525,0.882,0.988,0.994,8949.75
max,9.3,13.88988,72784.872,372.879926,9797.103,645.249,645.249,1115.797,736.0,788.433,4.56,1.394603,23.14,1.052,92.556,1.832,1.0,1.0,11933.0


In [16]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11934 entries, 0 to 11933
Data columns (total 20 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   Вектор Мощи                     11934 non-null  float64
 1   Скорость перехода через портал  10731 non-null  float64
 2   Приток Силы Потока              11934 non-null  float64
 3   Ритм магического ядра           11934 non-null  float64
 4   Поток Энергий                   11934 non-null  float64
 5   Сила Левого Потока              11934 non-null  float64
 6   Сила Правого Потока             11934 non-null  float64
 7   Пламя Стихий                    11934 non-null  float64
 8   Температура вдоха Истока        11934 non-null  int64  
 9   Температура выдоха Истока       2387 non-null   float64
 10  Приток давления Выдоха Истока   11934 non-null  float64
 11  Давление вдоха Истока           2439 non-null   float64
 12  Давление выдоха Истока          

Теперь проведем уменьшение размера типов данных

У признака «Температура вдоха Истока» тип int64, но у нас максимум 736, поэтому сделаем int16

In [17]:
df['Температура вдоха Истока'] = df['Температура вдоха Истока'].astype('int16')

Вещественные типы данных, кроме целевого признака, сделаем типа float32, потому что наши данные нам это позволяют

In [18]:
for column in  df.select_dtypes(include=['float64']).columns:
    if column != 'Гармония Бессмертия':
        df[column] = df[column].astype('float32')

На этом наш этап по анализу типов данных закончен

#### 1.1.2.3. <a id='toc1_1_2_3_'></a>[Первичное отбрасывание признаков](#toc0_)

In [19]:
df

Unnamed: 0,Вектор Мощи,Скорость перехода через портал,Приток Силы Потока,Ритм магического ядра,Поток Энергий,Сила Левого Потока,Сила Правого Потока,Пламя Стихий,Температура вдоха Истока,Температура выдоха Истока,Приток давления Выдоха Истока,Давление вдоха Истока,Давление выдоха Истока,Древний Ветер,Печать Чародея,Эмульсия Истока,Дыхание Истока,Гармония Бессмертия,Тип Вектора Мощи,Номер пометки
0,1.138,1.54332,289.963989,141.318161,6677.379883,7.584000,7.584000,464.006012,736,,1.096,,5.947000,,7.137000,0.082,0.95,0.975,Слабый,0
1,2.088,,6960.180176,144.111771,6828.469238,28.204000,28.204000,635.401001,736,581.658020,1.331,1.394603,7.282000,1.019,10.655000,0.287,0.95,0.975,Слабый,1
2,3.144,4.62996,8379.228516,145.220856,7111.811035,60.358002,60.358002,606.002014,736,,1.389,,7.574000,,13.086000,0.259,0.95,0.975,Ниже среднего,2
3,4.161,6.17328,14724.394531,162.050156,7792.629883,113.774002,113.774002,661.471008,736,,1.658,,9.007000,,18.108999,0.358,0.95,0.975,Ниже среднего,3
4,5.140,7.71660,21636.431641,201.513580,8494.777344,175.306000,175.306000,731.494019,736,645.642029,2.078,,11.197000,1.026,26.372999,0.522,0.95,0.975,Выше среднего,4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11929,5.140,7.71660,21624.933594,201.516617,8470.012695,175.238998,175.238998,681.658020,736,628.950012,2.087,,10.990000,1.027,23.802999,0.471,1.00,1.000,Выше среднего,11929
11930,6.175,9.25992,29763.212891,241.561768,8800.351562,245.953995,245.953995,747.405029,736,,2.512,,13.109000,,32.671001,0.647,1.00,1.000,Выше среднего,11930
11931,7.148,10.80324,39003.867188,280.444946,9120.888672,332.389008,332.389008,796.456970,736,680.393005,2.982,,15.420000,1.036,42.104000,0.834,1.00,1.000,Сильный,11931
11932,8.206,12.34656,50992.578125,323.315338,9300.274414,438.023987,438.023987,892.945007,736,,3.594,,18.292999,,58.063999,1.149,1.00,1.000,Сильный,11932


Для начала заметим, что у нас есть столбец "Номер пометки", так как он не несет в себе информативной информации то его можно удалить

In [20]:
df = df.drop(columns=['Номер пометки'])

Далее проверим количество пропущенных значений в признаке к общему количеству значений в процентах

In [21]:
missing_percent = (df.isnull().sum() / len(df)) * 100
missing_percent

Вектор Мощи                        0.000000
Скорость перехода через портал    10.080442
Приток Силы Потока                 0.000000
Ритм магического ядра              0.000000
Поток Энергий                      0.000000
Сила Левого Потока                 0.000000
Сила Правого Потока                0.000000
Пламя Стихий                       0.000000
Температура вдоха Истока           0.000000
Температура выдоха Истока         79.998324
Приток давления Выдоха Истока      0.000000
Давление вдоха Истока             79.562594
Давление выдоха Истока             0.000000
Древний Ветер                     79.998324
Печать Чародея                     0.000000
Эмульсия Истока                    0.000000
Дыхание Истока                     0.000000
Гармония Бессмертия                0.000000
Тип Вектора Мощи                   0.000000
dtype: float64

Удалим те признаки, в которых у нас пропущено более 70% данных

In [22]:
df = df.drop(columns=['Температура выдоха Истока', 'Давление вдоха Истока', 'Древний Ветер'])

Теперь проверим количество уникальных значений в каждом столбце

In [23]:
for col in df.columns:
    unique_count = df[col].nunique()
    print(f"{col}: {unique_count} уникальных значений")

Вектор Мощи: 9 уникальных значений
Скорость перехода через портал: 9 уникальных значений
Приток Силы Потока: 10771 уникальных значений
Ритм магического ядра: 3888 уникальных значений
Поток Энергий: 11834 уникальных значений
Сила Левого Потока: 4286 уникальных значений
Сила Правого Потока: 4286 уникальных значений
Пламя Стихий: 11772 уникальных значений
Температура вдоха Истока: 1 уникальных значений
Приток давления Выдоха Истока: 524 уникальных значений
Давление выдоха Истока: 4209 уникальных значений
Печать Чародея: 8496 уникальных значений
Эмульсия Истока: 696 уникальных значений
Дыхание Истока: 51 уникальных значений
Гармония Бессмертия: 26 уникальных значений
Тип Вектора Мощи: 4 уникальных значений


"Температура вдоха Истока" можно удалить так как у нас в признаке всего одно значение

In [24]:
df = df.drop(columns=['Температура вдоха Истока'])

### 1.1.3. <a id='toc1_1_3_'></a>[Формирование обучающей и тестирующей выборок](#toc0_)

Для построения статистических моделей, а также их проверки, необходимо сформировать обучающий и тестовый наборы данных.

При помощи метода `train_test_split` сформируем обучающую и тестовую выборки. Поскольку в исходном датасете около 12000 записей, на тест оставим 25% данных. 

Дополнительно, перемешаем данные, зависимостей, которые могли возникнуть при сборе датасета и порядке хранения записей в БД.

Необходимо выделить обучающий и тестовый датасеты именно на данном этапе, чтобы не допустить утечки данных.

In [25]:
from sklearn.model_selection import train_test_split

In [26]:
X = df.drop('Гармония Бессмертия', axis=1)
y = df['Гармония Бессмертия']

In [27]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=seed)