# 1. Описание задачи и признаков

## Описание задачи

В тёмных залах Каэр Морхена стоит древний портал, известный как Врата Вечности. Этот артефакт, созданный давно исчезнувшими магами, открывает путь между мирами. За ним присматривают ведьмаки Геральт, Весемир и Ламберт в компании чародеек Филиппы Эйльхарт и Киры Мец. Лютик, не упускающий шанса стать частью любой захватывающей истории, также здесь, помогая (или, скорее, мешая) исследованиям своими балладами и стихами.

Главный показатель состояния портала Гармония Бессмертия. Этот коэффициент демонстрирует, насколько сильно изношен портал: как только Гармония достигнет критического уровня, магия Врат Вечности начнёт угасать, и портал может разрушиться, оставив Миры отделёнными и создав угрозу для тех, кто находится поблизости. Чтобы спрогнозировать будущее портала, чародейки, ведьмаки и Лютик (несмотря на свои сомнительные навыки в магии) собирают данные о его работе, отслеживая потоки силы, ритм магического ядра, давление стихийной энергии и прочие важные параметры. Ux задача предсказать изменения Гармонии Бессмертия, чтобы успеть вмешаться до того, как портал разрушится, и сохранить этот древний путь между мирами для будущих поколений. —

## Постановка задачи

Это задача **регрессии**.
Требуется предсказать **вещественный** признак "Гармония бессмертия"

## Описание признакового пространства

| **№** | **Признак** | **Описание** | **Тип данных признака** |
|---|---|---|---|
| **1** | Вектор мощи: | Позиция магического механизма, управляющего интенсивностью перехода через портал | Вещественный |
| **2** | Скорость перехода через портал | Скорость, с которой портал перемещает объект через пространство | Вещественный |
| **3** | Приток Силы Потока | Поток магической силы, текущий через ядро портала, обеспечивая его стабильную работу | Вещественный |
| **4** | Ритм магического ядра | Число оборотов магического ядра портала в минуту | Вещественный |
| **5** | Поток Энергий | Число оборотов генератора эфира, преобразующего внешнюю энергию в магическую | Вещественный |
| **6** | Сила Левого Потока | Мощность магического потока, текущего через левую сторону портала, поддерживая его баланс | Вещественный |
| **7** | Сила Правого Потока | Мощность магического потока, текущего через правую сторону портала, обеспечивая равномерное распределение энергии | Вещественный |
| **8** | Пламя Стихий | Температура магической энергии, исходящей из высокого магического источника портала, в градусах Цельсия | Вещественный |
| **9** | Температура вдоха Истока | Температура воздуха, входящего в магический ускоритель портала, в градусах Цельсия | Целочисленный |
| **10** | Температура выдоха Истока | Температура воздуха, исходящего из магического ускорителя портала, в градусах Цельсия | Вещественный |
| **11** | Приток давления Выдоха Истока | Давление магического потока на выходе из магического источника высокого давления | Вещественный |
| **12** | Давление вдоха Истока | Давление вдоха Истока: Давление воздуха, входящего в магический ускоритель | Вещественный |
| **13** | Давление выдоха Истока | Давление воздуха, исходящего из магического ускорителя | Вещественный |
| **14** | Древний Ветер | Давление древней магической энергии, покидающей портал в виде выхлопного потока | Вещественный |
| **15** | Печать Чародея | Параметр управления магическим впрыском в сердце портала, выраженный в процентах | Вещественный |
| **16** | Эмульсия Истока | Эмульсия Истока: Количество магического топлива, подпитывающего портал | Вещественный |
| **17** | Дыхание Истока | Коэффициент, отображающий степень угасания магического ускорителя | Вещественный |
| **18** | **Гармония Бессмертия** - целевая переменная | Коэффициент, указывающий на состояние магического ядра портала и его стабильность, требующий магического восстановления в случае снижения | Вещественный |
| **19** | Тип Вектора Мощи | Метка типа позиции магического механизма | Категориальный |
| **20** | Номер пометки | Уникальный номер записи о работе портала в блокноте | Целочисленный |

## Импортируем частовстречающиеся библиотеки

In [1]:
import pandas as pd
import seaborn as sns
import numpy as np
import typing as t
import matplotlib.pyplot as plt

In [2]:
!python --version

Python 3.10.18


In [3]:
import warnings
warnings.filterwarnings('ignore')

Зафиксируем сид

In [4]:
seed = 42
np.random.seed(seed)

# 2. Обработка данных

Загрузим датафрейм. 
- Разделитель: `|`
- Кодировка: `cp1251`

In [5]:
df = pd.read_csv(r"../../data/portal_data.csv", sep='|', encoding='cp1251')
df.head()

Unnamed: 0,Вектор Мощи,Скорость перехода через портал,Приток Силы Потока,Ритм магического ядра,Поток Энергий,Сила Левого Потока,Сила Правого Потока,Пламя Стихий,Температура вдоха Истока,Температура выдоха Истока,Приток давления Выдоха Истока,Давление вдоха Истока,Давление выдоха Истока,Древний Ветер,Печать Чародея,Эмульсия Истока,Дыхание Истока,Гармония Бессмертия,Тип Вектора Мощи,Номер пометки
0,1.138,1.54332,289.964,141.318158,6677.38,7.584,7.584,464.006,736,-,1.096,Не определено,5.947,-,7.137,0.082,0.95,0.975,Слабый,0
1,2.088,-,6960.18,144.111767,6828.469,28.204,28.204,635.401,736,581.658,1.331,1.394603,7.282,1.019,10.655,0.287,0.95,0.975,Слабый,1
2,3.144,4.6299600000000005,8379.229,145.220853,7111.811,60.358,60.358,606.002,736,-,1.389,Не определено,7.574,-,13.086,0.259,0.95,0.975,Ниже среднего,2
3,4.161,6.17328,14724.395,162.050156,7792.63,113.774,113.774,661.471,736,-,1.658,Не определено,9.007,-,18.109,0.358,0.95,0.975,Ниже среднего,3
4,5.14,7.7166,21636.432,201.513586,8494.777,175.306,175.306,731.494,736,645.642,2.078,Не определено,11.197,1.026,26.373,0.522,0.95,0.975,Выше среднего,4


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11934 entries, 0 to 11933
Data columns (total 20 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   Вектор Мощи                     11934 non-null  float64
 1   Скорость перехода через портал  11934 non-null  object 
 2   Приток Силы Потока              11934 non-null  float64
 3   Ритм магического ядра           11934 non-null  float64
 4   Поток Энергий                   11934 non-null  float64
 5   Сила Левого Потока              11934 non-null  float64
 6   Сила Правого Потока             11934 non-null  float64
 7   Пламя Стихий                    11934 non-null  float64
 8   Температура вдоха Истока        11934 non-null  int64  
 9   Температура выдоха Истока       11934 non-null  object 
 10  Приток давления Выдоха Истока   11934 non-null  float64
 11  Давление вдоха Истока           11934 non-null  object 
 12  Давление выдоха Истока          

In [7]:
df.shape

(11934, 20)

Выполним приведение к типу

In [8]:
df['Скорость перехода через портал'] = pd.to_numeric(df['Скорость перехода через портал'], errors='coerce')
df['Температура выдоха Истока'] = pd.to_numeric(df['Температура выдоха Истока'], errors='coerce')
df['Давление вдоха Истока'] = pd.to_numeric(df['Давление вдоха Истока'], errors='coerce')
df['Древний Ветер'] = pd.to_numeric(df['Древний Ветер'], errors='coerce')

In [9]:
df['Тип Вектора Мощи'].value_counts()

Тип Вектора Мощи
Сильный          3978
Слабый           2652
Ниже среднего    2652
Выше среднего    2652
Name: count, dtype: int64

In [10]:
mapping = {
    "Сильный": 4,
    "Выше среднего": 3,
    "Ниже среднего": 2,
    "Слабый": 1
}
df['Тип Вектора Мощи'] = df['Тип Вектора Мощи'].map(mapping)

In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11934 entries, 0 to 11933
Data columns (total 20 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   Вектор Мощи                     11934 non-null  float64
 1   Скорость перехода через портал  10731 non-null  float64
 2   Приток Силы Потока              11934 non-null  float64
 3   Ритм магического ядра           11934 non-null  float64
 4   Поток Энергий                   11934 non-null  float64
 5   Сила Левого Потока              11934 non-null  float64
 6   Сила Правого Потока             11934 non-null  float64
 7   Пламя Стихий                    11934 non-null  float64
 8   Температура вдоха Истока        11934 non-null  int64  
 9   Температура выдоха Истока       2387 non-null   float64
 10  Приток давления Выдоха Истока   11934 non-null  float64
 11  Давление вдоха Истока           2439 non-null   float64
 12  Давление выдоха Истока          

In [12]:
df.head()

Unnamed: 0,Вектор Мощи,Скорость перехода через портал,Приток Силы Потока,Ритм магического ядра,Поток Энергий,Сила Левого Потока,Сила Правого Потока,Пламя Стихий,Температура вдоха Истока,Температура выдоха Истока,Приток давления Выдоха Истока,Давление вдоха Истока,Давление выдоха Истока,Древний Ветер,Печать Чародея,Эмульсия Истока,Дыхание Истока,Гармония Бессмертия,Тип Вектора Мощи,Номер пометки
0,1.138,1.54332,289.964,141.318158,6677.38,7.584,7.584,464.006,736,,1.096,,5.947,,7.137,0.082,0.95,0.975,1,0
1,2.088,,6960.18,144.111767,6828.469,28.204,28.204,635.401,736,581.658,1.331,1.394603,7.282,1.019,10.655,0.287,0.95,0.975,1,1
2,3.144,4.62996,8379.229,145.220853,7111.811,60.358,60.358,606.002,736,,1.389,,7.574,,13.086,0.259,0.95,0.975,2,2
3,4.161,6.17328,14724.395,162.050156,7792.63,113.774,113.774,661.471,736,,1.658,,9.007,,18.109,0.358,0.95,0.975,2,3
4,5.14,7.7166,21636.432,201.513586,8494.777,175.306,175.306,731.494,736,645.642,2.078,,11.197,1.026,26.373,0.522,0.95,0.975,3,4


Процент заполненности столбцов значениями

In [13]:
(df.notna().sum() / len(df) * 100).round(2)

Вектор Мощи                       100.00
Скорость перехода через портал     89.92
Приток Силы Потока                100.00
Ритм магического ядра             100.00
Поток Энергий                     100.00
Сила Левого Потока                100.00
Сила Правого Потока               100.00
Пламя Стихий                      100.00
Температура вдоха Истока          100.00
Температура выдоха Истока          20.00
Приток давления Выдоха Истока     100.00
Давление вдоха Истока              20.44
Давление выдоха Истока            100.00
Древний Ветер                      20.00
Печать Чародея                    100.00
Эмульсия Истока                   100.00
Дыхание Истока                    100.00
Гармония Бессмертия               100.00
Тип Вектора Мощи                  100.00
Номер пометки                     100.00
dtype: float64

Отбросим признаки:
- `Номер пометки` - уникальные номера
- `Температура выдоха Истока` - слишко мало значений, не являющихся NaN
- `Давление вдоха Истока` - сслишко мало значений, не являющихся NaN
- `Древний Ветер` - слишко мало значений, не являющихся NaN

In [14]:
columns = ['Номер пометки', 'Температура выдоха Истока', 'Давление вдоха Истока', 'Древний Ветер']
df = df.drop(columns=columns, axis=1)

Разделим данные на обучающую и тестовую выборку `(80/20)`

In [15]:
from sklearn.model_selection import train_test_split

In [16]:
X = df.drop(columns=['Гармония Бессмертия'], axis=1)
y = df['Гармония Бессмертия']

In [17]:
y

0        0.975
1        0.975
2        0.975
3        0.975
4        0.975
         ...  
11929    1.000
11930    1.000
11931    1.000
11932    1.000
11933    1.000
Name: Гармония Бессмертия, Length: 11934, dtype: float64

In [18]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

In [19]:
df2 = pd.concat((X, y), axis=1)

In [20]:
df2.head(10)

Unnamed: 0,Вектор Мощи,Скорость перехода через портал,Приток Силы Потока,Ритм магического ядра,Поток Энергий,Сила Левого Потока,Сила Правого Потока,Пламя Стихий,Температура вдоха Истока,Приток давления Выдоха Истока,Давление выдоха Истока,Печать Чародея,Эмульсия Истока,Дыхание Истока,Тип Вектора Мощи,Гармония Бессмертия
0,1.138,1.54332,289.964,141.318158,6677.38,7.584,7.584,464.006,736,1.096,5.947,7.137,0.082,0.95,1,0.975
1,2.088,,6960.18,144.111767,6828.469,28.204,28.204,635.401,736,1.331,7.282,10.655,0.287,0.95,1,0.975
2,3.144,4.62996,8379.229,145.220853,7111.811,60.358,60.358,606.002,736,1.389,7.574,13.086,0.259,0.95,2,0.975
3,4.161,6.17328,14724.395,162.050156,7792.63,113.774,113.774,661.471,736,1.658,9.007,18.109,0.358,0.95,2,0.975
4,5.14,7.7166,21636.432,201.513586,8494.777,175.306,175.306,731.494,736,2.078,11.197,26.373,0.522,0.95,3,0.975
5,6.175,9.25992,29792.731,241.630782,8828.36,246.278,246.278,800.434,736,2.501,13.356,35.76,0.708,0.95,3,0.975
6,7.148,10.80324,38982.18,280.44851,9132.429,332.077,332.077,854.747,736,2.963,15.679,45.881,0.908,0.95,4,0.975
7,8.206,12.34656,50996.808,323.328632,9318.562,437.989,437.989,952.122,736,3.576,18.632,62.44,1.236,0.95,4,0.975
8,9.3,13.88988,72763.329,372.843693,9778.528,644.905,644.905,1115.797,736,4.498,22.811,92.556,1.832,0.95,4,0.975
9,1.138,1.54332,379.88,141.934538,6683.916,7.915,7.915,464.017,736,1.1,5.963,3.879,0.079,0.95,1,0.976


In [21]:
import pickle
with open(r'../../data/pract_dataset.pkl', 'wb') as f:
    pickle.dump(df2, f)