# **ЗАДАЧА**

Необходимо построить модель, которая по параметрам работы магической установки сможет предсказывать значение показателя стабильности системы — *“Гармония Бессмертия”*. Целевая переменная непрерывная, изменяется в пределах от 0 до 1, имеет тип float. Таким образом наша задача - задача **регрессии**.

# **Описание признакового пространства**

| **№** | **Признак**                        | **Описание**                                                                                                                                         | **Тип данных признака**       |
| ----- | ---------------------------------- | ---------------------------------------------------------------------------------------------------------------------------------------------------- | ----------------------------- |
| 1     | **Вектор Мощи**                    | Позиция управляющего механизма, определяющего интенсивность перехода энергии через систему. | Числовой (непрерывный, float) |
| 2     | **Скорость перехода через портал** | Скорость, с которой объект проходит через систему; отражает производительность установки.                                                | Числовой (float)              |
| 3     | **Приток Силы Потока**             | Поток магической силы, обеспечивающий стабильную работу ядра.                                 | Числовой (float)              |
| 4     | **Ритм магического ядра**          | Частота оборотов или циклов ядра системы.                                                                     | Числовой (float)              |
| 5     | **Поток Энергий**                  | Энергетическая мощность системы — выходная энергия, преобразованная из внешней.                                                                      | Числовой (float)              |
| 6     | **Сила Левого Потока**             | Мощность потока, проходящего через левый контур системы, поддерживающий энергетический баланс.                                                       | Числовой (float)              |
| 7     | **Сила Правого Потока**            | Мощность потока, проходящего через правый контур системы, обеспечивающий симметрию распределения энергии.                                            | Числовой (float)              |
| 8     | **Пламя Стихий**                   | Температура энергии, выходящей из источника портала.                                                               | Числовой (float, °C)          |
| 9     | **Температура вдоха Истока**       | Температура входящего воздуха                                                                               | Числовой (float, °C)          |
| 10    | **Температура выдоха Истока**      | Температура выходящего воздуха                                                                                | Числовой (float, °C)          |
| 11    | **Приток давления Выдоха Истока**  | Давление энергетического потока на выходе из реактора (турбины).                                                                                     | Числовой (float, Па или бар)  |
| 12    | **Давление вдоха Истока**          | Давление на входе в ускоритель.                                                                      | Числовой (float, Па или бар)  |
| 13    | **Давление выдоха Истока**         | Давление на выходе из ускорителя.                                                                          | Числовой (float, Па или бар)  |
| 14    | **Древний Ветер**                  | Давление остаточной энергии или выхлопа.                                                                        | Числовой (float)              |
| 15    | **Печать Чародея**                 | Управляющий коэффициент, выражающий степень магического впрыска.                                  | Числовой (float, %)           |
| 16    | **Эмульсия Истока**                | Количество подаваемого энергетического топлива, обеспечивающего работу установки.                                                                    | Числовой (float)              |
| 17    | **Дыхание Истока**                 | Коэффициент, характеризующий степень деградации / потерь эффективности источника.                                                                    | Числовой (float, 0–1)         |
| 18    | **Гармония Бессмертия**            | Целевая переменная стабильности ядра; отражает сохранность и баланс системы.                                                                         | Числовой (float, 0–1)         |
| 19    | **Тип Вектора Мощи**               | Категориальный признак, обозначающий класс (например, “Слабый”, “Средний”, “Сильный”) — условный тип режима работы.                                  | Категориальный (строка)       |
| 20    | **Номер пометки**                  | Уникальный идентификатор наблюдения или строки данных.                                                                                               | Целочисленный (int)           |


| Название формулы                   | Что означает                                                                 | Формула                                   |
|-----------------------------------|----------------------------------------------------------------------------|-------------------------------------------|
| Общая мощность потоков             | Суммарная мощность двух потоков системы                                      | P_общ = Сила_Левого_Потока + Сила_Правого_Потока |
| Суммарная сила всех потоков        | Полная мощность системы с учётом притока                                      | P_сум = Сила_Левого_Потока + Сила_Правого_Потока + Приток_Силы_Потока |
| Общая сила ядра                    | Мощность ядра определяется ритмом работы и притоком энергии                  | P_ядра = Ритм_Магического_Ядра * Приток_Силы_Потока |
| Общее давление на выходе           | Давление потока на выходе системы                                             | P_вых = Приток_Давления_Выдоха_Истока + Давление_Выдоха_Истока |
| Магическая производительность      | Эффективность преобразования топлива в энергию                                | η_маг = Скорость_Перехода_Через_Портал / Эмульсия_Истока |
| Эффективность ядра                 | Насколько эффективно ядро преобразует поданное топливо                        | E_ядра = Сила_Ядра / Эмульсия_Истока |
| Магическая мощность установки       | Зависимость мощности установки от топлива, давления и перепада температур    | P_маг = f(Эмульсия_Истока, P_общ, ΔT), где ΔT = Пламя_Стихий - Температура_Вдоха_Истока |
| Износ источников                   | Коэффициент деградации оборудования                                           | I_износа = Дыхание_Истока / Гармония_Бессмертия |
| Абсолютная разница стабильности    | Величина отклонения состояния ядра от целевого уровня                          | ΔS = abs(Дыхание_Истока - Гармония_Бессмертия) |
| Нормированная стабильность         | Нормализованная мера нестабильности по скорости потока                        | S_норм = abs(Дыхание_Истока - Гармония_Бессмертия) / Скорость_Перехода_Через_Портал |


# **Вирутальное окржение**

| Наименование библиотеки | Описание                                                                             |
| ----------------------- | ------------------------------------------------------------------------------------ |
| matplotlib              | Библиотека для визуализации данных                                                   |
| pandas                  | Библиотека для работы таблицами и плоскими данными                                   |
| numpy                   | Библиотека для работы с массивами и матрицами                                        |
| scikit-learn            | Библиотека для построения классических моделей машинного обучения и работы с данными |
| scipy                   | Библиотека для работы со статистическими объектами                                   |
| missingno               | Библиотека для визуализации пропусков в данных                                       |
| seaborn                 | Библиотека для визуализации данных                                                   |
| lifelines               | Библиотека для обучения и построения статистических моделей выживаемости             |
| category_encoders       | Библиотека для кодирования категориальных признаков в вещественные значения          |
| typing                  | Библиотека для типизации парамеров функций и переменных                              |
| warnings                | Библиотека для корректировки выводов предупреждений                                  |
| scikit-survival         | Библиотека для построения моделей выживаемости, основанных на методах ML             |

Работа выполнялась на **Python** весии **3.12**, все библиотеки и их версии зафиксированы в файле requirements.txt

In [46]:
#!pip install --upgrade --force-reinstall -r requirements.txt

In [47]:
# !pip list --format=freeze

In [48]:
import pandas as pd
import numpy as np
import typing as t

In [49]:
import seaborn as sns
import matplotlib.pyplot as plt

In [50]:
import warnings
warnings.filterwarnings('ignore')

In [51]:
seed = 42
np.random.seed(seed)

In [52]:
from sklearn.model_selection import train_test_split

# **Обработка данных**

In [53]:
data = pd.read_csv('./data/portal_data.csv', sep='|', encoding='UTF-8')
data.head()

Unnamed: 0,Вектор Мощи,Скорость перехода через портал,Приток Силы Потока,Ритм магического ядра,Поток Энергий,Сила Левого Потока,Сила Правого Потока,Пламя Стихий,Температура вдоха Истока,Температура выдоха Истока,Приток давления Выдоха Истока,Давление вдоха Истока,Давление выдоха Истока,Древний Ветер,Печать Чародея,Эмульсия Истока,Дыхание Истока,Гармония Бессмертия,Тип Вектора Мощи,Номер пометки
0,1.138,1.54332,289.964,141.318158,6677.38,7.584,7.584,464.006,736,-,1.096,Не определено,5.947,-,7.137,0.082,0.95,0.975,Слабый,0
1,2.088,-,6960.18,144.111767,6828.469,28.204,28.204,635.401,736,581.658,1.331,1.394603,7.282,1.019,10.655,0.287,0.95,0.975,Слабый,1
2,3.144,4.6299600000000005,8379.229,145.220853,7111.811,60.358,60.358,606.002,736,-,1.389,Не определено,7.574,-,13.086,0.259,0.95,0.975,Ниже среднего,2
3,4.161,6.17328,14724.395,162.050156,7792.63,113.774,113.774,661.471,736,-,1.658,Не определено,9.007,-,18.109,0.358,0.95,0.975,Ниже среднего,3
4,5.14,7.7166,21636.432,201.513586,8494.777,175.306,175.306,731.494,736,645.642,2.078,Не определено,11.197,1.026,26.373,0.522,0.95,0.975,Выше среднего,4


In [54]:
data.describe()

Unnamed: 0,Вектор Мощи,Приток Силы Потока,Ритм магического ядра,Поток Энергий,Сила Левого Потока,Сила Правого Потока,Пламя Стихий,Температура вдоха Истока,Приток давления Выдоха Истока,Давление выдоха Истока,Печать Чародея,Эмульсия Истока,Дыхание Истока,Гармония Бессмертия,Номер пометки
count,11934.0,11934.0,11934.0,11934.0,11934.0,11934.0,11934.0,11934.0,11934.0,11934.0,11934.0,11934.0,11934.0,11934.0,11934.0
mean,5.166667,27247.498685,223.711688,8200.947312,227.335768,227.335768,735.495446,736.0,2.352963,12.297123,33.641261,0.66244,0.975,0.9875,5966.5
std,2.626388,22148.613155,81.061874,1091.315507,200.495889,200.495889,173.680552,0.0,1.08477,5.337448,25.841363,0.507132,0.01472,0.0075,3445.193391
min,1.138,253.547,136.939406,6589.002,5.304,5.304,442.364,736.0,1.093,5.828,0.0,0.068,0.95,0.975,0.0
25%,3.144,8375.88375,145.220958,7058.324,60.317,60.317,589.87275,736.0,1.389,7.44725,13.6775,0.246,0.962,0.981,2983.25
50%,5.14,21630.659,201.514947,8482.0815,175.268,175.268,706.038,736.0,2.083,11.092,25.2765,0.496,0.975,0.9875,5966.5
75%,7.148,39001.42675,280.447777,9132.606,332.36475,332.36475,834.06625,736.0,2.981,15.658,44.5525,0.882,0.988,0.994,8949.75
max,9.3,72784.872,372.879926,9797.103,645.249,645.249,1115.797,736.0,4.56,23.14,92.556,1.832,1.0,1.0,11933.0


In [55]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11934 entries, 0 to 11933
Data columns (total 20 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   Вектор Мощи                     11934 non-null  float64
 1   Скорость перехода через портал  11934 non-null  object 
 2   Приток Силы Потока              11934 non-null  float64
 3   Ритм магического ядра           11934 non-null  float64
 4   Поток Энергий                   11934 non-null  float64
 5   Сила Левого Потока              11934 non-null  float64
 6   Сила Правого Потока             11934 non-null  float64
 7   Пламя Стихий                    11934 non-null  float64
 8   Температура вдоха Истока        11934 non-null  int64  
 9   Температура выдоха Истока       11934 non-null  object 
 10  Приток давления Выдоха Истока   11934 non-null  float64
 11  Давление вдоха Истока           11934 non-null  object 
 12  Давление выдоха Истока          

In [56]:
data.shape

(11934, 20)

### Удаление столбцов с слишком большим(близко к 11.9к) или маленьким(=1) числом уникальных значений

In [57]:
for col in data.columns:
    print(f"{col}: {data[col].nunique(dropna=False)}")

Вектор Мощи: 9
Скорость перехода через портал: 10
Приток Силы Потока: 11430
Ритм магического ядра: 3888
Поток Энергий: 11834
Сила Левого Потока: 4286
Сила Правого Потока: 4286
Пламя Стихий: 11772
Температура вдоха Истока: 1
Температура выдоха Истока: 2369
Приток давления Выдоха Истока: 524
Давление вдоха Истока: 2
Давление выдоха Истока: 4209
Древний Ветер: 20
Печать Чародея: 8496
Эмульсия Истока: 696
Дыхание Истока: 51
Гармония Бессмертия: 26
Тип Вектора Мощи: 4
Номер пометки: 11934


In [58]:
data.drop(labels=['Температура вдоха Истока', 'Номер пометки'], axis=1, inplace=True)
data.head()

Unnamed: 0,Вектор Мощи,Скорость перехода через портал,Приток Силы Потока,Ритм магического ядра,Поток Энергий,Сила Левого Потока,Сила Правого Потока,Пламя Стихий,Температура выдоха Истока,Приток давления Выдоха Истока,Давление вдоха Истока,Давление выдоха Истока,Древний Ветер,Печать Чародея,Эмульсия Истока,Дыхание Истока,Гармония Бессмертия,Тип Вектора Мощи
0,1.138,1.54332,289.964,141.318158,6677.38,7.584,7.584,464.006,-,1.096,Не определено,5.947,-,7.137,0.082,0.95,0.975,Слабый
1,2.088,-,6960.18,144.111767,6828.469,28.204,28.204,635.401,581.658,1.331,1.394603,7.282,1.019,10.655,0.287,0.95,0.975,Слабый
2,3.144,4.6299600000000005,8379.229,145.220853,7111.811,60.358,60.358,606.002,-,1.389,Не определено,7.574,-,13.086,0.259,0.95,0.975,Ниже среднего
3,4.161,6.17328,14724.395,162.050156,7792.63,113.774,113.774,661.471,-,1.658,Не определено,9.007,-,18.109,0.358,0.95,0.975,Ниже среднего
4,5.14,7.7166,21636.432,201.513586,8494.777,175.306,175.306,731.494,645.642,2.078,Не определено,11.197,1.026,26.373,0.522,0.95,0.975,Выше среднего


### Замена пропусков на NaN

In [59]:
data = data.replace(['-', 'Не определено', 'не определено', 'None', 'none', 'nan', 'NaN'], np.nan)

### Удаление столбцов со слишком большим количеством пропусков

In [60]:
print(data.isna().sum())

Вектор Мощи                          0
Скорость перехода через портал    1203
Приток Силы Потока                   0
Ритм магического ядра                0
Поток Энергий                        0
Сила Левого Потока                   0
Сила Правого Потока                  0
Пламя Стихий                         0
Температура выдоха Истока         9547
Приток давления Выдоха Истока        0
Давление вдоха Истока             9495
Давление выдоха Истока               0
Древний Ветер                     9547
Печать Чародея                       0
Эмульсия Истока                      0
Дыхание Истока                       0
Гармония Бессмертия                  0
Тип Вектора Мощи                     0
dtype: int64


In [61]:
data.drop(labels=['Температура выдоха Истока', 'Давление вдоха Истока', 'Древний Ветер'], axis=1, inplace=True)
data.head()

Unnamed: 0,Вектор Мощи,Скорость перехода через портал,Приток Силы Потока,Ритм магического ядра,Поток Энергий,Сила Левого Потока,Сила Правого Потока,Пламя Стихий,Приток давления Выдоха Истока,Давление выдоха Истока,Печать Чародея,Эмульсия Истока,Дыхание Истока,Гармония Бессмертия,Тип Вектора Мощи
0,1.138,1.54332,289.964,141.318158,6677.38,7.584,7.584,464.006,1.096,5.947,7.137,0.082,0.95,0.975,Слабый
1,2.088,,6960.18,144.111767,6828.469,28.204,28.204,635.401,1.331,7.282,10.655,0.287,0.95,0.975,Слабый
2,3.144,4.6299600000000005,8379.229,145.220853,7111.811,60.358,60.358,606.002,1.389,7.574,13.086,0.259,0.95,0.975,Ниже среднего
3,4.161,6.17328,14724.395,162.050156,7792.63,113.774,113.774,661.471,1.658,9.007,18.109,0.358,0.95,0.975,Ниже среднего
4,5.14,7.7166,21636.432,201.513586,8494.777,175.306,175.306,731.494,2.078,11.197,26.373,0.522,0.95,0.975,Выше среднего


In [62]:
print(data.isna().sum())

Вектор Мощи                          0
Скорость перехода через портал    1203
Приток Силы Потока                   0
Ритм магического ядра                0
Поток Энергий                        0
Сила Левого Потока                   0
Сила Правого Потока                  0
Пламя Стихий                         0
Приток давления Выдоха Истока        0
Давление выдоха Истока               0
Печать Чародея                       0
Эмульсия Истока                      0
Дыхание Истока                       0
Гармония Бессмертия                  0
Тип Вектора Мощи                     0
dtype: int64


### Обработка категорильных столбцов

In [63]:
cat_cols = [col for col in data.columns if data[col].dtype == 'object']
print("Категориальные столбцы:", cat_cols)

Категориальные столбцы: ['Скорость перехода через портал', 'Тип Вектора Мощи']


In [64]:
data['Скорость перехода через портал'] = pd.to_numeric(
    data['Скорость перехода через портал'], errors='coerce'
)

In [65]:
data.head()

Unnamed: 0,Вектор Мощи,Скорость перехода через портал,Приток Силы Потока,Ритм магического ядра,Поток Энергий,Сила Левого Потока,Сила Правого Потока,Пламя Стихий,Приток давления Выдоха Истока,Давление выдоха Истока,Печать Чародея,Эмульсия Истока,Дыхание Истока,Гармония Бессмертия,Тип Вектора Мощи
0,1.138,1.54332,289.964,141.318158,6677.38,7.584,7.584,464.006,1.096,5.947,7.137,0.082,0.95,0.975,Слабый
1,2.088,,6960.18,144.111767,6828.469,28.204,28.204,635.401,1.331,7.282,10.655,0.287,0.95,0.975,Слабый
2,3.144,4.62996,8379.229,145.220853,7111.811,60.358,60.358,606.002,1.389,7.574,13.086,0.259,0.95,0.975,Ниже среднего
3,4.161,6.17328,14724.395,162.050156,7792.63,113.774,113.774,661.471,1.658,9.007,18.109,0.358,0.95,0.975,Ниже среднего
4,5.14,7.7166,21636.432,201.513586,8494.777,175.306,175.306,731.494,2.078,11.197,26.373,0.522,0.95,0.975,Выше среднего


In [66]:
power_order = {
    'Слабый': 0,
    'Ниже среднего': 1,
    'Выше среднего': 2,
    'Сильный': 3
}
data['Тип Вектора Мощи'] = data['Тип Вектора Мощи'].map(power_order)

In [67]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11934 entries, 0 to 11933
Data columns (total 15 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   Вектор Мощи                     11934 non-null  float64
 1   Скорость перехода через портал  10731 non-null  float64
 2   Приток Силы Потока              11934 non-null  float64
 3   Ритм магического ядра           11934 non-null  float64
 4   Поток Энергий                   11934 non-null  float64
 5   Сила Левого Потока              11934 non-null  float64
 6   Сила Правого Потока             11934 non-null  float64
 7   Пламя Стихий                    11934 non-null  float64
 8   Приток давления Выдоха Истока   11934 non-null  float64
 9   Давление выдоха Истока          11934 non-null  float64
 10  Печать Чародея                  11934 non-null  float64
 11  Эмульсия Истока                 11934 non-null  float64
 12  Дыхание Истока                  

**Важно**: "Тип Вектора Мощи" все еще категориальный столбец, мы лишь ушли от строк в датасете

### Разбиение данных на train и test

In [68]:
X = data.drop('Гармония Бессмертия', axis=1) 
y = data['Гармония Бессмертия']

In [69]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, 
    test_size=0.2,
    random_state=seed
)

print(X_train.shape, X_test.shape)
print(y_train.shape, y_test.shape)

(9547, 14) (2387, 14)
(9547,) (2387,)
