In [3]:
import pandas as pd
from datetime import datetime

In [4]:
df = pd.read_csv("data/df_hack_final.csv")

In [7]:
df.columns.tolist()

['MEAS_DT',
 'Cu_oreth',
 'Ni_oreth',
 'Ore_mass',
 'Mass_1',
 'Mass_2',
 'Dens_4',
 'Mass_4',
 'Vol_4',
 'Cu_4F',
 'Ni_4F',
 'Ni_4.1C',
 'Ni_4.1C_max',
 'Ni_4.1C_min',
 'Ni_4.1T',
 'Ni_4.1T_max',
 'Ni_4.1T_min',
 'FM_4.1_A',
 'Ni_4.2C',
 'Ni_4.2C_max',
 'Ni_4.2C_min',
 'Ni_4.2T',
 'Ni_4.2T_max',
 'Ni_4.2T_min',
 'FM_4.2_A',
 'Dens_5',
 'Mass_5',
 'Vol_5',
 'Ni_5F',
 'Ni_5.1C',
 'Ni_5.1C_max',
 'Ni_5.1C_min',
 'Ni_5.1T',
 'Ni_5.1T_max',
 'Ni_5.1T_min',
 'FM_5.1_A',
 'Ni_5.2C',
 'Ni_5.2C_max',
 'Ni_5.2C_min',
 'Ni_5.2T',
 'Ni_5.2T_max',
 'Ni_5.2T_min',
 'FM_5.2_A',
 'Dens_6',
 'Mass_6',
 'Vol_6',
 'Ni_6F',
 'Ni_6.1C',
 'Ni_6.1C_max',
 'Ni_6.1C_min',
 'Ni_6.1T',
 'Ni_6.1T_max',
 'Ni_6.1T_min',
 'FM_6.1_A',
 'Ni_6.2C',
 'Ni_6.2C_max',
 'Ni_6.2C_min',
 'Ni_6.2T',
 'Ni_6.2T_max',
 'Ni_6.2T_min',
 'FM_6.2_A',
 'Cu_resth',
 'Ni_resth',
 'Cu_1.1C',
 'Ni_1.1C',
 'Cu_1.2C',
 'Ni_1.2C',
 'Cu_2F',
 'Ni_2F',
 'Cu_2.1C',
 'Ni_2.1C',
 'Cu_2.2C',
 'Ni_2.2C',
 'Cu_3F',
 'Ni_3F',
 'Cu_3.1C',
 'Ni_3.1C',

#### Формат имен признаков:
- Ni_rec – извлечение никеля в готовый никелевый продукт, концентрат (значение может отсутствовать, валидны только меньше 1 и больше 0),
- Ore, oreth – имена, которые означают признаки рудного сгустителя (Ore thickener) и на входе первой ФМ (напомним, ФМ – флотомашина),
- resth – имена, которые означают признаки сгустителя с готовым никелевым продуктом (Final Ni thickener).
- Физические характеристики: Mass (масса), Dens (плотность), Vol (объём), Ni (никель), Cu (медь), AU (флаг автоуправления, если оптимизатор управления ФМ включен, то равен 1 – фактические диапазоны на этой ФМ актуальны, в противном случае диапазонам не следует доверять, так как не обновлялись после выключения оптимизатора)
- Суффиксы имён ФМ (положения в цепи агрегатов): 1.1, 1.2, …, 6.2 (см Схему флотации).
- Суффиксы продуктов: F – питание ФМ, C – концентрат ФМ, T – хвосты ФМ.
- Суффиксы границ фактических диапазонов, которые были выставлены технологом для оптимизатора ФМ: min, max.


In [6]:
df = df.astype({'MEAS_DT': 'datetime64[ns]'})

In [7]:
df.describe()

Unnamed: 0,MEAS_DT,Cu_oreth,Ni_oreth,Ore_mass,Mass_1,Mass_2,Dens_4,Mass_4,Vol_4,Cu_4F,...,Cu_3.1T_max,Cu_3.1T_min,FM_3.2_A,Cu_3.2C_max,Cu_3.2C_min,Ni_3.2C_max,Ni_3.2C_min,Cu_3.2T_max,Cu_3.2T_min,Ni_rec
count,30336,26213.0,26213.0,30336.0,30336.0,30336.0,30336.0,30336.0,30336.0,26083.0,...,30335.0,30335.0,30335.0,30335.0,30335.0,30335.0,30335.0,30335.0,30335.0,27759.0
mean,2024-06-06 23:52:29.999999744,2.712405,1.685584,1213.996028,1346.755948,789.375929,1.386676,811.54284,1520.38753,0.477034,...,1.627824,0.818042,0.331235,15.653601,13.036163,3.7,3.5,1.576072,0.86317,0.947898
min,2024-01-01 00:00:00,1.6546,1.1417,0.0,-0.258293,-0.16795,0.0,-0.083749,0.0,0.1001,...,1.0,0.6,0.0,14.0,12.0,3.7,3.5,1.0,0.6,0.594336
25%,2024-03-19 23:56:15,2.5237,1.574,1133.5,1310.45401,762.188248,1.378594,791.38855,1523.53125,0.3969,...,1.4,0.6,0.0,15.0,13.0,3.7,3.5,1.4,0.7,0.933853
50%,2024-06-06 23:52:30,2.6944,1.6851,1274.5,1400.96106,817.151642,1.398115,836.229218,1562.8125,0.4681,...,1.8,0.8,0.0,15.5,13.0,3.7,3.5,1.6,0.9,0.943993
75%,2024-08-24 23:48:45,2.8948,1.7927,1395.5,1475.273743,864.989029,1.415396,875.025543,1595.75,0.5412,...,1.8,0.9,1.0,16.5,13.0,3.7,3.5,1.8,1.0,0.966216
max,2024-11-11 23:45:00,4.048,2.6173,2000.0,2089.517578,1221.758057,1.651951,1303.474609,2028.375,5.2057,...,2.0,1.2,1.0,17.0,15.0,3.7,3.5,1.8,1.3,1.0
std,,0.284495,0.163395,304.202121,272.748762,153.755873,0.072671,147.976016,254.858332,0.176787,...,0.328567,0.170884,0.470665,0.901482,0.573167,8.881931e-16,0.0,0.236993,0.166731,0.020704


#### Отбор данных под каждую флотомашину

In [8]:
import re

In [9]:
def get_dataframe_per_fm(df, i, j):
    non_digit_features = [col for col in df.columns.tolist() if not re.findall(r'\d+', col)]
    filtered_columns_1 = [col for col in df.columns.tolist() if re.findall(f'{i}\\.{j}', col)]
    filtered_columns_2 = [col for col in df.columns.tolist() if re.findall(f'_{i}$', col)]
    return df[non_digit_features+filtered_columns_1+filtered_columns_2]

dfd = {f"fm{i}.{j}" : get_dataframe_per_fm(df, i, j) for j in range(1,3) for i in range(1,7)}

##### Чтение тестовых данных + дока

Требуется заполнить файл test.csv, указав границы диапазонов признаков (20 признаков => 40 значений границ) для выбранных моментов времени. Эти таймстемпы – 20 непрерывных временных отрезков с 15-минутной дискретностью. Каждый отрезок–тест-кейс, который будет оцениваться отдельно.

In [10]:
test_dataframe = pd.read_csv("data/test.csv")

- 1 смена = 1 модель = 1 батч данных
- 'FM_1.1_A 
-  все признаки диапазонов и  типа 'FM_1.1_A'. Нужно убирать
- prophet + time series
- 1 модель = 1 аутпут; а не 1 фм = 1 модель
- влияют ли другие аутпуты (другие показатели других флотомашин на нашу 1)
- изучать не абсолютные значения признаков а их % приращения
- объединить данные по 8 часов
- учесть оптимайзер как категориальную фичу
- проверить min < max
- min может зависить и от других порогов также как и max наверное (предиктить max с учетом min)
- output feature одной машины как input (другой)
- есть концентрация, предиктить ее и по ней говорить min и max

Важно! Границы фактического диапазона в файле исходных данных – значения, которые выставляли технологи производства для сервиса оптимизации флотации (по одному на каждую линию флотомашины, например, оптимизатор для ФМ1.1.), чтобы этот оптимизатор генерировал воздействия на рычаги управления флотацией на ФМ, которые обеспечат сходимость к середине этого диапазона. Обратите внимание, что сами границы, как и ширина диапазона – плод интеллектуального труда и фантазии технологов, которые работают посменно. Технолог ведёт процесс, наблюдает за большим кол-вом параметров и не всегда уделяет достаточное внимание оптимизатору и этим диапазонам – учитывайте человеческий фактор! Наиболее релевантные значения – при включении оптимизатора (см смену значения признака с суффиксом AU с 0 на 1).
В данной задаче все границы фактических диапазонов (40 параметров типа min, max) для каждой 15-минутки ставим под сомнение и предлагаем вам сгенерировать свои варианты с учётом ограничений:
1. Каждый диапазон (признаки min, max) можно изменить не чаще 1 раза в 2 часа (не менее 8 15-минуток подряд с одной и той же парой значений границ).
2. Наименьшие допустимые приращения признаков min, max зависят от продукта, металла и ФМ (и одинаковы для двух линий одной ФМ). В качестве приращений используйте только кратные им значения (например, если наименьшее допустимое – 0.1, используйте 0.1, 0.2, 0.3, …):
    - Ni_1.*C – 0.1,
    - Cu_1.*C – 0.1,
    - Cu_2.*T – 0.01,
    - Cu_3.*T – 0.05,
    - Ni_4.*T – 0.01,
    - Ni_4.*C – 0.05,
    - Ni_5.*T – 0.01,
    - Ni_5.*C – 0.05,
    - Ni_6.*T – 0.01,
    - Ni_6.*C – 0.05.

In [11]:
# test_dataframe.isna().sum()

In [12]:
test_dataframe = test_dataframe.astype({'MEAS_DT': 'datetime64[ns]'})

In [13]:
dfd_test = {f"fm{i}.{j}" : get_dataframe_per_fm(test_dataframe, i, j) for j in range(1, 3) for i in range(1, 7)}

In [14]:
def train_test_split(train_, test_):
    train = pd.concat([train_, test_]).drop_duplicates(subset='MEAS_DT', keep=False)
    test = pd.merge(test_, train_, how='inner', on='MEAS_DT', suffixes=('_y', '_X'))
    return {
        "train" : train, 
        "test" : test
        }

In [15]:
dfd_tt = {k : train_test_split(df_train_fm, dfd_test[k]) for k, df_train_fm in dfd.items()}

feadture processing
- MEAS_DT dropping
- nan processing (catboost do it by itself) **[metric/loss-function RMSE do not allows nan value on target]**
- we have also 4 features to predict so, we number of models should have been around 6 * 2 * 4 = 48

In [102]:
from catboost import CatBoostRegressor, Pool

In [103]:
models = {}

In [108]:
for floatmachine_name in dfd_tt.keys():

    train = dfd_tt[floatmachine_name]['train']
    test = dfd_tt[floatmachine_name]['test']

    output_features = [f.replace("_y", "") for f in test.columns.tolist() if "_y" in f] 
    train = train.dropna(subset=output_features)
    
    for output_feature in output_features:
        print(f"training {floatmachine_name} : {output_feature}...")
        
        features_to_train_on = train.columns.tolist()
        features_to_train_on.remove('MEAS_DT')
        features_to_train_on = [f for f in features_to_train_on if not "min" in f and "max" not in f] 
        
        train_pool = Pool(train[features_to_train_on], label=train[output_feature])
        test_pool = Pool(test[features_to_train_on], label=test[output_feature + "_X"])
        
        model = CatBoostRegressor()

        model.fit(train_pool, eval_set=test_pool, use_best_model=True, plot=True, silent=True)
        
        models[f"{floatmachine_name}:{output_feature}"] = model

training fm1.1 : Ni_1.1C_min...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm1.1 : Ni_1.1C_max...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm1.1 : Cu_1.1C_min...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm1.1 : Cu_1.1C_max...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm2.1 : Cu_2.1T_min...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm2.1 : Cu_2.1T_max...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm3.1 : Cu_3.1T_min...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm3.1 : Cu_3.1T_max...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm4.1 : Ni_4.1T_min...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm4.1 : Ni_4.1T_max...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm4.1 : Ni_4.1C_min...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm4.1 : Ni_4.1C_max...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm5.1 : Ni_5.1T_min...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm5.1 : Ni_5.1T_max...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm5.1 : Ni_5.1C_min...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm5.1 : Ni_5.1C_max...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm6.1 : Ni_6.1T_min...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm6.1 : Ni_6.1T_max...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm6.1 : Ni_6.1C_min...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm6.1 : Ni_6.1C_max...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm1.2 : Ni_1.2C_min...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm1.2 : Ni_1.2C_max...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm1.2 : Cu_1.2C_min...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm1.2 : Cu_1.2C_max...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm2.2 : Cu_2.2T_min...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm2.2 : Cu_2.2T_max...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm3.2 : Cu_3.2T_min...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm3.2 : Cu_3.2T_max...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm4.2 : Ni_4.2T_min...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm4.2 : Ni_4.2T_max...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm4.2 : Ni_4.2C_min...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm4.2 : Ni_4.2C_max...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm5.2 : Ni_5.2T_min...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm5.2 : Ni_5.2T_max...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm5.2 : Ni_5.2C_min...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm5.2 : Ni_5.2C_max...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm6.2 : Ni_6.2T_min...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm6.2 : Ni_6.2T_max...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm6.2 : Ni_6.2C_min...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

training fm6.2 : Ni_6.2C_max...


MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))