# Прогнозирование температуры плавления стали

**Описание проекта**

Чтобы оптимизировать производственные расходы, металлургический комбинат ООО «Так закаляем сталь» решил уменьшить потребление электроэнергии на этапе обработки стали. Вам предстоит построить модель, которая предскажет температуру стали.

**Описание этапа обработки стали**

Сталь обрабатывают в металлическом ковше вместимостью около 100 тонн. Чтобы ковш выдерживал высокие температуры, изнутри его облицовывают огнеупорным кирпичом. Расплавленную сталь заливают в ковш и подогревают до нужной температуры графитовыми электродами. Они установлены в крышке ковша.

Из сплава выводится сера (десульфурация), добавлением примесей корректируется химический состав и отбираются пробы. Сталь легируют — изменяют её состав — подавая куски сплава из бункера для сыпучих материалов или проволоку через специальный трайб-аппарат (англ. tribe, «масса»).

Перед тем как первый раз ввести легирующие добавки, измеряют температуру стали и производят её химический анализ. Потом температуру на несколько минут повышают, добавляют легирующие материалы и продувают сплав инертным газом. Затем его перемешивают и снова проводят измерения. Такой цикл повторяется до достижения целевого химического состава и оптимальной температуры плавки.

Тогда расплавленная сталь отправляется на доводку металла или поступает в машину непрерывной разливки. Оттуда готовый продукт выходит в виде заготовок-слябов (англ. slab, «плита»).

**Описание данных**

Данные состоят из файлов, полученных из разных источников:

1. `data_arc.csv` — данные об электродах;
2. `data_bulk.csv` — данные о подаче сыпучих материалов (объём);
3. `data_bulk_time.csv` — данные о подаче сыпучих материалов (время);
4. `data_gas.csv` — данные о продувке сплава газом;
5. `data_temp.csv` — результаты измерения температуры;
6. `data_wire.csv` — данные о проволочных материалах (объём);
7. `data_wire_time.csv` — данные о проволочных материалах (время).

Во всех файлах столбец `key` содержит номер партии. В файлах может быть несколько строк с одинаковым значением `key`: они соответствуют разным итерациям обработки.

**План работы**

1. **Предобработка и исследовательский анализ данных**. Проверить наличие пропусков, некорректных значений, дубликатов, провести их обработку, привести данные к нужному типу. Изучить признаки, их основные статистики, построить графики при необходимости. Удалить признаки, не несущие смысловой нагрузки или явлющиеся утечкой таргета. Подготовить итоговую таблицу "объектов-признаков", где объектами являются уникальные ключи партий.
   
2. **Обучение моделей**. Разделить выборку на обучающую и тестовую. Исследовать разные ML модели. Выбрать признаковое пространство, модель и ее гиперпараметры, имеющее лучшее качество на кросс-валидации
   
3. **Оценка эффективности моделей на тестовой выборке**. При недостижении целевого значения метрики качества вернуться к этапу 2, сформировать дополнительные признаки, продолжить выбор моделей и настройку гиперпараметров.

In [38]:
import pandas as pd
import numpy as np
import optuna
import plotly.express as px

from caseconverter import snakecase
from collections import defaultdict
from IPython.display import display

from ydata_profiling import ProfileReport
from fast_ml import eda

from sklearn.model_selection import train_test_split

from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer, KNNImputer
from sklearn.preprocessing import StandardScaler
from category_encoders import MEstimateEncoder

from sklearn.linear_model import Ridge, Lasso
from sklearn.tree import DecisionTreeRegressor
from catboost import CatBoostRegressor
from lightgbm import LGBMRegressor

from sklearn.model_selection import cross_val_score
from sklearn.metrics import mean_squared_error, mean_absolute_error

In [2]:
FIG_WIDTH = 9 * 100
FIG_HEIGHT = 5 * 100
RANDOM_SEED = 42

In [3]:
try:
    raw = {
        'arc': pd.read_csv('data_arc.csv', parse_dates=['Начало нагрева дугой', 'Конец нагрева дугой']),
        'bulk_t': pd.read_csv('data_bulk_time.csv', parse_dates=
            ['Bulk 1',  'Bulk 2',  'Bulk 3',  'Bulk 4',  'Bulk 5',
             'Bulk 6',  'Bulk 7',  'Bulk 8',  'Bulk 9',  'Bulk 10',
             'Bulk 11', 'Bulk 12', 'Bulk 13', 'Bulk 14', 'Bulk 15']
        ),
        'bulk': pd.read_csv('data_bulk.csv'),
        'gas': pd.read_csv('data_gas.csv'),
        'temp': pd.read_csv('data_temp.csv', parse_dates=['Время замера']),
        'wire_t': pd.read_csv('data_wire_time.csv', parse_dates=
            ['Wire 1', 'Wire 2', 'Wire 3', 'Wire 4', 'Wire 5', 'Wire 6', 'Wire 7', 'Wire 8', 'Wire 9']
        ),
        'wire': pd.read_csv('data_wire.csv'),
    }
except:
    raw = {
        'arc': pd.read_csv('/datasets/data_arc.csv', parse_dates=['Начало нагрева дугой', 'Конец нагрева дугой']),
        'bulk_t': pd.read_csv('/datasets/data_bulk_time.csv', parse_dates=
            ['Bulk 1',  'Bulk 2',  'Bulk 3',  'Bulk 4',  'Bulk 5',
             'Bulk 6',  'Bulk 7',  'Bulk 8',  'Bulk 9',  'Bulk 10',
             'Bulk 11', 'Bulk 12', 'Bulk 13', 'Bulk 14', 'Bulk 15']
        ),
        'bulk': pd.read_csv('/datasets/data_bulk.csv'),
        'gas': pd.read_csv('/datasets/data_gas.csv'),
        'temp': pd.read_csv('/datasets/data_temp.csv', parse_dates=['Время замера']),
        'wire_t': pd.read_csv('/datasets/data_wire_time.csv', parse_dates=
            ['Wire 1', 'Wire 2', 'Wire 3', 'Wire 4', 'Wire 5', 'Wire 6', 'Wire 7', 'Wire 8', 'Wire 9']
        ),
        'wire': pd.read_csv('/datasets/data_wire.csv'),
    }

## Исследовательский анализ данных

Изучим основные зависимости в данных перед тем, как мы будем использовать их в алгоритмах машинного обучения.

Таблица-резюме:

In [4]:
for dataset in raw.keys():
    print('#' * 50, 'Summary for', dataset, 'dataset', '#' * 50)
    display(eda.df_info(raw[dataset]))

################################################## Summary for arc dataset ##################################################


Unnamed: 0,data_type,data_type_grp,num_unique_values,sample_unique_values,num_missing,perc_missing
key,int64,Numerical,3214,"[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]",0,0.0
Начало нагрева дугой,datetime64[ns],DateTime,14875,"[1556881334000000000, 1556881648000000000, 155...",0,0.0
Конец нагрева дугой,datetime64[ns],DateTime,14876,"[1556881562000000000, 1556881833000000000, 155...",0,0.0
Активная мощность,float64,Numerical,14869,"[0.9760587506, 0.8056070805, 0.7443634272, 1.6...",0,0.0
Реактивная мощность,float64,Numerical,14866,"[0.6870837212, 0.5202852488, 0.4988054037, 1.0...",0,0.0


################################################## Summary for bulk_t dataset ##################################################


Unnamed: 0,data_type,data_type_grp,num_unique_values,sample_unique_values,num_missing,perc_missing
key,int64,Numerical,3129,"[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]",0,0.0
Bulk 1,datetime64[ns],DateTime,252,"[None, 1556905819000000000, 155705095300000000...",2877,91.946309
Bulk 2,datetime64[ns],DateTime,22,"[None, 1557218179000000000, 155722353500000000...",3107,99.2969
Bulk 3,datetime64[ns],DateTime,1298,"[None, 1556914416000000000, 155694163000000000...",1831,58.517098
Bulk 4,datetime64[ns],DateTime,1014,"[1556882490000000000, 1556883998000000000, 155...",2115,67.59348
Bulk 5,datetime64[ns],DateTime,77,"[None, 1557218179000000000, 155722353500000000...",3052,97.53915
Bulk 6,datetime64[ns],DateTime,576,"[None, 1556909577000000000, 155691812000000000...",2553,81.591563
Bulk 7,datetime64[ns],DateTime,25,"[None, 1557229062000000000, 155791295300000000...",3104,99.201023
Bulk 8,datetime64[ns],DateTime,1,"[None, 1562348771000000000]",3128,99.968041
Bulk 9,datetime64[ns],DateTime,19,"[None, 1557792296000000000, 155779426700000000...",3110,99.392777


################################################## Summary for bulk dataset ##################################################


Unnamed: 0,data_type,data_type_grp,num_unique_values,sample_unique_values,num_missing,perc_missing
key,int64,Numerical,3129,"[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]",0,0.0
Bulk 1,float64,Numerical,47,"[nan, 46.0, 27.0, 48.0, 29.0, 78.0, 52.0, 69.0...",2877,91.946309
Bulk 2,float64,Numerical,15,"[nan, 228.0, 247.0, 232.0, 325.0, 257.0, 233.0...",3107,99.2969
Bulk 3,float64,Numerical,278,"[nan, 71.0, 151.0, 63.0, 89.0, 132.0, 67.0, 19...",1831,58.517098
Bulk 4,float64,Numerical,206,"[43.0, 73.0, 34.0, 81.0, 78.0, 117.0, 99.0, na...",2115,67.59348
Bulk 5,float64,Numerical,55,"[nan, 72.0, 79.0, 112.0, 83.0, 86.0, 74.0, 189...",3052,97.53915
Bulk 6,float64,Numerical,205,"[nan, 72.0, 77.0, 76.0, 219.0, 108.0, 88.0, 84...",2553,81.591563
Bulk 7,float64,Numerical,25,"[nan, 178.0, 406.0, 75.0, 155.0, 252.0, 47.0, ...",3104,99.201023
Bulk 8,float64,Numerical,1,"[nan, 49.0]",3128,99.968041
Bulk 9,float64,Numerical,10,"[nan, 63.0, 68.0, 65.0, 71.0, 66.0, 70.0, 147....",3110,99.392777


################################################## Summary for gas dataset ##################################################


Unnamed: 0,data_type,data_type_grp,num_unique_values,sample_unique_values,num_missing,perc_missing
key,int64,Numerical,3239,"[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]",0,0.0
Газ 1,float64,Numerical,3239,"[29.7499859302, 12.5555609779, 28.5547926192, ...",0,0.0


################################################## Summary for temp dataset ##################################################


Unnamed: 0,data_type,data_type_grp,num_unique_values,sample_unique_values,num_missing,perc_missing
key,int64,Numerical,3216,"[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]",0,0.0
Время замера,datetime64[ns],DateTime,15907,"[1556882178000000000, 1556882753000000000, 155...",0,0.0
Температура,float64,Numerical,175,"[1571.0, 1604.0, 1618.0, 1601.0, 1613.0, 1581....",2901,18.237254


################################################## Summary for wire_t dataset ##################################################


Unnamed: 0,data_type,data_type_grp,num_unique_values,sample_unique_values,num_missing,perc_missing
key,int64,Numerical,3081,"[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]",0,0.0
Wire 1,datetime64[ns],DateTime,3055,"[1556881901000000000, 1556883970000000000, 155...",26,0.843882
Wire 2,datetime64[ns],DateTime,1079,"[None, 1556890326000000000, 155689199400000000...",2002,64.978903
Wire 3,datetime64[ns],DateTime,63,"[None, 1556945273000000000, 155694840800000000...",3018,97.955209
Wire 4,datetime64[ns],DateTime,14,"[None, 1557218903000000000, 155722409500000000...",3067,99.545602
Wire 5,datetime64[ns],DateTime,1,"[None, 1565280067000000000]",3080,99.967543
Wire 6,datetime64[ns],DateTime,73,"[None, 1557218240000000000, 155722359500000000...",3008,97.630639
Wire 7,datetime64[ns],DateTime,11,"[None, 1563885720000000000, 156388372400000000...",3070,99.642973
Wire 8,datetime64[ns],DateTime,19,"[None, 1557792212000000000, 155779419900000000...",3062,99.383317
Wire 9,datetime64[ns],DateTime,29,"[None, 1556986151000000000, 155935592600000000...",3052,99.058747


################################################## Summary for wire dataset ##################################################


Unnamed: 0,data_type,data_type_grp,num_unique_values,sample_unique_values,num_missing,perc_missing
key,int64,Numerical,3081,"[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]",0,0.0
Wire 1,float64,Numerical,2251,"[60.059998, 96.052315, 91.160157, 89.063515, 8...",26,0.843882
Wire 2,float64,Numerical,713,"[nan, 9.11456, 9.143681, 12.376, 52.416003, 37...",2002,64.978903
Wire 3,float64,Numerical,56,"[nan, 250.041794, 276.324066, 96.047951, 88.64...",3018,97.955209
Wire 4,float64,Numerical,14,"[nan, 24.148801, 43.065361, 33.182243, 103.034...",3067,99.545602
Wire 5,float64,Numerical,1,"[nan, 15.132]",3080,99.967543
Wire 6,float64,Numerical,69,"[nan, 60.094322000000005, 54.122643, 64.212723...",3008,97.630639
Wire 7,float64,Numerical,10,"[nan, 5.035472, 8.49004, 1.053936, 0.234208, 1...",3070,99.642973
Wire 8,float64,Numerical,13,"[nan, 46.002319, 46.094879, 46.187439000000005...",3062,99.383317
Wire 9,float64,Numerical,25,"[nan, 35.0532, 4.622800000000001, 35.0168, 10....",3052,99.058747


Числовые распределения:

In [5]:
for dataset in raw.keys():
    print('#' * 50, 'Summary for', dataset, 'dataset', '#' * 50)
    display(round(raw[dataset].describe().T, 2))

################################################## Summary for arc dataset ##################################################


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
key,14876.0,1615.22,934.57,1.0,806.0,1617.0,2429.0,3241.0
Активная мощность,14876.0,0.67,0.41,0.03,0.4,0.56,0.86,3.73
Реактивная мощность,14876.0,0.45,5.88,-715.5,0.29,0.42,0.64,2.68


################################################## Summary for bulk_t dataset ##################################################


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
key,3129.0,1624.38,933.34,1.0,816.0,1622.0,2431.0,3241.0


################################################## Summary for bulk dataset ##################################################


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
key,3129.0,1624.38,933.34,1.0,816.0,1622.0,2431.0,3241.0
Bulk 1,252.0,39.24,18.28,10.0,27.0,31.0,46.0,185.0
Bulk 2,22.0,253.05,21.18,228.0,242.0,251.5,257.75,325.0
Bulk 3,1298.0,113.88,75.48,6.0,58.0,97.5,152.0,454.0
Bulk 4,1014.0,104.39,48.18,12.0,72.0,102.0,133.0,281.0
Bulk 5,77.0,107.03,81.79,11.0,70.0,86.0,132.0,603.0
Bulk 6,576.0,118.93,72.06,17.0,69.75,100.0,157.0,503.0
Bulk 7,25.0,305.6,191.02,47.0,155.0,298.0,406.0,772.0
Bulk 8,1.0,49.0,,49.0,49.0,49.0,49.0,49.0
Bulk 9,19.0,76.32,21.72,63.0,66.0,68.0,70.5,147.0


################################################## Summary for gas dataset ##################################################


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
key,3239.0,1621.86,935.39,1.0,812.5,1622.0,2431.5,3241.0
Газ 1,3239.0,11.0,6.22,0.01,7.04,9.84,13.77,78.0


################################################## Summary for temp dataset ##################################################


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
key,15907.0,1607.88,942.21,1.0,790.0,1618.0,2427.0,3241.0
Температура,13006.0,1591.84,21.38,1191.0,1581.0,1591.0,1601.0,1705.0


################################################## Summary for wire_t dataset ##################################################


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
key,3081.0,1623.43,933.0,1.0,823.0,1619.0,2434.0,3241.0


################################################## Summary for wire dataset ##################################################


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
key,3081.0,1623.43,933.0,1.0,823.0,1619.0,2434.0,3241.0
Wire 1,3055.0,100.9,42.01,1.92,72.12,100.16,126.06,330.31
Wire 2,1079.0,50.58,39.32,0.03,20.19,40.14,70.23,282.78
Wire 3,63.0,189.48,99.51,0.14,95.14,235.19,276.25,385.01
Wire 4,14.0,57.44,28.82,24.15,40.81,45.23,76.12,113.23
Wire 5,1.0,15.13,,15.13,15.13,15.13,15.13,15.13
Wire 6,73.0,48.02,33.92,0.03,25.05,42.08,64.21,180.45
Wire 7,11.0,10.04,8.61,0.23,6.76,9.02,11.89,32.85
Wire 8,19.0,53.63,16.88,45.08,46.09,46.28,48.09,102.76
Wire 9,29.0,34.16,19.93,4.62,22.06,30.07,43.86,90.05


И детальный отчет:

In [6]:
for dataset in raw.keys():
    print('#' * 50, 'Summary for', dataset, 'dataset', '#' * 50)
    # ProfileReport(raw[dataset]).to_widgets()

################################################## Summary for arc dataset ##################################################
################################################## Summary for bulk_t dataset ##################################################
################################################## Summary for bulk dataset ##################################################
################################################## Summary for gas dataset ##################################################
################################################## Summary for temp dataset ##################################################
################################################## Summary for wire_t dataset ##################################################
################################################## Summary for wire dataset ##################################################


**Выводы на основе предварительного анализа:**

Данные о каждой партии разбиты по датасетам. Всего собрана информация о 3239 партий. Названия столбцов встречаются на русском и английском языках. Их надо будет привести к формату `snake_case`. Некоторым столбцам назначен неправильный тип данных. Во всех датасетах присутствует столбец `key`, содержащий номер партии.

1. В датасете `data_arc.csv` 14876 записей о нагреве сплава. Явное дублирование и пропуски - отсутствуют. Столбцам `Начало нагрева дугой` и `Конец нагрева дугой` необходимо сменить тип данных на `datetime`. Название столбцов требуется перевести на английский язык.
   
2. В датасете `data_bulk.csv` 3129 сплава и записи о добавленных в них сыпучих присадок. Всего существует 15 присадок. Явное дублирование - отсутствует. Пропуски означают, что данная присадка не добавлялась в сплав. Пропуски будут заменены значением `0.0`.
   
3. В датасете `data_bulk_time.csv` аналогичные с предыдущим пунктом замечания. Дополнительно необходимо сменить тип данных на `datetime`.
   
4. В датасете `data_gas.csv` 3239 записей о подаче газа в сплавы. Явное дублирование и пропуски - отсутствуют. Название столбца `Газ 1` требуется перевести на английский язык.
   
5. В датасете `data_temp.csv` 18092 замеров температур. Явное дублирование - отсутствует. В столбце `Температура` встречаются пропуски. К сожалению, эти строки придется удалить, т.к. нет возможности восстановить пропущенные значения. Для столбца `Время замера` необходимо сменить тип данных на `datetime`. Название столбцов требуется перевести на английский язык.
   
6. Датасеты `data_wire.csv` и `data_wire_time.csv` содержат 3081 сплав и записи о добавленных в них проволочных присадок. Остальные замечания аналогичны как для датасетов `data_bulk.csv` и `data_bulk_time.csv`.

## Предобработка данных

Пройдем по каждому датасету и сделаем необходимые преобразования.

### Датасет `arc`

Зададим новые названия колонок, уберем странные значения, создадим сводную таблицу.

In [7]:
df = {}

df['arc'] = (
    raw['arc']
    .copy()
    .set_axis(
        ['key', 'heating_start', 'heating_end', 'active_power', 'reactive_power'], axis=1
    )
    .loc[lambda df:
        df.reactive_power >= 0
    ]
    .assign(
        heating_time_sec=lambda df: (df.heating_end - df.heating_start).dt.seconds
    )
    .pivot_table(
        index='key',
        values=['active_power', 'reactive_power', 'heating_time_sec'],
        aggfunc={
            'active_power': 'sum', 'reactive_power': 'sum',
            'heating_time_sec': ['sum', 'count']
        }
    )
    .reset_index()
    .set_axis(
        ['key', 'active_power', 'cycles_no', 'heating_time_sec', 'reactive_power'], axis=1
    )
    .loc[:, [
        'key', 'cycles_no', 'heating_time_sec', 'active_power', 'reactive_power'
    ]]
)

display(df['arc'].head(3))

Unnamed: 0,key,cycles_no,heating_time_sec,active_power,reactive_power
0,1,5,1098,4.878147,3.183241
1,2,4,811,3.052598,1.998112
2,3,5,655,2.525882,1.599076


### Датасет `bulk`

Зададим названия колонок, уберем неинформативные колонки, заполним пропуски.

In [8]:
df['bulk'] = (
    raw['bulk']
    .copy()
    .rename(
        columns=lambda column: snakecase(column) if column == 'key' else snakecase(column) + '_vol'
    )
    .drop(['bulk_8_vol'], axis=1)
    .fillna(0)
)

display(df['bulk'].head(3))

Unnamed: 0,key,bulk_1_vol,bulk_2_vol,bulk_3_vol,bulk_4_vol,bulk_5_vol,bulk_6_vol,bulk_7_vol,bulk_9_vol,bulk_10_vol,bulk_11_vol,bulk_12_vol,bulk_13_vol,bulk_14_vol,bulk_15_vol
0,1,0.0,0.0,0.0,43.0,0.0,0.0,0.0,0.0,0.0,0.0,206.0,0.0,150.0,154.0
1,2,0.0,0.0,0.0,73.0,0.0,0.0,0.0,0.0,0.0,0.0,206.0,0.0,149.0,154.0
2,3,0.0,0.0,0.0,34.0,0.0,0.0,0.0,0.0,0.0,0.0,205.0,0.0,152.0,153.0


### Датасет `bulk_t`

Зададим названия колонок, уберем неинформативные колонки.

In [9]:
df['bulk_t'] = (
    raw['bulk_t']
    .copy()
    .rename(
        columns=lambda column: snakecase(column) if column == 'key' else snakecase(column) + '_dt'
    )
    .drop(['bulk_8_dt'], axis=1)
    # .fillna(0)
)

display(df['bulk_t'].head(3))

Unnamed: 0,key,bulk_1_dt,bulk_2_dt,bulk_3_dt,bulk_4_dt,bulk_5_dt,bulk_6_dt,bulk_7_dt,bulk_9_dt,bulk_10_dt,bulk_11_dt,bulk_12_dt,bulk_13_dt,bulk_14_dt,bulk_15_dt
0,1,NaT,NaT,NaT,2019-05-03 11:21:30,NaT,NaT,NaT,NaT,NaT,NaT,2019-05-03 11:03:52,NaT,2019-05-03 11:03:52,2019-05-03 11:03:52
1,2,NaT,NaT,NaT,2019-05-03 11:46:38,NaT,NaT,NaT,NaT,NaT,NaT,2019-05-03 11:40:20,NaT,2019-05-03 11:40:20,2019-05-03 11:40:20
2,3,NaT,NaT,NaT,2019-05-03 12:31:06,NaT,NaT,NaT,NaT,NaT,NaT,2019-05-03 12:09:40,NaT,2019-05-03 12:09:40,2019-05-03 12:09:40


### Датасет `gas`

Зададим названия колонок.

In [10]:
df['gas'] = (
    raw['gas']
    .copy()
    .set_axis(['key', 'gas'], axis=1)
)

display(df['gas'].head(3))

Unnamed: 0,key,gas
0,1,29.749986
1,2,12.555561
2,3,28.554793


### Датасет `temp`

Зададим новые названия колонок, создадим сводную таблицу.

In [106]:
df['temp'] = (
    raw['temp']
    .copy()
    .set_axis(['key', 'dt', 'temp_degc'], axis=1)
    .loc[lambda df: df.temp_degc >= 1300]
    .sort_values(by=['key', 'dt'], ascending=True)
    .pivot_table(
        index='key',
        values=['dt', 'temp_degc'],
        aggfunc={'dt': ['first', 'last', 'count'], 'temp_degc': ['first', 'last']}
    )
    .reset_index()
    .set_axis(['key', 'probe_count', 'dt_start', 'dt_end', 'temp_start_degc', 'temp_end_degc'], axis=1)
    .loc[:, [
        'key', 'probe_count', 'temp_start_degc', 'temp_end_degc'
    ]]
)

display(df['temp'].head(3))

Unnamed: 0,key,probe_count,temp_start_degc,temp_end_degc
0,1,5,1571.0,1613.0
1,2,6,1581.0,1602.0
2,3,5,1596.0,1599.0


### Датасет `wire`

Зададим названия колонок, уберем неинформативные колонки.

In [107]:
df['wire'] = (
    raw['wire']
    .copy()
    .rename(
        columns=lambda column: snakecase(column) if column == 'key' else snakecase(column) + '_vol'
    )
    .drop(['wire_5_vol'], axis=1)
    .fillna(0)
)

display(df['wire'].head(3))

Unnamed: 0,key,wire_1_vol,wire_2_vol,wire_3_vol,wire_4_vol,wire_6_vol,wire_7_vol,wire_8_vol,wire_9_vol
0,1,60.059998,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,2,96.052315,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,3,91.160157,0.0,0.0,0.0,0.0,0.0,0.0,0.0


### Датасет `wire_t`

Зададим названия колонок, уберем неинформативные колонки.

In [108]:
df['wire_t'] = (
    raw['wire_t']
    .copy()
    .rename(
        columns=lambda column: snakecase(column) if column == 'key' else snakecase(column) + '_dt'
    )
    .drop(['wire_5_dt'], axis=1)
    # .fillna(0)
)

display(df['wire_t'].head(3))

Unnamed: 0,key,wire_1_dt,wire_2_dt,wire_3_dt,wire_4_dt,wire_6_dt,wire_7_dt,wire_8_dt,wire_9_dt
0,1,2019-05-03 11:11:41,NaT,NaT,NaT,NaT,NaT,NaT,NaT
1,2,2019-05-03 11:46:10,NaT,NaT,NaT,NaT,NaT,NaT,NaT
2,3,2019-05-03 12:13:47,NaT,NaT,NaT,NaT,NaT,NaT,NaT


## Создание датасетов для ML моделей

Создадим сводный датасет.

In [109]:
df_summary = df['arc'][['key']]

for dataset in ['arc', 'bulk', 'gas', 'temp', 'wire']:
    df_summary = (
        pd.merge( 
            left=df_summary,
            right=df[dataset],
            on='key',
            how='inner'
        )
    )
    
display(df_summary.head(3))

Unnamed: 0,key,cycles_no,heating_time_sec,active_power,reactive_power,bulk_1_vol,bulk_2_vol,bulk_3_vol,bulk_4_vol,bulk_5_vol,...,temp_start_degc,temp_end_degc,wire_1_vol,wire_2_vol,wire_3_vol,wire_4_vol,wire_6_vol,wire_7_vol,wire_8_vol,wire_9_vol
0,1,5,1098,4.878147,3.183241,0.0,0.0,0.0,43.0,0.0,...,1571.0,1613.0,60.059998,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,2,4,811,3.052598,1.998112,0.0,0.0,0.0,73.0,0.0,...,1581.0,1602.0,96.052315,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,3,5,655,2.525882,1.599076,0.0,0.0,0.0,34.0,0.0,...,1596.0,1599.0,91.160157,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [110]:
# ProfileReport(df_summary).to_widgets()

Разделим выборки на `test` и `train`.

In [111]:
def split_data(df: pd.DataFrame, target_column: str, test_size: float, shuffle=False, stratify=None, split_ftr_tgt=True):
    """
    Split a DataFrame into training and testing datasets.

    This function accepts a DataFrame, the name of the target column, and the proportion of the data 
    to be included in the test split. Depending on the 'split_ftr_tgt' parameter, it either returns 
    four DataFrames (training features, training target, testing features, testing target) or two DataFrames 
    (complete training data, complete testing data).

    Args:
    - df (pd.DataFrame):
        The DataFrame to split. This DataFrame should include both the features and the target.

    - target_column (str): 
        The name of the target column. If 'split_ftr_tgt' is True, this column will be separated 
        from the features and returned in the target DataFrames.

    - test_size (float):
        The proportion of the data to include in the test split. For example, if `test_size` is 0.3, 
        30% of the data will be used for the test split, and the rest will be used for the training split.
        
    - shuffle (boolean):
        A flag to shuffle (True) or not (False) the data when splitting into train and test.

    - stratify (array-like):
        Determines the stratification strategy. If not None, data is split in a stratified fashion, using 
        the provided array as the class labels. It ensures that the training and test datasets have 
        approximately the same percentage of samples of each target class as the complete set.

    - split_ftr_tgt (boolean):
        If True, the function will return separate DataFrames for features and target for both training 
        and testing data. If False, it will return complete DataFrames for training and testing data.

    Returns:
    - list of pd.DataFrame:
        Depending on 'split_ftr_tgt':
            If True: A list containing four DataFrames - the training features, the training target, 
                     the testing features, and the testing target.
            If False: A list containing two DataFrames - the complete training data and the complete testing data.
    """
    df_train, df_test = train_test_split(
        df, test_size=test_size, random_state=RANDOM_SEED, shuffle=shuffle, stratify=stratify
    )
    
    if split_ftr_tgt:
        ftr_train = df_train.drop(target_column, axis=1)
        tgt_train = df_train[[target_column]]
        ftr_test = df_test.drop(target_column, axis=1)
        tgt_test = df_test[[target_column]]
        return [ftr_train, tgt_train, ftr_test, tgt_test]
    else:
        return [df_train, df_test]

In [112]:
dct_splits = {
    'train': {
        'features': split_data(df_summary, 'temp_end_degc', 0.1, split_ftr_tgt=True)[0],
        'target': split_data(df_summary, 'temp_end_degc', 0.1, split_ftr_tgt=True)[1]
    },
    'test': {
        'features': split_data(df_summary, 'temp_end_degc', 0.1, split_ftr_tgt=True)[2],
        'target': split_data(df_summary, 'temp_end_degc', 0.1, split_ftr_tgt=True)[3]
    },
}

## Выбор модели

Воспользуемся `optuna`, чтобы найти лучшую модель.

In [113]:
def optimize_regressors(ftr_train, tgt_train, n_trials: int):
    """
    Trains and optimizes regressors using Optuna.

    Args:
    - ftr_train, tgt_train: Training features and target.
    - n_trials (int): The number of trials for Optuna optimization.

    Returns:
    - An Optuna study object containing the optimal model and its parameters.
    """
    # Ensure target is 1-d vector
    tgt_train = tgt_train.values.ravel()

    def get_regressor(trial):
        """
        Generate a regressor based on the suggestions from the Optuna trial.

        Returns:
        - regressor (object): A regressor initialized with suggested hyperparameters.
        """
        regressors = {
            'Ridge': Ridge(
                alpha=trial.suggest_float('ridge_alpha', 0.001, 10, log=True)
            ),
            'Lasso': Lasso(
                alpha=trial.suggest_float('lasso_alpha', 0.001, 10, log=True)
            ),
            'DecisionTree': DecisionTreeRegressor(
                max_depth=trial.suggest_int('dt_max_depth', 1, 100),
                random_state=RANDOM_SEED
            ),
            'LightGBM': LGBMRegressor(
                max_depth=trial.suggest_int('lgbm_max_depth', 5, 20),
                n_estimators=trial.suggest_int('lgbm_n_estimators', 100, 1100),
                learning_rate=trial.suggest_float('lgbm_learning_rate', 0.01, 0.3),
                random_state=RANDOM_SEED
            ),
            'CatBoost': CatBoostRegressor(
                iterations=trial.suggest_int('cb_iterations', 100, 1000),
                learning_rate=trial.suggest_float('cb_learning_rate', 0.01, 0.4),
                logging_level='Silent',
                random_state=RANDOM_SEED
            ),
        }
        regressor_name = trial.suggest_categorical('regressor', list(regressors.keys()))
        return regressors[regressor_name]

    def objective(trial):
        """
        Objective function for Optuna optimization. Computes the mean squared error for a given regressor.

        Returns:
        - float: Negative mean squared error from cross-validation of the regressor's predictions.
        """
        regressor_obj = get_regressor(trial)
        scores = cross_val_score(regressor_obj, ftr_train, tgt_train, scoring='neg_mean_squared_error', cv=3)
        
        return np.mean(scores)

    optuna.logging.set_verbosity(optuna.logging.WARNING)
    study = optuna.create_study(direction='maximize', sampler=optuna.samplers.TPESampler(seed=RANDOM_SEED))
    study.optimize(objective, n_trials=n_trials)
    
    return study

Возьмем результаты `study`.

In [114]:
study = optimize_regressors(
    dct_splits['train']['features'],
    dct_splits['train']['target'],
    n_trials=100
)

Посмотрим, на параметры лучшей модели.

In [115]:
best_params = study.best_params
regressor_name = best_params['regressor']

param_prefixes = {
    'Ridge': 'ridge_',
    'Lasso': 'lasso_',
    'DecisionTree': 'dt_',
    'LightGBM': 'lgbm_',
    'CatBoost': 'cb_'
}

# Filter the best_params to only include relevant parameters for the selected regressor
relevant_params = {k: v for k, v in best_params.items() if k.startswith(param_prefixes[regressor_name]) or k == 'regressor'}

formatted_params = "\n".join([f"  {key}: {value}" for key, value in relevant_params.items()])
print(f"Best params for {regressor_name}:\n{formatted_params}")

Best params for CatBoost:
  cb_iterations: 249
  cb_learning_rate: 0.13573593848395565
  regressor: CatBoost


И историю подбора.

In [116]:
fig = optuna.visualization.plot_optimization_history(study)
fig.update_layout(
    legend=dict(orientation='h'),
    template='plotly_white',
    width=FIG_WIDTH, height=FIG_HEIGHT
)
fig.show()

fig = optuna.visualization.plot_slice(study, params=relevant_params)
fig.update_layout(
    legend=dict(orientation='h'),
    template='plotly_white',
    width=FIG_WIDTH, height=FIG_HEIGHT
)
fig.update_xaxes(tickangle=-90)
fig.show()

Процесс оптимизации показывает, что, учитывая имеющиеся данные и рассматриваемый диапазон гиперпараметров, классификатор `LightGBM` обеспечивает наименьшую ошибку `MSE` на обучающих данных. Ожидаем, что эта модель покажет лучшие результаты на неизвестных данных.

## Проверка результатов

Последним этапом, проверим, как модель работает на тестовых данных, а также, какие прогнозы у нас получились.

Для начала обучим лучшую модель.

In [121]:
# model = LGBMRegressor(
#     max_depth=study.best_params['lgbm_max_depth'],
#     n_estimators=study.best_params['lgbm_n_estimators'],
#     learning_rate=study.best_params['lgbm_learning_rate'],
#     random_state=RANDOM_SEED
# )

model = CatBoostRegressor(
    iterations=study.best_params['cb_iterations'],
    learning_rate=study.best_params['cb_learning_rate'],
    logging_level='Silent',
    random_state=RANDOM_SEED
)

model.fit(dct_splits['train']['features'], dct_splits['train']['target']);

Посчитаем предсказания и посмотрим на метрики.

In [122]:
for sample in ['train', 'test']:
    dct_splits[sample]['prediction'] = pd.DataFrame(
        model.predict(dct_splits[sample]['features']), columns=['temp_end_degc']
    )
    print(
        'MSE for', sample, 'dataset:', 
        round(mean_squared_error(dct_splits[sample]['target'], dct_splits[sample]['prediction']), 3)
    )

MSE for train dataset: 18.122
MSE for test dataset: 12.591


In [123]:
df_temp = (
    pd.concat([
        pd.DataFrame({
            'prediction': dct_splits['train']['prediction']['temp_end_degc'].reset_index(drop=True),
            'target': dct_splits['train']['target']['temp_end_degc'].reset_index(drop=True)
        }).assign(dataset='train'),
        pd.DataFrame({
            'prediction': dct_splits['test']['prediction']['temp_end_degc'].reset_index(drop=True),
            'target': dct_splits['test']['target']['temp_end_degc'].reset_index(drop=True)
        }).assign(dataset='test'),
    ])
    .melt(id_vars='dataset', var_name='target', value_name='value')
)

for dataset in ['train', 'test']:
    fig = px.histogram(
        df_temp[df_temp.dataset == dataset],
        x='value',
        color='target',
        marginal='box',
        barmode='overlay',
        nbins=200, 
        title=f'Histogram of true and predicted temperature for {dataset} dataset',
        template='plotly_white',
        width=FIG_WIDTH, height=1.5*FIG_HEIGHT
    )

    fig.update_layout(legend=dict(orientation='h'))
    fig.show()

## Выводы

На основе проведенного анализа и результатов моделирования можно сделать следующие выводы:

1. **Анализ данных:** Мы начали с 159,292 текстовых образцов с целью классифицировать, является ли каждый пост "токсичным". Данные не имели пропущенных значений, но были несбалансированы, с лишь 10% помеченных как токсичные.
  
2. **Преобразование данных:** Текстовые данные прошли комплексную предварительную обработку, что привело к формату, более подходящему для моделирования: мы убрали ненужные символы, привели текст к нижнему регистру, провели токенизацию и использовать `TF-IDF` для кодирования признаков. Чтобы противостоять несбалансированной целевой переменной, мы применили метод увеличения выборки для обучающих данных, достигнув равного соотношения между классами.

3. **Выбор и оптимизация модели:** Мы оценивали несколько классификаторов, включая логистическую регрессию, решающее дерево и ансамблевые модели, такие как `LightGBM` и `CatBoost`. Путем оптимизации гиперпараметров `LightGBM` показала наилудшие результаты.

4. **Метрики производительности:** Наша модель `LightGBM` показала F1 метрику в 0.995 на обучающих данных. Однако ее производительность на неизвестных тестовых данных была ниже с F1-баллом 0.766. Это указывает на переобучение модели: в качестве следующих шагов мы можем попробовать другие способы балансирования классов, более продвинутые способы кодирования признаков, а также другие модели типа `BERT`.