# Постановка задачи

Чтобы оптимизировать производственные расходы, металлургический комбинат ООО «Так закаляем сталь» решил уменьшить потребление электроэнергии на этапе обработки стали. Вам предстоит построить модель, которая предскажет температуру стали.

## Описание процесса обработки на каждой итерации.

Сталь обрабатывают в металлическом ковше вместимостью около 100 тонн. Чтобы ковш выдерживал высокие температуры, изнутри его облицовывают огнеупорным кирпичом. Расплавленную сталь заливают в ковш и подогревают до нужной температуры графитовыми электродами. Они установлены в крышке ковша. 

Из сплава выводится сера (десульфурация), добавлением примесей корректируется химический состав и отбираются пробы. Сталь легируют — изменяют её состав — подавая куски сплава из бункера для сыпучих материалов или проволоку через специальный трайб-аппарат (англ. tribe, «масса»).

Перед тем как первый раз ввести легирующие добавки, измеряют температуру стали и производят её химический анализ. Потом температуру на несколько минут повышают, добавляют легирующие материалы и продувают сплав инертным газом. Затем его перемешивают и снова проводят измерения. Такой цикл повторяется до достижения целевого химического состава и оптимальной температуры плавки.

Тогда расплавленная сталь отправляется на доводку металла или поступает в машину непрерывной разливки. Оттуда готовый продукт выходит в виде заготовок-слябов (англ. *slab*, «плита»).

## Описание данных.

Данные состоят из файлов, полученных из разных источников:

- `data_arc.csv` — данные об электродах;
- `data_bulk.csv` — данные о подаче сыпучих материалов (объём);
- `data_bulk_time.csv` *—* данные о подаче сыпучих материалов (время);
- `data_gas.csv` — данные о продувке сплава газом;
- `data_temp.csv` — результаты измерения температуры;
- `data_wire.csv` — данные о проволочных материалах (объём);
- `data_wire_time.csv` — данные о проволочных материалах (время).

Во всех файлах столбец `key` содержит номер партии. В файлах может быть несколько строк с одинаковым значением `key`: они соответствуют разным итерациям обработки.

## Целевой признак и метрики качества.

### Целевой признак: 

Последняя измеренная температура в каждой партии.

### Признаки:

Первая измеренная температура и остальные параметры коррелируемые с целевым признаком

### Метрика: 

MAE (минимальное значение)

In [1]:
import pandas as pd
import math
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split, GridSearchCV, KFold
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error
from sklearn.ensemble import RandomForestRegressor
import lightgbm as lgb
from catboost import CatBoostRegressor

import warnings
warnings.filterwarnings('ignore')

Загрузка имещийся датасетов.

In [2]:
data_arc = pd.read_csv('/datasets/final_steel/data_arc_new.csv')
data_bulk = pd.read_csv('/datasets/final_steel/data_bulk.csv')
data_bulk_time = pd.read_csv('/datasets/final_steel/data_bulk_time.csv')
data_gas = pd.read_csv('/datasets/final_steel/data_gas.csv')
data_temp = pd.read_csv('/datasets/final_steel/data_temp.csv')
data_wire = pd.read_csv('/datasets/final_steel/data_wire.csv')
data_wire_time = pd.read_csv('/datasets/final_steel/data_wire_time.csv')

FileNotFoundError: [Errno 2] No such file or directory: '/datasets/final_steel/data_arc.csv'

## Исследовательский анализ данных.

### Данные о электродах

In [None]:
data_arc.head(10)

In [None]:
data_arc.tail()

In [None]:
plt.hist((list(data_arc['key'].value_counts())), bins=30) # распределение количества итераций тех процесса в партиях
plt.show()

Количество итераций в каждой партии колеблиться от 1 до 15. Среднее количество итераций 4.

In [None]:
data_arc.info() # пропусков необнаружено

In [None]:
data_arc.describe(percentiles=[0.02,0.2,0.9,0.99]) # взглянем дополнительно по процентелям 2% 20% 90% и 99%

Большое минимальное значение реактивной мощности это скорее всего ошибка датчика. В дальнейшем удалим его. Всего 3241 партия.

### Данные о подаче сыпучих материалов (объём)

In [None]:
data_bulk.head(5)

In [None]:
data_bulk.info()

Такое большое количестов пропусков харрактерно для данного технологического процесса для каждой итерации. При поиске подходящего сосатва сплава добавляют различное количество материалов. Уместно заполнить пропуски нулями т. к. пропущенные значения говорят о том, что в данной итерации этот материал не вводится в сплав.

### Данные о подаче сыпучих материалов (время)

In [None]:
data_bulk_time.head(5)

In [None]:
data_bulk_time.info()

Аналогичная ситуация с пропусками как и при оъеме сыпучих лигирующих добавок. 

### Данные о продувке сплава газом

In [None]:
data_gas.head()

In [None]:
data_gas.tail()

In [None]:
data_gas.info()

In [None]:
data_gas.describe(percentiles=[0.02,0.2,0.9,0.99])

In [None]:
keys = list(data_gas['key'])

In [None]:
count = []

In [None]:
for i in list(range(1, 3242)):
    if i not in keys:
        count.append(i)

In [None]:
count # партии в которых нет данных о газе

### Результаты измерения температуры

In [None]:
data_temp.head()

In [None]:
data_temp.tail(30)

In [None]:
data_temp[data_temp['Температура'].isnull()].head()

In [None]:
data_temp[data_temp['Температура'].isnull()].tail()

In [None]:
data_temp.describe(percentiles=[0.02,0.2,0.9,0.99])

In [None]:
data_temp.info()

In [None]:
keys = list(data_temp['key'])

In [None]:
count = []

In [None]:
for i in list(range(1, 3242)):
    if i not in keys:
        count.append(i)

In [None]:
count

In [None]:
data_temp['key'].value_counts() 
# партии 195 и 279 не используем так как для целевого нужно как минимум первое и последнее значения температуры

Много пропусков в стобце температур. С партии № 2500 нет значений температур кроме первого измерения. Это может связанно с сбоем работы датчиков.

### Данные о проволочных материалах (объём)

In [None]:
data_wire.head(10)

In [None]:
data_wire.tail(10)

Пропуски можно заполнить нулями по аналогии с сыпучеми добавками.

### Данные о проволочных материалах (время)

In [None]:
data_wire_time.head(10)

In [None]:
data_wire_time.tail(10)

Так же как и с сыпучими добавками.

## План проекта:

* Обработка пропущенных значений
* Объеденение данных в один датасет (с 2499 партии т. к. дальше данных не достаточно для обучение и тестирования моделей)
* Выделение признаков
* Разбиение на тренировочную и тестовую выборки
* Генерация моделей и выбор модели с минимальным МАЕ

## Предобработка данных.

Для обучения и тестирования будем использовать кроссвалидацию, а так же исключим из data_temp партии с 2500 по 3241 так как в них есть только значения температуры первой итерации. И исключим партии 195 и 279 так как в них тоже по одному значению температур.

In [None]:
data_temp = data_temp.query('key < 2500') # для моделирования используем данные только до 2499 партии включительно.

In [None]:
data_temp = data_temp.query('key not in (195, 279)') # исключаем так же партии 195 и 279

In [None]:
data_arc[data_arc['key']==195] # проверка

In [None]:
data_arc[data_arc['key']==279] # проверка

In [None]:
data_gas[data_gas['key']==195] # проверка

In [None]:
data_gas[data_gas['key']==279] # проверка

In [None]:
data_gas = data_gas.query('key not in (195, 279)') # исключение партий 195 и 279

In [None]:
data_gas[data_gas['key']==195] # проверка

In [None]:
data_gas[data_gas['key']==279] # проверка

По лигирующим материалам используем данные о материалах где больше 30 объектов, что бы не засорять данные пустыми значениями.

In [None]:
data_bulk_col = ['Bulk 2', 'Bulk 7', 'Bulk 8', 'Bulk 9', 'Bulk 13'] # меньше 30 объектов сыпучие

In [None]:
data_wire_col = ['Wire 4', 'Wire 5', 'Wire 7', 'Wire 8', 'Wire 9'] # меньше 30 объектов проволока

In [None]:
data_bulk = data_bulk.drop(data_bulk_col, axis=1) # удаление сыпучих столбцов <30

In [None]:
data_wire = data_wire.drop(data_wire_col, axis=1) # удаление проволочных столбцов <30

С учетом всех допущений заполняем пропущенные значения всех лигирующих материалов нулями.

In [None]:
data_bulk = data_bulk.query('key not in (195, 279) and key < 2500').fillna(0)

In [None]:
data_wire = data_wire.query('key not in (195, 279) and key < 2500').fillna(0)

Реактивная мощность больше нуля (удаляем анамальные отрицательные значения)

In [None]:
data_arc = data_arc[data_arc['Реактивная мощность'] > 0]

In [None]:
data_temp['Время замера'] = pd.to_datetime(data_temp['Время замера']) # приведения типа данных datetime

## Подготовка данных для объеденения

In [None]:
last_time_temp_key = pd.to_datetime(data_temp.groupby('key')['Время замера'].max())
# время последнего измерения температуры каждой партии

In [None]:
target_temp = data_temp.merge(last_time_temp_key, on="Время замера").rename(columns={"Время замера": "last_time", "Температура": "last_temp"})
# целевой признак последняя измерянная температура каждой партии

In [None]:
target_temp.head(1)

In [None]:
first_time_temp_key = pd.to_datetime(data_temp.groupby('key')['Время замера'].min())
# время стартового измерения температуры для каждой партии

In [None]:
first_temp = data_temp.merge(first_time_temp_key, on="Время замера").rename(columns={"Время замера": "first_time", "Температура": "first_temp"})

In [None]:
first_temp.head(1)

In [None]:
count = data_arc.query('key < 2500')['key'].value_counts().sort_index().reset_index().rename(columns={"index": "key", "key": "count"})
# количество попыток легирования для каждой партии

In [None]:
count.head(1)

In [None]:
power_sum = data_arc.query('key < 2500').groupby('key')['Активная мощность', 'Реактивная мощность'].sum().reset_index().rename(columns={"Активная мощность": "active_power", "Реактивная мощность": "reactive_power"})
# общие затраты энергии по активной и реактивной мощности для каждой партии

In [None]:
power_sum['sum_power'] = (power_sum['active_power']**2 + power_sum['reactive_power']**2)**0.5 # общая мощность

In [None]:
power_sum.head(1)

Приведем все значения дат в типу datetime

In [None]:
data_arc['Начало нагрева дугой'] = pd.to_datetime(data_arc['Начало нагрева дугой'])

In [None]:
data_arc['Конец нагрева дугой'] = pd.to_datetime(data_arc['Конец нагрева дугой'])

Начало и конец нагрева дугой.

In [None]:
start = pd.to_datetime(data_arc.groupby('key')['Начало нагрева дугой'].min()).reset_index()

In [None]:
stop = pd.to_datetime(data_arc.groupby('key')['Конец нагрева дугой'].max()).reset_index()

In [None]:
data_arc['sum_sec_term'] = (data_arc['Конец нагрева дугой'] - data_arc['Начало нагрева дугой']) // pd.Timedelta('1s')
# длительность нагрева в секундах для каждой итерации в каждой партии

In [None]:
arc_sec_term = data_arc.query('key < 2500').groupby('key')['sum_sec_term'].sum().reset_index()
# сумарная длительность нагрева для каждой партии

In [None]:
arc_sec_term.head(1)

In [None]:
arc_sec_term = arc_sec_term.merge(start, on='key')

In [None]:
arc_sec_term = arc_sec_term.merge(stop, on='key')

In [None]:
arc_sec_term = arc_sec_term.rename(columns={"Начало нагрева дугой": "start", "Конец нагрева дугой": "stop"})

In [None]:
arc_sec_term.head(1)

In [None]:
data_gas = data_gas.query('key < 2500').rename(columns={"Газ 1": "gas"})

In [None]:
data_gas.head(1)

## Объеденение данных в общий датасет.

In [None]:
data = data_gas.merge(target_temp, on='key')

In [None]:
data.head(1)

In [None]:
data = data.merge(count, on='key')

In [None]:
data.head(1)

In [None]:
data = data.merge(power_sum, on='key')

In [None]:
data.head(1)

In [None]:
data = data.merge(arc_sec_term, on='key')

In [None]:
data.head(1)

In [None]:
data = data.merge(first_temp, on='key')

In [None]:
data.head(1)

In [None]:
data = data.merge(data_bulk, on='key')

In [None]:
data = data.merge(data_wire, on='key')

## Создание признаков

In [None]:
data['power_ratio'] = data['reactive_power'] / data['active_power'] # отношение активной и реактивной мощностей

In [None]:
data['param1'] = (data['first_time'] - data['start']) // pd.Timedelta('1s') # признаки интервалов времени работы дуги

In [None]:
data['param2'] = (data['stop'] - data['start']) // pd.Timedelta('1s') # признаки интервалов времени работы дуги

In [None]:
data['param3'] = (data['last_time'] - data['start']) // pd.Timedelta('1s') # признаки интервалов времени работы дуги

In [None]:
time_columns = ['start', 'stop', 'first_time', 'last_time',]

In [None]:
data = data.drop(time_columns, axis=1)

In [None]:
data.info() # итоговый датасэт

In [None]:
data.head(3)

## Получение мотелей и тесты.

In [None]:
X = data.drop('last_temp', axis=1)

In [None]:
y = data['last_temp']

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, shuffle=False)

In [None]:
sc = StandardScaler().fit(X_train) # скалирование выборок
X_train_scaled = sc.transform(X_train)
X_test_scaled = sc.transform(X_test)

In [None]:
kf = KFold(n_splits=5, shuffle=False) # кросвалидация на 5 подвыборках

### Линейная регрессия

In [None]:
parameters = {'fit_intercept':[True,False], 'normalize':[True,False]}
grid_lr = GridSearchCV(LinearRegression(), parameters, cv=kf, scoring='neg_mean_absolute_error')
grid_lr.fit(X_train_scaled, y_train)
params = grid_lr.best_params_
print('MAE на кросс-валидации: ', abs(grid_lr.best_score_))
lr = LinearRegression(**params)
lr.fit(X_train_scaled, y_train)
pred_test = lr.predict(X_test_scaled)
print(params)
print("MAE на тестовой выборке: ", mean_absolute_error(y_test, pred_test))

### Случайный лес.

In [None]:
tree_params = {'n_estimators': [300], 'max_depth': [10, 12], 'min_samples_split': [2, 5]}

In [None]:
grid_rfr = GridSearchCV(RandomForestRegressor(random_state=12345), tree_params, refit=False, cv=5, scoring='neg_mean_absolute_error') 
grid_rfr.fit(X_train_scaled, y_train)
print('MAE на кросс-валидации: ', abs(grid_rfr.best_score_))
params = grid_rfr.best_params_
rfr = RandomForestRegressor(**params, random_state=12345)
rfr.fit(X_train_scaled, y_train)
pred_test = rfr.predict(X_test_scaled)
print(params)
print("MAE на тестовой выборке: ", mean_absolute_error(y_test, pred_test))

### Градаентные бурстинги.

#### LGBM

In [None]:
param_grid = {'n_estimators': [300], 'learning_rate': [0.03, 0.06], 'max_depth': [4, 6]}

In [None]:
grid_lgbm = GridSearchCV(lgb.LGBMRegressor(random_state=12345), param_grid, cv=5, scoring='neg_mean_absolute_error', refit=False) 
grid_lgbm.fit(X_train_scaled, y_train)
print('MAE на кросс-валидации: ', abs(grid_lgbm.best_score_))
params = grid_lgbm.best_params_
lgbm = lgb.LGBMRegressor(**params, random_state=12345)
lgbm.fit(X_train_scaled, y_train)
pred_test = lgbm.predict(X_test_scaled)
print(params)
print("MAE на тестовой выборке: ", mean_absolute_error(y_test, pred_test))

#### CatBoost

In [None]:
param_grid_ctb = {'n_estimators': [300], 'learning_rate': [0.1, 0.2], 'depth': [4, 6]}

In [None]:
grid_ctb = GridSearchCV(CatBoostRegressor(random_state=12345, silent=True), 
                    param_grid_ctb, cv=5, scoring='neg_mean_absolute_error', refit=False) 
grid_ctb.fit(X_train_scaled, y_train)
print('MAE на кросс-валидации: ', abs(grid_ctb.best_score_))
params = grid_ctb.best_params_
ctb = CatBoostRegressor(**params, random_state=12345, silent=True)
ctb.fit(X_train_scaled, y_train)
pred_test = ctb.predict(X_test_scaled)
print(params)
print("MAE на тестовой выборке: ", mean_absolute_error(y_test, pred_test))

## Выводы

* Был получен общий датасет с дополнительными параметрами временами работы нагревательнго элемента и общей, реактивной и активной мощностями.
* Пустые значения для лигирующих элементов были заполненны нулями и столбы с количесмтвом значений меньше 30 значений были удалены.
* Партии с 2500 и до последней были исключены из дата сета.
* Были исключены отрицательные значения мощностей.
* При моделировании использовались тренировочная и тестовая выборки в соотношении 80:20. А так же кросс-валидация.
* Для получения моделей использовались линейная регрессия, случайный лес, градиентные бустинги LGBM и CatBoost.
* Лучшая модель CatBoost:

MAE на кросс-валидации:  5.548792174689509

{'depth': 6, 'learning_rate': 0.1, 'n_estimators': 300}

MAE на тестовой выборке:  5.407439936362403

In [None]:
import seaborn as sns
def chart_feature_imp(model):
    feature_imp = pd.Series(model.feature_importances_, index=X_train.columns).sort_values(ascending=False)

    ax = sns.barplot(x=feature_imp, y=feature_imp.index)
    _ = ax.set(xlabel='Оценка важности признаков', ylabel='Признаки')
    _ = ax.set_title('Визуализация важности признаков')

chart_feature_imp(ctb)
