# Уменьшение потребления электроэнергии при производстве стали

**Исходные данные:** 
данные по замерам активной и реактивной мощностей на электродах, объемы и время подчаи сыпучих и проволочных материалов, объемы газа для продувки, данные о температурных замерах

* data_arc.csv — данные об электродах;
* data_bulk.csv — данные о подаче сыпучих материалов (объём);
* data_bulk_time.csv — данные о подаче сыпучих материалов (время);
* data_gas.csv — данные о продувке сплава газом;
* data_temp.csv — результаты измерения температуры;
* data_wire.csv — данные о проволочных материалах (объём);
* data_wire_time.csv — данные о проволочных материалах (время).


Во всех файлах столбец key содержит номер партии.

**Цель:**
построить модель регрессии для предсказания температуры стали для уменьшения энергопотребления при ее производстве и добиться показателей метрики MAE менее 6



**Этапы исследования:**

1. Загрузка исходных данных и их общая оценка, построение гистрограмм для каждого столбца с числовыми значениями
2. Исследовательский анализ данных 
3. Обучение и выбор нескольких base-line моделей
4. Обучение и тестирование модели
5. Заключение
6. Отчет


Цель данной работы заключается в создании и обучении модели для предсказания температуры стали на различных этапах обработки. Основная цель — оптимизация производственных расходов на металлургическом комбинате "Так закаляем сталь" путем снижения потребления электроэнергии на этапе обработки стали. Модель должна предсказывать температуру стали с высокой точностью, позволяя операторам производства более эффективно управлять процессом.

Для достижения этой цели необходимо провести анализ и обработку данных из разных источников, таких как данные об электродах, подаче сыпучих и проволочных материалов, продувке газом, измерениях температуры и других параметрах процесса. Затем следует разработать и обучить модель машинного обучения на основе предоставленных данных, чтобы она могла предсказывать температуру стали на разных этапах обработки.

Эффективная модель предсказания температуры позволит операторам металлургического комбината более точно контролировать процесс обработки стали, оптимизировать параметры и ресурсы, а также улучшить качество готовой продукции.

Технологический процесс производства стали на металлургическом комбинате "Так закаляем сталь" состоит из:

1. Подготовка сырья и начальная обработка:

Сырье (чугун, лом стали и другие компоненты) поступает на комбинат и проходит сортировку, очистку от загрязнений.
Отобранное сырье помещается в металлический ковш, вместимостью около 100 тонн.
Облицовка ковша:

Внутренние поверхности ковша облицовываются огнеупорным кирпичом, чтобы обеспечить ему устойчивость к высоким температурам.

2. Плавка стали:

Расплавленное сырье заливается в ковш.
Для нагрева стали до нужной температуры используются графитовые электроды, которые установлены в крышке ковша. Под действием электрического тока электроды нагреваются и передают тепло стали.

3. Десульфурация и легирование:

Из сплава выводится сера для улучшения химического состава стали.
Химический состав стали корректируется добавлением легирующих материалов, которые могут быть сыпучими или проволочными.

4. Измерения и контроль:

Перед введением легирующих добавок измеряется температура стали и производится химический анализ.
Добавление легирующих материалов с последующей продувкой сплава инертным газом.
Проводятся измерения и контроль параметров сплава, такие как температура и химический состав.

5. Цикл повторений:

Цикл повторяется до достижения целевого химического состава и оптимальной температуры плавки.

6. Доводка металла или разливка:

Расплавленная сталь после обработки может быть отправлена на доводку металла для улучшения его свойств или поступать в машину непрерывной разливки.
В случае непрерывной разливки готовый продукт выходит в виде заготовок-слябов, которые затем могут быть дальше обработаны.


Весь этот процесс строится на точных измерениях температуры, химического состава и других параметров, чтобы обеспечить качество и соответствие стали требуемым характеристикам. Постоянный мониторинг и коррекция параметров позволяют достичь оптимальных результатов в эффективной и качественной обработке стали.



## 6 Отчет

Этапы исследования:

__1. Загрузка исходных данных и их общая оценка, построение гистрограмм для каждого столбца с числовыми значениями__

Проведенный анализ данных выявил несколько ключевых наблюдений и аномалий. Обнаружены низкие значения температур плавления стали, такие как 1191°C, что может свидетельствовать о наличии сталей с особыми характеристиками. 

![image.png](attachment:image.png)

Также выявлены аномальные значения реактивной мощности, что может указывать на проблемы с напряжением или оборудованием. Недостаточное количество данных о подаче материалов может повлиять на качество и производительность процесса. Отмечены аномально высокие значения объема газа для продувки стали, что требует дополнительного анализа для оптимизации процесса продувки. Эти наблюдения имеют важное технологическое значение и могут потребовать дополнительных исследований и коррекции в производственных процессах.

![image.png](attachment:image.png)

2. Исследовательский анализ данных

В ходе анализа данных выявлен ряд важных аномалий и паттернов, которые могут иметь значимое влияние на производственный процесс:

Обнаружены низкие значения температур плавления стали, такие как 1191°C, что не характерно для типичных процессов обработки стали. 


![image.png](attachment:image.png)

Предполагается, что данная температура может соответствовать сталям с особыми характеристиками, таким как ледебуритные (карбидные) стали типа быстрорежущие стали или стали для инструментов холодной штамповки, что можно увидеть на диаграмме железо-углерод, прсдавтленной ниже. Но данные стали редкоиспользуемые и не соответствуют большинству предоставленных данных. Поэтому данные аномалии удалены из-за низкой описательной достоверности для стандартного прозводственного процесса

![image.png](attachment:image.png)

График температур в зависимости от партии показывает неравномерность и разброс значений. Это может свидетельствовать о неконсистентности параметров нагрева в производственном процессе. Следует провести анализ и определить причины этой нестабильности, чтобы обеспечить более однородное производство. На основе этого графика была произведена оценка партии старше 2500 и определено ниличие в них единичных измерений температур на начальном этапе

![image.png](attachment:image.png)

Оценка партий с единичными замерами температур позволила избавиться от нескольких сотен строк, которые непременно внесли бы шумы в модель предсказаний
![image.png](attachment:image.png)

Обнаружены выбросы в данных о реактивной мощности, что может указывать на возможные скачки напряжения, неисправности оборудования или необходимость компенсации реактивной мощности. Такие аномалии так же были исключены из анализа

![image.png](attachment:image.png)


Выявлены аномально высокие максимальные значения объема газа для продувки стали для одних и тех же температур, что может быть связано с изменениями в производственных процессах или оборудовании. Рекомендуется проанализировать источники этих аномалий и оптимизировать объемы газа для обеспечения эффективной продувки.

![image.png](attachment:image.png)

Обнаружено недостаточное количество данных о подаче сыпучих и проволочных материалов, что может повлиять на качество и производительность процесса обработки стали. Рекомендуется оптимизировать подачу материалов или искать альтернативные решения для обеспечения устойчивости производства.


В целом, для обеспечения стабильности, эффективности и качества производственного процесса, рекомендуется провести комплексный анализ и внести коррективы в технологические процессы, оборудование и контрольные мероприятия. Это позволит достичь более высокой энергоэффективности, повысить качество продукции и минимизировать риски аварий и потерь.

__3. Обучение и выбор нескольких base-line моделей__

На этом этапе были подготовлены исходные данные для обучения моделей. Созданы признаки на основе предоставленных данных для каждой партии: 
* длительность нагрева дугой, кчто влияет на качество и структуру стали;
* среднее значение фактора мощности для оценки электроэнерегитической эффективности процесса;
* первое и последнее измерения температуры, первое измерение - как отправная точка для замера температуры и последняя температура была определена целевым признаком, который предсказывается;
* данные о времени добавления сыпучих/проволочных материалов, что может быть полезным для определения типов и объемов материалов;
* данные о добавлении того или иного типа проволочных/сыпучих материалов, что дает информацию о температурных изменениях;
* объемы газа для продувки, влияющие на фактор мощности;
* общее время между первой и последней операцией каждой партии, влияющее на конечные свойства продукции.

Так же проведен анализ коррелирующих признаков и удалены те из них, корреляция которых превысила значение 0.9. Так же были удалены неиформативные, пустые признаки.

В качестве базовых моделей для оценки качества была выбрана модель линейной регрессии, как самая простая и интерпретирумая модель машинного обучения. Полученный метрики для данной модели: среднее абсолютное значение ошибки 6.26 и коэффициент детерминации 0.49

__4. Обучение и тестирование модели__

Для дальнейшего обучения были выбраны модели Ridge и Lasso регрессия, а так же CatBoostRegressor. Модели Ridge и Lasso регрессии включены, чтобы учесть мультиколлинеарность признаков и выполнить регуляризацию. CatBoostRegressor был выбран как более сложная модель, способная улавливать нелинейные зависимости между признаками и целевой переменной. Все модели обернуты в Pipeline с предварительной стандартизацией данных при помощи RobustScaler. Это важно для обеспечения стабильности моделей и учета различий в масштабах признаков. При обучении моделей была использована кросс-валидация, которая позволяет более надежно оценить производительность модели на новых данных, минимизируя эффект вариативности выборки. Это особенно важно для обеспечения надежной оценки моделей в реальных условиях. Проведенная оптимизация по двум метрикам, таким как среднее абсолютное значение ошибки (mean absolute error) и коэффициент детерминации R^2 (r2), позволяет учесть разные аспекты производительности модели. Процесс обучения представлен на графике ниже
![image-2.png](attachment:image-2.png)


Наилучшей моделью оказалась Ridge регрессия с показателями MAE 5.86 и $R^2$ 0.5 на обучающих данных. Анализ важности признаков с помощью библиотеки SHAP перестановочным методом помог оценить влияние каждого признака на целевую, то есть, на предсказываемую темепературу. Наибольшее влияние на конечную температуру оказывает длительность нагрева в секундах(arc_heating_end), первичное измерение температуры(first), а также объемы и наличие конкретных проволочных и сыпучих материалов. Кроме того, важную роль играет общее время операций для каждой партии.

![image-2.png](attachment:image-2.png)

Финальные метрики на показали хорошие результаты в сравнении с базовой моделью MAE 6.24 градусов, а коэффициент детерминации $R^2$ 0.5, что свидетельствует о хорошей адаптации модели к данным


5. Заключение

Мы провели анализ данных и применили моделирование для оптимизации производства стали. Результаты позволили сделать следующие выводы:

* Обнаружены аномальные температурные значения, требуется дополнительное исследование.
* Эффективность энергопотребления нуждается в оптимизации.
* Материалы используются неэффективно, требуется настройка подачи.
* Процесс нагрева требует стабилизации.
* Газовая продувка требует анализа и оптимизации объемов.
* Созданная модель регрессии позволяет предсказывать температуру с низкой ошибкой и высокой точностью. Это поможет улучшить качество продукции и сократить расходы на энергию. Модель также способствует оптимизации материалов и процессов.

Рекомендации для производства:

* Провести исследование аномалий температуры.
* Оптимизировать энергопотребление на основе анализа мощности.
* Улучшить стабильность процесса нагрева.
* Оптимизировать использование материалов.
* Внедрить мониторинг параметров для контроля и предотвращения аномалий.

Эти рекомендации помогут повысить качество и эффективность производства. Созданная модель регрессии предоставляет точные данные для более надежного анализа и оптимизации процессов. В целом, анализ данных и моделирование имеют большой потенциал для оптимизации производства и повышения конкурентоспособности.




6. Отчет

Рекомендации:

Рекомендуется внедрение выбранной модели в производственный процесс для прогнозирования конечной температуры плавки. Для дальнейшего улучшения модели можно рассмотреть добавление дополнительных признаков и провести более детальный анализ важности признаков. Также, стоит обратить внимание на возможность периодического обновления модели с учетом новых данных.

Сложности и их решения:

В процессе работы над проектом столкнулась со сложностями в достижении требуемого качества модели. Однако благодаря систематическому подходу и использованию эффективных методов, удалось успешно преодолеть эти трудности.

Проблемы с недостаточным качеством модели решались путем анализа набора признаков. Идентификация наиболее информативных признаков позволила существенно улучшить производительность модели и уменьшить риск переобучения.

Однако ключевым шагом стало использование библиотеки Optuna для подбора гиперпараметров. Этот инструмент автоматизировал и упростил процесс оптимизации, позволив провести систематический поиск по пространству гиперпараметров. В результате были выявлены оптимальные параметры для моделей, обеспечивая максимальное качество предсказаний на выбранных метриках.

В итоге, использование анализа признаков и метода подбора гиперпараметров с использованием Optuna сыграло решающую роль в преодолении сложностей с качеством модели. Полученные результаты стали более точными и надежными, что позволило достичь требуемого уровня производительности и более уверенно применять модель в реальных задачах.

Сравнив результаты решения с планом, можно сказать, что все этапы выполнены успешно. Все запланированные шаги проекта были реализованы в полном объеме. 