# Отчет по проектной работе

Составляя отчет по проделанной работе, в первом абзаце хочу вставить вопросы из теоретического блока к этому уроку, поскольку считаю что они емкие и грамотно подобраны. Далее я опишу и расскажу как проводил работу с моделью, а в конце дам ответ на каждый из этих 4х вопросов.

* Какие пункты плана были выполнены, а какие — нет (поясните почему)?
* Какие трудности возникли и как вы их преодолели?
* Какие ключевые шаги в решении задачи выделили?
* Какая ваша итоговая модель и какое у неё качество?

В начала обратимся к вводной проектной работы:

**Чтобы оптимизировать производственные расходы, металлургический комбинат ООО «Так закаляем сталь» решил уменьшить потребление электроэнергии на этапе обработки стали. Вам предстоит построить модель, которая предскажет температуру стали.**

Главная цель проекта: построить модель машинного обучения, предсказывающую темпетаруру стали.

Для выполнения проекта от заказчика были получены следюущие входные данные:

- `data_arc.csv` — данные об электродах;
- `data_bulk.csv` — данные о подаче сыпучих материалов (объём);
- `data_bulk_time.csv` *—* данные о подаче сыпучих материалов (время);
- `data_gas.csv` — данные о продувке сплава газом;
- `data_temp.csv` — результаты измерения температуры;
- `data_wire.csv` — данные о проволочных материалах (объём);
- `data_wire_time.csv` — данные о проволочных материалах (время).

Первым шагом выполенения проектной работы стал первичный анализ данных.

В ходе исследовательского анализа были найдены аномальные данные в данных data_arc, найдены пропуски в данных data_bulk и data_wire, по которым было принято решение заменить их на нулевые значения. Также были отброшены данные data_bulk_time и data_wire_time как не несущие признаков для обучения конечной модели.

После первичного анализа данных и обработки аномалий/пропусков, все данные были объединены в единый датафрейм, в котором был выделен целевой признак - конечная температура расплава.

Также на этом этапе был составлен следующий план работ.

<div class="alert alert-info"> <b>Цитата из плана работ:</b> 
    
По итогу анализа входных данных со всех датафреймов, нужно пройти следующие пункты:

* убрать аномалию из первого набора данных **data_arc**
* обработать пропуски данных в наборе **data_bulk** и **data_wire**
* затем выполнить сшивку данных в единый датафрейм

Затем подготовить данные к моделированию:
* Масштабирование признаков    
* Разделение на выборки
* Инициализация "голых"моделей и анализ результатов
* Улучшение моделей путём подбора гиперпараметров
    

</div>

Вторым шагом работы с проектом стала непосредственно работа с моделями машинного обучения. После разбиения данных на выборки, было произведено масштабирование признаков.

Из всего многообразия моделей машинного обучения я выбрал 4 кандидата на роль модели сталевара:

* Random forest regressor
* Lasso
* LGBMRegressor
* CatBoostRegressor

Основная метрика для оценки качества модели - MAE.

Для каждой модели сначала было произведено обучение без подбора гиперпараметров. После получения первичных результатов, если MAE модели было близко к 6, то с ней я продолжал работу, модели с большими MAE (в моем проекте это оказалась модель lasso с MAE 6.4), я прекращал работу.

По итогу лучший результат с MAE меньше 6 получила модель CatBoostRegressor. Также мне понравилось, что она сравнительно быстро обучается и, что самое главное, быстро выдает предсказание, поскольку я считаю, что не столь важно как точно предсказывает модель, а более важно как быстро она это делает, т.е. не стоит закапываться в точность до 6го знака после запятой, но тратить на каждый расчет по несколько часов.

По итогу, подводя общий вывод:

* Какие пункты плана были выполнены, а какие — нет (поясните почему)?

В целом считаю что выделенные мною пункты плана были выполнены, обработка данных проведена, признаки отмасштабированы, модели обучены, гиперпараметры подобраны.

* Какие трудности возникли и как вы их преодолели?

Самым трудным и емким был первый шаг проекта - анализ и изучение данных. Преодолел также как и с предыдущими проектами, планомерно выполняя небольшой чеклист по анализу и проверке данных.

* Какие ключевые шаги в решении задачи выделили?

Главный, самый важный, вот прям самый важный шаг - анализ и обработка данных. Сколь крутую модель мы не пытались обучить, сколь классный и мощный кластер не "лопатил" наши расчеты, если данные не готовы, то ничего и не получится. Поэтому анализ и обработка входных данных наше все.

* Какая ваша итоговая модель и какое у неё качество?

Итоговой моделью стала CatBoostRegressor, в моем проекте удалось добиться MAE 5.99 градусов.

Но как уже отмечал ранее в выводе к самому коду проекта, данная задача наверное является лишь составляющей более комплексной и сложной задачи, т.к. с точки зрения процесса, контроль **только** за одной температурой не поможет снизить затраты. Еще можно попробовать решить задачу по оптимизации ввода сыпучих примесей, количества проволоки, времени введения примесей и т.д.
А нашу задачу можно трансформировать в задачу классификации, по отслеживанию выхода из заданного диапазона температур.

От себя хочу добавить, что мне очень понравился финальный проект, особенно, что больше было сделано упора на бизнесовой задаче и технологическом процессе. Проект позволил вернуться к первым урокам, где было больше аналитики, чем моделей) Не знаю почему, но прям те первые проекты очень нравились.

Также в конце хотел поблагодарить тебя, Николай, за то что помог пройти этот последний этап обучения.

<div class="alert alert-success" style="border-color: green; border-radius: 5px">
    <p><u><b>✅ КОММЕНТАРИЙ ТИМЛИДА</b></u></p>
Привет Алексей!<br>
Поздравляю с получением диплома о новой специальности!!!!<br>    
Наврерное в первых уроках было больше взаимодействия результата анализа и практики. А в модельных спринтах - не хватало рассмотрения влияния метрик на процессы бизнеса? Несколько практических работ в бою исправят этот пробел - просто в разных компаниях этот момент по разному могут внедрять)) <br>
С отчётом - ОК. Всё чётко и понятно, как и надо
    
Добавлю вот что ещё: изучение бизнес-процессов заказчика - очень важный этап, который может вызывать сложности. Но без этого в нашей работа не обойтись. Можно сказать - вскрывать особенности процессов заказчика - часть нашей работы. Ведь замоделировать можно только то, что понимаешь).<br>

Далее скажу, что стараюсь говорить всем на финале.<br>
Пройден большой путь. Со своими коcогорами и равнинами, медианами и дисперсиями)<br>
Умение аналитически мыслить, писать красивый код, эффективно автоматизировать расчёты, видеть задачи бизнеса через призму моделирования - вот то основное, что  останется у тебя важного после нашей школы. А дальше - только взращивать посеянные зёрна и укреплять свои скилы.<br><br>
Если говорить о развитии дополнительных компетенций, рекомендовал бы ещё глянуть такие области знаний:<br>
1) Организация проектов по проведению моделирования (например Методология CRISP-DM (Cross-Industry Standard Process)<br>
2) Умения системно подходить к решению аналитической задачи. (например методология ТРИЗ, системный анализ)<br>
3) Если в промышленности будут проекты, то рекоммендовал бы освоить  "Статистичекий контроль качества (SPC)"<br>
4) Ещё важный навык: перевод результататов моделирования на язык бизнеса. Т.е. понимание, как целевые показатели моделей влияют на финансовую выгоду заказчика.<br>
5) Если говорить о модельных рекоммендациях, то есть ещё такие способы как блендинг и стакинг разных моделей.<br><br>

Спасибо за отклик! Моей заслуги тут не много на самом деле. Просто ты был открыт к моим комментариям и сам всё сдлела<br>
УСПЕХОВ)