<a href="https://colab.research.google.com/github/socrat16/yandex-praktikum-projects/blob/master/Untitled7.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Содержание 
1. [Загрузка и первичный анализ данных](#learn)</br>
    1.1&nbsp;&nbsp;[Вывод](#viv1)</br>
2. [Предобработка и исследовательский анализ данных](#pre)</br>
    2.1&nbsp;&nbsp;[Вывод](#vv1)</br>
3. [Обучение моделей](#pas)</br>
   3.1&nbsp;&nbsp;[Вывод](#v15)</br>
4. [Общий вывод](#ob)</br>

# Модель для оптимизации затрат металлургического комбината

Чтобы оптимизировать производственные расходы, металлургический комбинат ООО «Так закаляем сталь» решил уменьшить потребление электроэнергии на этапе обработки стали. Необходимо построить модель, которая предскажет температуру стали.


### Описание этапа обработки

Сталь обрабатывают в металлическом ковше вместимостью около 100 тонн. Чтобы ковш выдерживал высокие температуры, изнутри его облицовывают огнеупорным кирпичом. Расплавленную сталь заливают в ковш и подогревают до нужной температуры графитовыми электродами. Они установлены в крышке ковша. 

Из сплава выводится сера (десульфурация), добавлением примесей корректируется химический состав и отбираются пробы. Сталь легируют — изменяют её состав — подавая куски сплава из бункера для сыпучих материалов или проволоку через специальный трайб-аппарат (англ. tribe, «масса»).

Перед тем как первый раз ввести легирующие добавки, измеряют температуру стали и производят её химический анализ. Потом температуру на несколько минут повышают, добавляют легирующие материалы и продувают сплав инертным газом. Затем его перемешивают и снова проводят измерения. Такой цикл повторяется до достижения целевого химического состава и оптимальной температуры плавки.

Тогда расплавленная сталь отправляется на доводку металла или поступает в машину непрерывной разливки. Оттуда готовый продукт выходит в виде заготовок-слябов (англ. *slab*, «плита»).

### Описание данных



Данные состоят из файлов, полученных из разных источников, обозначим названия и поля:

- `data_arc.csv` — данные об электродах;  
    `Активная составляющая` - потребляемой любой нагрузкой мощности электрического тока совершает полезную работу и трансформируется в нужные нам виды энергии (тепловую, световую, звуковую и т.п.).  
    `Реактивная составляющая` электрического тока возникает только в цепях, содержащих реактивные элементы (индуктивности и ёмкости) и расходуется обычно на бесполезный нагрев проводников, из которых составлена эта цепь. Примером таких реактивных нагрузок являются электродвигатели различного типа, переносные электроинструменты (электродрели, «болгарки», штроборезы и т.п.), а также различная бытовая электронная техника.

- `data_bulk.csv` — данные о подаче сыпучих материалов (объём);  
   `Bulk1-15` — сыпучие материалы
- `data_bulk_time.csv` *—* данные о подаче сыпучих материалов (время);
- `data_gas.csv` — данные о продувке сплава газом;
- `data_temp.csv` — результаты измерения температуры;
- `data_wire.csv` — данные о проволочных материалах (объём);  
   `Wire1-7` — данные проволоки
- `data_wire_time.csv` — данные о проволочных материалах (время).

Во всех файлах столбец `key` содержит номер партии. В файлах может быть несколько строк с одинаковым значением `key`: они соответствуют разным итерациям обработки.

<a name="learn"></a>
## 1 Загрузка и первичный анализ данных
---

In [None]:
import tqdm
import warnings
import pandas as pd
import numpy as np
from scipy import stats as st
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.dummy import DummyRegressor
from sklearn.metrics import make_scorer,mean_squared_error
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split,cross_val_score
# для игнорирования ошибок 
warnings.filterwarnings("ignore",category=UserWarning)
#Для вывода всех столблов
pd.set_option('display.max_columns', None)

In [None]:
RANDOM_STATE = 141122

In [None]:
try:
    data_arc = pd.read_csv('/home/jupyter/work/resources/practikum_my/doplom_pro_stal/data_arc.csv')
    data_bulk_time = pd.read_csv('/home/jupyter/work/resources/practikum_my/doplom_pro_stal/data_bulk_time.csv')
    data_bulk = pd.read_csv('/home/jupyter/work/resources/practikum_my/doplom_pro_stal/data_bulk.csv')
    data_gas = pd.read_csv('/home/jupyter/work/resources/practikum_my/doplom_pro_stal/data_gas.csv')
    data_temp = pd.read_csv('/home/jupyter/work/resources/practikum_my/doplom_pro_stal/data_temp.csv')
    data_wire_time = pd.read_csv('/home/jupyter/work/resources/practikum_my/doplom_pro_stal/data_wire_time.csv')
    data_wire= pd.read_csv('/home/jupyter/work/resources/practikum_my/doplom_pro_stal/data_wire.csv')
except:
    data_arc = pd.read_csv('/datasets/final_steel/data_arc.csv')
    data_bulk_time = pd.read_csv('/datasets/final_steel/data_bulk_time.csv')
    data_bulk = pd.read_csv('/datasets/final_steel/data_bulk.csv')
    data_gas = pd.read_csv('/datasets/final_steel/data_gas.csv')
    data_temp = pd.read_csv('/datasets/final_steel/data_temp.csv')
    data_wire = pd.read_csv('/datasets/final_steel/data_wire_time.csv')
    data_wire_time = pd.read_csv('/datasets/final_steel/data_wire.csv')

Исследуем данные по таблицам
#### Об электродах

In [None]:
data_arc.head(10)

In [None]:
data_arc.info()

In [None]:
data_arc.describe()

In [None]:
data_arc['Активная мощность'].sort_values()

In [None]:
data_arc['Реактивная мощность'].sort_values()

In [None]:
data_arc[data_arc['Реактивная мощность'] < 0]

In [None]:
ga = data_arc[data_arc['Реактивная мощность'] > 0]
plt.ylim(-1,3.5)
ga.boxplot('Активная мощность')

In [None]:
plt.ylim(0,3.5) 
ga.boxplot('Реактивная мощность')

### Данные с датчиков температуры

In [None]:
data_temp.head(10)

In [None]:
data_temp.info()

In [None]:
data_temp.describe()

~ 20% данных о температуре отсутствует.
Выброс только 1, будем избавлятся.

In [None]:
data_bulk.head(10)

In [None]:
data_bulk.info()

In [None]:
data_bulk.describe()

In [None]:
data_bulk[data_bulk['Bulk 12'] > 1000 ]

In [None]:
data_bulk_time.head(10)

In [None]:
 data_bulk_time.info()

`NaN` в `Bulk` присутсвуют так как материалы не подавали. Время подачи `data_bulk_time` и данные с датчиков температуры присутвую в разнабой поскольку процесс сбора метрик еще налаживается.

In [None]:
data_gas.head(10)

In [None]:
data_gas.info()

In [None]:
data_gas.describe()

In [None]:
ga = data_gas
plt.ylim(-1,100)
ga.boxplot('Газ 1')

Есть выбросы в данных про газ.

In [None]:
data_wire.head(10)

In [None]:
data_wire.info()

In [None]:
data_wire.describe()

Значительных выбросов \ анамалий — нет, также замечено что у Wire 5 одинаковое значения. Он нам не пригодится в пострении модели.

<a name="viv1"></a>
### 1.1 Вывод

Первичный осмотр показал, что в большинстве таблиц присутсвуют пропуски (нет только в данных о газе и электродах). Будем заполнять их соответственно.
Есть анамалии (в реактивной мощности отрицательное значение) и выбросы (в таблицах с легирующими материалами ). Есть с чем поработать.

 
    В 1 пункте провел загрузку и первичный анализ, ничего не меняя, и сделал первые выводы по данным.
    План решения:
    1. Предобработать данные удалив\заполнив пропуски, глубже проверить анамалии\выбросы.
    2.Обьединить по `key` таблицы, подробно исследовать, — учитывая что мы предсказываем последнюю температуру в партиях нам нужна 1ая и последняя t с датчиков.
    3. Выявить признаки (тут наверное буду учитывать врменные интервали подачи...)
    4. Разделить данные.Обучить несколько моделей. С ансамблем\без. Подобрать гиперпараметры на кроссвалидации.
    5. Поэкспериментировать над признаками (возможно)
    6. Дамми посторить и с ней сравнить.
    7. Составить отчет.
    
    Вопросы:
    Из-за большого кол-ва пропусков с датчиков t теряем много данных, но никуда не дется как японимаю. Это же нормальная практика, главное чтобы метрика была норм и признаки выбраны подходящие? (просто нас учили что 1-2 % желательно удалять).
 

<a name="pre"></a>
## 2 Предобработка и исследовательский анализ данных
---

<a name="vv1"></a>
## 2.1 Вывод

<a name="pas"></a>
## 3 Обучение моделей
---

<a name="v15"></a>
## 3.1 Вывод

<a name="ob"></a>
## 4 Общий вывод
---