# Описание проекта. Промышленность

Чтобы оптимизировать производственные расходы, металлургический комбинат «Стальная птица» решил уменьшить потребление электроэнергии на этапе обработки стали. Для этого комбинату нужно контролировать температуру сплава. Ваша задача — построить модель, которая будет её предсказывать. Заказчик хочет использовать разработанную модель для имитации технологического процесса. Изучите его, прежде чем генерировать новые признаки.

## Описание процесса обработки

Сталь обрабатывают в металлическом ковше вместимостью около 100 тонн. Чтобы ковш выдерживал высокие температуры, изнутри его облицовывают огнеупорным кирпичом. Расплавленную сталь заливают в ковш и подогревают до нужной температуры графитовыми электродами. Они установлены на крышке ковша.

Сначала происходит десульфурация — из стали выводят серу и корректируют её химический состав добавлением примесей. Затем сталь легируют — добавляют в неё куски сплава из бункера для сыпучих материалов или порошковую проволоку через специальный трайб-аппарат.

Прежде чем в первый раз ввести легирующие добавки, специалисты производят химический анализ стали и измеряют её температуру. Потом температуру на несколько минут повышают, уже после этого добавляют легирующие материалы и продувают сталь инертным газом, чтобы перемешать, а затем снова проводят измерения. Такой цикл повторяется до тех пор, пока не будут достигнуты нужный химический состав стали и оптимальная температура плавки.

Дальше расплавленная сталь отправляется на доводку металла или поступает в машину непрерывной разливки. Оттуда готовый продукт выходит в виде заготовок-слябов (англ. slab, «плита»).

In [15]:
# Подключения библиотек
import os
import pandas as pd
from sqlalchemy import create_engine

In [21]:
from IPython.display import Markdown, display
def printmd(string):
    display(Markdown(string))

Зафиксируем `RANDOM_STATE`

In [18]:
RANDOM_STATE = 170125

### Шаг 1. Загрузка данных

In [44]:
DB_FILENAME = 'ds-plus-final.db'
DB_TABLES = ['data_arc', 'data_bulk', 'data_bulk_time', 'data_gas', 
             'data_temp', 'data_wire', 'data_wire_time']

In [14]:
if not os.path.isfile(DB_FILENAME):
    !wget https://code.s3.yandex.net/data-scientist/ds-plus-final.db

Объявим учетные данные для подключения к базе данных

In [41]:
engine = create_engine(f'sqlite:///{DB_FILENAME}', echo=False) 

In [61]:
def primary_table_information(engine, table):
    select_10_query = '''
    SELECT *
    FROM {}
    LIMIT 10
    '''
    count_all_query = '''
    SELECT COUNT(*)
    FROM {}
    '''
    printmd(f"Количество строк: {pd.read_sql_query(count_all_query.format(table), con = engine)['COUNT(*)'][0]}")
    df = pd.read_sql_query(select_10_query.format(table), con = engine)
    display(df.head())

In [62]:
for table in DB_TABLES:
    printmd(f"**Таблица {table}**")
    primary_table_information(engine, table)

**Таблица data_arc**

Количество строк: 14876

Unnamed: 0,key,Начало нагрева дугой,Конец нагрева дугой,Активная мощность,Реактивная мощность
0,1,2019-05-03 11:02:14,2019-05-03 11:06:02,0.30513,0.211253
1,1,2019-05-03 11:07:28,2019-05-03 11:10:33,0.765658,0.477438
2,1,2019-05-03 11:11:44,2019-05-03 11:14:36,0.580313,0.43046
3,1,2019-05-03 11:18:14,2019-05-03 11:24:19,0.518496,0.379979
4,1,2019-05-03 11:26:09,2019-05-03 11:28:37,0.867133,0.643691


**Таблица data_bulk**

Количество строк: 3129

Unnamed: 0,key,Bulk 1,Bulk 2,Bulk 3,Bulk 4,Bulk 5,Bulk 6,Bulk 7,Bulk 8,Bulk 9,Bulk 10,Bulk 11,Bulk 12,Bulk 13,Bulk 14,Bulk 15
0,1,,,,43.0,,,,,,,,206.0,,150.0,154.0
1,2,,,,73.0,,,,,,,,206.0,,149.0,154.0
2,3,,,,34.0,,,,,,,,205.0,,152.0,153.0
3,4,,,,81.0,,,,,,,,207.0,,153.0,154.0
4,5,,,,78.0,,,,,,,,203.0,,151.0,152.0


**Таблица data_bulk_time**

Количество строк: 3129

Unnamed: 0,key,Bulk 1,Bulk 2,Bulk 3,Bulk 4,Bulk 5,Bulk 6,Bulk 7,Bulk 8,Bulk 9,Bulk 10,Bulk 11,Bulk 12,Bulk 13,Bulk 14,Bulk 15
0,1,,,,2019-05-03 11:28:48,,,,,,,,2019-05-03 11:24:31,,2019-05-03 11:14:50,2019-05-03 11:10:43
1,2,,,,2019-05-03 11:36:50,,,,,,,,2019-05-03 11:53:30,,2019-05-03 11:48:37,2019-05-03 11:44:39
2,3,,,,2019-05-03 12:32:39,,,,,,,,2019-05-03 12:27:13,,2019-05-03 12:21:01,2019-05-03 12:16:16
3,4,,,,2019-05-03 12:43:22,,,,,,,,2019-05-03 12:58:00,,2019-05-03 12:51:11,2019-05-03 12:46:36
4,5,,,,2019-05-03 13:30:47,,,,,,,,2019-05-03 13:30:47,,2019-05-03 13:34:12,2019-05-03 13:30:47


**Таблица data_gas**

Количество строк: 3239

Unnamed: 0,key,Газ 1
0,1,29.749986
1,2,12.555561
2,3,28.554793
3,4,18.841219
4,5,5.413692


**Таблица data_temp**

Количество строк: 18092

Unnamed: 0,key,Время замера,Температура
0,1,2019-05-03 11:02:04,1571.0
1,1,2019-05-03 11:07:18,1604.0
2,1,2019-05-03 11:11:34,1618.0
3,1,2019-05-03 11:18:04,1601.0
4,1,2019-05-03 11:25:59,1606.0


**Таблица data_wire**

Количество строк: 3081

Unnamed: 0,key,Wire 1,Wire 2,Wire 3,Wire 4,Wire 5,Wire 6,Wire 7,Wire 8,Wire 9
0,1,60.059998,,,,,,,,
1,2,96.052315,,,,,,,,
2,3,91.160157,,,,,,,,
3,4,89.063515,,,,,,,,
4,5,89.238236,9.11456,,,,,,,


**Таблица data_wire_time**

Количество строк: 3081

Unnamed: 0,key,Wire 1,Wire 2,Wire 3,Wire 4,Wire 5,Wire 6,Wire 7,Wire 8,Wire 9
0,1,2019-05-03 11:06:19,,,,,,,,
1,2,2019-05-03 11:36:50,,,,,,,,
2,3,2019-05-03 12:11:46,,,,,,,,
3,4,2019-05-03 12:43:22,,,,,,,,
4,5,2019-05-03 13:20:44,2019-05-03 13:15:34,,,,,,,


In [60]:
data_arc_df = pd.read_sql_query("SELECT * FROM data_arc", con = engine)
data_bulk_df = pd.read_sql_query("SELECT * FROM data_bulk", con = engine)
data_bulk_time_df = pd.read_sql_query("SELECT * FROM data_bulk_time", con = engine)
data_gas_df = pd.read_sql_query("SELECT * FROM data_gas", con = engine)
data_temp_df = pd.read_sql_query("SELECT * FROM data_temp", con = engine)
data_wire_df = pd.read_sql_query("SELECT * FROM data_wire", con = engine)
data_wire_time_df = pd.read_sql_query("SELECT * FROM data_wire_time", con = engine)

In [65]:
for df in [data_arc_df, data_bulk_df, data_bulk_time_df, data_gas_df, data_temp_df, data_wire_df, data_wire_time_df]:
    display(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14876 entries, 0 to 14875
Data columns (total 5 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   key                   14876 non-null  int64  
 1   Начало нагрева дугой  14876 non-null  object 
 2   Конец нагрева дугой   14876 non-null  object 
 3   Активная мощность     14876 non-null  float64
 4   Реактивная мощность   14876 non-null  float64
dtypes: float64(2), int64(1), object(2)
memory usage: 581.2+ KB


None

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3129 entries, 0 to 3128
Data columns (total 16 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   key      3129 non-null   int64  
 1   Bulk 1   252 non-null    float64
 2   Bulk 2   22 non-null     float64
 3   Bulk 3   1298 non-null   float64
 4   Bulk 4   1014 non-null   float64
 5   Bulk 5   77 non-null     object 
 6   Bulk 6   576 non-null    object 
 7   Bulk 7   25 non-null     object 
 8   Bulk 8   1 non-null      object 
 9   Bulk 9   19 non-null     object 
 10  Bulk 10  176 non-null    object 
 11  Bulk 11  177 non-null    object 
 12  Bulk 12  2450 non-null   object 
 13  Bulk 13  18 non-null     object 
 14  Bulk 14  2806 non-null   object 
 15  Bulk 15  2248 non-null   object 
dtypes: float64(4), int64(1), object(11)
memory usage: 391.2+ KB


None

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3129 entries, 0 to 3128
Data columns (total 16 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   key      3129 non-null   int64 
 1   Bulk 1   252 non-null    object
 2   Bulk 2   22 non-null     object
 3   Bulk 3   1298 non-null   object
 4   Bulk 4   1014 non-null   object
 5   Bulk 5   77 non-null     object
 6   Bulk 6   576 non-null    object
 7   Bulk 7   25 non-null     object
 8   Bulk 8   1 non-null      object
 9   Bulk 9   19 non-null     object
 10  Bulk 10  176 non-null    object
 11  Bulk 11  177 non-null    object
 12  Bulk 12  2450 non-null   object
 13  Bulk 13  18 non-null     object
 14  Bulk 14  2806 non-null   object
 15  Bulk 15  2248 non-null   object
dtypes: int64(1), object(15)
memory usage: 391.2+ KB


None

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3239 entries, 0 to 3238
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   key     3239 non-null   int64  
 1   Газ 1   3239 non-null   float64
dtypes: float64(1), int64(1)
memory usage: 50.7 KB


None

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18092 entries, 0 to 18091
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   key           18092 non-null  int64 
 1   Время замера  18092 non-null  object
 2   Температура   14665 non-null  object
dtypes: int64(1), object(2)
memory usage: 424.2+ KB


None

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3081 entries, 0 to 3080
Data columns (total 10 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   key     3081 non-null   int64  
 1   Wire 1  3055 non-null   float64
 2   Wire 2  1079 non-null   object 
 3   Wire 3  63 non-null     object 
 4   Wire 4  14 non-null     object 
 5   Wire 5  1 non-null      object 
 6   Wire 6  73 non-null     object 
 7   Wire 7  11 non-null     object 
 8   Wire 8  19 non-null     object 
 9   Wire 9  29 non-null     object 
dtypes: float64(1), int64(1), object(8)
memory usage: 240.8+ KB


None

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3081 entries, 0 to 3080
Data columns (total 10 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   key     3081 non-null   int64 
 1   Wire 1  3055 non-null   object
 2   Wire 2  1079 non-null   object
 3   Wire 3  63 non-null     object
 4   Wire 4  14 non-null     object
 5   Wire 5  1 non-null      object
 6   Wire 6  73 non-null     object
 7   Wire 7  11 non-null     object
 8   Wire 8  19 non-null     object
 9   Wire 9  29 non-null     object
dtypes: int64(1), object(9)
memory usage: 240.8+ KB


None

### Шаг 2. Исследовательский анализ и предобработка данных

#### Проанализируйте исходные данные. Проверьте:
- Все ли таблицы содержат данные.
- Соответствует ли количество таблиц условию задачи.

#### Для таблицы steel.data_arc:
- Проведите исследовательский анализ данных: проверьте наличие пропусков и аномалий, изучите распределение признаков.
- Вам нужно либо удалить всю партию с аномальным значением, либо заменить аномальное значение, основываясь на нормальных наблюдениях.
- Попробуйте сгенерировать новые признаки, которые могут пригодиться при обучении: длительность нагрева, общую мощность, соотношение активной мощности к реактивной, количество запуска нагрева электродами и другие.
- При агрегировании наблюдений по ключу учитывайте порядок арифметических действий: сначала сгенерируйте новые признаки, затем уже агрегируйте наблюдения.

#### Для таблицы steel.data_bulk:
- Проведите исследовательский анализ данных: проверьте наличие пропусков и аномалий, изучите распределение признаков.
- Обработайте пропуски. Пропуск означает, что материал не добавляли в партию.

#### Для таблицы steel.data_bulk_time:
- Проведите исследовательский анализ данных: проверьте наличие пропусков и аномалий, изучите распределение признаков.
- Проверьте данные на адекватность: например, убедитесь, что подача материала не измеряется сутками. Обратите внимание: перед вами не стоит задача временных рядов.

#### Для таблицы steel.data_gas:
- Проведите исследовательский анализ данных: проверьте наличие пропусков и аномалий, изучите распределение признаков.

#### Для таблицы steel.data_temp:
- Проведите исследовательский анализ данных: проверьте наличие пропусков и аномалий, изучите распределения признаков.
- Целевой признак — последняя температура партии. Начальную температуру партии можно использовать как входной признак. Любые другие промежуточные значения температуры приведут к утечке целевого признака, их нельзя использовать как входные.
- При агрегировании наблюдений используйте только ключи, у которых как минимум два наблюдения: первый и последний замеры температуры.
- Заказчик предупредил, что значения температуры ниже 1500 градусов — аномальные.

#### Для таблицы steel.data_wire:
- Обработайте пропуски. Пропуск означает, что материал не добавляли в эту партию.

#### Для таблицы steel.data_wire_time:
- Проведите исследовательский анализ данных: проверьте наличие пропусков и аномалий, изучите распределение признаков.
- Проверьте данные на адекватность: например, убедитесь, что подача материала не измеряется сутками. Обратите внимание: перед вами не стоит задача временных рядов.

#### Объедините таблицы по ключу:
- Каждой партии должно соответствовать одно наблюдение.
- Учтите: во все партии точно добавлялись сыпучие и проволочные материалы, везде была выполнена продувка газом и сплав всегда нагревался.
- Заказчик предупредил, что иногда наблюдается асинхронность в заданном времени разных датчиков. Если вы будете выстраивать хронологию процессов для разных партий, то можете столкнуться с тем, что полученная хронология не соответствует хронологии в описании. Не стоит воспринимать это как ошибку.
- Проведите исследовательский анализ данных объединённой таблицы и визуализируйте распределение каждого признака, напишите выводы.
- Проведите корреляционный анализ.

#### Подготовьте данные для обучения:
- Выберите признаки, которые будете использовать для обучения, учитывайте особенности данных и выбранных моделей.
- Разделите данные на тренировочную и тестовую выборки (test_size = 0.25).
- Подготовьте выборки для обучения, учитывайте особенности выбранных моделей.

### Шаг 3. Обучение модели

### Шаг 4. Тестирование модели и демонстрация её работы

### Шаг 5. Общий вывод по работе