# Промышленность

## Описание проекта

Чтобы оптимизировать производственные расходы, металлургического комбината «Стальная птица» требуется уменьшить потребление электроэнергии на этапе обработки стали. Для этого требуется контролировать температуру сплава.

Задача — построить модель, которая будет её предсказывать. Заказчик хочет использовать разработанную модель для имитации технологического процесса.

### Описание процесса обработки

Сталь обрабатывают в металлическом ковше вместимостью около 100 тонн. Чтобы ковш выдерживал высокие температуры, изнутри его облицовывают огнеупорным кирпичом. Расплавленную сталь заливают в ковш и подогревают до нужной температуры графитовыми электродами. Они установлены на крышке ковша.

Сначала происходит десульфурация — из стали выводят серу и корректируют её химический состав добавлением примесей. Затем сталь легируют — добавляют в неё куски сплава из бункера для сыпучих материалов или порошковую проволоку через специальный трайб-аппарат.

Прежде чем в первый раз ввести легирующие добавки, специалисты производят химический анализ стали и измеряют её температуру. Потом температуру на несколько минут повышают, уже после этого добавляют легирующие материалы и продувают сталь инертным газом, чтобы перемешать, а затем снова проводят измерения. Такой цикл повторяется до тех пор, пока не будут достигнуты нужный химический состав стали и оптимальная температура плавки.

Дальше расплавленная сталь отправляется на доводку металла или поступает в машину непрерывной разливки. Оттуда готовый продукт выходит в виде заготовок-слябов (англ. slab, «плита»).

In [14]:
import pandas as pd
from os import listdir
from os.path import isfile, join
from pathlib import Path
from sqlalchemy import create_engine, text

In [15]:
# Определим переменные
RANDOM_STATE = 190923
# папка для хранения временных данных
TMP='./cache'
# Использование данных из кэша
USE_CACHE=False

In [16]:
# создаём временный каталог для хранения данных
Path(TMP).mkdir(parents=True, exist_ok=True)

In [17]:
# проверка кэша
onlyfiles = [f for f in listdir(TMP) if isfile(join(TMP, f))]

onlyfiles

['steel.data_arc.csv',
 'steel.data_bulk.csv',
 'steel.data_bulk_time.csv',
 'steel.data_gas.csv',
 'steel.data_temp.csv',
 'steel.data_wire.csv',
 'steel.data_wire_time.csv']

In [18]:
USE_CACHE = len(onlyfiles) > 0

## Подключение к базе данных

In [19]:
db_config = {
    'user': 'praktikum_student',# имя пользователя
    'pwd': 'Sdf4$2;d-d30pp',# пароль
    'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
    'port': 6432,# порт подключения
    'db': 'data-science-final'# название базы данных,
}

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(
    db_config['user'],
    db_config['pwd'],
    db_config['host'],
    db_config['port'],
    db_config['db'],
)

engine = create_engine(connection_string)
conn = engine.connect()

In [20]:
query = text('''
SELECT * FROM information_schema.tables AS t
WHERE t.table_schema = 'steel';
''')

tables_df = pd.read_sql_query(query, conn)

tables_df

Unnamed: 0,table_catalog,table_schema,table_name,table_type,self_referencing_column_name,reference_generation,user_defined_type_catalog,user_defined_type_schema,user_defined_type_name,is_insertable_into,is_typed,commit_action
0,data-science-final,steel,data_arc,BASE TABLE,,,,,,YES,NO,
1,data-science-final,steel,data_bulk,BASE TABLE,,,,,,YES,NO,
2,data-science-final,steel,data_bulk_time,BASE TABLE,,,,,,YES,NO,
3,data-science-final,steel,data_gas,BASE TABLE,,,,,,YES,NO,
4,data-science-final,steel,data_temp,BASE TABLE,,,,,,YES,NO,
5,data-science-final,steel,data_wire,BASE TABLE,,,,,,YES,NO,
6,data-science-final,steel,data_wire_time,BASE TABLE,,,,,,YES,NO,


### Описание данных

База данных состоит из нескольких таблиц:
* steel.data_arc — данные об электродах;
* steel.data_bulk — данные об объёме сыпучих материалов;
* steel.data_bulk_time — данные о времени подачи сыпучих материалов;
* steel.data_gas — данные о продувке сплава газом;
* steel.data_temp — данные об измерениях температуры;
* steel.data_wire — данные об объёме проволочных материалов;
* steel.data_wire_time — данные о времени подачи проволочных материалов.

__Таблица steel.data_arc__
* key — номер партии;
* BeginHeat — время начала нагрева;
* EndHeat — время окончания нагрева;
* ActivePower — значение активной мощности;
* ReactivePower — значение реактивной мощности.

__Таблица steel.data_bulk__
* key — номер партии;
* Bulk1 … Bulk15 — объём подаваемого материала.

__Таблица steel.data_bulk_time__
* key — номер партии;
* Bulk1 … Bulk15 — время подачи материала.

__Таблица steel.data_gas__
* key — номер партии;
* gas — объём подаваемого газа.

__Таблица steel.data_temp__
* key — номер партии;
* MesaureTime — время замера;
* Temperature — значение температуры.

__Таблица steel.data_wire__
* key — номер партии;
* Wire1 … Wire15 — объём подаваемых проволочных материалов.

__Таблица steel.data_wire_time__
* key — номер партии;
* Wire1 … Wire15 — время подачи проволочных материалов.

Во всех таблицах столбец `key` содержит номер партии. В таблицах может быть несколько строк с одинаковым значением `key`: они соответствуют разным итерациям обработки.

### Первичное исследование таблиц

Чтобы не загружать базу данных запросами, сохраним информацию в "локальном кэше"

In [21]:
# создадим вспомогательные функции

def query_fast(query):
    """
    Быстрое выполнение запроса
    
    Параметры:
    ----------
    query: text - запрос
    """
    return pd.read_sql_query(text(query), conn)

def query_info(query, limit=5):
    """
    Получение простой информации по запросу
    
    Параметры:
    ----------
    query: text - запрос
    where: text - условие
    limit: integer - количество записей для вывода
    """
    table_query = text(f'{query} LIMIT {limit};')
    table_df = pd.read_sql_query(table_query, conn)
    display(table_df)
    
    table_count_query = text(f'{query.replace("*", "COUNT(*)")};')
    table_count_df = pd.read_sql_query(table_count_query, conn)
    print(f"Общее количество записей: {table_count_df.loc[0, 'count']}")

In [22]:
# проверим все талбицы на наличие данных и сохраним результаты в локальное хранилище
tables = [
    'steel.data_arc', 
    'steel.data_bulk', 
    'steel.data_bulk_time', 
    'steel.data_gas', 
    'steel.data_temp', 
    'steel.data_wire', 
    'steel.data_wire_time'
]

if not USE_CACHE:
    for table in tables:
        query_info(f'SELECT * FROM {table}')
    
    # Так как количество данных в таблицах не столь велико, то сохраним данные в кэше
    for table in tables:
        query_fast(f'SELECT * FROM {table}').to_csv(TMP + f'/{table}.csv', index=False)
    
    USE_CACHE = True
else:
    print('Данные будут получены из локального кэша')

Данные будут получены из локального кэша


#### Данные об электродах

In [57]:
data_arc = pd.read_csv(TMP + '/steel.data_arc.csv')

data_arc['BeginHeat'] = pd.to_datetime(data_arc['BeginHeat'], format='%H:%M:%S').dt.time
data_arc['EndHeat'] = pd.to_datetime(data_arc['EndHeat'], format='%H:%M:%S').dt.time

display(data_arc.head())

print()

data_arc.info()

Unnamed: 0,key,BeginHeat,EndHeat,ActivePower,ReactivePower
0,1,11:02:14,11:06:02,0.976059,0.687084
1,1,11:07:28,11:10:33,0.805607,0.520285
2,1,11:11:44,11:14:36,0.744363,0.498805
3,1,11:18:14,11:24:19,1.659363,1.062669
4,1,11:26:09,11:28:37,0.692755,0.414397



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14876 entries, 0 to 14875
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   key            14876 non-null  int64  
 1   BeginHeat      14876 non-null  object 
 2   EndHeat        14876 non-null  object 
 3   ActivePower    14876 non-null  float64
 4   ReactivePower  14876 non-null  float64
dtypes: float64(2), int64(1), object(2)
memory usage: 581.2+ KB


In [58]:
def total_seconds(x):
    """
    Вспомогательная функция для подсчёта секунд
    
    Параметры:
    ----------
    x: datetime.time
    
    Результат:
    ----------
    int - общее количество секунд
    """

    return (x.hour * 3600) + (x.minute * 60) + x.second

In [59]:
data_arc['BeginHeatSeconds'] = data_arc['BeginHeat'].apply(total_seconds)
data_arc['EndHeatSeconds'] = data_arc['EndHeat'].apply(total_seconds)

# генерация новых признаков
data_arc['deltaHeatSeconds'] = data_arc['EndHeatSeconds'] - data_arc['BeginHeatSeconds']
data_arc['TotalPower'] = data_arc['ActivePower'] + data_arc['ReactivePower']
data_arc['RelPower'] = data_arc['ActivePower'] / data_arc['ReactivePower']


In [60]:
data_arc.describe()

Unnamed: 0,key,ActivePower,ReactivePower,BeginHeatSeconds,EndHeatSeconds,deltaHeatSeconds,TotalPower,RelPower
count,14876.0,14876.0,14876.0,14876.0,14876.0,14876.0,14876.0,14876.0
mean,1615.220422,0.670441,0.452592,43148.600027,43192.494689,43.894663,1.123033,1.360584
std,934.571502,0.408159,5.878702,24998.711157,24996.78276,3319.473237,5.914978,0.173451
min,1.0,0.030002,-715.504924,1.0,7.0,-86330.0,-715.009142,-0.000693
25%,806.0,0.395297,0.290991,21776.75,21793.75,106.75,0.690163,1.25709
50%,1617.0,0.555517,0.415962,42775.0,42832.0,147.0,0.970246,1.376088
75%,2429.0,0.857034,0.637371,64685.75,64730.25,214.0,1.488768,1.480588
max,3241.0,3.731596,2.676388,86375.0,86398.0,907.0,6.407984,1.949831


In [61]:
data_arc.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14876 entries, 0 to 14875
Data columns (total 10 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   key               14876 non-null  int64  
 1   BeginHeat         14876 non-null  object 
 2   EndHeat           14876 non-null  object 
 3   ActivePower       14876 non-null  float64
 4   ReactivePower     14876 non-null  float64
 5   BeginHeatSeconds  14876 non-null  int64  
 6   EndHeatSeconds    14876 non-null  int64  
 7   deltaHeatSeconds  14876 non-null  int64  
 8   TotalPower        14876 non-null  float64
 9   RelPower          14876 non-null  float64
dtypes: float64(4), int64(4), object(2)
memory usage: 1.1+ MB


In [73]:
iter_df = data_arc.rename(columns= {'BeginHeat':'iteration'}).groupby('key')['iteration'].count().reset_index(drop=True)

In [75]:
data_arc.merge(iter_df, how='inner', left_on='key', right_index=True).head(10)

Unnamed: 0,key,BeginHeat,EndHeat,ActivePower,ReactivePower,BeginHeatSeconds,EndHeatSeconds,deltaHeatSeconds,TotalPower,RelPower,iteration
0,1,11:02:14,11:06:02,0.976059,0.687084,39734,39962,228,1.663142,1.420582,4
1,1,11:07:28,11:10:33,0.805607,0.520285,40048,40233,185,1.325892,1.548395,4
2,1,11:11:44,11:14:36,0.744363,0.498805,40304,40476,172,1.243169,1.492292,4
3,1,11:18:14,11:24:19,1.659363,1.062669,40694,41059,365,2.722032,1.561504,4
4,1,11:26:09,11:28:37,0.692755,0.414397,41169,41317,148,1.107152,1.671717,4
5,2,11:34:14,11:36:31,0.438063,0.283043,41654,41791,137,0.721107,1.54769,5
6,2,11:38:50,11:44:28,1.296415,0.892914,41930,42268,338,2.189329,1.451893,5
7,2,11:46:19,11:48:25,0.490377,0.305281,42379,42505,126,0.795658,1.606312,5
8,2,11:49:48,11:53:18,0.827743,0.516874,42588,42798,210,1.344617,1.601441,5
9,3,12:06:54,12:11:34,1.062053,0.671494,43614,43894,280,1.733547,1.581626,4


#### Данные об объёме сыпучих материалов

In [26]:
query_info("SELECT * FROM steel.data_bulk")

Unnamed: 0,key,Bulk 1,Bulk 2,Bulk 3,Bulk 4,Bulk 5,Bulk 6,Bulk 7,Bulk 8,Bulk 9,Bulk 10,Bulk 11,Bulk 12,Bulk 13,Bulk 14,Bulk 15
0,1,,,,43.0,,,,,,,,206.0,,150.0,154.0
1,2,,,,73.0,,,,,,,,206.0,,149.0,154.0
2,3,,,,34.0,,,,,,,,205.0,,152.0,153.0
3,4,,,,81.0,,,,,,,,207.0,,153.0,154.0
4,5,,,,78.0,,,,,,,,203.0,,151.0,152.0


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 16 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   key      5 non-null      int64  
 1   Bulk 1   0 non-null      object 
 2   Bulk 2   0 non-null      object 
 3   Bulk 3   0 non-null      object 
 4   Bulk 4   5 non-null      float64
 5   Bulk 5   0 non-null      object 
 6   Bulk 6   0 non-null      object 
 7   Bulk 7   0 non-null      object 
 8   Bulk 8   0 non-null      object 
 9   Bulk 9   0 non-null      object 
 10  Bulk 10  0 non-null      object 
 11  Bulk 11  0 non-null      object 
 12  Bulk 12  5 non-null      float64
 13  Bulk 13  0 non-null      object 
 14  Bulk 14  5 non-null      float64
 15  Bulk 15  5 non-null      float64
dtypes: float64(4), int64(1), object(11)
memory usage: 768.0+ bytes

Общее количество записей: 3129


#### Данные о времени подачи сыпучих материалов

In [27]:
query_info("SELECT * FROM steel.data_bulk_time")

Unnamed: 0,key,Bulk 1,Bulk 2,Bulk 3,Bulk 4,Bulk 5,Bulk 6,Bulk 7,Bulk 8,Bulk 9,Bulk 10,Bulk 11,Bulk 12,Bulk 13,Bulk 14,Bulk 15
0,1,,,,11:21:30,,,,,,,,11:03:52,,11:03:52,11:03:52
1,2,,,,11:46:38,,,,,,,,11:40:20,,11:40:20,11:40:20
2,3,,,,12:31:06,,,,,,,,12:09:40,,12:09:40,12:09:40
3,4,,,,12:48:43,,,,,,,,12:41:24,,12:41:24,12:41:24
4,5,,,,13:18:50,,,,,,,,13:12:56,,13:12:56,13:12:56


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 16 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   key      5 non-null      int64 
 1   Bulk 1   0 non-null      object
 2   Bulk 2   0 non-null      object
 3   Bulk 3   0 non-null      object
 4   Bulk 4   5 non-null      object
 5   Bulk 5   0 non-null      object
 6   Bulk 6   0 non-null      object
 7   Bulk 7   0 non-null      object
 8   Bulk 8   0 non-null      object
 9   Bulk 9   0 non-null      object
 10  Bulk 10  0 non-null      object
 11  Bulk 11  0 non-null      object
 12  Bulk 12  5 non-null      object
 13  Bulk 13  0 non-null      object
 14  Bulk 14  5 non-null      object
 15  Bulk 15  5 non-null      object
dtypes: int64(1), object(15)
memory usage: 768.0+ bytes

Общее количество записей: 3129


In [14]:
# закрываем соединение
engine.dispose()