In [None]:
%load_ext autoreload
%autoreload 2

In [None]:
import pandas as pd # 2.x to support pyarrow
import pyarrow as pa
import openpyxl # for reading xlsx with structure
import numpy as np
import plotly.express as px
import math
import re
from datetime import timedelta

In [None]:
messages = pd.read_excel('../data/source/messages.xlsx', index_col=0)

In [None]:
# messages

In [None]:
x_train = pd.read_parquet('../data/source/X_train.parquet', engine='pyarrow', dtype_backend='pyarrow')
x_train['DATASET_IDX'] = range(0, len(x_train))

In [None]:
# x_train

In [None]:
x_test = pd.read_parquet('../data/source/X_test.parquet', engine='pyarrow', dtype_backend='pyarrow')
x_test['DATASET_IDX'] = range(0, len(x_test))

In [None]:
# x_test

In [None]:
y_train = pd.read_parquet('../data/source/y_train.parquet', engine='pyarrow', dtype_backend='pyarrow')
y_train['DATASET_IDX'] = range(0, len(y_train))

In [None]:
# y_train

In [None]:
def clean_x_machine_name(dirty):
    value = dirty
    value = re.sub(r'ЭКСГАУСТЕР (\d+)', r'ЭКСГАУСТЕР А/М №\1', value)
    value = re.sub(r'\s+', ' ', value)
    value = value.strip()
    return value

def clean_x_meter_name(dirty):
    value = dirty
    value = re.sub(r'ТОК РОТОРА(\d+)', r'ТОК РОТОРА \1', value)
    value = re.sub(r'\s+', ' ', value)
    value = value.strip()
    return value

def extract_x_structure(x):
    x_columns = pd.DataFrame({ 'ИМЯ МАШИНЫ И НАЗВАНИЕ ДАТЧИКА': list(set(x.columns) - set(['DATASET_IDX'])) })
    x_columns['ИМЯ МАШИНЫ'] = x_columns['ИМЯ МАШИНЫ И НАЗВАНИЕ ДАТЧИКА'].str.extract(r'(ЭКСГАУСТЕР \d+)')
    x_columns['ИМЯ МАШИНЫ'] = x_columns['ИМЯ МАШИНЫ'].map(clean_x_machine_name)
    x_columns['НАЗВАНИЕ ДАТЧИКА'] = x_columns['ИМЯ МАШИНЫ И НАЗВАНИЕ ДАТЧИКА'].str.extract(r'ЭКСГАУСТЕР \d+\. (.*)$')
    x_columns['НАЗВАНИЕ ДАТЧИКА'] = x_columns['НАЗВАНИЕ ДАТЧИКА'].map(clean_x_meter_name)
    return x_columns.pivot(index='НАЗВАНИЕ ДАТЧИКА', columns='ИМЯ МАШИНЫ', values='ИМЯ МАШИНЫ И НАЗВАНИЕ ДАТЧИКА')

# x_structure = extract_x_structure(x_train)
# x_structure.to_parquet('../data/pipeline/x_structure.parquet')
x_structure = pd.read_parquet('../data/pipeline/x_structure.parquet')

In [None]:
# x_structure

In [None]:
def clean_y_machine_name(dirty):
    value = dirty
    value = re.sub(r'Y_ЭКСГАУСТЕР А/М №(\d+)', r'ЭКСГАУСТЕР А/М №\1', value)
    value = re.sub(r'\s+', ' ', value)
    value = value.strip()
    return value

def clean_y_place_name(dirty):
    value = dirty
    value = re.sub(r'ЭКСГАУСТЕРА №\d+', '', value)
    value = re.sub(r'ЭКСГАУСТЕРА А/М №\d+', '', value)
    value = re.sub(r'ЭКСГ. №\d+', '', value)
    value = re.sub(r'ЭКСГ.№\d+', '', value)
    value = re.sub(r'ЭКСГ\d+', '', value)
    value = re.sub(r'ТР№\d+', 'ТР', value)
    value = re.sub(r'^ЭКСГАУСТЕР А/М №\d+', 'ЭКСГАУСТЕР А/М', value)
    value = re.sub(r'^ЭКСГАУСТЕР Н-8000 А/М №\d+', 'ЭКСГАУСТЕР Н-8000 А/М', value)
    value = re.sub(r'\s+', ' ', value)
    value = value.strip()
    return value

def extract_y_structure(y):
    y_columns = pd.DataFrame({ 'ИМЯ МАШИНЫ И НАЗВАНИЕ ТЕХ МЕСТА': list(set(y.columns) - set(['DATASET_IDX'])) })
    y_columns['ИМЯ МАШИНЫ'] = y_columns['ИМЯ МАШИНЫ И НАЗВАНИЕ ТЕХ МЕСТА'].str.extract(r'(Y_ЭКСГАУСТЕР А/М №\d+)')
    y_columns['ИМЯ МАШИНЫ'] = y_columns['ИМЯ МАШИНЫ'].map(clean_y_machine_name)
    y_columns['НАЗВАНИЕ ТЕХ МЕСТА'] = y_columns['ИМЯ МАШИНЫ И НАЗВАНИЕ ТЕХ МЕСТА'].str.extract(r'Y_ЭКСГАУСТЕР А/М №\d+_(.*)$')
    y_columns['НАЗВАНИЕ ТЕХ МЕСТА'] = y_columns['НАЗВАНИЕ ТЕХ МЕСТА'].map(clean_y_place_name)
    return y_columns.pivot(index='НАЗВАНИЕ ТЕХ МЕСТА', columns='ИМЯ МАШИНЫ', values='ИМЯ МАШИНЫ И НАЗВАНИЕ ТЕХ МЕСТА')

# y_structure = extract_y_structure(y_train)
# y_structure.to_parquet('../data/pipeline/y_structure.parquet')
y_structure = pd.read_parquet('../data/pipeline/y_structure.parquet')

In [None]:
# y_structure

In [None]:
def prettify_messages(messages):
    messages_pretty = pd.DataFrame(index=messages.index)

    messages_pretty['ИМЯ МАШИНЫ'] = messages['ИМЯ_МАШИНЫ']
    messages_pretty['НАЗВАНИЕ ТЕХ МЕСТА'] = messages['НАЗВАНИЕ_ТЕХ_МЕСТА'].map(clean_y_place_name)
    messages_pretty['НАЗВАНИЕ ТЕХ МЕСТА ПОЛНОЕ'] = messages['НАЗВАНИЕ_ТЕХ_МЕСТА']
    messages_pretty['ВИД СООБЩЕНИЯ'] = messages['ВИД_СООБЩЕНИЯ']
    messages_pretty['ОПИСАНИЕ'] = messages['ОПИСАНИЕ']
    messages_pretty['ДАТА НАЧАЛА НЕИСПРАВНОСТИ'] = messages['ДАТА_НАЧАЛА_НЕИСПРАВНОСТИ']
    messages_pretty['ДАТА УСТРАНЕНИЯ НЕИСПРАВНОСТИ'] = messages['ДАТА_УСТРАНЕНИЯ_НЕИСПРАВНОСТИ']
    messages_pretty['ДЛИТЕЛЬНОСТЬ НЕИСПРАВНОСТИ, СЕК'] = (messages['ДАТА_УСТРАНЕНИЯ_НЕИСПРАВНОСТИ'] - messages['ДАТА_НАЧАЛА_НЕИСПРАВНОСТИ']) \
        .dt.seconds
    messages_pretty['ТЕКСТ ГРУППЫ КОДОВ'] = messages['ТЕКСТ_ГРУППЫ_КОДОВ']

    # @NOTE: Согласно комментарию эксперта, незакрытые неисправности в тренировочном наборе это скорее ошибка заполнения
    messages_pretty = messages_pretty[messages_pretty['ДАТА УСТРАНЕНИЯ НЕИСПРАВНОСТИ'].notna()]

    # @NOTE: Согласно комментарию эксперта, запланированные остановки не нужно предсказывать
    messages_pretty = messages_pretty[messages_pretty['ТЕКСТ ГРУППЫ КОДОВ'] != 'ТЕХНИЧЕСКИЕ ПЛАНОВЫЕ']

    return messages_pretty

# messages_pretty = prettify_messages(messages)
# messages_pretty.to_parquet('../data/pipeline/messages_pretty.parquet')
messages_pretty = pd.read_parquet('../data/pipeline/messages_pretty.parquet')

In [None]:
tmp = messages_pretty[['НАЗВАНИЕ ТЕХ МЕСТА', 'ВИД СООБЩЕНИЯ', 'ДЛИТЕЛЬНОСТЬ НЕИСПРАВНОСТИ, СЕК']] \
    .groupby(['ВИД СООБЩЕНИЯ', 'НАЗВАНИЕ ТЕХ МЕСТА'])

tmp_mean = tmp.mean().reset_index() \
    .pivot(index=['НАЗВАНИЕ ТЕХ МЕСТА'], columns=['ВИД СООБЩЕНИЯ'], values=['ДЛИТЕЛЬНОСТЬ НЕИСПРАВНОСТИ, СЕК'])
tmp_median = tmp.median().reset_index() \
    .pivot(index=['НАЗВАНИЕ ТЕХ МЕСТА'], columns=['ВИД СООБЩЕНИЯ'], values=['ДЛИТЕЛЬНОСТЬ НЕИСПРАВНОСТИ, СЕК'])
tmp2 = pd.merge(tmp_mean, tmp_median, left_index=True, right_index=True, suffixes=(' mean', ' median'))

# tmp2.to_csv('../data/pipeline/db/tms_extra.csv')
tmp2

In [None]:
def prettify_x(x):
    x_pretty = pd.DataFrame()
    for (machine, meter_names) in x_structure.transpose().iterrows():
        x_pretty_slice = pd.DataFrame(index=x.index)
        x_pretty_slice['ROW_IDX'] = 0
        x_pretty_slice['DATASET_IDX'] = x['DATASET_IDX']
        x_pretty_slice['ИМЯ МАШИНЫ'] = machine
        x_pretty_slice[meter_names.index] = x[meter_names.values]
        x_pretty_slice = x_pretty_slice.reset_index()
        x_pretty = pd.concat([x_pretty, x_pretty_slice])
    x_pretty['ROW_IDX'] = range(0, len(x_pretty))
    return x_pretty

In [None]:
# # x_train_pretty = prettify_x(x_train)
# # x_train_pretty.to_parquet('../data/pipeline/x_train_pretty.parquet')
# x_train_pretty = pd.read_parquet('../data/pipeline/x_train_pretty.parquet')

# x_train_pretty_1d = x_train_pretty.set_index(['ИМЯ МАШИНЫ', 'DT']) \
#     .groupby([pd.Grouper(level='ИМЯ МАШИНЫ'), pd.Grouper(level='DT', freq='1d')]).mean().reset_index()
# x_train_pretty_1d.to_parquet('../data/pipeline/x_train_pretty_1d.parquet')
x_train_pretty_1d = pd.read_parquet('../data/pipeline/x_train_pretty_1d.parquet')

# x_train_pretty_1h = x_train_pretty.set_index(['ИМЯ МАШИНЫ', 'DT']) \
#     .groupby([pd.Grouper(level='ИМЯ МАШИНЫ'), pd.Grouper(level='DT', freq='1h')]).mean().reset_index()
# x_train_pretty_1h.to_parquet('../data/pipeline/x_train_pretty_1h.parquet')
x_train_pretty_1h = pd.read_parquet('../data/pipeline/x_train_pretty_1h.parquet')

In [None]:
# x_train_pretty

In [None]:
# px.line(x_train_pretty_1h, x='DT', y=x_structure.index, facet_row='ИМЯ МАШИНЫ', height=2000)
# px.line(x_train_pretty_1d, x='DT', y=x_structure.index, facet_row='ИМЯ МАШИНЫ', height=2000)

In [None]:
# # x_test_pretty = prettify_x(x_test)
# # x_test_pretty.to_parquet('../data/pipeline/x_test_pretty.parquet')
# x_test_pretty = pd.read_parquet('../data/pipeline/x_test_pretty.parquet')

# x_test_pretty_1d = x_test_pretty.set_index(['ИМЯ МАШИНЫ', 'DT']) \
#     .groupby([pd.Grouper(level='ИМЯ МАШИНЫ'), pd.Grouper(level='DT', freq='1d')]).mean().reset_index()
# x_test_pretty_1d.to_parquet('../data/pipeline/x_test_pretty_1d.parquet')
x_test_pretty_1d = pd.read_parquet('../data/pipeline/x_test_pretty_1d.parquet')

# x_test_pretty_1h = x_test_pretty.set_index(['ИМЯ МАШИНЫ', 'DT']) \
#     .groupby([pd.Grouper(level='ИМЯ МАШИНЫ'), pd.Grouper(level='DT', freq='1h')]).mean().reset_index()
# x_test_pretty_1h.to_parquet('../data/pipeline/x_test_pretty_1h.parquet')
x_test_pretty_1h = pd.read_parquet('../data/pipeline/x_test_pretty_1h.parquet')

In [None]:
# x_test_pretty

In [None]:
# px.line(x_test_pretty_1h, x='DT', y=x_structure.index, facet_row='ИМЯ МАШИНЫ', height=2000)
# px.line(x_test_pretty_1d, x='DT', y=x_structure.index, facet_row='ИМЯ МАШИНЫ', height=2000)

In [None]:
MAX_TTE = 31 * 24 * 60 * 60

def prettify_y(y, place_whitelist):
    y_pretty = pd.DataFrame()
    for (machine, meter_names) in y_structure.transpose().iterrows():
        # present_meter_names = meter_names[meter_names.notna()]

        y_pretty_slice = pd.DataFrame(index=y.index)
        y_pretty_slice['ROW_IDX'] = 0
        y_pretty_slice['DATASET_IDX'] = y['DATASET_IDX']
        y_pretty_slice['ИМЯ МАШИНЫ'] = machine

        machine_messages = messages_pretty[messages_pretty['ИМЯ МАШИНЫ'] == machine].sort_values('ДАТА НАЧАЛА НЕИСПРАВНОСТИ', ascending=False)

        places = [place for place in y_structure.index if place in place_whitelist]

        m1_messages = machine_messages[machine_messages['ВИД СООБЩЕНИЯ'] == 'M1']
        tte_m1 = pd.DataFrame(index=y.index, columns=places, dtype='float32').fillna(MAX_TTE)
        for (idx, message) in m1_messages.iterrows():
            place = message.loc['НАЗВАНИЕ ТЕХ МЕСТА']
            if place not in place_whitelist:
                continue
            start = message.loc['ДАТА НАЧАЛА НЕИСПРАВНОСТИ']
            end = message.loc['ДАТА УСТРАНЕНИЯ НЕИСПРАВНОСТИ']
            size = len(tte_m1[place].loc[start - timedelta(days=31):start])
            tte_m1[place].loc[start - timedelta(days=31):start] = np.arange(size, 0, -1) * 10 # @NOTE: 10 сек инкремент DT
            tte_m1[place].loc[start:end] = 0

        m3_messages = machine_messages[machine_messages['ВИД СООБЩЕНИЯ'] == 'M3']
        tte_m3 = pd.DataFrame(index=y.index, columns=places, dtype='float32').fillna(MAX_TTE)
        for (idx, message) in m3_messages.iterrows():
            place = message.loc['НАЗВАНИЕ ТЕХ МЕСТА']
            if place not in place_whitelist:
                continue
            start = message.loc['ДАТА НАЧАЛА НЕИСПРАВНОСТИ']
            end = message.loc['ДАТА УСТРАНЕНИЯ НЕИСПРАВНОСТИ']
            size = len(tte_m3[place].loc[start - timedelta(days=31):start])
            tte_m3[place].loc[start - timedelta(days=31):start] = np.arange(size, 0, -1) * 10 # @NOTE: 10 сек инкремент DT
            tte_m3[place].loc[start:end] = 0

        tte = pd.merge(tte_m1, tte_m3, left_index=True, right_index=True, suffixes=[' TTE M1', ' TTE M3'])
        y_pretty_slice = pd.merge(y_pretty_slice, tte, left_index=True, right_index=True)

        y_pretty_slice = y_pretty_slice.reset_index()
        y_pretty = pd.concat([y_pretty, y_pretty_slice])
    y_pretty['ROW_IDX'] = range(0, len(y_pretty))
    return y_pretty

In [None]:
def extract_y_train_tte():
    y_train_tte_1d = pd.DataFrame(index=x_train_pretty_1d.set_index(['ИМЯ МАШИНЫ', 'DT']).index)
    y_train_tte_1h = pd.DataFrame(index=x_train_pretty_1h.set_index(['ИМЯ МАШИНЫ', 'DT']).index)

    place_whitelists = np.array_split(list(y_structure.index), 2)
    for place_whitelist in place_whitelists:
        y_train_tte_slice = prettify_y(y_train, place_whitelist)
        y_train_tte_1d_slice = y_train_tte_slice.set_index(['ИМЯ МАШИНЫ', 'DT']) \
            .groupby([pd.Grouper(level='ИМЯ МАШИНЫ'), pd.Grouper(level='DT', freq='1d')]).mean()
        y_train_tte_1d = y_train_tte_1d.merge(y_train_tte_1d_slice, left_index=True, right_index=True)
        y_train_tte_1h_slice = y_train_tte_slice.set_index(['ИМЯ МАШИНЫ', 'DT']) \
            .groupby([pd.Grouper(level='ИМЯ МАШИНЫ'), pd.Grouper(level='DT', freq='1h')]).mean()
        y_train_tte_1h = y_train_tte_1h.merge(y_train_tte_1h_slice, left_index=True, right_index=True)

    return [y_train_tte_1d.reset_index(), y_train_tte_1h.reset_index()]


# y_train_tte_1d, y_train_tte_1h = extract_y_train_tte()
# y_train_tte_1d.to_parquet('../data/pipeline/y_train_tte_1d.parquet')
# y_train_tte_1h.to_parquet('../data/pipeline/y_train_tte_1h.parquet')
y_train_tte_1d = pd.read_parquet('../data/pipeline/y_train_tte_1d.parquet')
y_train_tte_1h = pd.read_parquet('../data/pipeline/y_train_tte_1h.parquet')