# 1. Imports

In [22]:
import pandas as pd
import numpy as np

from pathlib import Path

import pyarrow as pa

### Constants

In [311]:
SEED = 42
DATA_RAW_PATH = Path("./data/raw")
DATA_PROC_PATH = Path("./data/processed")
TRAIN_DATA = "X_train.parquet"
TRAIN_DATA_Y = "y_train.parquet"
METAINFO = "messages.xlsx"
FLOAT_TYPE = "float32"
SAVE_EXT = ".csv"

FREQ = 10
NAN_VAL = -1
NEG_VAL = -1
NAN_MARK = 1
NEG_MARK = 2
MAX_MARK = 3
NEG_TRESH = 0

GROUP_FREQ = '1Min'
GROUP_FUNC = 'mean'
GROUP_FUNC_Y = 'median'

In [24]:
EQUIP_NAMES = ["ЭКСГАУСТЕР "+ str(i) for i in range(4, 10)]
FEATURE_NAMES= [
    'ТОК РОТОРА 1', 'ТОК РОТОРА 2', 'ТОК СТАТОРА', 
    'ДАВЛЕНИЕ МАСЛА В СИСТЕМЕ',
    'ТЕМПЕРАТУРА ПОДШИПНИКА НА ОПОРЕ 1', 'ТЕМПЕРАТУРА ПОДШИПНИКА НА ОПОРЕ 2', 'ТЕМПЕРАТУРА ПОДШИПНИКА НА ОПОРЕ 3', 'ТЕМПЕРАТУРА ПОДШИПНИКА НА ОПОРЕ 4',
    'ТЕМПЕРАТУРА МАСЛА В СИСТЕМЕ', 'ТЕМПЕРАТУРА МАСЛА В МАСЛОБЛОКЕ',
    'ВИБРАЦИЯ НА ОПОРЕ 1', 'ВИБРАЦИЯ НА ОПОРЕ 2', 'ВИБРАЦИЯ НА ОПОРЕ 3', 'ВИБРАЦИЯ НА ОПОРЕ 4', 
    'ВИБРАЦИЯ НА ОПОРЕ 3. ПРОДОЛЬНАЯ.', 'ВИБРАЦИЯ НА ОПОРЕ 4. ПРОДОЛЬНАЯ.',
    ]
NAME_EXCLUSION = ('ЭКСГАУСТЕР 4. ТОК РОТОРА 2', 'ЭКСГАУСТЕР 4. ТОК РОТОРА2')
DATETIME_COL = "DT"

In [111]:
def df_describe_info(df: pd.DataFrame,
                     percentiles: list[float] =[.002, .01, .05, .5, .95, .99],
                     ) -> None:
    display(df.info(show_counts=True))
    display(df.describe(percentiles=percentiles))
    print(f"NaNs portion: {sum(df.isna().any(axis=1)) / len(df):.3f}")

# 2. Data uploading

## 2.1. Train x

In [25]:
df_train_cols = [eq_name + ". " + feature_name for eq_name in EQUIP_NAMES for feature_name in FEATURE_NAMES]
df_train_cols = [NAME_EXCLUSION[1] if item == NAME_EXCLUSION[0] else item for item in df_train_cols]

df_train_schema = pa.schema([(name, "float32") for name in df_train_cols] + [(DATETIME_COL, pa.timestamp('s'))])

### Common info

In [26]:
df_train = pd.read_parquet(DATA_RAW_PATH / TRAIN_DATA, schema=df_train_schema)
display(df_train.info(show_counts=True))
df_train.set_index(DATETIME_COL, drop=True, inplace=True)
df_train.rename({NAME_EXCLUSION[1]: NAME_EXCLUSION[0]}, axis=1, inplace=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9335034 entries, 0 to 9335033
Data columns (total 97 columns):
 #   Column                                           Non-Null Count    Dtype        
---  ------                                           --------------    -----        
 0   ЭКСГАУСТЕР 4. ТОК РОТОРА 1                       8502866 non-null  float32      
 1   ЭКСГАУСТЕР 4. ТОК РОТОРА2                        8496869 non-null  float32      
 2   ЭКСГАУСТЕР 4. ТОК СТАТОРА                        8864552 non-null  float32      
 3   ЭКСГАУСТЕР 4. ДАВЛЕНИЕ МАСЛА В СИСТЕМЕ           8635520 non-null  float32      
 4   ЭКСГАУСТЕР 4. ТЕМПЕРАТУРА ПОДШИПНИКА НА ОПОРЕ 1  6425379 non-null  float32      
 5   ЭКСГАУСТЕР 4. ТЕМПЕРАТУРА ПОДШИПНИКА НА ОПОРЕ 2  6322328 non-null  float32      
 6   ЭКСГАУСТЕР 4. ТЕМПЕРАТУРА ПОДШИПНИКА НА ОПОРЕ 3  6365231 non-null  float32      
 7   ЭКСГАУСТЕР 4. ТЕМПЕРАТУРА ПОДШИПНИКА НА ОПОРЕ 4  6417749 non-null  float32      
 8   ЭКСГАУСТЕР 4. ТЕМПЕРАТ

None

### Separate info by eqiupment

In [27]:
df_train_dict = {}
for equip_name in EQUIP_NAMES:
    df_train_dict[equip_name.lower()] = df_train[df_train.columns[df_train.columns.str.startswith(equip_name)]]
    df_train_dict[equip_name.lower()].columns = df_train_dict[equip_name.lower()].columns.str[len(EQUIP_NAMES[0] + ". "):].str.lower()
    df_train_dict[equip_name.lower()].index.name = df_train_dict[equip_name.lower()].index.name.lower()

Lowercase column names etc.

In [28]:
EQUIP_NAMES = [equip_name.lower() for equip_name in EQUIP_NAMES]
FEATURE_NAMES = [feature_name.lower() for feature_name in FEATURE_NAMES]
DATETIME_COL = DATETIME_COL.lower()

Dataset timerange.

In [29]:
df_train_start_end = (df_train_dict[EQUIP_NAMES[0]].index.min(), df_train_dict[EQUIP_NAMES[0]].index.max())
df_train_shape = df_train_dict[EQUIP_NAMES[0]].shape
print("Date period: ", df_train_start_end)
print("Shape: ", df_train_shape)

Date perion:  2019-01-16 13:21:00 2021-12-31 23:59:50


### Separate info by eqiupment

In [30]:
test_eqip = EQUIP_NAMES[0]

Time frequency

In [31]:
dt_diff = (df_train_dict[test_eqip].index[1:] - df_train_dict[test_eqip].index[:-1]).seconds
print("Mean, min, max of datetime column:", np.mean(dt_diff), np.min(dt_diff), np.max(dt_diff))

Mean, min, max of datetime column: 10.0 10 10


In [32]:
# for equip_name in EQUIP_NAMES:
#     df_train_dict[equip_name] = df_train_dict[equip_name].dropna(how="all")

### Analyse one of the equipment

In [None]:
df_describe_info(df_train_dict[test_eqip])

In [33]:
display(df_train_dict[test_eqip].info(show_counts=True))
display(df_train_dict[test_eqip].describe(percentiles=[.002, .01, .05, .5, .95, .99]))
print(f"NaNs portion: {sum(df_train_dict[test_eqip].isna().any(axis=1)) / len(df_train_dict[test_eqip]):.3f}")

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 9335034 entries, 2019-01-16 13:21:00 to 2021-12-31 23:59:50
Data columns (total 16 columns):
 #   Column                             Non-Null Count    Dtype  
---  ------                             --------------    -----  
 0   ток ротора 1                       8502866 non-null  float32
 1   ток ротора 2                       8496869 non-null  float32
 2   ток статора                        8864552 non-null  float32
 3   давление масла в системе           8635520 non-null  float32
 4   температура подшипника на опоре 1  6425379 non-null  float32
 5   температура подшипника на опоре 2  6322328 non-null  float32
 6   температура подшипника на опоре 3  6365231 non-null  float32
 7   температура подшипника на опоре 4  6417749 non-null  float32
 8   температура масла в системе        6375755 non-null  float32
 9   температура масла в маслоблоке     6322877 non-null  float32
 10  вибрация на опоре 1                8532819 non-null  floa

None

Unnamed: 0,ток ротора 1,ток ротора 2,ток статора,давление масла в системе,температура подшипника на опоре 1,температура подшипника на опоре 2,температура подшипника на опоре 3,температура подшипника на опоре 4,температура масла в системе,температура масла в маслоблоке,вибрация на опоре 1,вибрация на опоре 2,вибрация на опоре 3,вибрация на опоре 4,вибрация на опоре 3. продольная.,вибрация на опоре 4. продольная.
count,8502866.0,8496869.0,8864552.0,8635520.0,6425379.0,6322328.0,6365231.0,6417749.0,6375755.0,6322877.0,8532819.0,8407650.0,8519049.0,8915882.0,8857177.0,8498674.0
mean,285.6738,285.9001,257.101,131.0709,47.45253,46.16409,42.63668,44.9141,36.3239,42.00555,1.273967,0.9407912,1.179088,1.591222,3.105385,1.229493
std,63.87723,63.39924,45.00917,26.62698,7.173366,7.068939,6.088381,6.002651,8.192476,5.553409,0.4843087,0.3745172,0.8630037,3.100204,1.865003,0.794283
min,0.0,0.0,0.0,0.0,-100.0,-100.0,0.0,-1.62,-0.81,0.0,0.0,0.0,0.0,-100.0,0.0,0.0
0.2%,0.6076389,0.6076389,0.1736111,0.0,6.490133,10.55,8.112663,8.842802,8.112663,12.17,0.02777778,0.06,0.06,0.03,0.08,0.07
1%,1.502893,1.502893,0.3559028,0.154321,13.79,17.85,16.23,17.76675,11.36,21.09294,0.05381944,0.09,0.08333333,0.06,0.0945216,0.11
5%,227.8125,227.822,241.58,100.81,36.51,36.95771,33.26,36.51,17.93802,33.26,0.39,0.43,0.24,0.62,0.8940972,0.33
50%,274.0419,274.278,261.84,129.28,48.67601,46.24,43.44785,45.51207,38.12955,42.34812,1.36,0.8619791,0.8603395,1.46,2.56,1.04
95%,381.2457,381.2703,283.748,170.278,55.79713,56.78868,50.29855,52.10136,46.72896,49.64953,2.013889,1.67,2.78,3.488619,6.79,2.8
99%,398.315,398.315,292.984,185.53,58.14079,60.7639,53.2191,54.80559,49.81179,52.73234,2.22,1.921875,3.666088,4.235243,8.12,3.289062


NaNs portion: 0.463


* Many NaNs - 0,463. Some parameters have more null, e.g. all temperatures
* Also "ток статора" имеет очень высокие значения (600А), "давление масла в системе" (4 избыт. атм.?), "температура подшипника" 486 C, вибрации на опорах (на опорах 1 и 2 - выше 2, на 3 и 4 - 3,5; продольные - 3-8)
* Negative values looks anomalies

NaNs in one row

In [46]:
print("NaNs in one row:")
for col in df_train_dict[test_eqip].columns:
    nans_count = df_train_dict[test_eqip][col].isnull().astype(int).groupby(df_train_dict[test_eqip][col].notnull().astype(int).cumsum()).sum()
    print(f"Column {col} in hours {nans_count.max() * FREQ / 60 / 60:.1f} hours and {nans_count.max()} counts")

NaNs in one row:
Column ток ротора 1 in hours 232.3 hours and 83630 counts
Column ток ротора 2 in hours 232.3 hours and 83630 counts
Column ток статора in hours 232.3 hours and 83630 counts
Column давление масла в системе in hours 232.3 hours and 83630 counts
Column температура подшипника на опоре 1 in hours 232.3 hours and 83630 counts
Column температура подшипника на опоре 2 in hours 232.3 hours and 83630 counts
Column температура подшипника на опоре 3 in hours 232.3 hours and 83630 counts
Column температура подшипника на опоре 4 in hours 232.3 hours and 83631 counts
Column температура масла в системе in hours 232.3 hours and 83637 counts
Column температура масла в маслоблоке in hours 232.3 hours and 83636 counts
Column вибрация на опоре 1 in hours 232.3 hours and 83630 counts
Column вибрация на опоре 2 in hours 232.3 hours and 83630 counts
Column вибрация на опоре 3 in hours 232.3 hours and 83630 counts
Column вибрация на опоре 4 in hours 232.3 hours and 83630 counts
Column вибрация

One of the periond have NaNs during 232 hours. Without such case (when all NaNs) NaNs in row ~ 30 hours.

### Aggreagte data

In [63]:
for equip_name in EQUIP_NAMES:
    df_train_dict[equip_name] = df_train_dict[equip_name].groupby(pd.Grouper(freq=GROUP_FREQ)).aggregate(GROUP_FUNC)

Was 9335034, now 1555839 rows

### Save NaN's positions and doubtful values

* `df_train_state_dict` - store indicators of bad values or __NaNs__
* for `df_train_dict` - replace __NaNs__ and __negative values__

In [65]:
df_train_state_dict = {equip_name: pd.DataFrame(0, index=df_train_dict[equip_name].index, columns=df_train_dict[equip_name].columns, dtype=np.int8) for equip_name in EQUIP_NAMES}

for equip_name in EQUIP_NAMES:
    df_train_state_dict[equip_name][df_train_dict[equip_name].isnull()] = NAN_MARK
    df_train_state_dict[equip_name][df_train_dict[equip_name] < NEG_TRESH] = NEG_MARK
    df_train_dict[equip_name][df_train_dict[equip_name].isnull()] = NAN_VAL
    df_train_dict[equip_name][df_train_dict[equip_name] < NEG_TRESH] = NEG_VAL

In [None]:
df_describe_info(df_train_dict[test_eqip])

In [66]:
display(df_train_dict[test_eqip].info(show_counts=True))
display(df_train_dict[test_eqip].describe(percentiles=[.002, .01, .05, .5, .95, .99]))
print(f"NaNs portion: {sum(df_train_dict[test_eqip].isna().any(axis=1)) / len(df_train_dict[test_eqip]):.3f}")

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 1555839 entries, 2019-01-16 13:21:00 to 2021-12-31 23:59:00
Freq: T
Data columns (total 16 columns):
 #   Column                             Non-Null Count    Dtype  
---  ------                             --------------    -----  
 0   ток ротора 1                       1555839 non-null  float32
 1   ток ротора 2                       1555839 non-null  float32
 2   ток статора                        1555839 non-null  float32
 3   давление масла в системе           1555839 non-null  float32
 4   температура подшипника на опоре 1  1555839 non-null  float32
 5   температура подшипника на опоре 2  1555839 non-null  float32
 6   температура подшипника на опоре 3  1555839 non-null  float32
 7   температура подшипника на опоре 4  1555839 non-null  float32
 8   температура масла в системе        1555839 non-null  float32
 9   температура масла в маслоблоке     1555839 non-null  float32
 10  вибрация на опоре 1                1555839 non-nu

None

Unnamed: 0,ток ротора 1,ток ротора 2,ток статора,давление масла в системе,температура подшипника на опоре 1,температура подшипника на опоре 2,температура подшипника на опоре 3,температура подшипника на опоре 4,температура масла в системе,температура масла в маслоблоке,вибрация на опоре 1,вибрация на опоре 2,вибрация на опоре 3,вибрация на опоре 4,вибрация на опоре 3. продольная.,вибрация на опоре 4. продольная.
count,1555839.0,1555839.0,1555839.0,1555839.0,1555839.0,1555839.0,1555839.0,1555839.0,1555839.0,1555839.0,1555839.0,1555839.0,1555839.0,1555839.0,1555839.0,1555839.0
mean,271.8409,271.8725,245.8754,125.9223,40.33101,39.05657,35.58645,37.9886,30.71867,35.0056,1.190418,0.8777451,1.11331,1.596157,2.995057,1.158709
std,83.88812,83.8447,67.98654,36.57796,17.67732,17.83024,16.15249,16.3298,14.75874,15.97877,0.6087348,0.4851554,0.9194074,0.9636254,1.955154,0.8631763
min,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0
0.2%,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0
1%,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0
5%,1.714445,1.508727,0.2604167,0.6963735,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,0.1075,0.136,0.1125,0.1,0.1216667,0.185
50%,252.4988,252.5596,261.1915,128.0792,46.645,45.025,41.62172,43.79338,35.63001,40.84595,1.336667,0.8433333,0.8383333,1.428418,2.501667,0.9969457
95%,379.1037,379.1037,283.4238,169.8699,55.17967,55.70556,49.55489,51.515,45.96925,48.99301,1.998587,1.655,2.75394,3.386936,6.76,2.767819
99%,397.9829,397.983,292.7658,185.208,57.86679,59.49,52.79994,54.35489,49.26043,52.325,2.21205,1.906473,3.644895,4.034119,8.088997,3.267162


NaNs portion: 0.000


In [None]:
df_describe_info(df_train_state_dict[test_eqip])

In [69]:
display(df_train_state_dict[test_eqip].info(show_counts=True))
display(df_train_state_dict[test_eqip].describe(percentiles=[.002, .01, .05, .5, .95, .99]))
print(f"NaNs portion: {sum(df_train_state_dict[test_eqip].isna().any(axis=1)) / len(df_train_state_dict[test_eqip]):.3f}")

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 1555839 entries, 2019-01-16 13:21:00 to 2021-12-31 23:59:00
Freq: T
Data columns (total 16 columns):
 #   Column                             Non-Null Count    Dtype
---  ------                             --------------    -----
 0   ток ротора 1                       1555839 non-null  int8 
 1   ток ротора 2                       1555839 non-null  int8 
 2   ток статора                        1555839 non-null  int8 
 3   давление масла в системе           1555839 non-null  int8 
 4   температура подшипника на опоре 1  1555839 non-null  int8 
 5   температура подшипника на опоре 2  1555839 non-null  int8 
 6   температура подшипника на опоре 3  1555839 non-null  int8 
 7   температура подшипника на опоре 4  1555839 non-null  int8 
 8   температура масла в системе        1555839 non-null  int8 
 9   температура масла в маслоблоке     1555839 non-null  int8 
 10  вибрация на опоре 1                1555839 non-null  int8 
 11  вибрация 

None

Unnamed: 0,ток ротора 1,ток ротора 2,ток статора,давление масла в системе,температура подшипника на опоре 1,температура подшипника на опоре 2,температура подшипника на опоре 3,температура подшипника на опоре 4,температура масла в системе,температура масла в маслоблоке,вибрация на опоре 1,вибрация на опоре 2,вибрация на опоре 3,вибрация на опоре 4,вибрация на опоре 3. продольная.,вибрация на опоре 4. продольная.
count,1555839.0,1555839.0,1555839.0,1555839.0,1555839.0,1555839.0,1555839.0,1555839.0,1555839.0,1555839.0,1555839.0,1555839.0,1555839.0,1555839.0,1555839.0,1555839.0
mean,0.03859397,0.03919943,0.04166755,0.03949959,0.13419,0.147577,0.1446339,0.1327528,0.1385754,0.1488265,0.02725925,0.02721297,0.02761725,0.02848688,0.02391957,0.02739808
std,0.1926253,0.1940692,0.1998284,0.1947804,0.3409809,0.355247,0.3517314,0.3394249,0.3456834,0.3559174,0.1628379,0.1627035,0.1638736,0.1711731,0.1527987,0.1632404
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
0.2%,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1%,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
5%,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
95%,0.0,0.0,0.0,0.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0
99%,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0


NaNs portion: 0.000


### Save data

In [70]:
# for equip_name in EQUIP_NAMES:
#     df_train_dict[equip_name].to_csv(DATA_PROC_PATH / (equip_name + "_train" + SAVE_EXT))
# for equip_name in EQUIP_NAMES:
#     df_train_state_dict[equip_name].to_csv(DATA_PROC_PATH / (equip_name + "_train_inx" + SAVE_EXT))

## 2.2. Train y

In [116]:
Y_NAMES = [
    'Y_ЭКСГАУСТЕР А/М №9_ЗАПОРНАЯ АРМАТУРА ЭКСГАУСТЕРА №9',
    'Y_ЭКСГАУСТЕР А/М №9_МАСЛОСТАНЦИЯ ЖИДКОЙ СМАЗКИ ЭКСГ. №9',
    'Y_ЭКСГАУСТЕР А/М №9_ЭЛЕКТРОАППАРАТУРА ЭКСГ. №9',
    'Y_ЭКСГАУСТЕР А/М №9_КЛ1 ТР№9 ДО ЭД ЭКСГАУСТЕРА №9',
    'Y_ЭКСГАУСТЕР А/М №9_ЭЛЕКТРОДВИГАТЕЛЬ ДСПУ-140-84-4 ЭКСГ. №9',
    'Y_ЭКСГАУСТЕР А/М №9_КОРПУС ЭКСГ. №9',
    'Y_ЭКСГАУСТЕР А/М №9_РЕДУКТОР ГАЗ. ЗАДВИЖКИ ЭКСГ. №9',
    'Y_ЭКСГАУСТЕР А/М №9_МАСЛООХЛАДИТЕЛЬ  М-05-1 ЭКСГ. №9',
    'Y_ЭКСГАУСТЕР А/М №9_ЭЛ/ДВИГАТЕЛЬ ГАЗ. ЗАДВИЖКИ ЭКСГ. №9',
    'Y_ЭКСГАУСТЕР А/М №9_ЭЛЕКТРООБОРУДОВАНИЯ ЭКСГАУСТЕРА №9',
    'Y_ЭКСГАУСТЕР А/М №9_ПОДШИПНИК ОПОРНО-УПОРНЫЙ ЭКСГ. №9',
    'Y_ЭКСГАУСТЕР А/М №9_РОТОР ЭКСГ. №9',
    'Y_ЭКСГАУСТЕР А/М №9_ТР-Р ТМ-6300-10/6 ЭКСГ. №9',
    'Y_ЭКСГАУСТЕР А/М №9_ПОДШИПНИК ОПОРНЫЙ ЭКСГ. №9',
    'Y_ЭКСГАУСТЕР А/М №9_МАСЛОНАСОС РАБОЧИЙ ЭКСГ. №9',
    'Y_ЭКСГАУСТЕР А/М №9_ПОДШИПНИК ОПОРНЫЙ №2',
    'Y_ЭКСГАУСТЕР А/М №9_ГСМ ЭКСГ. №9',
    'Y_ЭКСГАУСТЕР А/М №9_КОЖУХ МУФТЫ ЭКСГ. №9',
    'Y_ЭКСГАУСТЕР А/М №9_ПОДШИПНИК ОПОРНЫЙ №1',
    'Y_ЭКСГАУСТЕР А/М №9_ЗАДВИЖКА ЭКСГ. №9',
    'Y_ЭКСГАУСТЕР А/М №9_ВК 310С ВИБРОПРЕОБРАЗОВАТЕЛЬ ЭКСГ.№9 Т.1',
    'Y_ЭКСГАУСТЕР А/М №9_МАСЛОПРОВОДЫ ЭКСГАУСТЕРА №9',
    'Y_ЭКСГАУСТЕР А/М №9_ТИРИСТОРНЫЙ ВОЗБУДИТЕЛЬ ТВ-400 ЭКСГ9 ВУ1',
    'Y_ЭКСГАУСТЕР А/М №9_МЕТРАН-100 ДАТЧИКИ ДАВЛЕНИЯ ЭКСГ.№9',
    'Y_ЭКСГАУСТЕР А/М №9_ТСМТ-101-010-50М-80 ТЕРМОПРЕОБР.МАСЛО',
    'Y_ЭКСГАУСТЕР А/М №9_ТСМТ-101-010-50М-400 ТЕРМОПР.ПОДШ.Т.1',
    'Y_ЭКСГАУСТЕР А/М №9_ЭКСГАУСТЕР А/М №9',
    'Y_ЭКСГАУСТЕР А/М №9_ДВИГАТЕЛЬ ПУСКОВОГО МАСЛОНАСОСА ЭКСГ. №9',
    'Y_ЭКСГАУСТЕР А/М №5_МАСЛООХЛАДИТЕЛЬ  М-05-1 ЭКСГ. №5',
    'Y_ЭКСГАУСТЕР А/М №5_ЭЛЕКТРОДВИГАТЕЛЬ ДСПУ-140-84-4 ЭКСГ. №5',
    'Y_ЭКСГАУСТЕР А/М №5_КОРПУС ЭКСГ. №5',
    'Y_ЭКСГАУСТЕР А/М №5_ЗАДВИЖКА ЭКСГ. №5',
    'Y_ЭКСГАУСТЕР А/М №5_ПОДШИПНИК ОПОРНЫЙ ЭКСГ. №5',
    'Y_ЭКСГАУСТЕР А/М №5_ПОДШИПНИК ОПОРНЫЙ №2',
    'Y_ЭКСГАУСТЕР А/М №5_ПОДШИПНИК ОПОРНО-УПОРНЫЙ ЭКСГ. №5',
    'Y_ЭКСГАУСТЕР А/М №5_МАСЛОНАСОС ШЕСТЕРЕНЧАТЫЙ (РЕЗ.) ЭКСГ. №5',
    'Y_ЭКСГАУСТЕР А/М №5_ВК 310С ВИБРОПРЕОБРАЗОВАТЕЛЬ ЭКСГ.№5 Т.1',
    'Y_ЭКСГАУСТЕР А/М №5_ВК 310С ВИБРОПРЕОБРАЗОВАТЕЛЬ ЭКСГ.№5 Т.3',
    'Y_ЭКСГАУСТЕР А/М №5_ЭЛЕКТРООБОРУДОВАНИЯ ЭКСГАУСТЕРА №5',
    'Y_ЭКСГАУСТЕР А/М №5_ВК 310С ВИБРОПРЕОБРАЗОВАТЕЛЬ ЭКСГ.№5 Т.2',
    'Y_ЭКСГАУСТЕР А/М №5_ПОДШИПНИК ОПОРНЫЙ №1',
    'Y_ЭКСГАУСТЕР А/М №5_РЕДУКТОР ГАЗ. ЗАДВИЖКИ ЭКСГ. №5',
    'Y_ЭКСГАУСТЕР А/М №5_ТИРИСТ. ВОЗБУДИТЕЛЬ ВТ-РЭМ-400 ЭКСГ5 ВУ1',
    'Y_ЭКСГАУСТЕР А/М №5_ЗАПОРНАЯ АРМАТУРА ЭКСГАУСТЕРА №5',
    'Y_ЭКСГАУСТЕР А/М №5_МАСЛОПРОВОДЫ ЭКСГАУСТЕРА №5',
    'Y_ЭКСГАУСТЕР А/М №5_ГСМ ЭКСГ. №5',
    'Y_ЭКСГАУСТЕР А/М №5_ЭКСГАУСТЕР А/М №5',
    'Y_ЭКСГАУСТЕР А/М №5_ТСМТ-101-010-50М-80 ТЕРМОПРЕОБР.МАСЛО',
    'Y_ЭКСГАУСТЕР А/М №5_ТР-Р ТМ-4000-10/6 ЭКСГ. №5',
    'Y_ЭКСГАУСТЕР А/М №5_КЛ1 ТР№5 ДО ЭД ЭКСГАУСТЕРА №5',
    'Y_ЭКСГАУСТЕР А/М №5_КЛ2 ТР№5 ДО ЭД ЭКСГАУСТЕРА №5',
    'Y_ЭКСГАУСТЕР А/М №5_МАСЛОНАСОС РАБОЧИЙ ЭКСГ. №5',
    'Y_ЭКСГАУСТЕР А/М №5_РОТОР ЭКСГ. №5',
    'Y_ЭКСГАУСТЕР А/М №5_МЕТРАН-100 ДАТЧИКИ ДАВЛЕНИЯ ЭКСГ.№5',
    'Y_ЭКСГАУСТЕР А/М №5_ДВИГАТЕЛЬ ПУСКОВОГО МАСЛОНАСОСА ЭКСГ. №5',
    'Y_ЭКСГАУСТЕР А/М №5_ГАЗОВАЯ ЗАДВИЖКА ЭКСГАУСТЕРА А/М №5',
    'Y_ЭКСГАУСТЕР А/М №5_КОЖУХ МУФТЫ ЭКСГ. №5',
    'Y_ЭКСГАУСТЕР А/М №5_ТИРИСТ. ВОЗБУДИТЕЛЬ ВТ-РЭМ-400 ЭКСГ5 ВУ2',
    'Y_ЭКСГАУСТЕР А/М №5_ТСМТ-101-010-50М-400 ТЕРМОПР.ПОДШ.Т.2',
    'Y_ЭКСГАУСТЕР А/М №5_ДВИГАТЕЛЬ РЕЗЕРВНОГО МАСЛОНАСОСА ЭКСГ.№5',
    'Y_ЭКСГАУСТЕР А/М №5_ТСМТ-101-010-50М-200 ТЕРМОПР.ПОДШ.Т.3',
    'Y_ЭКСГАУСТЕР А/М №5_ЭКСГАУСТЕР Н-8000 А/М №5',
    'Y_ЭКСГАУСТЕР А/М №8_РОТОР ЭКСГ. №8',
    'Y_ЭКСГАУСТЕР А/М №8_ЭЛЕКТРОДВИГАТЕЛЬ ДСПУ-140-84-4 ЭКСГ. №8',
    'Y_ЭКСГАУСТЕР А/М №8_КОРПУС ЭКСГ. №8',
    'Y_ЭКСГАУСТЕР А/М №8_РЕДУКТОР ГАЗ. ЗАДВИЖКИ ЭКСГ. №8',
    'Y_ЭКСГАУСТЕР А/М №8_ВК 310С ВИБРОПРЕОБРАЗОВАТЕЛЬ ЭКСГ.№8 Т.3',
    'Y_ЭКСГАУСТЕР А/М №8_ВК 310С ВИБРОПРЕОБРАЗОВАТЕЛЬ ЭКСГ.№8 Т.4',
    'Y_ЭКСГАУСТЕР А/М №8_ЭЛ/ДВИГАТЕЛЬ ГАЗ. ЗАДВИЖКИ ЭКСГ. №8',
    'Y_ЭКСГАУСТЕР А/М №8_МАСЛООХЛАДИТЕЛЬ  М-05-1 ЭКСГ. №8',
    'Y_ЭКСГАУСТЕР А/М №8_ТИРИСТОРНЫЙ ВОЗБУДИТЕЛЬ СПВД-М10-400-5',
    'Y_ЭКСГАУСТЕР А/М №8_КЛ2 ТР№8 ДО ЭД ЭКСГАУСТЕРА №8',
    'Y_ЭКСГАУСТЕР А/М №8_КЛ1 ТР№8 ДО ЭД ЭКСГАУСТЕРА №8',
    'Y_ЭКСГАУСТЕР А/М №8_ТСМТ-101-010-50М-400 ТЕРМОПР.ПОДШ.Т.2',
    'Y_ЭКСГАУСТЕР А/М №8_КОЖУХ МУФТЫ ЭКСГ. №8',
    'Y_ЭКСГАУСТЕР А/М №8_ГСМ ЭКСГ. №8',
    'Y_ЭКСГАУСТЕР А/М №8_ПОДШИПНИК ОПОРНЫЙ №2',
    'Y_ЭКСГАУСТЕР А/М №8_ЭКСГАУСТЕР А/М №8',
    'Y_ЭКСГАУСТЕР А/М №8_ЗАПОРНАЯ АРМАТУРА ЭКСГАУСТЕРА №8',
    'Y_ЭКСГАУСТЕР А/М №8_ТСМТ-101-010-50М-200 ТЕРМОПР.ПОДШ.Т.4',
    'Y_ЭКСГАУСТЕР А/М №8_МАСЛЯНЫЙ ФИЛЬТР ЭКСГАУСТЕРА №8',
    'Y_ЭКСГАУСТЕР А/М №8_ТИРИСТОРНЫЙ ВОЗБУДИТЕЛЬ ТВ-400 ЭКСГ8 ВУ1',
    'Y_ЭКСГАУСТЕР А/М №8_ПОДШИПНИК ОПОРНЫЙ №1',
    'Y_ЭКСГАУСТЕР А/М №8_ЭЛЕКТРООБОРУДОВАНИЯ ЭКСГАУСТЕРА №8',
    'Y_ЭКСГАУСТЕР А/М №8_ПОДШИПНИК ОПОРНЫЙ ЭКСГ. №8',
    'Y_ЭКСГАУСТЕР А/М №8_ЗАДВИЖКА ЭКСГ. №8',
    'Y_ЭКСГАУСТЕР А/М №8_МАСЛОНАСОС РАБОЧИЙ ЭКСГ. №8',
    'Y_ЭКСГАУСТЕР А/М №8_МАСЛОНАСОС ШЕСТЕРЕНЧАТЫЙ (РЕЗ.) ЭКСГ. №8',
    'Y_ЭКСГАУСТЕР А/М №8_МАСЛОНАСОС ШЕСТЕРЕНЧАТЫЙ (ПУСК.) ЭКСГ.№8',
    'Y_ЭКСГАУСТЕР А/М №8_ВК 310С ВИБРОПРЕОБРАЗОВАТЕЛЬ ЭКСГ.№8 Т.2',
    'Y_ЭКСГАУСТЕР А/М №8_ТР-Р ТМ-6300-10/6 ЭКСГ. №8',
    'Y_ЭКСГАУСТЕР А/М №8_ПОДШИПНИК ОПОРНО-УПОРНЫЙ ЭКСГ. №8',
    'Y_ЭКСГАУСТЕР А/М №8_МАСЛОПРОВОДЫ ЭКСГАУСТЕРА №8',
    'Y_ЭКСГАУСТЕР А/М №4_ЭЛЕКТРОДВИГАТЕЛЬ ДСПУ-140-84-4 ЭКСГ. №4',
    'Y_ЭКСГАУСТЕР А/М №4_ПОДШИПНИК ОПОРНЫЙ ЭКСГ. №4',
    'Y_ЭКСГАУСТЕР А/М №4_УЛИТА ЭКСГ. №4',
    'Y_ЭКСГАУСТЕР А/М №4_РЕДУКТОР ГАЗ. ЗАДВИЖКИ ЭКСГ. №4',
    'Y_ЭКСГАУСТЕР А/М №4_МАСЛОНАСОС РАБОЧИЙ ЭКСГ. №4',
    'Y_ЭКСГАУСТЕР А/М №4_ЭЛЕКТРОАППАРАТУРА ЭКСГ. №4',
    'Y_ЭКСГАУСТЕР А/М №4_ПОДШИПНИК ОПОРНЫЙ №2 ЭКСГ. №4',
    'Y_ЭКСГАУСТЕР А/М №4_ЗАДВИЖКА ЭКСГ. №4',
    'Y_ЭКСГАУСТЕР А/М №4_ГСМ ЭКСГ. №4',
    'Y_ЭКСГАУСТЕР А/М №4_ВК 310С ВИБРОПРЕОБРАЗОВАТЕЛЬ ЭКСГ.№4 Т.1',
    'Y_ЭКСГАУСТЕР А/М №4_ТСМТ-101-010-50М-400 ТЕРМОПР.ПОДШ.Т.1',
    'Y_ЭКСГАУСТЕР А/М №4_РОТОР ЭКСГ. №4',
    'Y_ЭКСГАУСТЕР А/М №4_МАСЛООХЛАДИТЕЛЬ  М-05-1 ЭКСГ. №4',
    'Y_ЭКСГАУСТЕР А/М №4_ПОДШИПНИК ОПОРНО-УПОРНЫЙ ЭКСГ. №4',
    'Y_ЭКСГАУСТЕР А/М №4_ЭКСГАУСТЕР А/М №4',
    'Y_ЭКСГАУСТЕР А/М №4_ЗАП. И РЕГ. АРМАТУРА ЭКСГ.№4',
    'Y_ЭКСГАУСТЕР А/М №4_ПОДШИПНИК ОПОРНЫЙ №1 ЭКСГ. №4',
    'Y_ЭКСГАУСТЕР А/М №4_ЭЛ/ДВИГАТЕЛЬ ГАЗ. ЗАДВИЖКИ ЭКСГ. №4',
    'Y_ЭКСГАУСТЕР А/М №4_КЛ1 ТР№4 ДО ЭД ЭКСГАУСТЕРА №4',
    'Y_ЭКСГАУСТЕР А/М №4_КЛ2 ТР№4 ДО ЭД ЭКСГАУСТЕРА №4',
    'Y_ЭКСГАУСТЕР А/М №4_ТР-Р ТМ-4000-10/6 ЭКСГ. №4',
    'Y_ЭКСГАУСТЕР А/М №4_ТИРИСТ. ВОЗБУДИТЕЛЬ ВТ-РЭМ-400 ЭКСГ4 ВУ1',
    'Y_ЭКСГАУСТЕР А/М №4_МАСЛОПРОВОДЫ ЭКСГ №4',
    'Y_ЭКСГАУСТЕР А/М №7_ЭЛЕКТРОДВИГАТЕЛЬ ДСПУ-140-84-4 ЭКСГ. №7',
    'Y_ЭКСГАУСТЕР А/М №7_КОРПУС ЭКСГ. №7',
    'Y_ЭКСГАУСТЕР А/М №7_ПОДШИПНИК ОПОРНЫЙ №1',
    'Y_ЭКСГАУСТЕР А/М №7_ЗАДВИЖКА ЭКСГ. №7',
    'Y_ЭКСГАУСТЕР А/М №7_ПОДШИПНИК ОПОРНЫЙ №2',
    'Y_ЭКСГАУСТЕР А/М №7_РОТОР ЭКСГ. №7',
    'Y_ЭКСГАУСТЕР А/М №7_ПОДШИПНИК ОПОРНО-УПОРНЫЙ ЭКСГ. №7',
    'Y_ЭКСГАУСТЕР А/М №7_ВК 310С ВИБРОПРЕОБРАЗОВАТЕЛЬ ЭКСГ.№7 Т.3',
    'Y_ЭКСГАУСТЕР А/М №7_РЕДУКТОР ГАЗ. ЗАДВИЖКИ ЭКСГ. №7',
    'Y_ЭКСГАУСТЕР А/М №7_ТСМТ-101-010-50М-80 ТЕРМОПРЕОБР.МАСЛО',
    'Y_ЭКСГАУСТЕР А/М №7_ПОДШИПНИК ОПОРНЫЙ ЭКСГ. №7',
    'Y_ЭКСГАУСТЕР А/М №7_ГСМ ЭКСГ. №7',
    'Y_ЭКСГАУСТЕР А/М №7_КОЖУХ МУФТЫ ЭКСГ. №7',
    'Y_ЭКСГАУСТЕР А/М №7_ЭКСГАУСТЕР А/М №7',
    'Y_ЭКСГАУСТЕР А/М №7_МАСЛОПРОВОДЫ ЭКСГАУСТЕРА №7',
    'Y_ЭКСГАУСТЕР А/М №7_МАСЛООХЛАДИТЕЛЬ  М-05-1 ЭКСГ. №7',
    'Y_ЭКСГАУСТЕР А/М №7_САПФИР 22 МДД ПЕРЕПАД ДАВЛ. НА ЦИКЛОНЕ',
    'Y_ЭКСГАУСТЕР А/М №7_ЭЛЕКТРООБОРУДОВАНИЯ ЭКСГАУСТЕРА №7',
    'Y_ЭКСГАУСТЕР А/М №7_МАСЛОНАСОС РАБОЧИЙ ЭКСГ. №7',
    'Y_ЭКСГАУСТЕР А/М №7_МАСЛОНАСОС ШЕСТЕРЕНЧАТЫЙ (ПУСК.) ЭКСГ.№7',
    'Y_ЭКСГАУСТЕР А/М №7_МАСЛЯНЫЙ ФИЛЬТР ЭКСГАУСТЕРА №7',
    'Y_ЭКСГАУСТЕР А/М №7_ТР-Р ТМ-4000-10/6 ЭКСГ. №7',
    'Y_ЭКСГАУСТЕР А/М №7_ТСМТ-101-010-50М-200 ТЕРМОПР.ПОДШ.Т.3',
    'Y_ЭКСГАУСТЕР А/М №7_ВК 310С ВИБРОПРЕОБРАЗОВАТЕЛЬ ЭКСГ.№7 Т.2',
    'Y_ЭКСГАУСТЕР А/М №7_ВК 310С ВИБРОПРЕОБРАЗОВАТЕЛЬ ЭКСГ.№7 Т.4',
    'Y_ЭКСГАУСТЕР А/М №7_ТИРИСТОРНЫЙ ВОЗБУДИТЕЛЬ ТВ-400 ЭКСГ7 ВУ1',
    'Y_ЭКСГАУСТЕР А/М №7_ТСМТ-101-010-50М-400 ТЕРМОПР.ПОДШ.Т.2',
    'Y_ЭКСГАУСТЕР А/М №7_КЛ1 ТР№7 ДО ЭД ЭКСГАУСТЕРА №7',
    'Y_ЭКСГАУСТЕР А/М №7_МЕТРАН-100 ДАТЧИКИ ДАВЛЕНИЯ ЭКСГ.№7',
    'Y_ЭКСГАУСТЕР А/М №7_РЕГУЛИРУЮЩАЯ АППАРАТУРА ЭКСГАУСТЕРА №7',
    'Y_ЭКСГАУСТЕР А/М №7_ЭЛ/ДВИГАТЕЛЬ ГАЗ. ЗАДВИЖКИ ЭКСГ. №7',
    'Y_ЭКСГАУСТЕР А/М №7_ТСМТ-101-010-50М-400 ТЕРМОПР.ПОДШ.Т.1',
    'Y_ЭКСГАУСТЕР А/М №6_ЭЛЕКТРОДВИГАТЕЛЬ ДСПУ-140-84-4 ЭКСГ. №6',
    'Y_ЭКСГАУСТЕР А/М №6_КОРПУС ЭКСГ. №6',
    'Y_ЭКСГАУСТЕР А/М №6_ЗАДВИЖКА ЭКСГ. №6',
    'Y_ЭКСГАУСТЕР А/М №6_ПОДШИПНИК ОПОРНЫЙ №2',
    'Y_ЭКСГАУСТЕР А/М №6_РЕДУКТОР ГАЗ. ЗАДВИЖКИ ЭКСГ. №6',
    'Y_ЭКСГАУСТЕР А/М №6_ПОДШИПНИК ОПОРНО-УПОРНЫЙ ЭКСГ. №6',
    'Y_ЭКСГАУСТЕР А/М №6_САПФИР 22 МДД РАЗРЕЖЕНИЕ В КОЛЛЕКТОРЕ',
    'Y_ЭКСГАУСТЕР А/М №6_МАСЛОБАК ЭКСГ. №6',
    'Y_ЭКСГАУСТЕР А/М №6_ПОДШИПНИК ОПОРНЫЙ №1',
    'Y_ЭКСГАУСТЕР А/М №6_КОЖУХ МУФТЫ ЭКСГ. №6',
    'Y_ЭКСГАУСТЕР А/М №6_РОТОР ЭКСГ. №6',
    'Y_ЭКСГАУСТЕР А/М №6_ТР-Р ТМ-4000-10/6 ЭКСГ. №6',
    'Y_ЭКСГАУСТЕР А/М №6_ЭЛЕКТРООБОРУДОВАНИЯ ЭКСГ №6',
    'Y_ЭКСГАУСТЕР А/М №6_МАСЛООХЛАДИТЕЛЬ  М-05-1 ЭКСГ. №6',
    'Y_ЭКСГАУСТЕР А/М №6_САПФИР 22 МДД ПЕРЕПАД ДАВЛ. НА ЦИКЛОНЕ',
    'Y_ЭКСГАУСТЕР А/М №6_МАСЛОНАСОС РАБОЧИЙ ЭКСГ. №6',
    'Y_ЭКСГАУСТЕР А/М №6_ГАЗОВАЯ ЗАДВИЖКА ЭКСГАУСТЕРА А/М №6',
    'Y_ЭКСГАУСТЕР А/М №6_ЭКСГАУСТЕР А/М №6',
    'Y_ЭКСГАУСТЕР А/М №6_ПОДШИПНИК ОПОРНЫЙ ЭКСГ. №6',
    'Y_ЭКСГАУСТЕР А/М №6_ТИРИСТОРНЫЙ ВОЗБУДИТЕЛЬ ТВ-400 ЭКСГ6 ВУ1',
    'Y_ЭКСГАУСТЕР А/М №6_ДВИГАТЕЛЬ ПУСКОВОГО МАСЛОНАСОСА ЭКСГ. №6',
    'Y_ЭКСГАУСТЕР А/М №6_МАСЛОНАСОС ШЕСТЕРЕНЧАТЫЙ (ПУСК.) ЭКСГ.№6',
    'Y_ЭКСГАУСТЕР А/М №6_ВК 310С ВИБРОПРЕОБРАЗОВАТЕЛЬ ЭКСГ.№6 Т.3',
    'Y_ЭКСГАУСТЕР А/М №6_МАСЛОПРОВОДЫ ЭКСГ №6',
    'Y_ЭКСГАУСТЕР А/М №6_КЛ1 ТР№6 ДО ЭД ЭКСГАУСТЕРА №6',
    'Y_ЭКСГАУСТЕР А/М №6_КЛ2 ТР№6 ДО ЭД ЭКСГАУСТЕРА №6',
    'Y_ЭКСГАУСТЕР А/М №6_ВК 310С ВИБРОПРЕОБРАЗОВАТЕЛЬ ЭКСГ.№6 Т.2',
]
len(Y_NAMES)

175

In [239]:
NAMES_TO_DEL_Y = [' ЭКСГАУСТЕРА', ' ЭКСГ.', ' №{}', '№{}']
EQUIP_NAMES_PREFIX_Y = [name.format(i) for name in NAMES_TO_DEL_Y for i in range(4, 10)]
EQUIP_NAMES_Y = ['Y_ЭКСГАУСТЕР А/М №'+ str(i) for i in range(4, 10)]

In [140]:
df_train_y_schema = pa.schema([(name, "int8") for name in Y_NAMES] + [(DATETIME_COL.upper(), pa.timestamp('s'))])

### Common info

In [164]:
df_train_y = pd.read_parquet(DATA_RAW_PATH / TRAIN_DATA_Y, schema=df_train_y_schema)
display(df_train_y.info(show_counts=True))
df_train_y.set_index(DATETIME_COL.upper(), drop=True, inplace=True)

### Separate info by eqiupment

In [172]:
df_train_y_dict = {}
df_train_y_cols_dict = {}

for equip_name_y, equip_name in zip(EQUIP_NAMES_Y, EQUIP_NAMES):
    df_train_y_dict[equip_name] = df_train_y[df_train_y.columns[df_train_y.columns.str.startswith(equip_name_y)]]
    df_train_y_dict[equip_name].columns = df_train_y_dict[equip_name].columns.str[len(EQUIP_NAMES_Y[0] + "_"):].str.replace('|'.join(EQUIP_NAMES_PREFIX_Y), '', regex=True).str.lower()
    df_train_y_dict[equip_name].index.name = df_train_y_dict[equip_name].index.name.lower()
    df_train_y_dict[equip_name] = df_train_y_dict[equip_name].loc[:, (df_train_y_dict[equip_name] == 0).all(axis=0)]
    df_train_y_cols_dict[equip_name] = df_train_y_dict[equip_name].columns.to_list()

Dataset timerange.

In [174]:
df_train_y_start_end = (df_train_y_dict[EQUIP_NAMES[0]].index.min(), df_train_y_dict[EQUIP_NAMES[0]].index.max())
df_train_y_shape = df_train_y_dict[EQUIP_NAMES[0]].shape
print("Date period: ", df_train_y_start_end)
print("Shape: ", df_train_y_shape)

Date period:  (Timestamp('2019-01-16 13:21:00'), Timestamp('2021-12-31 23:59:50'))
Shape:  (9335034, 23)


In [176]:
df_describe_info(df_train_y_dict[test_eqip])

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 9335034 entries, 2019-01-16 13:21:00 to 2021-12-31 23:59:50
Data columns (total 23 columns):
 #   Column                                    Non-Null Count    Dtype
---  ------                                    --------------    -----
 0   электродвигатель дспу-140-84-4            9335034 non-null  int8 
 1   подшипник опорный                         9335034 non-null  int8 
 2   улита                                     9335034 non-null  int8 
 3   редуктор газ. задвижки                    9335034 non-null  int8 
 4   маслонасос рабочий                        9335034 non-null  int8 
 5   электроаппаратура                         9335034 non-null  int8 
 6   подшипник опорный №2                      9335034 non-null  int8 
 7   задвижка                                  9335034 non-null  int8 
 8   гсм                                       9335034 non-null  int8 
 9   вк 310с вибропреобразователь т.1          9335034 non-null  int8 
 1

None

Unnamed: 0,электродвигатель дспу-140-84-4,подшипник опорный,улита,редуктор газ. задвижки,маслонасос рабочий,электроаппаратура,подшипник опорный №2,задвижка,гсм,вк 310с вибропреобразователь т.1,...,подшипник опорно-упорный,эксгаустер а/м №4,зап. и рег. арматура,подшипник опорный №1,эл/двигатель газ. задвижки,кл1 тр№4 до эд,кл2 тр№4 до эд,тр-р тм-4000-10/6,тирист. возбудитель вт-рэм-400 эксг4 ву1,маслопроводы
count,9335034.0,9335034.0,9335034.0,9335034.0,9335034.0,9335034.0,9335034.0,9335034.0,9335034.0,9335034.0,...,9335034.0,9335034.0,9335034.0,9335034.0,9335034.0,9335034.0,9335034.0,9335034.0,9335034.0,9335034.0
mean,0.6818825,1.440975,1.852205,1.345075,0.1221722,0.2747864,0.1422851,0.3094274,0.5980087,5.484715e-05,...,1.102615,0.0001482587,0.04893908,0.03969134,0.06561926,0.8317763,0.8317581,0.3545033,0.0004940528,0.0
std,0.9480092,0.8975194,0.5232078,0.9385424,0.4789765,0.6885165,0.5141206,0.7231894,0.9156436,0.01047336,...,0.9946911,0.01217525,0.3090035,0.2789396,0.3562761,0.9857489,0.9857458,0.7637631,0.03143027,0.0
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
0.2%,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1%,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
5%,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,0.0,2.0,2.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,...,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
95%,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,0.0,...,2.0,0.0,0.0,0.0,0.0,2.0,2.0,2.0,0.0,0.0
99%,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,0.0,...,2.0,0.0,2.0,2.0,2.0,2.0,2.0,2.0,0.0,0.0


NaNs portion: 0.000


In [312]:
for equip_name in EQUIP_NAMES:
    df_train_y_dict[equip_name] = df_train_y_dict[equip_name].groupby(pd.Grouper(freq=GROUP_FREQ)).aggregate(GROUP_FUNC_Y)

df_describe_info(df_train_y_dict[test_eqip])

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 1555839 entries, 2019-01-16 13:21:00 to 2021-12-31 23:59:00
Freq: T
Data columns (total 27 columns):
 #   Column                                    Non-Null Count    Dtype  
---  ------                                    --------------    -----  
 0   электродвигатель дспу-140-84-4            1555839 non-null  float64
 1   корпус                                    1555839 non-null  float64
 2   задвижка                                  1555839 non-null  float64
 3   подшипник опорный №2                      1555839 non-null  float64
 4   редуктор газ. задвижки                    1555839 non-null  float64
 5   подшипник опорно-упорный                  1555839 non-null  float64
 6   сапфир 22 мдд разрежение в коллекторе     1555839 non-null  float64
 7   маслобак                                  1555839 non-null  float64
 8   подшипник опорный №1                      1555839 non-null  float64
 9   кожух муфты                           

None

Unnamed: 0,электродвигатель дспу-140-84-4,корпус,задвижка,подшипник опорный №2,редуктор газ. задвижки,подшипник опорно-упорный,сапфир 22 мдд разрежение в коллекторе,маслобак,подшипник опорный №1,кожух муфты,...,эксгаустер а/м №6,подшипник опорный,тиристорный возбудитель тв-400 эксг6 ву1,двигатель пускового маслонасоса,маслонасос шестеренчатый (пуск.),вк 310с вибропреобразователь т.3,маслопроводы,кл1 тр№6 до эд,кл2 тр№6 до эд,вк 310с вибропреобразователь т.2
count,1555839.0,1555839.0,1555839.0,1555839.0,1555839.0,1555839.0,1555839.0,1555839.0,1555839.0,1555839.0,...,1555839.0,1555839.0,1555839.0,1555839.0,1555839.0,1555839.0,1555839.0,1555839.0,1555839.0,1555839.0
mean,0.8835799,1.830689,0.7175932,1.469066,0.9693554,1.476599,9.126908e-05,1.253217,0.2803311,0.4583186,...,1.349754e-05,0.3837659,0.0004280649,0.0,0.0,0.0,0.0,0.0,0.0,0.0
std,0.9932004,0.5567363,0.958942,0.8831635,0.9995303,0.8791205,0.01351036,0.9674098,0.6943176,0.8405842,...,0.003673876,0.7875633,0.02925657,0.0,0.0,0.0,0.0,0.0,0.0,0.0
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
0.2%,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1%,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
5%,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,0.0,2.0,0.0,2.0,0.0,2.0,0.0,2.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
95%,2.0,2.0,2.0,2.0,2.0,2.0,0.0,2.0,2.0,2.0,...,0.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
99%,2.0,2.0,2.0,2.0,2.0,2.0,0.0,2.0,2.0,2.0,...,0.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


NaNs portion: 0.000


## 2.3. Metainformation

In [285]:
EQUIP_NAMES_META = {equip_name_y[len('Y_'):]: equip_name for equip_name_y, equip_name in zip(EQUIP_NAMES_Y, EQUIP_NAMES)}
FAILURE_PART_COL = 'название_тех_места'
DESCRIPTION_COL = 'описание'
EQUIP_NAME = 'имя_машины'
SATRT_END_FAILURE_DATES = ['дата_начала_неисправности', 'дата_устранения_неисправности']
PLANNED_CODES = {'технические плановые': 0, 'технические неплановые': 1}
FAILURES_CODES = {"shutdowns": "M1", "malfunction": "M3"}

In [255]:
df_meta = pd.read_excel(DATA_RAW_PATH / METAINFO, index_col=None)
df_meta.columns = df_meta.columns.str.lower()
df_describe_info(df_meta)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 981 entries, 0 to 980
Data columns (total 10 columns):
 #   Column                         Non-Null Count  Dtype         
---  ------                         --------------  -----         
 0   unnamed: 0                     981 non-null    int64         
 1   машина                         981 non-null    object        
 2   имя_машины                     981 non-null    object        
 3   тех_место                      981 non-null    object        
 4   название_тех_места             981 non-null    object        
 5   вид_сообщения                  981 non-null    object        
 6   описание                       981 non-null    object        
 7   дата_начала_неисправности      981 non-null    datetime64[ns]
 8   дата_устранения_неисправности  851 non-null    datetime64[ns]
 9   текст_группы_кодов             83 non-null     object        
dtypes: datetime64[ns](2), int64(1), object(7)
memory usage: 76.8+ KB


None

Unnamed: 0,unnamed: 0,дата_начала_неисправности,дата_устранения_неисправности
count,981.0,981,851
mean,1183.237513,2020-07-02 17:11:04.968399616,2020-07-28 03:07:27.599294976
min,390.0,2019-01-21 00:00:00,2019-01-22 00:00:00
0.2%,391.96,2019-01-21 15:27:51.680000,2019-01-26 06:28:06
1%,400.8,2019-01-27 10:58:40.400000,2019-02-04 10:50:50
5%,459.0,2019-02-25 13:38:04,2019-03-19 14:19:19
50%,1115.0,2020-06-26 14:41:04,2020-07-27 00:00:00
95%,2103.0,2021-11-09 23:46:00,2021-10-18 12:00:00
99%,2147.2,2021-12-20 18:06:20.400000,2021-12-20 06:53:35
max,2159.0,2021-12-29 16:27:02,2021-12-30 00:00:00


NaNs portion: 0.915


In [257]:
df_meta[FAILURE_PART_COL] = df_meta[FAILURE_PART_COL].str.replace('|'.join(EQUIP_NAMES_PREFIX_Y), '', regex=True).str.lower()
df_meta.drop("unnamed: 0", axis=1, inplace=True)
df_meta[EQUIP_NAME].replace(EQUIP_NAMES_META, inplace=True)

### Explore

In [310]:
# Explore specific equipment and dates
test_eqip = "эксгаустер 6"
data_filter = df_train_y_dict[test_eqip].index >= "2021-12-28 12:23:00"

print("Оборудование в ремонте:")
display(df_train_y_dict[test_eqip].loc[data_filter, (df_train_y_dict[test_eqip][data_filter] > 0).all(axis=0)])

Unnamed: 0_level_0,корпус,задвижка,подшипник опорный №2,редуктор газ. задвижки,подшипник опорно-упорный,маслобак,ротор,подшипник опорный
dt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2021-12-28 12:23:00,2,2,2,2,2,2,2,2
2021-12-28 12:23:10,2,2,2,2,2,2,2,2
2021-12-28 12:23:20,2,2,2,2,2,2,2,2
2021-12-28 12:23:30,2,2,2,2,2,2,2,2
2021-12-28 12:23:40,2,2,2,2,2,2,2,2
...,...,...,...,...,...,...,...,...
2021-12-31 23:59:10,2,2,2,2,2,2,2,2
2021-12-31 23:59:20,2,2,2,2,2,2,2,2
2021-12-31 23:59:30,2,2,2,2,2,2,2,2
2021-12-31 23:59:40,2,2,2,2,2,2,2,2


In [301]:
print("Ремонты без указания даты устранения неисправности:")
df_meta[df_meta["дата_устранения_неисправности"].isin([pd.NaT])]

Ремонты без указания даты устранения неисправности:


Unnamed: 0,машина,имя_машины,тех_место,название_тех_места,вид_сообщения,описание,дата_начала_неисправности,дата_устранения_неисправности,текст_группы_кодов
87,CH-AGP-AG2/009-005,эксгаустер 8,CH-AGP-AG2/009-005-002-004,маслоохладитель м-05-1,M3,греются подшипники,2019-04-08 21:50:44,NaT,
162,CH-AGP-AG2/007-005,эксгаустер 7,CH-AGP-AG2/007-005-001-002,ротор,M3,течь масла,2019-06-18 18:31:12,NaT,
187,CH-AGP-AG2/003-005,эксгаустер 5,CH-AGP-AG2/003-005-003-002,редуктор газ. задвижки,M3,нет смазки,2019-08-13 16:37:54,NaT,
197,CH-AGP-AG2/011-005,эксгаустер 9,CH-AGP-AG2/011-005-002-001,маслонасос рабочий,M3,неисправность,2019-08-21 19:32:00,NaT,
198,CH-AGP-AG2/011-005,эксгаустер 9,CH-AGP-AG2/011-005-001-003,подшипник опорно-упорный,M3,утечка масла,2019-08-21 19:40:37,NaT,
...,...,...,...,...,...,...,...,...,...
972,AA2/002-006,эксгаустер 5,AA2/002-006-003-003,задвижка,M3,Деформация кожуха,2021-12-21 13:32:00,NaT,
973,AA2/001-006,эксгаустер 4,AA2/001-006-003-003,задвижка,M3,Неисправны датчики.,2021-12-21 14:34:35,NaT,
977,AA2/005-006,эксгаустер 8,AA2/005-006-003-002,редуктор газ. задвижки,M3,Смазка редуктора.,2021-12-28 09:23:00,NaT,
978,AA2/003-006,эксгаустер 6,AA2/003-006-001-001,корпус,M3,Прососы,2021-12-28 12:23:00,NaT,


In [299]:
print("Уникальных описаний поломок среди всех поломок:", f"{df_meta[DESCRIPTION_COL].nunique()}/{len(df_meta)}")

Уникальных описаний поломок среди всех поломок: 555/981


# 3. EDA