In [20]:
import pandas as pd
import numpy as np
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import FunctionTransformer
from sklearn.compose import ColumnTransformer

In [5]:
df = pd.read_csv('X_data.csv', sep=';', index_col='Unnamed: 0')
df.head()

Unnamed: 0,T_data_1_1,T_data_1_2,T_data_1_3,T_data_2_1,T_data_2_2,T_data_2_3,T_data_3_1,T_data_3_2,T_data_3_3,T_data_4_1,T_data_4_2,T_data_4_3,T_data_5_1,T_data_5_2,T_data_5_3,H_data,AH_data
2015-01-01 00:00:00,212,210,211,347,353,347,474,473,481,346,348,355,241,241,243,167.85,9.22
2015-01-01 00:01:00,212,211,211,346,352,346,475,473,481,349,348,355,241,241,243,162.51,9.22
2015-01-01 00:02:00,212,211,211,345,352,346,476,473,481,352,349,355,242,241,242,164.99,9.22
2015-01-01 00:03:00,213,211,211,344,351,346,477,473,481,355,349,355,242,241,242,167.34,9.22
2015-01-01 00:04:00,213,211,211,343,350,346,478,473,482,358,349,355,243,241,242,163.04,9.22


## Знакомство с данными
### 1. Интегральные статистики и оценка пропусков

In [6]:
df.describe()

Unnamed: 0,T_data_1_1,T_data_1_2,T_data_1_3,T_data_2_1,T_data_2_2,T_data_2_3,T_data_3_1,T_data_3_2,T_data_3_3,T_data_4_1,T_data_4_2,T_data_4_3,T_data_5_1,T_data_5_2,T_data_5_3,H_data,AH_data
count,2103841.0,2103841.0,2103841.0,2103841.0,2103841.0,2103841.0,2103841.0,2103841.0,2103841.0,2103841.0,2103841.0,2103841.0,2103841.0,2103841.0,2103841.0,2103841.0,2103841.0
mean,250.1822,250.0915,250.2536,349.7756,349.7218,349.8282,501.1611,501.1092,501.2335,349.3196,349.439,350.0299,249.7488,249.6311,249.6937,174.717,7.499369
std,32.11661,30.82451,30.69125,42.25961,40.67887,37.98444,63.25732,63.37164,62.23294,39.30562,39.19989,40.1836,30.73298,30.50021,30.74629,14.43613,1.148026
min,-198.0,-122.0,-107.0,-703.0,-958.0,-191.0,-775.0,-759.0,-613.0,-514.0,-471.0,-609.0,-89.0,-125.0,-163.0,141.49,2.89
25%,229.0,229.0,229.0,328.0,328.0,328.0,464.0,464.0,464.0,327.0,328.0,328.0,229.0,229.0,229.0,162.44,6.73
50%,250.0,250.0,250.0,350.0,350.0,350.0,502.0,502.0,502.0,349.0,350.0,350.0,249.0,250.0,250.0,174.4,7.51
75%,272.0,272.0,272.0,372.0,372.0,372.0,538.0,538.0,539.0,372.0,372.0,372.0,270.0,271.0,271.0,187.01,8.27
max,724.0,762.0,665.0,1302.0,1179.0,889.0,1587.0,2505.0,1319.0,1177.0,1244.0,944.0,905.0,738.0,624.0,207.83,11.84


#### Как подсказывает средняя температура по камерам, тех.процесс заключается в постепенном прогреве керамического сырья до 3 камеры, и такое же постепенное остывание до 5 камеры. 


In [10]:
# Метод df.info() не дает почему-то количества заполенных значений. 
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2103841 entries, 2015-01-01 00:00:00 to 2019-01-01 00:00:00
Data columns (total 17 columns):
T_data_1_1    int64
T_data_1_2    int64
T_data_1_3    int64
T_data_2_1    int64
T_data_2_2    int64
T_data_2_3    int64
T_data_3_1    int64
T_data_3_2    int64
T_data_3_3    int64
T_data_4_1    int64
T_data_4_2    int64
T_data_4_3    int64
T_data_5_1    int64
T_data_5_2    int64
T_data_5_3    int64
H_data        float64
AH_data       float64
dtypes: float64(2), int64(15)
memory usage: 288.9+ MB


In [8]:
df.shape

(2103841, 17)

In [9]:
# низкоуровневый способ подсчитать пропуски. 
df.isna().sum()

T_data_1_1    0
T_data_1_2    0
T_data_1_3    0
T_data_2_1    0
T_data_2_2    0
T_data_2_3    0
T_data_3_1    0
T_data_3_2    0
T_data_3_3    0
T_data_4_1    0
T_data_4_2    0
T_data_4_3    0
T_data_5_1    0
T_data_5_2    0
T_data_5_3    0
H_data        0
AH_data       0
dtype: int64

### 2. Проверка значений переменных
#### 2.1. Первая камера

In [26]:
pd.options.display.max_rows = 200
# Посмотрим температуры датчиков первой камеры
for col in df.columns[:3]:
    print('\n',df[col].value_counts(dropna=False))
    print('\n',df[col].describe())


  247    26673
 246    26164
 255    26055
 256    26018
 248    25851
        ...  
-113        1
-118        1
-123        1
-127        1
 701        1
Name: T_data_1_1, Length: 894, dtype: int64

 count    2.103841e+06
mean     2.501822e+02
std      3.211661e+01
min     -1.980000e+02
25%      2.290000e+02
50%      2.500000e+02
75%      2.720000e+02
max      7.240000e+02
Name: T_data_1_1, dtype: float64

 254    25981
253    25926
251    25895
255    25868
256    25798
       ...  
719        1
720        1
722        1
723        1
671        1
Name: T_data_1_2, Length: 780, dtype: int64

 count    2.103841e+06
mean     2.500915e+02
std      3.082451e+01
min     -1.220000e+02
25%      2.290000e+02
50%      2.500000e+02
75%      2.720000e+02
max      7.620000e+02
Name: T_data_1_2, dtype: float64

 247    26089
254    26051
258    26029
249    26028
241    25929
       ...  
628        1
630        1
631        1
633        1
622        1
Name: T_data_1_3, Length: 715, dtype: int64


В первой камере исходя из средних значений датчиков и по тех.процессу обжига керамики температура должна колебаться вокруг 250 градусов (цельсия). Превышения или недобор этой температуры приведут к ухудшению выходных показателей продукции.  
Допустимы нештатные температуры камеры, которые и необходимо предотвращать или учитывать при прогнозе, однако нужно исключить из модели нефизичные данные - как отрицательные морозные температуры ниже Абсолютного нуля, так и сверхвысокие за пределами возможностей конструктива камеры. 

P.S. Заметим симметричность тех.процесса, остывание продукции происходит в той же последовательности и тех же условиях, что и нагрев. Следовательно обработка данных 1 и 5 камер одинакова.

In [65]:
# Напишем функцию обработки данных датчиков первой-пятой камер. 
def first_fifth_chamber(series):
    
    #Отсечем температуры ниже температуры помещения и выше конструктива (по мнению автора) камеры. 
    series = np.where(series<25, 25, series)
    series = np.where(series>500, 500, series)
    return series

# Список колонок, к которым будет применяться эта функция. 
first_fifth_chamber_sensors = ['T_data_1_1', 'T_data_1_2', 'T_data_1_3', 'T_data_5_1', 'T_data_5_2', 'T_data_5_3']

# Тут же подготовим конвейер для обработки датчиков первой-пятой камеры
first_fifth_chamber_pipe = Pipeline([('cut15', FunctionTransformer(first_fifth_chamber))])

#### 2.2. Вторая камера

In [25]:
pd.options.display.max_rows = 200
# Посмотрим температуры датчиков первой камеры
for col in df.columns[3:6]:
    print('\n',df[col].value_counts(dropna=False))
    print('\n',df[col].describe())

 346     26400
 349     26289
 345     26223
 348     26215
 347     26116
         ...  
-583         1
-584         1
-233         1
-597         1
 1116        1
Name: T_data_2_1, Length: 1585, dtype: int64
count    2.103841e+06
mean     3.497756e+02
std      4.225961e+01
min     -7.030000e+02
25%      3.280000e+02
50%      3.500000e+02
75%      3.720000e+02
max      1.302000e+03
Name: T_data_2_1, dtype: float64
 345    26272
 341    25711
 346    25700
 343    25540
 340    25446
        ...  
-703        1
-701        1
-700        1
-699        1
-743        1
Name: T_data_2_2, Length: 1537, dtype: int64
count    2.103841e+06
mean     3.497218e+02
std      4.067887e+01
min     -9.580000e+02
25%      3.280000e+02
50%      3.500000e+02
75%      3.720000e+02
max      1.179000e+03
Name: T_data_2_2, dtype: float64
 345    26096
 350    26031
 343    26011
 342    25908
 353    25668
        ...  
 881        1
 880        1
-104        1
 745        1
-141        1
Name: T_data_2_3, L

Для второй камеры проведем аналогичные преобразования, с учетом характерной для второго этапа обжига температуры в 350 градусов Цельсия. Обработка второй камеры будет годиться и для четвертой - имеющей те же номинальные значения. 

In [28]:
# Напишем функцию обработки данных датчиков второй-четвертой камер. 
def second_forth_chamber(series):
    
    #Отсечем температуры ниже температуры помещения и выше конструктива (по мнению автора) камеры. 
    series = np.where(series<250, 250, series)
    series = np.where(series>700, 700, series)
    return series

# Список колонок, к которым будет применяться эта функция. 
second_forth_chamber_sensors = ['T_data_2_1', 'T_data_2_2', 'T_data_2_3', 'T_data_4_1', 'T_data_4_2', 'T_data_4_3']

# Тут же подготовим конвейер для обработки датчиков второй-четвертой камер
second_forth_chamber_pipe = Pipeline([('cut24', FunctionTransformer(second_forth_chamber))])

#### 2.3 Третья камера

In [29]:
pd.options.display.max_rows = 200
# Посмотрим температуры датчиков первой камеры
for col in df.columns[6:9]:
    print('\n',df[col].value_counts(dropna=False))
    print('\n',df[col].describe())


  516     15908
 497     15400
 515     15305
 511     15275
 517     15202
         ...  
-540         1
-542         1
 1505        1
-546         1
-556         1
Name: T_data_3_1, Length: 1992, dtype: int64

 count    2.103841e+06
mean     5.011611e+02
std      6.325732e+01
min     -7.750000e+02
25%      4.640000e+02
50%      5.020000e+02
75%      5.380000e+02
max      1.587000e+03
Name: T_data_3_1, dtype: float64

  507    15411
 515    15363
 514    15337
 509    15328
 508    15224
        ...  
-398        1
-397        1
-394        1
-700        1
-488        1
Name: T_data_3_2, Length: 1966, dtype: int64

 count    2.103841e+06
mean     5.011092e+02
std      6.337164e+01
min     -7.590000e+02
25%      4.640000e+02
50%      5.020000e+02
75%      5.380000e+02
max      2.505000e+03
Name: T_data_3_2, dtype: float64

  498    15393
 506    15374
 505    15294
 495    15215
 499    15203
        ...  
-166        1
-451        1
-452        1
-462        1
-422        1
Name: T_d

In [31]:
# Напишем функцию обработки данных датчиков третьей камеры. 
def third_chamber(series):
    
    #Отсечем температуры ниже температуры помещения и выше конструктива (по мнению автора) камеры. 
    series = np.where(series<400, 400, series)
    series = np.where(series>1000, 1000, series)
    return series

# Список колонок, к которым будет применяться эта функция. 
third_chamber_sensors = ['T_data_3_1', 'T_data_3_2', 'T_data_3_3']

# Тут же подготовим конвейер для обработки датчиков третей камеры
third_chamber_pipe = Pipeline([('cut3', FunctionTransformer(third_chamber))])

#### 2.4 Высота слоя, влажность слоя

In [36]:
pd.options.display.max_rows = 200
# Посмотрим температуры датчиков первой камеры
for col in df.columns[15:17]:
    print('\n',df[col].value_counts(dropna=False))
    print('\n',df[col].describe())


 160.97    534
161.12    512
160.35    505
167.38    504
163.23    503
         ... 
144.47      1
143.69      1
144.52      1
205.45      1
143.76      1
Name: H_data, Length: 6187, dtype: int64

 count    2.103841e+06
mean     1.747170e+02
std      1.443613e+01
min      1.414900e+02
25%      1.624400e+02
50%      1.744000e+02
75%      1.870100e+02
max      2.078300e+02
Name: H_data, dtype: float64

 7.43     8280
7.98     8220
7.73     8220
7.58     8220
7.75     8100
         ... 
4.09       60
11.00      60
4.16       60
11.25      60
10.81      60
Name: AH_data, Length: 826, dtype: int64

 count    2.103841e+06
mean     7.499369e+00
std      1.148026e+00
min      2.890000e+00
25%      6.730000e+00
50%      7.510000e+00
75%      8.270000e+00
max      1.184000e+01
Name: AH_data, dtype: float64


Ни влажность ни высота слоя не имеют подозрительных значений

### 3. Загрузка меток

In [63]:
train_target = pd.read_csv('Y_train.csv', sep=';',names=['Time','target'], index_col='Time')
train_target.head()
train_target.iloc[:,0].value_counts()

421    267
445    261
425    257
414    257
435    255
      ... 
261      1
229      1
228      1
499      1
232      1
Name: target, Length: 264, dtype: int64

In [44]:
train_target.shape

(29184, 1)

Заметим, что общучающих меток значительно меньше имеющихся данных. Сделаем сводную таблицу обучающей выборки.

In [50]:
train_df = pd.concat([df, train_target],axis=1, join='inner')

In [52]:
train_df.head()

Unnamed: 0,T_data_1_1,T_data_1_2,T_data_1_3,T_data_2_1,T_data_2_2,T_data_2_3,T_data_3_1,T_data_3_2,T_data_3_3,T_data_4_1,T_data_4_2,T_data_4_3,T_data_5_1,T_data_5_2,T_data_5_3,H_data,AH_data,target
2015-01-04 00:05:00,277,326,273,322,335,352,505,501,670,326,379,337,231,236,242,153.77,7.9,392
2015-01-04 01:05:00,277,253,272,320,333,355,500,501,687,337,396,335,234,242,230,158.27,6.96,384
2015-01-04 02:05:00,262,218,260,326,336,330,505,499,443,347,399,332,243,251,240,153.36,7.29,393
2015-01-04 03:05:00,243,238,252,327,329,308,520,498,540,342,387,334,257,258,246,153.21,7.11,399
2015-01-04 04:05:00,236,238,245,323,320,318,522,501,524,343,371,344,264,263,265,195.71,7.97,400


### 4. Загрузка тестовых меток
Сразу загрузим и подготовим тестовые данные

In [62]:
test_target = pd.read_csv('Y_submit.csv', sep=';',names=['Time','target'], index_col='Time')
test_target.head()
test_target.iloc[:,0].value_counts()

420    5808
Name: target, dtype: int64

In [64]:
test_df = pd.concat([df, test_target],axis=1, join='inner')
test_df.head(2)

Unnamed: 0,T_data_1_1,T_data_1_2,T_data_1_3,T_data_2_1,T_data_2_2,T_data_2_3,T_data_3_1,T_data_3_2,T_data_3_3,T_data_4_1,T_data_4_2,T_data_4_3,T_data_5_1,T_data_5_2,T_data_5_3,H_data,AH_data,target
2018-05-04 00:05:00,258,261,256,347,337,352,474,434,443,336,321,516,248,247,236,154.93,6.81,420
2018-05-04 01:05:00,255,263,258,351,-162,359,460,441,454,320,319,341,238,255,236,156.52,7.89,420


### 5. Подготовка итогового конвейера, перекрестная проверка.

In [70]:
from lightgbm import LGBMRegressor
from sklearn.model_selection import cross_val_score

In [69]:
# Список трехэлементных кортежей
transformers = [
    ('15', first_fifth_chamber_pipe, first_fifth_chamber_sensors),
    ('24', second_forth_chamber_pipe, second_forth_chamber_sensors),
    ('3', third_chamber_pipe, third_chamber_sensors)
]

trafo = ColumnTransformer(transformers=transformers)

ml_pipe = Pipeline([('tr',trafo),
                  ('gb',LGBMRegressor(max_depth=-1,
                                     learning_rate=0.1,
                                     n_estimators=100,
                                     subsample_for_bin=200000,
                                     min_child_samples=20,
                                     subsample=1.0,
                                     colsample_bytree=1.0,
                                     reg_alpha=0.0,
                                     reg_lambda=0.0,
                                     random_state=0,
                                     n_jobs=-1))])

In [75]:
abs(cross_val_score(ml_pipe, 
                train_df.drop(columns='target'), 
                train_df['target'], 
                n_jobs=8, 
                cv=3, 
                scoring='neg_mean_absolute_error').mean())

36.47861000855869

### 6. Поиск по сетке (естественно, байесовский)

In [76]:
from skopt import BayesSearchCV
from skopt.space import Real, Integer

In [86]:
space_scopt = {
    'gb__learning_rate':Real(0.0001, 0.1, prior='uniform'),
    'gb__n_estimators':Integer(100,5000),
    'gb__subsample_for_bin':Integer(1,2000),
    'gb__min_child_samples':Integer(1,100),
    'gb__subsample':Real(0.1, 1, prior='uniform'),
    'gb__colsample_bytree':Real(0.1, 1, prior='uniform'),
    'gb__reg_alpha':Real(0.0001, 1, prior='uniform'),
    'gb__reg_lambda':Real(0.0001, 1, prior='uniform'),
    'gb__max_depth':Integer(2,10)    
}

In [89]:
opt = BayesSearchCV(ml_pipe, 
                    space_scopt,
                    n_iter=50,
                    random_state=0,
                    cv=5)

In [90]:
opt.fit(train_df.drop(columns='target'),
        train_df['target'])

print(opt.best_params_)
print(opt.best_score_)









































































































{'gb__colsample_bytree': 0.21311233704740634, 'gb__learning_rate': 0.0648134529939236, 'gb__max_depth': 3, 'gb__min_child_samples': 100, 'gb__n_estimators': 100, 'gb__reg_alpha': 0.8595749644164475, 'gb__reg_lambda': 1.0, 'gb__subsample': 0.9058171946193324, 'gb__subsample_for_bin': 1938}
0.08896609887774821




#### Вторая итерация

In [92]:
ml_pipe = Pipeline([('tr',trafo),
                  ('gb',LGBMRegressor(max_depth=3,
                                     learning_rate=0.0648,
                                     n_estimators=100,
                                     subsample_for_bin=1938,
                                     min_child_samples=100,
                                     subsample=0.90,
                                     colsample_bytree=0.20,
                                     reg_alpha=0.85957,
                                     reg_lambda=1.0,
                                     random_state=0,
                                     n_jobs=-1))])

abs(cross_val_score(ml_pipe, 
                train_df.drop(columns='target'), 
                train_df['target'], 
                n_jobs=8, 
                cv=3, 
                scoring='neg_mean_absolute_error').mean())

36.11299895416018

### Конструирование признаков

В контексте задачи важными признаками могут быть не только сами температуры, но и перепады температур, поскольку они влияют и на тепловой поток и на наводку внутренних механических напряжений в материале и на трещинообразование.

In [100]:
train_df['Delta_T_1_2'] = round(np.mean(train_df[['T_data_2_1', 'T_data_2_2', 'T_data_2_3']], axis=1))- \
                          round(np.mean(train_df[['T_data_1_1', 'T_data_1_2', 'T_data_1_3']], axis=1))

train_df['Delta_T_2_3'] = round(np.mean(train_df[['T_data_3_1', 'T_data_3_2', 'T_data_3_3']], axis=1))- \
                          round(np.mean(train_df[['T_data_2_1', 'T_data_2_2', 'T_data_2_3']], axis=1))

train_df['Delta_T_3_4'] = round(np.mean(train_df[['T_data_4_1', 'T_data_4_2', 'T_data_4_3']], axis=1))- \
                          round(np.mean(train_df[['T_data_3_1', 'T_data_3_2', 'T_data_3_3']], axis=1))

train_df['Delta_T_4_5'] = round(np.mean(train_df[['T_data_5_1', 'T_data_5_2', 'T_data_5_3']], axis=1))- \
                          round(np.mean(train_df[['T_data_4_1', 'T_data_4_2', 'T_data_4_3']], axis=1))

train_df.head()

Unnamed: 0,T_data_1_1,T_data_1_2,T_data_1_3,T_data_2_1,T_data_2_2,T_data_2_3,T_data_3_1,T_data_3_2,T_data_3_3,T_data_4_1,...,T_data_5_1,T_data_5_2,T_data_5_3,H_data,AH_data,target,Delta_T_1_2,Delta_T_2_3,Delta_T_3_4,Delta_T_4_5
2015-01-04 00:05:00,277,326,273,322,335,352,505,501,670,326,...,231,236,242,153.77,7.9,392,44.0,223.0,-212.0,-111.0
2015-01-04 01:05:00,277,253,272,320,333,355,500,501,687,337,...,234,242,230,158.27,6.96,384,69.0,227.0,-207.0,-121.0
2015-01-04 02:05:00,262,218,260,326,336,330,505,499,443,347,...,243,251,240,153.36,7.29,393,84.0,151.0,-123.0,-114.0
2015-01-04 03:05:00,243,238,252,327,329,308,520,498,540,342,...,257,258,246,153.21,7.11,399,77.0,198.0,-165.0,-100.0
2015-01-04 04:05:00,236,238,245,323,320,318,522,501,524,343,...,264,263,265,195.71,7.97,400,80.0,196.0,-163.0,-89.0


In [122]:
test_df['Delta_T_1_2'] = round(np.mean(test_df[['T_data_2_1', 'T_data_2_2', 'T_data_2_3']], axis=1))- \
                          round(np.mean(test_df[['T_data_1_1', 'T_data_1_2', 'T_data_1_3']], axis=1))

test_df['Delta_T_2_3'] = round(np.mean(test_df[['T_data_3_1', 'T_data_3_2', 'T_data_3_3']], axis=1))- \
                          round(np.mean(test_df[['T_data_2_1', 'T_data_2_2', 'T_data_2_3']], axis=1))

test_df['Delta_T_3_4'] = round(np.mean(test_df[['T_data_4_1', 'T_data_4_2', 'T_data_4_3']], axis=1))- \
                          round(np.mean(test_df[['T_data_3_1', 'T_data_3_2', 'T_data_3_3']], axis=1))

test_df['Delta_T_4_5'] = round(np.mean(test_df[['T_data_5_1', 'T_data_5_2', 'T_data_5_3']], axis=1))- \
                          round(np.mean(test_df[['T_data_4_1', 'T_data_4_2', 'T_data_4_3']], axis=1))

In [124]:
ml_pipe = Pipeline([('tr',trafo),
                  ('gb',LGBMRegressor(max_depth=3,
                                     learning_rate=0.005,
                                     n_estimators=1000,
                                     subsample_for_bin=1938,
                                     min_child_samples=100,
                                     subsample=0.90,
                                     colsample_bytree=0.20,
                                     reg_alpha=0.85957,
                                     reg_lambda=1.0,
                                     random_state=0,
                                     n_jobs=-1))])

abs(cross_val_score(ml_pipe, 
                train_df.drop(columns='target'), 
                train_df['target'], 
                n_jobs=8, 
                cv=3, 
                scoring='neg_mean_absolute_error').mean())

36.10444645055748

### 7. Тест

In [125]:
from sklearn.metrics import mean_absolute_error

In [126]:
ml_pipe.fit(train_df.drop(columns='target'),train_df['target'])
preds = ml_pipe.predict(test_df.drop(columns='target'))

mean_absolute_error(test_df['target'],preds)
                        



18.459410523038112