In [15]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

from sklearn.metrics import mean_absolute_percentage_error
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression, Lasso, Ridge
from sklearn.svm import LinearSVR
from sklearn.model_selection import cross_val_score, train_test_split
from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import StackingRegressor
from sklearn.ensemble import RandomForestRegressor

import lightgbm as lgb
from lightgbm import LGBMRegressor

In [2]:
import sklearn
sklearn.show_versions()


System:
    python: 3.8.5 (default, Sep  4 2020, 02:22:02)  [Clang 10.0.0 ]
executable: /Users/metra4ok/anaconda3/bin/python
   machine: macOS-10.15.7-x86_64-i386-64bit

Python dependencies:
          pip: 20.3.3
   setuptools: 52.0.0.post20210125
      sklearn: 0.24.1
        numpy: 1.19.2
        scipy: 1.5.2
       Cython: 0.29.21
       pandas: 1.2.1
   matplotlib: 3.3.2
       joblib: 1.0.0
threadpoolctl: 2.1.0

Built with OpenMP: True


In [3]:
import random

seed = 42
np.random.seed(seed)
random.seed(seed)

# Загрузка датасета

In [4]:
data = pd.read_csv('preprocessed_data.csv', index_col=0)

data.head()

Unnamed: 0,МАРКА_rare,МАРКА_Э76ХФ,МАРКА_Э90ХАФ,ПРОФИЛЬ_rare,ПРОФИЛЬ_Р65,t вып-обр,t обработка,t под током,t продувка,ПСН гр.,...,химшлак первый MnO_1,химшлак первый R_1,химшлак первый SiO2_1,химшлак последний Al2O3,химшлак последний CaO,химшлак последний FeO,химшлак последний MgO,химшлак последний MnO,химшлак последний R,химшлак последний SiO2
0,0,1,0,0,1,29.0,45.366667,24.4,41.033333,3.004414,...,0.12,2.6,22.704914,,53.4,1.0,5.8,0.15,2.6,
1,0,1,0,0,1,26.0,44.066667,13.866667,44.066667,3.004414,...,0.14,2.2,22.704914,,59.3,0.6,4.1,0.11,2.3,
2,0,1,0,0,1,24.0,43.35,17.95,43.35,3.004414,...,0.12,2.6,22.704914,,57.2,0.5,8.1,0.13,2.3,
3,0,1,0,0,1,17.0,46.183333,19.816667,46.183333,3.004414,...,0.11,2.4,22.704914,,60.3,0.5,6.3,0.12,2.6,
4,0,1,0,0,1,20.0,48.5,17.033333,48.5,3.004414,...,0.12,2.4,22.704914,,60.3,0.6,4.5,0.09,2.5,


In [5]:
data.shape

(6237, 72)

In [6]:
target_features = ['химшлак последний Al2O3', 'химшлак последний CaO',
                   'химшлак последний FeO', 'химшлак последний MgO',
                   'химшлак последний MnO', 'химшлак последний R',
                   'химшлак последний SiO2']

Для каждого таргета будем строить свою модель.

**У некоторых таргетов есть пропуски значений - их необходимо удалять**

# химшлак последний CaO

1. Разделение данных

In [7]:
target = 'химшлак последний CaO'
targets_to_drop = ['химшлак последний Al2O3', 'химшлак последний FeO',
                   'химшлак последний MgO', 'химшлак последний MnO',
                   'химшлак последний R', 'химшлак последний SiO2']
cleaned_data = data.drop(targets_to_drop, axis=1)
cleaned_data = cleaned_data.dropna()
X = cleaned_data.drop(target, axis=1)
y = cleaned_data[target]

In [8]:
categorical_features = ['МАРКА_rare', 'МАРКА_Э76ХФ', 'МАРКА_Э90ХАФ',
                        'ПРОФИЛЬ_rare', 'ПРОФИЛЬ_Р65']

numerical_features = ['t вып-обр', 't обработка', 't под током', 't продувка',
       'ПСН гр.', 'чист расход C', 'чист расход Cr', 'чист расход Mn',
       'чист расход Si', 'чист расход V', 'температура первая',
       'температура последняя', 'Ar (интенс.)', 'эл. энергия (интенс.)',
       'произв жидкая сталь', 'расход газ Ar', 'сыпуч известь РП',
       'сыпуч кокс пыль УСТК', 'сыпуч  кокс. мелочь КМ1', 'сыпуч  шпат плав.',
       'ферспл CaC2', 'ферспл  FeV-80', 'ферспл  Mn5Si65Al0.5',
       'ферспл SiMn18', 'ферспл  фх850А', 'эл. энергия',
       'химсталь первый Al_1', 'химсталь первый C_1', 'химсталь первый Cr_1',
       'химсталь первый Cu_1', 'химсталь первый Mn_1', 'химсталь первый Mo_1',
       'химсталь первый N_1', 'химсталь первый Ni_1', 'химсталь первый P_1',
       'химсталь первый S_1', 'химсталь первый Si_1', 'химсталь первый Ti_1',
       'химсталь первый V_1', 'химсталь последний Al', 'химсталь последний C',
       'химсталь последний Ca', 'химсталь последний Cr',
       'химсталь последний Cu', 'химсталь последний Mn',
       'химсталь последний Mo', 'химсталь последний N',
       'химсталь последний Ni', 'химсталь последний P', 'химсталь последний S',
       'химсталь последний Si', 'химсталь последний Ti',
       'химсталь последний V', 'химшлак первый Al2O3_1',
       'химшлак первый CaO_1', 'химшлак первый FeO_1', 'химшлак первый MgO_1',
       'химшлак первый MnO_1', 'химшлак первый R_1', 'химшлак первый SiO2_1']

2. Нормализация

In [9]:
X_categorical = pd.DataFrame(np.array(X[categorical_features]), columns=categorical_features)
X_scaled = pd.DataFrame(StandardScaler().fit_transform(X.drop(categorical_features, axis=1)), 
                        columns=numerical_features)

X = X_categorical.join(X_scaled)

# Baseline

In [13]:
lin_reg_base = LinearRegression()
scores_lin_reg_base = cross_val_score(lin_reg_base, X, y, 
                                      scoring='neg_mean_absolute_percentage_error')
print("Кросс-валидация: {:.2f}%".format(np.abs(scores_lin_reg_base.mean())*100))

Кросс-валидация: 4.82%


In [19]:
sel_ = SelectFromModel(Lasso(alpha=0.005, random_state=seed))
sel_.fit(X, y)

selected_features = X.columns[(sel_.get_support())]

print('Было признаков: {}'.format((X.shape[1])))
print('Отобрано признаков: {}'.format(len(selected_features)))
print('Удалено признаков: {}'.format(np.sum(sel_.estimator_.coef_ == 0)))

X = X[selected_features]

Было признаков: 65
Отобрано признаков: 50
Удалено признаков: 15


In [20]:
lin_reg = LinearRegression()
scores_lin_reg = cross_val_score(lin_reg_base, X, y, 
                                 scoring='neg_mean_absolute_percentage_error')
print("Кросс-валидация: {:.2f}%".format(np.abs(scores_lin_reg_base.mean())*100))

Кросс-валидация: 4.82%


In [21]:
estimators = [('lr', LinearRegression()), 
              ('lgb', LGBMRegressor()),
              ('rf', RandomForestRegressor())]

stacking_reg_Al = StackingRegressor(estimators=estimators)
scores_stacking = cross_val_score(stacking_reg_Al, X, y, 
                                  scoring='neg_mean_absolute_percentage_error')
print("Кросс-валидация: {:.2f}%".format(np.abs(scores_stacking.mean())*100))

Кросс-валидация: 4.77%
