# РАЗДЕЛ 3. Конструирование признаков

In [30]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from matplotlib.cbook import boxplot_stats
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression, Ridge, Lasso, ElasticNet, SGDRegressor, BayesianRidge
from sklearn.metrics import mean_absolute_error, r2_score
from sklearn.preprocessing import MinMaxScaler, StandardScaler, LabelEncoder
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.ensemble import AdaBoostRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.tree import DecisionTreeRegressor
from tensorflow.keras import Sequential
from tensorflow.keras.layers import Dense
%matplotlib inline 
sns.set(style="ticks")

Попробуем изменить качество и количество признаков и оценить их влияние на точность модели LinearRegression
1. Удалим из dataset выбросы
2. Переведем в категориальный признак "Угол нашивки, град"
3. Сократим количество признаков, оказывающих наименьшее влияние на модель.

In [3]:
# Подготовка данных для обучения
path_1 = r'./Data/X.xlsx'
X = pd.read_excel(path_1,index_col=0)
X.head()

Unnamed: 0,Соотношение матрица-наполнитель,"Плотность, кг/м3","модуль упругости, ГПа","Количество отвердителя, м.%","Содержание эпоксидных групп,%_2","Температура вспышки, С_2","Поверхностная плотность, г/м2","Потребление смолы, г/м2","Угол нашивки, град",Шаг нашивки,Плотность нашивки
0,1.857143,2030.0,738.736842,30.0,22.267857,100.0,210.0,220.0,0,4.0,57.0
1,1.857143,2030.0,738.736842,50.0,23.75,284.615385,210.0,220.0,0,4.0,60.0
2,1.857143,2030.0,738.736842,49.9,33.0,284.615385,210.0,220.0,0,4.0,70.0
3,1.857143,2030.0,738.736842,129.0,21.25,300.0,210.0,220.0,0,5.0,47.0
4,2.771331,2030.0,753.0,111.86,22.267857,284.615385,210.0,220.0,0,5.0,57.0


In [4]:
path_2 = r'./Data/y.xlsx'
y = pd.read_excel(path_2,index_col=0)
y.head()

Unnamed: 0,"Модуль упругости при растяжении, ГПа","Прочность при растяжении, МПа"
0,70.0,3000.0
1,70.0,3000.0
2,70.0,3000.0
3,70.0,3000.0
4,70.0,3000.0


In [62]:
# удаление аномалий

X_clear = X.copy()
X_clear = X_clear.join(y,how='inner')
print(X_clear.shape)
for name in X_clear.columns:
    outlier = boxplot_stats(X_clear[name])
    High = outlier[0]['whishi']
    Low =  outlier[0]['whislo']
    print ('Количество выбросов в столбце ', name, ': ', len(outlier[0]['fliers']))
    X_clear = X_clear[~((X_clear[name] < Low) | (X_clear[name] > High))]
print(X_clear.shape)  
y_clear = X_clear[['Модуль упругости при растяжении, ГПа', 'Прочность при растяжении, МПа']]
X_clear = X_clear.drop(columns=['Модуль упругости при растяжении, ГПа', 'Прочность при растяжении, МПа'], axis=1)

(1023, 13)
Количество выбросов в столбце  Соотношение матрица-наполнитель :  6
Количество выбросов в столбце  Плотность, кг/м3 :  9
Количество выбросов в столбце  модуль упругости, ГПа :  2
Количество выбросов в столбце  Количество отвердителя, м.% :  14
Количество выбросов в столбце  Содержание эпоксидных групп,%_2 :  2
Количество выбросов в столбце  Температура вспышки, С_2 :  6
Количество выбросов в столбце  Поверхностная плотность, г/м2 :  2
Количество выбросов в столбце  Потребление смолы, г/м2 :  5
Количество выбросов в столбце  Угол нашивки, град :  0
Количество выбросов в столбце  Шаг нашивки :  4
Количество выбросов в столбце  Плотность нашивки :  21
Количество выбросов в столбце  Модуль упругости при растяжении, ГПа :  6
Количество выбросов в столбце  Прочность при растяжении, МПа :  13
(933, 13)


In [63]:
X_train_Cl, X_test_Cl, y_train_Cl, y_test_Cl = train_test_split(X_clear,y_clear, test_size=0.2, random_state=42, shuffle=True)

In [66]:
modelLasso = Lasso(alpha=0.5)
modelLasso.fit(X_train_Cl,y_train_Cl.iloc[:,0])
y_pred = modelLasso.predict(X_test_Cl)
MAELasso_1 = mean_absolute_error(y_test_Cl.iloc[:,0],y_pred)
#MAELasso_2 = mean_absolute_error(y_test.iloc[:,1],y_pred[:,1])
print (MAELasso_1)
#print (MAELasso_2)

2.5316335387451


In [11]:
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.2, random_state=42, shuffle=True)

In [16]:
modelLasso = Lasso(alpha=0.1)
modelLasso.fit(X_train,y_train.iloc[:,0])
y_pred = modelLasso.predict(X_test)
MAELasso_1 = mean_absolute_error(y_test.iloc[:,0],y_pred)
#MAELasso_2 = mean_absolute_error(y_test.iloc[:,1],y_pred[:,1])
print (MAELasso_1)
#print (MAELasso_2)

2.4525905054397974


In [17]:
i=0
print('Коэффициенты линейной регрессии:')
for name in X.columns:
    print (name, ': ',modelLasso.coef_[i])
    i+=1


Коэффициенты линейной регрессии:
Соотношение матрица-наполнитель :  -0.0
Плотность, кг/м3 :  -2.974588831180432e-05
модуль упругости, ГПа :  0.00016930636133857818
Количество отвердителя, м.% :  -0.009264077328852023
Содержание эпоксидных групп,%_2 :  0.05292516131827831
Температура вспышки, С_2 :  0.003634586155642412
Поверхностная плотность, г/м2 :  0.0004180388369372239
Потребление смолы, г/м2 :  0.002419344917796023
Угол нашивки, град :  0.0004006887943768163
Шаг нашивки :  -0.03522664129469981
Плотность нашивки :  0.003009415216398519


In [44]:
X_1 = X[['Количество отвердителя, м.%',
       'Содержание эпоксидных групп,%_2', 'Температура вспышки, С_2',
        'Потребление смолы, г/м2',
        'Шаг нашивки', 'Плотность нашивки']].values

In [45]:
X_train_1, X_test_1, y_train_1, y_test_1 = train_test_split(X_1,y, test_size=0.2, random_state=42, shuffle=True)

In [46]:
modelLasso = Lasso(alpha=0.15)
modelLasso.fit(X_train_1,y_train_1.iloc[:,0])
y_pred = modelLasso.predict(X_test_1)
MAELasso_1 = mean_absolute_error(y_test_1.iloc[:,0],y_pred)
#MAELasso_2 = mean_absolute_error(y_test.iloc[:,1],y_pred[:,1])
print (MAELasso_1)
#print (MAELasso_2)

2.4579633257646627


In [39]:
le = LabelEncoder()
X_2 = X.copy()

X_2['Угол нашивки, град'] = le.fit_transform(X_2['Угол нашивки, град'])
X_2.head()

Unnamed: 0,Соотношение матрица-наполнитель,"Плотность, кг/м3","модуль упругости, ГПа","Количество отвердителя, м.%","Содержание эпоксидных групп,%_2","Температура вспышки, С_2","Поверхностная плотность, г/м2","Потребление смолы, г/м2","Угол нашивки, град",Шаг нашивки,Плотность нашивки
0,1.857143,2030.0,738.736842,30.0,22.267857,100.0,210.0,220.0,0,4.0,57.0
1,1.857143,2030.0,738.736842,50.0,23.75,284.615385,210.0,220.0,0,4.0,60.0
2,1.857143,2030.0,738.736842,49.9,33.0,284.615385,210.0,220.0,0,4.0,70.0
3,1.857143,2030.0,738.736842,129.0,21.25,300.0,210.0,220.0,0,5.0,47.0
4,2.771331,2030.0,753.0,111.86,22.267857,284.615385,210.0,220.0,0,5.0,57.0


In [41]:
X_train_2, X_test_2, y_train_2, y_test_2 = train_test_split(X_2,y, test_size=0.2, random_state=42, shuffle=True)

In [43]:
modelLasso = Lasso(alpha=0.1)
modelLasso.fit(X_train_2,y_train_2.iloc[:,0])
y_pred = modelLasso.predict(X_test_2)
MAELasso_1 = mean_absolute_error(y_test_2.iloc[:,0],y_pred)
#MAELasso_2 = mean_absolute_error(y_test.iloc[:,1],y_pred[:,1])
print (MAELasso_1)
#print (MAELasso_2)

2.4533628633088638
