Выпускная квалификационная работа по курсу «Data Science». Тема: Прогнозирование конечных свойств новых материалов (композиционных материалов).

In [None]:
# импорт неободимых библиотек
import numpy as np
import pandas as pd
import pandas_profiling
import matplotlib.pyplot as plt
import tensorflow as tf
import seaborn as sns
import matplotlib
%matplotlib inline 
matplotlib.style.use('seaborn-talk')

from scipy import stats
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.neighbors import KNeighborsRegressor
from tensorflow import keras
from tensorflow.keras import Sequential
from tensorflow.keras.layers import Dense, BatchNormalization

In [None]:
# загрузка первого датасета (базальтопластик)
df_bp = pd.read_excel('data/X_bp.xlsx')

In [None]:
# просмотр данных,содержащихся в датасете
df_bp.sample(5)

In [None]:
# размерность датасета
df_bp.shape

In [None]:
# удалю столбец "Unnamed: 0", т.к. он не несет в себе данных, необходимых для дальнейшего исследования
df_bp.drop(['Unnamed: 0'], axis=1, inplace=True)

In [None]:
# загрузка второго датасета (углепластик)
df_up = pd.read_excel('data/X_nup.xlsx')

In [None]:
df_up.sample(5)

In [None]:
# размерность датасета
df_up.shape

In [None]:
df_up.drop(['Unnamed: 0'], axis=1, inplace=True)

In [None]:
# объединю по индексу два датасета, тип объединения INNER
df = df_bp.merge(df_up, left_index=True, right_index=True, how='inner')
df.head()

Разведочный анализ:

In [None]:
# сделаю визуальную оценку данных и проведу разведочный анализ
df

In [None]:
df.info()

In [None]:
# из таблицы с информацией о датасете видно, что в наборе данных отстуствует строковый тип данных, нет пропусков, отсутствуют значения NaN.
# дополнительные операции по очистке данных не требуются

In [None]:
df.profile_report()

In [None]:
# отчет показывает множество характеристик, в том числе среднее и медиалнное значение,  а так же гистограммы распределений.В датасете отсутствуют дубликаты.  
# по гистограммам видно, что данные стремятся к нормальному распределению, кроме признака "Угол нашивки", где данные имеют всего два значения. 

In [None]:
df.columns

In [None]:
df.corr()

In [None]:
corr=df.corr()
plt.figure(figsize=(10,7))
sns.heatmap(corr,annot=True, fmt='.1g',  cmap= 'viridis')
plt.title('Correlation Matrix')
plt.show()

In [None]:
# дополню анализ диаграммами ящика с усами, чтобы оценить наличие выбросов
fig=plt.figure(figsize=(35,35))
for i, col in enumerate(df.columns):
    ax=fig.add_subplot(4, 4, i+1)
    sns.boxplot(data=df, y=df[col], fliersize=15, linewidth=5)
plt.title(col, size = 20)
plt.show()

In [None]:
# наличие выбросов прослеживается во всех признаках,кроме "Угол нашивки,град"

In [None]:
# строю попарные графики рассеяния точек
sns.pairplot(df)

In [None]:
# на графиках так же явно видны выбросы, точки, которые удалены от наибольшего скопления значений.
# линейная зависимость между признаками не прослеживается

Предобработка данных:

In [None]:
# так как все признаки , кроме "Угол нашивки" имеют распределение , близкое к нормальному, то для определения выбросов воспользуюсь методом трех сигм:
count_3S = 0
for column in df:
  d = df.loc[:, [column]]
  zscore = (df[column] - df[column].mean()) / df[column].std()
  d['3S'] = zscore.abs() > 3
  count_3S += d['3S'].sum()
print('Количество выбросов методом трех сигм:', count_3S)

In [None]:
#удаление выбросов:
df_clean = df[(np.abs(stats.zscore(df)) <= 3).all(axis = 1)]

In [None]:
df_clean.shape

In [None]:
#повторно проверю выбросы 
count_3S = 0
for column in df_clean:
  d = df_clean.loc[:, [column]]
  zscore = (df_clean[column] - df_clean[column].mean()) / df_clean[column].std()
  d['3S'] = zscore.abs() > 3
  count_3S += d['3S'].sum()
print('Количество выбросов методом трех сигм:', count_3S)

In [None]:
#удаление выбросов:
df_clean = df_clean[(np.abs(stats.zscore(df_clean)) <= 3).all(axis = 1)]

In [None]:
#повторно проверю выбросы 
count_3S = 0
for column in df_clean:
  d = df_clean.loc[:, [column]]
  zscore = (df_clean[column] - df_clean[column].mean()) / df_clean[column].std()
  d['3S'] = zscore.abs() > 3
  count_3S += d['3S'].sum()
print('Количество выбросов методом трех сигм:', count_3S)

In [None]:
df_clean.iplot()

In [None]:
#график показывает, что данные имеют широкий диапазон значению, поэтому необходимо сделать нормализацию данных.
# выполню нормализацию при помощи MinMaxScaler

In [None]:
Mmsclr = MinMaxScaler()
df_norm = pd.DataFrame(Mmsclr.fit_transform(df_clean), columns = df_clean.columns, index = df_clean.index)

In [None]:
df_norm.iplot()

In [None]:
# после применения MinMaxScaler все значения теперь расположены в диапозоне от 0 до 1

In [None]:
fig, ax = plt.subplots(figsize=(12,6))
df_norm.plot(kind = 'kde', ax = ax)

In [None]:
# на графике видно, что все данные нормально распределены, кроме признака "поверхностная плотность, г/м2" - он смещен влево и "угол нашивки, град" это категориальный признак, т.к. имеет всего 2 уникадьных значения

In [None]:
# описательная статистика для очищенных и нормальзованных данных

In [None]:
df_norm.profile_report()

In [None]:
sns.pairplot(df_norm, height=4, diag_kind='kde', corner = True);

In [None]:
#на обработанных данных линейная зависимость между переменными также не прослеживается

Обучение моделей

In [None]:
df_norm.columns

1. Модель для прогноза модуля упругости при растяжении

In [None]:
X = df_norm.drop('Модуль упругости при растяжении, ГПа', axis = 1)
y = df_norm['Модуль упругости при растяжении, ГПа']

In [None]:
# делю данные на обучающую и тестовую выборку, 70% и 30% 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 1)
print(f'Количество записей в обучающей выборке: {X_train.shape[0]}')
print(f'Количество записей в тестовой выборке: {X_test.shape[0]}')

In [None]:
# функция для применения поиска гиперпараметров модели с помощью поиска по сетке с перекрестной проверкой (GridSearchCV)
# функция для вывода результатов работы модели

In [None]:
def GridSCV(model, params, X_train, y_train):
  GSCV = GridSearchCV(model, params, n_jobs=-1, cv=10)  
  GSCV.fit(X_train, y_train)
  GSCV.best_params_
  print(f'Лучший параметр для {model}:')
  print(GSCV.best_params_)
  return GSCV

def ErrCouner(model, GSCV, X_test, y_test, column):
  best_estimator = GSCV.best_estimator_
  result = pd.DataFrame({
     'Model': f'{model}', 
     'MAE': mean_absolute_error(y_test, best_estimator.predict(X_test)), 
     'MSE': mean_squared_error(y_test, best_estimator.predict(X_test)), 
     'R2 score': best_estimator.score(X_test, y_test)
  }, index=[column])
  print(result)
  return result

In [None]:
# модель линейной регрессии

LRmodel = LinearRegression()
params = { 'fit_intercept' : ['True', 'False']}

In [None]:
%%time
GSCV = GridSCV(LRmodel, params, X_train, y_train.values.ravel())
LRbest = GSCV.fit(X_train, y_train)
ErrCouner(LRmodel, GSCV, X_test, y_test, 'Модуль упругости при растяжении')

In [None]:
# такие показатели говорят о том, что модель плохо работает 

In [None]:
# модель "случайный лес"

RFmodel = RandomForestRegressor(random_state = 42)
params = {
   'n_estimators': [20, 40, 60],
   'max_features': ['auto', 'sqrt', 'log2'],
   'max_depth' : [3,4,5,6]
}

In [None]:
%%time
GSCV = GridSCV(RFmodel, params, X_train, y_train.values.ravel())
RF_best = GSCV.fit(X_train, y_train)
ErrCouner(RFmodel, GSCV, X_test, y_test, 'Модуль упругости при растяжении')

In [None]:
# такие показатели говорят о том, что модель плохо работает 

In [None]:
# модель "Градиентный бустинг" 

GBmodel = GradientBoostingRegressor()
params = {
    'learning_rate': np.arange(0.001, 0.1, 0.003),
    'max_depth': np.arange(1, 12, 2),
    'max_features':['log2','sqrt'],    
          }

In [None]:
%%time
GSCV = GridSCV(GBmodel, params, X_train, y_train.values.ravel())
GB_best = GSCV.fit(X_train, y_train)
ErrCouner(GBmodel, GSCV, X_test, y_test, 'Модуль упругости при растяжении')

In [None]:
# ни одна из представленных моделей не дает эффективного результата предсказания

2. Модель для прогноза прочности при растяжении

In [None]:
X = df_norm.drop('Прочность при растяжении, МПа', axis = 1)
y = df_norm['Прочность при растяжении, МПа']

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 1)
print(f'Размер обучающей выборки: {X_train.shape[0]}')
print(f'Размер тестовой выборки: {X_test.shape[0]}')

In [None]:
# модель линейной регрессии

LRmodel = LinearRegression()
params = { 'fit_intercept' : ['True', 'False']}

In [None]:
%%time
GSCV = GridSCV(LRmodel, params, X_train, y_train.values.ravel())
LRbest = GSCV.fit(X_train, y_train)
ErrCouner(LRmodel, GSCV, X_test, y_test, 'Прочность при растяжении')

In [None]:
# модель "случайный лес"

RFmodel = RandomForestRegressor(random_state = 42)
params = {
   'n_estimators': [20, 40, 60],
   'max_features': ['auto', 'sqrt', 'log2'],
   'max_depth' : [3,4,5,6]
}

In [None]:
%%time
GSCV = GridSCV(RFmodel, params, X_train, y_train.values.ravel())
RF_best = GSCV.fit(X_train, y_train)
ErrCouner(RFmodel, GSCV, X_test, y_test, 'Прочность при растяжении')

In [None]:
# модель "Градиентный бустинг" 
GBmodel = GradientBoostingRegressor()
params = {
    'learning_rate': np.arange(0.001, 0.1, 0.003),
    'max_depth': np.arange(1, 12, 2),
    'max_features':['log2','sqrt'],    
          }

In [None]:
%%time
GSCV = GridSCV(GBmodel, params, X_train, y_train.values.ravel())
GB_best = GSCV.fit(X_train, y_train)
ErrCouner(GBmodel, GSCV, X_test, y_test, 'Прочность при растяжении')

In [None]:
# отработавшие модели так же не показали положительный результат предсказаний

Нейронная сеть для рекомендации соотношение матрица-наполнитель

In [None]:
# датасет с входными и выходными данными

df_clean = df_clean.reset_index(drop = True)
in_data = df_clean.drop('Соотношение матрица-наполнитель', axis = 1)
out_data = df_clean['Соотношение матрица-наполнитель']

In [None]:
in_data

In [None]:
out_data

In [None]:
# деление датасета на обучающую и тестовую выборки

X_train, X_test, y_train, y_test = train_test_split(in_data, out_data, test_size = 0.2, random_state = 1)
print(f'Размер обучающей выборки: {X_train.shape[0]}')
print(f'Размер тестовой выборки: {X_test.shape[0]}')

In [None]:
normalizer = tf.keras.layers.Normalization(input_shape = [12,], axis = None)
normalizer.adapt(np.array(X_train))

In [None]:
X_train

In [None]:
# создание модели

sqntl_model = Sequential([
                    normalizer,
                    Dense(1024, activation = 'relu'),
                    Dense(1024, activation = 'relu'),
                    Dense(1)
                    ])

sqntl_model.compile(loss = 'mean_squared_error', optimizer = tf.keras.optimizers.Adam(0.0005))

In [None]:
sqntl_model.summary()

In [None]:
# обучение модели

In [None]:
%%time
history = sqntl_model.fit(X_train, y_train, validation_split = 0.2, verbose = 1, epochs = 70)

In [None]:
# график для визуализации ошибки нейросети

def plot_loss(history):
    plt.plot(history.history['loss'], label = 'loss')
    plt.plot(history.history['val_loss'], label = 'val_loss')
    plt.ylim([0, 2])
    plt.xlabel('Эпоха')
    plt.ylabel('MSE [MPG]')
    plt.legend()
    plt.grid(True)

In [None]:
plot_loss(history)

In [None]:
# график рассеяния предстказанных данных нейросетью

import plotly.express as px

result_data = pd.DataFrame()
result_data["Предсказанное значение"] = sqntl_model.predict(np.array((X_test))).reshape(-1, )
result_data["Оригинальное значение"] = y_test.values

fig = px.scatter(result_data, x="Предсказанное значение", y="Оригинальное значение", trendline="ols")