# Итоговое Практическое задание. Дольникова А.А.

Дано задание: "Создать приложение для задачи регрессии (одним или несколькими методами) для предсказания глубины и ширины сварного соединения."

октябрь 2023

### Импорт библиотек

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn import metrics
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import MinMaxScaler, StandardScaler
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor  # регрессор ансамбля "случайного леса" из регающих деревьев и  градиентного бустинга (Gradient Boosting)
from sklearn.tree import DecisionTreeRegressor # регрессор "деревья решений"
from sklearn.neighbors import KNeighborsRegressor #регрессор "K -ближайших соседей"
from sklearn.metrics import accuracy_score # для анализа моделей
import pickle

%matplotlib inline

### Подгружаем датасет

In [2]:
df = pd.read_csv('data/ebw_data.csv')

In [3]:
pd.set_option('display.max_columns',100) # чтобы было видно все столбцы датасета
pd.set_option('display.max_rows',100) # чтобы было видно все строки датасета

In [4]:
df.head() # смотрю первые 5 строк датасета

Unnamed: 0,IW,IF,VW,FP,Depth,Width
0,47,139,4.5,80,1.6,2.54
1,47,139,4.5,80,1.62,2.5
2,47,139,4.5,80,1.68,2.6
3,47,139,4.5,80,1.58,2.52
4,45,140,4.5,80,1.76,2.48


In [None]:
df #смотрю весь датасет

# Собираем датасет

In [5]:
X = df[['IW', 'IF', 'VW', 'FP']].values # входные параметры
y1 = df['Depth'].values
y2 = df['Width'].values# выходные параметры

In [6]:
X.shape, y1.shape, y2.shape

((72, 4), (72,), (72,))

In [7]:
X_train, X_test, y1_train, y1_test = train_test_split(X, y1, test_size=0.3, random_state=0)

In [8]:
X_train, X_test, y2_train, y2_test = train_test_split(X, y2, test_size=0.3, random_state=0)

In [9]:
X_train.shape

(50, 4)

# Метод градиетного бустинга

In [10]:
model_gbr1 = GradientBoostingRegressor()
model_gbr1_params={
    'n_estimators':[100,500],
    'learning_rate': [0.1,0.05,0.02],
    'max_depth':[4],
    'min_samples_leaf':[3],
    'max_features':[1.0]
    } 

In [11]:
# обучение с параметрами по умолчанию
model_gbr1.fit(X_train, y1_train)
y1_gbr1 = model_gbr1.predict(X_test)
# выведем первые пять значений с помощью диапазона индексов
print(y1_gbr1[:5])
print(y1_test[:5])

[0.96073507 0.96073507 1.22096383 1.09441328 1.56804873]
[0.92 0.94 1.28 1.2  1.4 ]


In [12]:
model_gbr2 = GradientBoostingRegressor()
model_gbr2_params={
    'n_estimators':[100,500],
    'learning_rate': [0.1,0.05,0.02],
    'max_depth':[4],
    'min_samples_leaf':[3],
    'max_features':[1.0]
    } 

In [13]:
# обучение с параметрами по умолчанию
model_gbr2.fit(X_train, y2_train)
y2_gbr2 = model_gbr2.predict(X_test)
# выведем первые пять значений с помощью диапазона индексов
print(y2_gbr2[:5])
print(y2_test[:5])

[1.96996367 1.96996367 1.79607566 1.70278916 2.52788631]
[1.86 1.94 1.8  1.8  2.48]


In [14]:
y1_gbr1

array([0.96073507, 0.96073507, 1.22096383, 1.09441328, 1.56804873,
       1.22096383, 1.67808231, 1.22096383, 0.82126482, 1.31499551,
       1.22096383, 1.56804873, 1.56804873, 1.16918738, 0.82126482,
       1.08105582, 1.31499551, 1.22514112, 1.16918738, 1.67808231,
       1.22096383, 1.22096383])

In [15]:
y2_gbr2

array([1.96996367, 1.96996367, 1.79607566, 1.70278916, 2.52788631,
       1.79607566, 2.49891438, 1.79607566, 2.0992761 , 1.76271961,
       1.79607566, 2.52788631, 2.52788631, 1.79363584, 2.0992761 ,
       1.81267002, 1.76271961, 1.78082856, 1.79363584, 2.49891438,
       1.79607566, 1.79607566])

# Сохраняю модель

In [16]:
pickle.dump(model_gbr1, open('model_gbr1.pkl', 'wb'))

In [17]:
pickle.dump(model_gbr2, open('model_gbr2.pkl', 'wb'))

In [18]:
model1_load=pickle.load (open('model_gbr1.pkl', 'rb'))

In [19]:
model2_load=pickle.load (open('model_gbr2.pkl', 'rb'))

In [20]:
model2_load.predict(X_test)

array([1.96996367, 1.96996367, 1.79607566, 1.70278916, 2.52788631,
       1.79607566, 2.49891438, 1.79607566, 2.0992761 , 1.76271961,
       1.79607566, 2.52788631, 2.52788631, 1.79363584, 2.0992761 ,
       1.81267002, 1.76271961, 1.78082856, 1.79363584, 2.49891438,
       1.79607566, 1.79607566])

In [21]:
model1_load.predict(X_test)

array([0.96073507, 0.96073507, 1.22096383, 1.09441328, 1.56804873,
       1.22096383, 1.67808231, 1.22096383, 0.82126482, 1.31499551,
       1.22096383, 1.56804873, 1.56804873, 1.16918738, 0.82126482,
       1.08105582, 1.31499551, 1.22514112, 1.16918738, 1.67808231,
       1.22096383, 1.22096383])

# Дальнейшая работа ведется в Visual Studio Code