# **Импорт необходимых библиотек**

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_percentage_error
from sklearn.metrics import r2_score
from sklearn.preprocessing import PolynomialFeatures

# **Машинное обучение**

Обучим модель линейной регрессии, способную предсказывать цены акций ПАО Сбербанк на основе других показателей

In [None]:
y = df["Цена_СБ"]
X = df.drop(columns=["Цена_СБ", 'Откр.СБ', 'Откр.М', 'Откр.ДР', 'Рабочий день', 'День недели', 'Месяц']) #убрали ненужные нам признаки
feature_names = X.columns.values

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

При проверке гипотез мы поняли, что необходимо нормализовать данные для более стабильного обучения модели

In [None]:
numeric_data = X_train.select_dtypes([np.number])

numeric_data_mean = numeric_data.mean()
numeric_features = numeric_data.columns

X_train = X_train.fillna(numeric_data_mean)
X_test = X_test.fillna(numeric_data_mean)

In [None]:
scaler_x = StandardScaler()
X_train_scaled = scaler_x.fit_transform(X_train[numeric_features])
X_test_scaled = scaler_x.transform(X_test[numeric_features])

In [None]:
model = LinearRegression()
model.fit(X_train_scaled, y_train)
y_pred = model.predict(X_test_scaled)
y_train_pred = model.predict(X_train_scaled)

print("Test MAPE = %.4f" % mean_absolute_percentage_error(y_test, y_pred))
print("Train MAPE = %.4f" % mean_absolute_percentage_error(y_train, y_train_pred))

Test MAPE = 0.0218
Train MAPE = 0.0254


In [None]:
r_squared_test = r2_score(y_test, y_pred)
r_squared_train = r2_score(y_train, y_train_pred)
print('Коэффициент детерминации для тестовой выборки = ', r_squared_test )
print('Коэффициент детерминации для обучающей выборки = ', r_squared_train )

Коэффициент детерминации для тестовой выборки =  0.979442921933456
Коэффициент детерминации для обучающей выборки =  0.9743122067832632


Попробуем сделать нашу модель ещё точнее

In [None]:
polinom_transform = PolynomialFeatures(2, include_bias=False)

X_train_poly = polinom_transform.fit_transform(X_train_scaled)
X_test_poly = polinom_transform.transform(X_test_scaled)

In [None]:
model = LinearRegression()

model.fit(X_train_poly, y_train)
y_pred = model.predict(X_test_poly)
y_train_pred = model.predict(X_train_poly)

print("Test MAPE = %.4f" % mean_absolute_percentage_error(y_test, y_pred))
print("Train MAPE = %.4f" % mean_absolute_percentage_error(y_train, y_train_pred))

Test MAPE = 0.0153
Train MAPE = 0.0139


In [None]:
np.abs(model.coef_)[:10]

array([47.45654484,  6.12661152, 27.65060916, 33.85425342,  7.1353123 ,
       11.84251267, 19.78755411, 40.04032531, 17.7816035 ,  1.66469599])

In [None]:
r_squared_test = r2_score(y_test, y_pred)
r_squared_train = r2_score(y_train, y_train_pred)
print('Коэффициент детерминации для тестовой выборки = ', r_squared_test )
print('Коэффициент детерминации для обучающей выборки = ', r_squared_train )

Коэффициент детерминации для тестовой выборки =  0.9877334208747649
Коэффициент детерминации для обучающей выборки =  0.9905282282289878


Коэффициент детерминации стал ещё выше и теперь наиболее близок к 1, что позволяет нам сделать вывод о высоком качестве обученной модели.