## Загружаем бибиотеки

In [68]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVR
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import r2_score

## Загружаем датасет

In [69]:
dataset = pd.read_csv('Data.csv')

## Определяем переменную *Х* (независмые переменные) и *у* (зависимая переменная)

In [70]:
dataset.shape

(9568, 5)

In [71]:
dataset.head()

Unnamed: 0,AT,V,AP,RH,PE
0,14.96,41.76,1024.07,73.17,463.26
1,25.18,62.96,1020.04,59.08,444.37
2,5.11,39.4,1012.16,92.14,488.56
3,20.86,57.32,1010.24,76.64,446.48
4,10.82,37.5,1009.23,96.62,473.9


In [72]:
X = dataset.drop('PE', axis = 1)

In [73]:
y = dataset['PE']

### Разделяем датасет на тренировочный и тестовый

In [74]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

### Обучаем модели

#### Линейная регрессия

In [75]:
linear_regressor = LinearRegression()
linear_regressor.fit(X_train, y_train)

LinearRegression()

#### Полиномиальная регрессия (можно менять степень)

In [76]:
poly_reg = PolynomialFeatures(degree = 4)
X_poly = poly_reg.fit_transform(X_train)
poly_regressor = LinearRegression()
poly_regressor.fit(X_poly, y_train)

LinearRegression()

#### 1. SVR (Feature Scaling)

In [77]:
sc_X = StandardScaler()
sc_y = StandardScaler()
svr_X_train = sc_X.fit_transform(X_train)
svr_y_train = sc_y.fit_transform(np.array(y_train).reshape(len(y_train),1))

#### 2. SVR (Model training) Можно менять ядро, по умолчанию - RBF

In [78]:
svr_regressor = SVR(kernel='rbf')
svr_regressor.fit(svr_X_train, svr_y_train.ravel())

SVR()

#### Решающее дерево

In [79]:
d_tree_regressor = DecisionTreeRegressor(random_state = 0)
d_tree_regressor.fit(X_train, y_train)

DecisionTreeRegressor(random_state=0)

#### Случайные леса (можно выбрать количество деревьев)

In [80]:
r_forest_regressor =  RandomForestRegressor(n_estimators = 10, random_state = 0)
r_forest_regressor.fit(X_train, y_train)

RandomForestRegressor(n_estimators=10, random_state=0)

### Тестируем модели

#### Линейная регрессия

In [81]:
y_pred_lin = linear_regressor.predict(X_test)

#### Полиномиальная регрессия

In [82]:
y_pred_poly = poly_regressor.predict(poly_reg.transform(X_test))

#### SVM

In [83]:
y_pred_svr = sc_y.inverse_transform(svr_regressor.predict(sc_X.transform(X_test)))

#### Решающее дерево

In [84]:
y_pred_dt = dtree_regressor.predict(X_test)

#### Случайные деревья

In [85]:
y_pred_rf = r_forest_regressor.predict(X_test)

### Оценка качества моделей

In [88]:
lin_reg_score = r2_score(y_test, y_pred_lin)
poly_reg_score = r2_score(y_test, y_pred_poly)
svr_score = r2_score(y_test, y_pred_svr)
dt_score = r2_score(y_test, y_pred_dt)
rf_score = r2_score(y_test, y_pred_rf)

In [117]:
eval_dict = {'линейная регрессия':lin_reg_score,
            'Полиномиальная регрессия':poly_reg_score,
            'SVR':svr_score,
            'Решающее дерево': dt_score,
            'Случайные леса':rf_score}

In [118]:
for k, v in eval_dict.items(): 
    eval_dict[k] = v.round(3)

In [119]:
eval_dict

{'линейная регрессия': 0.933,
 'Полиномиальная регрессия': 0.946,
 'SVR': 0.948,
 'Решающее дерево': 0.923,
 'Случайные леса': 0.962}

In [124]:
r_sq = pd.DataFrame(eval_dict, index=['R-sq']).transpose()

In [131]:
r_sq.sort_values(by=['R-sq'], ascending=False)

Unnamed: 0,R-sq
Случайные леса,0.962
SVR,0.948
Полиномиальная регрессия,0.946
линейная регрессия,0.933
Решающее дерево,0.923
