In [259]:
# Python 3.11.2
# %pip install -r requriments.txt

# Python 3.10.10
# %conda install --file requriments.txt
# %conda create --name PD --file file.txt

In [260]:
# Импорт библиотек для работы с данными
import pandas as pd
import numpy as np
import scipy.stats as stats

# Импорт библиотек для визуализации данных
from plotly.subplots import make_subplots
import plotly.graph_objects as go
import plotly.express as px

# Импорт библиотек для пред обработки данных
from sklearn.preprocessing import MaxAbsScaler, RobustScaler
from sklearn import preprocessing

# Импорт библиотек для отбора признаков
from sklearn.feature_selection import RFE, RFECV, SelectFromModel, SelectFpr, chi2

# Импорт библиотек для кросс валидации
from sklearn.model_selection import train_test_split

# Импорт библиотек линейной регрессии
import statsmodels.api as sm
from statsmodels.discrete.discrete_model import Poisson
from statsmodels.regression.recursive_ls import RecursiveLS
from statsmodels.regression.linear_model import OLS, GLS, GLSAR, WLS
from sklearn.linear_model import Ridge, Lasso, ElasticNet, SGDRegressor
from sklearn.linear_model import LinearRegression, Ridge, Lasso, ElasticNet, SGDRegressor

# Импорт библиотек для машинного обучения
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC, LinearSVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import Perceptron
from sklearn.linear_model import SGDClassifier
from sklearn.tree import DecisionTreeClassifier

# Импорт библиотек для оценки качества моделей
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error

# Подготовка данных

## Загрузка данных

In [261]:
# Загрузка данных с помощью pandas из файла csv
data = pd.read_csv("input/data.csv", delimiter=";")
year = data['Год']

# Просмотр первых 5 строк данных
data.head()

Unnamed: 0,Год,y1,y2,y3,x1,x2,x3,x4,x5,x6,x7,x8,x9,x10,x11
0,1998,87211.83,328497.9,638450.6,228548.4,803.2,5780.87,1212184.0,33.8,83359.41,25719.2,6171.0,6642.0,111458.0,1393.3
1,1999,119302.33,695059.8,789466.92,488395.1,787.6,5823.01,1272744.0,35.2,87820.24,25262.15,7260.0,7814.0,185861.0,1807.8
2,2000,156215.0,1159034.0,962057.0,748241.8,1472.8,5865.15,1444737.0,32.4,92700.8,25720.2,8067.0,9194.0,309534.0,2185.0
3,2001,173839.0,1370182.8,1393532.2,1008088.5,1154.6,5907.28,1841258.0,30.4,98088.36,24905.88,5545.0,12637.0,418289.0,2385.26
4,2002,220396.0,1767476.7,1771073.0,1267935.2,1508.7,5961.24,2255912.0,35.1,104100.59,25084.01,6932.0,13817.0,589139.0,2918.55


### Объяснение переменных
- $y_1$ - инвестиции в основной капитал, млн руб.
- $y_2$ - валовой региональный продукт (ВРП), млн.руб.
- $y_3$ - сумма доходов населения за год, млн руб.
- $x_1$ - финансовый результат деятельности (чистая прибыль)
- $x_2$ - прямые иностранные инвестиции, млн USD
- $x_3$ - среднегодовая численности занятых, тыс чел.
- $x_4$ - стоимость основных фондов, млн. руб
- $x_5$ - степень износа основных фондов, %
- $x_6$ - затраты на научные исследования и разработки, млн руб.
- $x_7$ - объём инновационных товаров работ услуг, млн руб.
- $x_8$ - экспорт, млн USD
- $x_9$ - импорт, млн. USD
- $x_{10}$ - сумма остатков вкладов на счетах в Банке России, млн. руб.
- $x_{11}$ - прожиточный минимум в регионе РФ (г. Москва), тыс.руб.

In [262]:
class InterpolateData():
    def __init__(self, data, method='linear', freq='Q'):
        self.data = data.copy()
        self.data_quarterly = data.copy()
        self.data_quarterly['Год'] = pd.to_datetime(self.data_quarterly['Год'].astype(str), format='%Y')
        self.data_quarterly.set_index('Год', inplace=True)
        self.data_quarterly = self.data_quarterly.resample(freq).mean().interpolate(method=method)

    def head(self):
        return self.data_quarterly.head()

    def scatter(self):
        return px.scatter(self.data_quarterly)

    def original_scatter(self):
        return px.scatter(self.data.drop(columns=['Год']))

    def after_interpolate(self):
        return self.data_quarterly

In [263]:
# InterpolateData(data).scatter()
# InterpolateData(data, method='cubic').scatter()
# InterpolateData(data, method='quadratic').scatter()
InterpolateData(data, method='akima').scatter()

In [264]:
InterpolateData(data).original_scatter()

In [265]:
data = InterpolateData(data, method='akima').after_interpolate()
data.head()

Unnamed: 0_level_0,y1,y2,y3,x1,x2,x3,x4,x5,x6,x7,x8,x9,x10,x11
Год,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
1998-03-31,87211.83,328497.9,638450.6,228548.4,803.2,5780.87,1212184.0,33.8,83359.41,25719.2,6171.0,6642.0,111458.0,1393.3
1998-06-30,94837.309463,411892.838304,674544.769921,293398.535166,736.807795,5791.387033,1217777.0,34.60807,84434.697999,25523.220133,6463.512671,6918.993559,124811.328689,1499.65374
1998-09-30,102889.910331,502956.211813,712651.35433,358916.449175,715.80803,5802.012446,1231037.0,35.205168,85548.268093,25385.183334,6737.509484,7214.574151,140986.309803,1604.366468
1998-12-31,111150.973194,598751.486752,751524.460148,424389.258043,735.228912,5812.630376,1250140.0,35.444336,86686.056887,25300.419162,7001.119718,7517.765363,161117.650948,1707.432327
1999-03-31,119302.33,695059.8,789466.92,488395.1,787.6,5823.01,1272744.0,35.2,87820.24,25262.15,7260.0,7814.0,185861.0,1807.8


## Изучение данных на наличие ошибок измерений

Функция combine_scatter_plots строит графики рассеяния для каждой пары признаков в наборе данных.

In [266]:
def combine_scatter_plots(height=1000, width=1100):
    fig = make_subplots(rows=5, cols=3)
    for i, column in enumerate(data.columns.values):
        if 0 <= i < 3:
            row, col = 1, i + 1
        elif 3 <= i < 6:
            row, col = 2, i + 1 - 3
        elif 6 <= i < 9:
            row, col = 3, i + 1 - 6
        elif 9 <= i < 12:
            row, col = 4, i + 1 - 9
        else:
            row, col = 5, i + 1 - 12

        if 0 <= i < 3:
            fig.add_trace(go.Scatter(y=data[f'y{i + 1}'], x=year, name=column), row=row, col=col)
        else:
            fig.add_trace(go.Scatter(y=data[f'x{i - 2}'], x=year, name=column), row=row, col=col)
    fig.update_layout(height=height, width=width, title_text="Зависимость признаков от времени")
    fig.show()

In [267]:
combine_scatter_plots()

## Проверка данных на наличие выбросов и изучение распределения данных

Функция combine_box_plots строит ящиковые диаграммы для каждого признака в наборе данных, где значения признака разбиваются на квартили и представляются в виде ящика.

Функция combine_violin_plots строит аналогичные диаграммы, но вместо ящика используется график, который представляет распределение значений признака с помощью ядерной оценки плотности.

In [268]:
# Построение графиков
def combine_box_plots(height=1000, width=1100):
    fig = make_subplots(rows=5, cols=3)
    for i, column in enumerate(data.columns.values):
        if 0 <= i < 3:
            row, col = 1, i + 1
        elif 3 <= i < 6:
            row, col = 2, i + 1 - 3
        elif 6 <= i < 9:
            row, col = 3, i + 1 - 6
        elif 9 <= i < 12:
            row, col = 4, i + 1 - 9
        else:
            row, col = 5, i + 1 - 12

        if 0 <= i < 3:
            fig.add_trace(go.Box(x=data[f'y{i + 1}'], name=column), row=row, col=col)
        else:
            fig.add_trace(go.Box(x=data[f'x{i - 2}'], name=column), row=row, col=col)
    fig.update_layout(height=height, width=width, title_text="Ящиковые диаграммы распределения признаков",
                      showlegend=False)
    fig.show()


def combine_violin_plots(height=1500, width=1100):
    fig = make_subplots(rows=5, cols=3)
    for i, column in enumerate(data.columns.values):
        if 0 <= i < 3:
            row, col = 1, i + 1
        elif 3 <= i < 6:
            row, col = 2, i + 1 - 3
        elif 6 <= i < 9:
            row, col = 3, i + 1 - 6
        elif 9 <= i < 12:
            row, col = 4, i + 1 - 9
        else:
            row, col = 5, i + 1 - 12

        if 0 <= i < 3:
            fig.add_trace(go.Violin(x=data[f'y{i + 1}'], name=column), row=row, col=col)
        else:
            fig.add_trace(go.Violin(x=data[f'x{i - 2}'], name=column), row=row, col=col)
    fig.update_layout(height=height, width=width, title_text="Распределение признаков", showlegend=False)
    fig.show()

In [269]:
combine_box_plots()

In [270]:
# combine_violin_plots()

## Избавление от мультиколлинеарности между признаками путем нормализации и центрирования данных

In [271]:
# Центрирование данных для избавления от мультиколлинеарности
# data = data.apply(lambda x: x - x.mean())

# Минимаксная нормализация данных
data = data.apply(lambda x: (x - x.min()) / (x.max() - x.min()))

# Нормализация средним (Z-нормализация)
# data = data.apply(lambda x: (x - x.mean()) / x.std())

# MaxAbsScaler
# transformer = MaxAbsScaler().fit(data)
# data = pd.DataFrame(transformer.transform(data))

# RobustScaler
# transformer = RobustScaler().fit(data)
# data = pd.DataFrame(transformer.transform(data))

data.columns = ['y1', 'y2', 'y3', 'x1', 'x2', 'x3', 'x4', 'x5', 'x6', 'x7', 'x8', 'x9', 'x10', 'x11']
data.head()

Unnamed: 0_level_0,y1,y2,y3,x1,x2,x3,x4,x5,x6,x7,x8,x9,x10,x11
Год,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
1998-03-31,0.0,0.0,0.0,0.0,0.000549,0.0,0.0,0.195697,0.0,0.001083,0.002159,0.0,0.0,0.0
1998-06-30,0.001461,0.003661,0.002672,0.007145,0.000132,0.012626,7.4e-05,0.242208,0.002618,0.000874,0.003168,0.002142,0.000315,0.00614
1998-09-30,0.003004,0.007658,0.005493,0.014364,0.0,0.025383,0.00025,0.276576,0.00533,0.000727,0.004113,0.004428,0.000697,0.012186
1998-12-31,0.004587,0.011863,0.008371,0.021578,0.000122,0.03813,0.000503,0.290342,0.0081,0.000637,0.005022,0.006773,0.001172,0.018136
1999-03-31,0.006149,0.01609,0.01118,0.02863,0.000451,0.050591,0.000802,0.276278,0.010861,0.000596,0.005915,0.009064,0.001756,0.023931


## Добавление шума в данные

In [272]:
# px.scatter(data, title="Зависимость признаков от времени", height=500)
px.scatter(data['y1'], title="Зависимость признаков от времени", height=500)

In [273]:
noise = np.random.normal(0, .06, data.shape)
noisy_data = data + noise
data = noisy_data
data = data.apply(lambda x: (x - x.min()) / (x.max() - x.min()))
px.scatter(data['y1'], title="Зависимость признаков от времени", height=500)

In [274]:
combine_scatter_plots()

# Матрица коэффициентов межфакторной корреляции

In [275]:
fig = px.imshow(data.corr(), text_auto='.2f', color_continuous_scale="gnbu", labels={'color': 'R', 'x': 'Фактор', 'y': 'Фактор'})
fig.update_layout(height=1000, title_text="Матрица коэффициентов межфакторной корреляции")
fig.show()

In [276]:
# un_data = data.copy()
# un_data.columns = ['Инвестиции в основной капитал, млн руб. y1', 'Валовой региональный продукт (ВРП), млн.руб. y2',
#                    'Сумма доходов населения за год, млн руб. y3',
#                    'Финансовый результат деятельности (чистая прибыль), млн.руб. x1',
#                    'Прямые иностранные инвестиции, млн USD x2',
#                    'Среднегодовая численности занятых, тыс чел. x3', 'Стоимость основных фондов, млн. руб. x4',
#                    'Степень износа основных фондов, % x5',
#                    'Затраты на научные исследования и разработки, млн руб. x6',
#                    'Объём инновационных товаров работ услуг, млн руб. x7', 'Экспорт, млн USD x8',
#                    'Импорт, млн. USD x9', 'Сумма остатков вкладов на счетах в Банке России, млн. руб. x10',
#                    'Прожиточный минимум в регионе РФ (г. Москва), тыс.руб. x11']
#
# fig, ax = plt.subplots(figsize=(10, 8))
# sns.heatmap(un_data.corr(), annot=True, fmt=".2f", linewidth=.5, cmap='cubehelix')

# Исследование данных на наличие выбросов и создание на тестовой и обучающей выборки

Нахождение выбросов - это один из методов анализа данных, который используется для выявления аномальных значений в наборе данных. Выбросы могут возникать из-за ошибок в данных, случайных вариаций или из-за наличия редких, но реальных экстремальных значений.

Существует несколько методов нахождения выбросов, в том числе метод Z-оценки и метод межквартильного размаха (IQR).

In [277]:
# Смотрим размерность данных
data.shape

(97, 14)

Изначально мы имели набор данных, состоящий из 25 значений, охватывающих период с 1998 по 2022 год. На это нам указывает размерность данных (25, 14).

**Z-оценка**

Метод Z-оценки основан на расчете Z-оценки для каждого значения в наборе данных и проверке, насколько далеко каждое значение от среднего значения. Значения, которые находятся на расстоянии больше чем три стандартных отклонения от среднего, могут быть считаны выбросами.

In [278]:
z = np.abs(stats.zscore(data))
data_clean = data[(z < 3).all(axis=1)]
data_clean.shape

(97, 14)

**Межквартильный размах (IQR)**

Метод межквартильного размаха (IQR) основан на вычислении интерквартильного размаха - разницы между 75-перцентилью и 25-перцентилем. Затем определяется верхняя и нижняя границы выбросов, которые определяются как 1,5 межквартильных размаха за пределами верхнего и нижнего квартилей.

In [279]:
# Находим Первый квартиль (Q1) и Третий квартиль (Q3) и рассчитываем межквартильный размах
Q1 = data.quantile(q=.25)
Q3 = data.quantile(q=.75)
IQR = data.apply(stats.iqr)

# Оставляем только те значения, которые больше нижней границы и меньше верхней границы.
data_clean = data[~((data < (Q1 - 1.5 * IQR)) | (data > (Q3 + 1.5 * IQR))).any(axis=1)]
data_clean.shape

(90, 14)

В результате проверки на наличие выбросов мы получили исходный набор данных, состоящий из 25 значений, охватывающих период с 1998 по 2022 год. На это нам указывает размерность данных (25, 14). Это говорит нам о том что выбросов в данных найденно не было.

In [280]:
# Заменяем исходный набор данных на очищенный
data = data_clean

### Создание на тестовой и обучающей выборки

In [281]:
X_train, X_test, y_train, y_test = train_test_split(data.drop(['y1', 'y2', 'y3'], axis=1), data[['y1', 'y2', 'y3']],
                                                    test_size=0.30, random_state=42)

In [282]:
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((63, 11), (27, 11), (63, 3), (27, 3))

# Построение модели линейной регрессии

Линейная регрессия - это метод анализа данных, который используется для описания и прогнозирования линейной связи между зависимой и одной или несколькими независимыми переменными. Он часто используется в статистическом анализе данных для построения математической модели, которая может быть использована для прогнозирования значений зависимой переменной на основе значений независимых переменных.

Для построения модели линейной регрессии необходимо иметь набор данных, который состоит из пар значений зависимой и независимой переменных. Затем на основе этих данных проводится анализ, который позволяет оценить параметры модели - коэффициенты наклона и пересечения. Эти параметры могут быть использованы для построения уравнения линейной регрессии.

Для оценки качества модели линейной регрессии используются различные статистические показатели, такие как коэффициент детерминации (R-квадрат) или корреляционный коэффициент. Они позволяют оценить, насколько хорошо модель соответствует данным и насколько точно она может использоваться для прогнозирования значений зависимой переменной.

Важно понимать, что линейная регрессия является моделью, которая описывает только линейные отношения между переменными. Если связь между переменными не является линейной, то модель линейной регрессии может оказаться неэффективной и требовать использования других методов анализа данных.

In [283]:
class CustomLinearRegression:
    def __init__(self, y, x, model_type=OLS):
        self.model_type = model_type
        self.y = y
        self.x = x
        self.model = self.model_type(self.y, self.x).fit()

    def get_coefficients(self):
        print(self.model.params)
        answer = []
        names = self.x.columns.values.tolist()
        for i, par in enumerate(self.model.params):
            answer.append(f'+ {par:.4f}{names[i][0]}_{{{names[i][1:]}}}')
        print(f'$$\hat {self.y.name[0]}_{self.y.name[1]} = {" ".join(answer)[2:]}$$')

    def summary(self):
        print(self.model.summary())

    def pre(self, X_test):
        return self.model.predict(X_test)

    def predict(self, X_test, y_test):
        r2 = r2_score(y_test, self.model.predict(X_test))
        mae = mean_absolute_error(y_test, self.model.predict(X_test))
        mse = mean_squared_error(y_test, self.model.predict(X_test))
        print(
            f'Коэффициент детерминации (R^2): {r2 * 100:.1f}%\nCредняя ошибка аппроксимации (MAE): {mae * 100:.1f}%\nCредняя квадратичная ошибка (MSE): {mse * 100:.1f}%')

    def F(self):
        return self.model.fvalue

    def current_p(self, index):
        return self.model.f_pvalue[index]

    def forward_selection(self):
        xi = []
        stop = False
        x_new = []  # список переменных, которые будут включены в модель
        x_len = len(self.x.columns) - 1  # количество столбцов в датафрейме
        x_test = []
        for n in range(x_len):
            F_max = 0  # максимальное значение F
            p_max = 0  # максимальное значение p
            F_max_i = 0
            F_max_x = ''
            if not stop:
                for i in range(x_len):
                    if i not in xi:
                        x_test = x_new.copy()
                        x_test.append(self.x.columns[i])
                        F = CustomLinearRegression(self.y, self.x.loc[:, x_test]).F()
                        print(f"'x{i + 1}',", F)
                        if F > F_max:
                            F_max = F
                            F_max_i = i
                            F_max_x = f"x{i + 1}"
                x_new.append(F_max_x)
                xi.append(F_max_i)
                print(x_new)
                for j in range(len(x_new)):
                    p = CustomLinearRegression(self.y, self.x.loc[:, x_new]).current_p(j)
                    if p > 0.05:
                        stop = True
                        print(f'P-value: {p}')
                        break
        CustomLinearRegression(self.y, self.x.loc[:, x_new[:-1]]).summary()

    def backward_elimination(self, p=0.05, start=0):
        regression = self.model_type(self.y, self.x).fit()
        futures_num = len(self.x.columns)
        for i in range(futures_num):
            regression = self.model_type(self.y, self.x).fit()
            max_p = max(regression.pvalues.values[start:])
            if max_p > p:
                for j in range(0, futures_num - i):
                    if regression.pvalues[j] == max_p:
                        self.x = self.x.drop(self.x.columns[[j]], axis=1)
        print(regression.summary())

    def custom_feature_selection(self, x, y, model=LinearRegression(), selection_method=RFE):
        result_list = list()
        result = selection_method(model).fit(x, y)
        for i, feature in enumerate(result.get_support()):
            if feature:
                result_list.append(f'x{i + 1}')
        CustomLinearRegression(y, x[result_list]).summary()

    def correlation_map(self):
        return px.imshow(self.x.corr(), text_auto='.2f', color_continuous_scale="gnbu")


class CustomLinearRegressionWithConst(CustomLinearRegression):
    def __init__(self, y, x, model_type=OLS):
        super().__init__(y, x, model_type)
        self.x = sm.add_constant(self.x)
        self.model = self.model_type(self.y, self.x).fit()

    def backward_elimination(self, p=0.05, start=1):
        regression = self.model_type(self.y, self.x).fit()
        futures_num = len(self.x.columns)
        for i in range(futures_num):
            self.x = sm.add_constant(self.x)
            regression = self.model_type(self.y, self.x).fit()
            max_p = max(regression.pvalues.values[start:])
            if max_p > p:
                for j in range(0, futures_num - i):
                    if regression.pvalues[j] == max_p:
                        self.x = self.x.drop(self.x.columns[[j]], axis=1)
        print(regression.summary())


class CustomLinearRegressionReg(CustomLinearRegression):
    def __init__(self, y, x, model_type=OLS):
        super().__init__(y, x, model_type)
        self.model = sm.OLS(self.y, self.x).fit_regularized(alpha=1., L1_wt=0.5, refit=True)

# class CustomRidgeLinearRegression(CustomLinearRegression):
#     def __init__(self, y, x, model_type=OLS):
#         super().__init__(y, x, model_type)
#         self.model = Ridge(alpha=0.1).fit(self.x, self.y)

# Отбор переменных для модели линейной регрессии

Отбор переменных для модели линейной регрессии - это процесс выбора наиболее важных и значимых независимых переменных, которые будут использоваться в модели для прогнозирования зависимой переменной. Это важный шаг в построении модели, так как использование неподходящих переменных может привести к низкой точности прогнозов и низкому качеству модели.

Существует несколько методов отбора переменных для модели линейной регрессии, включая:

- Метод пошагового отбора переменных - это метод, который включает или исключает независимые переменные в модель пошагово на основе их значимости. На каждом шаге происходит выбор переменной, которая наиболее улучшает качество модели.

- Метод отбора на основе значимости - этот метод основан на анализе значимости каждой независимой переменной с помощью статистических тестов, таких как t-тест или F-тест. Переменные с низким уровнем значимости исключаются из модели.

- Метод регуляризации - это метод, который добавляет штрафы за большие значения коэффициентов в модель. Он позволяет автоматически отбирать переменные, которые наиболее важны для модели, и уменьшает вероятность переобучения.

- Метод отбора на основе информационных критериев - этот метод основан на использовании различных информационных критериев, таких как AIC (критерий Акаике) и BIC (критерий Шварца), чтобы выбрать модель с наименьшей ошибкой.

Выбор метода отбора переменных зависит от конкретной задачи и объема доступных данных. Важно также учитывать возможную мультиколлинеарность между независимыми переменными, что может привести к искажению результатов. Поэтому важно проводить анализ и выбор переменных внимательно и осознанно.

Сначала посмотрим на данные, которые мы будем использовать для построения модели линейной регрессии.

In [284]:
data.head()

Unnamed: 0_level_0,y1,y2,y3,x1,x2,x3,x4,x5,x6,x7,x8,x9,x10,x11
Год,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
1998-03-31,0.187317,0.128472,0.065219,0.075439,0.009036,0.094692,0.06868,0.198334,0.082281,0.0,0.145511,0.042752,0.189471,0.06136
1998-06-30,0.0,0.0,0.12,0.10375,0.136478,0.009385,0.136167,0.174936,0.0,0.091121,0.109628,0.064361,0.088932,0.10306
1998-09-30,0.075318,0.045549,0.158401,0.034322,0.001416,0.0,0.067079,0.257086,0.176871,0.173065,0.119571,0.100914,0.074899,0.077785
1998-12-31,0.083945,0.033478,0.14268,0.138081,0.095235,0.025525,0.061896,0.332301,0.109997,0.066456,0.13831,0.010266,0.256408,0.011655
1999-03-31,0.053785,0.150355,0.088033,0.161357,0.080226,0.055723,0.064581,0.317439,0.16772,0.103897,0.0,0.068881,0.117375,0.01254


Мы имеем дело с набором данных, содержащим 11 независимых переменных и 3 зависимых переменных. Переменные x1-x11 являются независимыми переменными, а переменные y1-y3 являются зависимыми переменными. Всего у нас 25 наблюдений. Разделим данные на независимые и зависимые переменные.

### Разделение данных на зависимые и независимые переменные

Зависимые переменные - это переменные, значения которых мы хотим предсказать. В нашем случае это переменные y1, y2 и y3.

In [285]:
y1_test, y1_train = y_test['y1'], y_train['y1']
y2_test, y2_train = y_test['y2'], y_train['y2']
y3_test, y3_train = y_test['y3'], y_train['y3']

Независимые переменные - это переменные, значения которых мы используем для прогнозирования зависимых переменных. В нашем случае это переменные x1-x11.

In [286]:
x1_test, x1_train = X_test['x1'], X_train['x1']
x2_test, x2_train = X_test['x2'], X_train['x2']
x3_test, x3_train = X_test['x3'], X_train['x3']
x4_test, x4_train = X_test['x4'], X_train['x4']
x5_test, x5_train = X_test['x5'], X_train['x5']
x6_test, x6_train = X_test['x6'], X_train['x6']
x7_test, x7_train = X_test['x7'], X_train['x7']
x8_test, x8_train = X_test['x8'], X_train['x8']
x9_test, x9_train = X_test['x9'], X_train['x9']
x10_test, x10_train = X_test['x10'], X_train['x10']
x11_test, x11_train = X_test['x11'], X_train['x11']

# Оценка предварительно составленных систем уравнений

Всего у нас три системы уравнений, которые мы можем использовать для прогнозирования зависимых переменных
- Система независимых уравнений;
- Система рекурсивных уравнений;
- Система одновременных уравнений.

#### Система независимых уравнений
$$
\begin{cases}
y_1 = a_1 + b_{11}x_{1} + b_{12}x_{2} + \epsilon \\
y_2 = a_2 + b_{21}x_{1} + b_{22}x_{2} + b_{23}x_{3} + b_{24}x_{4} + b_{25}x_{5} + b_{26}x_{6} + b_{27}x_{7} + b_{28}x_{8} + b_{29}x_{9} + \epsilon \\
y_3 = a_3 + b_{31}x_{1} + b_{32}x_{2} + b_{33}x_{3} + b_{34}x_{4} + b_{35}x_{5} + b_{36}x_{6} + b_{37}x_{7} + b_{38}x_{8} + b_{39}x_{9} + b_{310}x_{10} + b_{311}x_{11} + \epsilon \\
\end{cases}
$$

#### Система рекурсивных уравнений
$$
\begin{cases}
y_1 = a_1 + b_{11}x_{1} + b_{12}x_{2} + \epsilon \\
y_2 = a_2 + a_{21}y_1 + b_{21}x_{3} + b_{22}x_{4} + b_{23}x_{5} + b_{24}x_{6} + b_{25}x_{7} + b_{26}x_{8} + b_{27}x_{9} + \epsilon \\
y_3 = a_3 + a_{31}y_1 + a_{32}y_2 + b_{31}x_{11} + \epsilon \\
\end{cases}
$$

#### Система одновременных уравнений
$$
\begin{cases}
y_1 = a_1 + b_{11}x_{1} + b_{12}x_{2} + \epsilon \\
y_2 = a_2 + a_{21}y_1 + b_{23}x_{3} + b_{24}x_{4} + b_{25}x_{5} + b_{26}x_{6} + b_{27}x_{7} + b_{28}x_{8} + b_{29}x_{9} + \epsilon \\
y_3 = a_3 + a_{31}y_1 + b_{310}x_{10} + b_{311}x_{11} + \epsilon \\
\end{cases}
$$

## Система независимых уравнений

$$
\begin{cases}
y_1 = a_1 + b_{11}x_{1} + b_{12}x_{2} + \epsilon \\
y_2 = a_2 + b_{21}x_{1} + b_{22}x_{2} + b_{23}x_{3} + b_{24}x_{4} + b_{25}x_{5} + b_{26}x_{6} + b_{27}x_{7} + b_{28}x_{8} + b_{29}x_{9} + \epsilon \\
y_3 = a_3 + b_{31}x_{1} + b_{32}x_{2} + b_{33}x_{3} + b_{34}x_{4} + b_{35}x_{5} + b_{36}x_{6} + b_{37}x_{7} + b_{38}x_{8} + b_{39}x_{9} + b_{310}x_{10} + b_{311}x_{11} + \epsilon \\
\end{cases}
$$

### Первое уравнение

$$y_1 = a_1 + b_{11}x_{1} + b_{12}x_{2} + \epsilon $$

#### Исходная система уравнений

In [287]:
fn1_nez = pd.concat([x1_train, x2_train], axis=1)
CustomLinearRegression(y1_train, fn1_nez).summary()

                                 OLS Regression Results                                
Dep. Variable:                     y1   R-squared (uncentered):                   0.931
Model:                            OLS   Adj. R-squared (uncentered):              0.929
Method:                 Least Squares   F-statistic:                              414.0
Date:                Wed, 26 Apr 2023   Prob (F-statistic):                    3.23e-36
Time:                        14:07:48   Log-Likelihood:                          61.190
No. Observations:                  63   AIC:                                     -118.4
Df Residuals:                      61   BIC:                                     -114.1
Df Model:                           2                                                  
Covariance Type:            nonrobust                                                  
                 coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------

#### Исходная система уравнений после отбора признаков методом обратного исключения (Backward elimination)

In [288]:
CustomLinearRegression(y1_train, fn1_nez).backward_elimination()

                                 OLS Regression Results                                
Dep. Variable:                     y1   R-squared (uncentered):                   0.931
Model:                            OLS   Adj. R-squared (uncentered):              0.929
Method:                 Least Squares   F-statistic:                              414.0
Date:                Wed, 26 Apr 2023   Prob (F-statistic):                    3.23e-36
Time:                        14:07:48   Log-Likelihood:                          61.190
No. Observations:                  63   AIC:                                     -118.4
Df Residuals:                      61   BIC:                                     -114.1
Df Model:                           2                                                  
Covariance Type:            nonrobust                                                  
                 coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------

#### Конечная система уравнений и веса

In [289]:
final_fn1_nez = pd.concat([x1_train, x2_train], axis=1)
CustomLinearRegression(y1_train, final_fn1_nez).get_coefficients()

x1    0.448219
x2    0.141607
dtype: float64
$$\hat y_1 = 0.4482x_{1} + 0.1416x_{2}$$


$$\hat y_1 = 0.5015x_{1} + 0.1920x_{2}$$

In [290]:
fig = make_subplots(rows=1, cols=2)
fig.update_yaxes(title_text='Y1', row=1, col=1)

fig.add_trace(px.scatter(x=x1_train, y=y1_train).data[0], row=1, col=1)
fig.update_xaxes(title_text='X1', row=1, col=1)

fig.add_trace(px.scatter(x=x2_train, y=y1_train).data[0], row=1, col=2)
fig.update_xaxes(title_text='X2', row=1, col=2)

fig.update_layout(title_text="График рассеяния")
fig.show()

### Второе уравнение

$$y_2 = a_2 + b_{21}x_{1} + b_{22}x_{2} + b_{23}x_{3} + b_{24}x_{4} + b_{25}x_{5} + b_{26}x_{6} + b_{27}x_{7} + b_{28}x_{8} + b_{29}x_{9} + \epsilon$$

#### Исходная система уравнений

In [291]:
fn2_nez = pd.concat([x1_train, x2_train, x3_train, x4_train, x5_train, x6_train, x7_train, x8_train, x9_train], axis=1)
CustomLinearRegression(y2_train, fn2_nez).summary()

                                 OLS Regression Results                                
Dep. Variable:                     y2   R-squared (uncentered):                   0.980
Model:                            OLS   Adj. R-squared (uncentered):              0.977
Method:                 Least Squares   F-statistic:                              297.6
Date:                Wed, 26 Apr 2023   Prob (F-statistic):                    1.06e-42
Time:                        14:07:48   Log-Likelihood:                          76.856
No. Observations:                  63   AIC:                                     -135.7
Df Residuals:                      54   BIC:                                     -116.4
Df Model:                           9                                                  
Covariance Type:            nonrobust                                                  
                 coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------

#### Исходная система уравнений после отбора признаков методом обратного исключения (Backward elimination)

In [292]:
CustomLinearRegression(y2_train, fn2_nez).backward_elimination()

                                 OLS Regression Results                                
Dep. Variable:                     y2   R-squared (uncentered):                   0.979
Model:                            OLS   Adj. R-squared (uncentered):              0.978
Method:                 Least Squares   F-statistic:                              914.8
Date:                Wed, 26 Apr 2023   Prob (F-statistic):                    5.03e-50
Time:                        14:07:48   Log-Likelihood:                          74.357
No. Observations:                  63   AIC:                                     -142.7
Df Residuals:                      60   BIC:                                     -136.3
Df Model:                           3                                                  
Covariance Type:            nonrobust                                                  
                 coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------

#### Конечная система уравнений и веса

In [293]:
final_fn2_nez = pd.concat([x1_train, x4_train, x6_train], axis=1)
CustomLinearRegression(y2_train, final_fn2_nez).get_coefficients()

x1    0.263560
x4    0.424957
x6    0.428211
dtype: float64
$$\hat y_2 = 0.2636x_{1} + 0.4250x_{4} + 0.4282x_{6}$$


$$\hat y_2 = 0.3381x_{1} + 0.2250x_{4} + 0.3879x_{6}$$

In [294]:
fig = make_subplots(rows=1, cols=3)
fig.update_yaxes(title_text='Y2', row=1, col=1)

fig.add_trace(px.scatter(x=x1_train, y=y2_train).data[0], row=1, col=1)
fig.update_xaxes(title_text='X1', row=1, col=1)

fig.add_trace(px.scatter(x=x4_train, y=y2_train).data[0], row=1, col=2)
fig.update_xaxes(title_text='X4', row=1, col=2)

fig.add_trace(px.scatter(x=x6_train, y=y2_train).data[0], row=1, col=3)
fig.update_xaxes(title_text='X6', row=1, col=3)

fig.update_layout(title='Графики рассеяния')
fig.show()

### Третье уравнение

$$y_3 = a_3 + b_{31}x_{1} + b_{32}x_{2} + b_{33}x_{3} + b_{34}x_{4} + b_{35}x_{5} + b_{36}x_{6} + b_{37}x_{7} + b_{38}x_{8} + b_{39}x_{9} + b_{310}x_{10} + b_{311}x_{11} + \epsilon$$

#### Исходная система уравнений

In [295]:
fn3_nez = pd.concat(
    [x1_train, x2_train, x3_train, x4_train, x5_train, x6_train, x7_train, x8_train, x9_train, x10_train, x11_train],
    axis=1)
CustomLinearRegression(y3_train, fn3_nez).summary()

                                 OLS Regression Results                                
Dep. Variable:                     y3   R-squared (uncentered):                   0.991
Model:                            OLS   Adj. R-squared (uncentered):              0.989
Method:                 Least Squares   F-statistic:                              517.0
Date:                Wed, 26 Apr 2023   Prob (F-statistic):                    5.15e-49
Time:                        14:07:48   Log-Likelihood:                          104.75
No. Observations:                  63   AIC:                                     -187.5
Df Residuals:                      52   BIC:                                     -163.9
Df Model:                          11                                                  
Covariance Type:            nonrobust                                                  
                 coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------

#### Исходная система уравнений после отбора признаков методом обратного исключения (Backward elimination)

In [296]:
CustomLinearRegression(y3_train, fn3_nez).backward_elimination()

                                 OLS Regression Results                                
Dep. Variable:                     y3   R-squared (uncentered):                   0.990
Model:                            OLS   Adj. R-squared (uncentered):              0.990
Method:                 Least Squares   F-statistic:                              1501.
Date:                Wed, 26 Apr 2023   Prob (F-statistic):                    1.36e-58
Time:                        14:07:48   Log-Likelihood:                          102.50
No. Observations:                  63   AIC:                                     -197.0
Df Residuals:                      59   BIC:                                     -188.4
Df Model:                           4                                                  
Covariance Type:            nonrobust                                                  
                 coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------

#### Конечная система уравнений и веса

In [297]:
final_fn3_nez = pd.concat([x1_train, x4_train, x11_train], axis=1)
CustomLinearRegression(y3_train, final_fn3_nez).get_coefficients()

x1     0.350769
x4     0.355496
x11    0.284709
dtype: float64
$$\hat y_3 = 0.3508x_{1} + 0.3555x_{4} + 0.2847x_{11}$$


$$\hat y_3 = 0.2437x_{1} + 0.2441x_{4} + 0.4219x_{11}$$

In [298]:
fig = make_subplots(rows=2, cols=3)
fig.update_yaxes(title_text='Y3', row=1, col=1)

fig.add_trace(px.scatter(x=x1_train, y=y3_train).data[0], row=1, col=1)
fig.update_xaxes(title_text='X1', row=1, col=1)

fig.add_trace(px.scatter(x=x4_train, y=y3_train).data[0], row=1, col=2)
fig.update_xaxes(title_text='X4', row=1, col=2)

fig.add_trace(px.scatter(x=x11_train, y=y3_train).data[0], row=1, col=3)
fig.update_xaxes(title_text='X11', row=1, col=3)

fig.update_layout(title='Графики рассеяния')
fig.show()

## Система рекурсивных уравнений

$$
\begin{cases}
y_1 = a_1 + b_{11}x_{1} + b_{12}x_{2} + \epsilon \\
y_2 = a_2 + a_{21}y_1 + b_{21}x_{3} + b_{22}x_{4} + b_{23}x_{5} + b_{24}x_{6} + b_{25}x_{7} + b_{26}x_{8} + b_{27}x_{9} + \epsilon \\
y_3 = a_3 + a_{31}y_1 + a_{32}y_2 + b_{31}x_{11} + \epsilon \\
\end{cases}
$$

### Первое уравнение

$$y_1 = a_1 + b_{11}x_{1} + b_{12}x_{2} + \epsilon$$

#### Исходная система уравнений

In [299]:
fn1_rec = pd.concat([x1_train, x2_train], axis=1)
CustomLinearRegression(y1_train, fn1_rec).summary()

                                 OLS Regression Results                                
Dep. Variable:                     y1   R-squared (uncentered):                   0.931
Model:                            OLS   Adj. R-squared (uncentered):              0.929
Method:                 Least Squares   F-statistic:                              414.0
Date:                Wed, 26 Apr 2023   Prob (F-statistic):                    3.23e-36
Time:                        14:07:48   Log-Likelihood:                          61.190
No. Observations:                  63   AIC:                                     -118.4
Df Residuals:                      61   BIC:                                     -114.1
Df Model:                           2                                                  
Covariance Type:            nonrobust                                                  
                 coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------

#### Исходная система уравнений после отбора признаков методом обратного исключения (Backward elimination)

In [300]:
CustomLinearRegression(y1_train, fn1_rec).backward_elimination()

                                 OLS Regression Results                                
Dep. Variable:                     y1   R-squared (uncentered):                   0.931
Model:                            OLS   Adj. R-squared (uncentered):              0.929
Method:                 Least Squares   F-statistic:                              414.0
Date:                Wed, 26 Apr 2023   Prob (F-statistic):                    3.23e-36
Time:                        14:07:48   Log-Likelihood:                          61.190
No. Observations:                  63   AIC:                                     -118.4
Df Residuals:                      61   BIC:                                     -114.1
Df Model:                           2                                                  
Covariance Type:            nonrobust                                                  
                 coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------

#### Конечная система уравнений и веса

In [301]:
final_fn1_rec = pd.concat([x1_train, x2_train], axis=1)
CustomLinearRegression(y1_train, final_fn1_rec).get_coefficients()

x1    0.448219
x2    0.141607
dtype: float64
$$\hat y_1 = 0.4482x_{1} + 0.1416x_{2}$$


$$\hat y_1 = 0.5015x_{1} + 0.1920x_{2}$$

### Второе уравнение

$$y_2 = a_2 + a_{21}y_1 + b_{21}x_{3} + b_{22}x_{4} + b_{23}x_{5} + b_{24}x_{6} + b_{25}x_{7} + b_{26}x_{8} + b_{27}x_{9} + \epsilon$$

#### Исходная система уравнений

In [302]:
fn2_rec = pd.concat(
    [y1_train, x1_train, x2_train, x3_train, x4_train, x5_train, x6_train, x7_train, x8_train, x9_train], axis=1)
CustomLinearRegression(y2_train, fn2_rec).summary()

                                 OLS Regression Results                                
Dep. Variable:                     y2   R-squared (uncentered):                   0.981
Model:                            OLS   Adj. R-squared (uncentered):              0.977
Method:                 Least Squares   F-statistic:                              270.3
Date:                Wed, 26 Apr 2023   Prob (F-statistic):                    9.17e-42
Time:                        14:07:48   Log-Likelihood:                          77.715
No. Observations:                  63   AIC:                                     -135.4
Df Residuals:                      53   BIC:                                     -114.0
Df Model:                          10                                                  
Covariance Type:            nonrobust                                                  
                 coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------

#### Исходная система уравнений после отбора признаков методом обратного исключения (Backward elimination)

In [303]:
CustomLinearRegression(y2_train, fn2_rec).backward_elimination(start=1)

                                 OLS Regression Results                                
Dep. Variable:                     y2   R-squared (uncentered):                   0.979
Model:                            OLS   Adj. R-squared (uncentered):              0.978
Method:                 Least Squares   F-statistic:                              689.5
Date:                Wed, 26 Apr 2023   Prob (F-statistic):                    8.84e-49
Time:                        14:07:48   Log-Likelihood:                          75.029
No. Observations:                  63   AIC:                                     -142.1
Df Residuals:                      59   BIC:                                     -133.5
Df Model:                           4                                                  
Covariance Type:            nonrobust                                                  
                 coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------

#### Конечная система уравнений и веса

In [304]:
final_fn2_rec = pd.concat([y1_train, x1_train, x4_train, x6_train], axis=1)
CustomLinearRegression(y2_train, final_fn2_rec).get_coefficients()

y1    0.191831
x1    0.258656
x4    0.348130
x6    0.347636
dtype: float64
$$\hat y_2 = 0.1918y_{1} + 0.2587x_{1} + 0.3481x_{4} + 0.3476x_{6}$$


$$\hat y_2 = 0.1879y_{1} + 0.3133x_{1} + 0.1938x_{4} + 0.2805x_{6}$$

In [305]:
fig = make_subplots(rows=2, cols=2)
fig.update_yaxes(title_text='Y2', row=1, col=1)
fig.update_yaxes(title_text='Y2', row=2, col=1)

fig.add_trace(px.scatter(x=y1_train, y=y2_train).data[0], row=1, col=1)
fig.update_xaxes(title_text='Y1', row=1, col=1)

fig.add_trace(px.scatter(x=x1_train, y=y2_train).data[0], row=1, col=2)
fig.update_xaxes(title_text='X1', row=1, col=2)

fig.add_trace(px.scatter(x=x4_train, y=y2_train).data[0], row=2, col=1)
fig.update_xaxes(title_text='X4', row=1, col=3)

fig.add_trace(px.scatter(x=x6_train, y=y2_train).data[0], row=2, col=2)
fig.update_xaxes(title_text='X6', row=2, col=1)

fig.update_layout(height=800, title='Графики рассеяния')
fig.show()

### Третье уравнение

$$y_3 = a_3 + a_{31}y_1 + a_{32}y_2 + b_{31}x_{11} + \epsilon$$

#### Исходная система уравнений

In [306]:
fn3_rec = pd.concat([y1_train, y2_train, x11_train], axis=1)
CustomLinearRegression(y3_train, fn3_rec).summary()

                                 OLS Regression Results                                
Dep. Variable:                     y3   R-squared (uncentered):                   0.981
Model:                            OLS   Adj. R-squared (uncentered):              0.980
Method:                 Least Squares   F-statistic:                              1013.
Date:                Wed, 26 Apr 2023   Prob (F-statistic):                    2.50e-51
Time:                        14:07:48   Log-Likelihood:                          80.838
No. Observations:                  63   AIC:                                     -155.7
Df Residuals:                      60   BIC:                                     -149.2
Df Model:                           3                                                  
Covariance Type:            nonrobust                                                  
                 coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------

#### Исходная система уравнений после отбора признаков методом обратного исключения (Backward elimination)

In [307]:
CustomLinearRegression(y3_train, fn3_rec).backward_elimination(start=0)

                                 OLS Regression Results                                
Dep. Variable:                     y3   R-squared (uncentered):                   0.981
Model:                            OLS   Adj. R-squared (uncentered):              0.980
Method:                 Least Squares   F-statistic:                              1013.
Date:                Wed, 26 Apr 2023   Prob (F-statistic):                    2.50e-51
Time:                        14:07:48   Log-Likelihood:                          80.838
No. Observations:                  63   AIC:                                     -155.7
Df Residuals:                      60   BIC:                                     -149.2
Df Model:                           3                                                  
Covariance Type:            nonrobust                                                  
                 coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------

#### Конечная система уравнений и веса

In [308]:
final_fn3_rec = pd.concat([y2_train, x11_train], axis=1)
CustomLinearRegression(y3_train, final_fn3_rec).get_coefficients()

y2     0.515381
x11    0.450619
dtype: float64
$$\hat y_3 = 0.5154y_{2} + 0.4506x_{11}$$


$$\hat y_3 = 0.4545y_{2} + 0.4928x_{11}$$

In [309]:
fig = make_subplots(rows=1, cols=2)
fig.update_yaxes(title_text='Y3', row=1, col=1)

fig.add_trace(px.scatter(x=y2_train, y=y3_train).data[0], row=1, col=1)
fig.update_xaxes(title_text='Y1', row=1, col=1)

fig.add_trace(px.scatter(x=x11_train, y=y3_train).data[0], row=1, col=2)
fig.update_xaxes(title_text='X11', row=1, col=2)

fig.update_layout(height=500, title='Графики рассеяния')
fig.show()

## Система одновременных уравнений

$$
\begin{cases}
y_1 = a_1 + b_{11}x_{1} + b_{12}x_{2} + \epsilon \\
y_2 = a_2 + a_{21}y_1 + b_{23}x_{3} + b_{24}x_{4} + b_{25}x_{5} + b_{26}x_{6} + b_{27}x_{7} + b_{28}x_{8} + b_{29}x_{9} + \epsilon \\
y_3 = a_3 + a_{31}y_1 + b_{310}x_{10} + b_{311}x_{11} + \epsilon \\
\end{cases}
$$

### Первое уравнение

$$y_1 = a_1 + b_{11}x_{1} + b_{12}x_{2} + \epsilon$$

#### Исходная система уравнений

In [310]:
fn1_odn = pd.concat([x1_train, x2_train], axis=1)
CustomLinearRegression(y1_train, fn1_odn, model_type=Poisson).summary()

Optimization terminated successfully.
         Current function value: 0.691846
         Iterations 6
                          Poisson Regression Results                          
Dep. Variable:                     y1   No. Observations:                   63
Model:                        Poisson   Df Residuals:                       61
Method:                           MLE   Df Model:                            1
Date:                Wed, 26 Apr 2023   Pseudo R-squ.:                 -0.2167
Time:                        14:07:48   Log-Likelihood:                -43.586
converged:                       True   LL-Null:                       -35.822
Covariance Type:            nonrobust   LLR p-value:                     1.000
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
x1            -2.3616      0.793     -2.977      0.003      -3.916      -0.807
x2             1.3061      0.

#### Исходная система уравнений после отбора признаков методом обратного исключения (Backward elimination)

In [311]:
CustomLinearRegression(y1_train, fn1_odn, model_type=Poisson).backward_elimination()

Optimization terminated successfully.
         Current function value: 0.691846
         Iterations 6
Optimization terminated successfully.
         Current function value: 0.691846
         Iterations 6
Optimization terminated successfully.
         Current function value: 0.691846
         Iterations 6
Optimization terminated successfully.
         Current function value: 0.705800
         Iterations 6
                          Poisson Regression Results                          
Dep. Variable:                     y1   No. Observations:                   63
Model:                        Poisson   Df Residuals:                       62
Method:                           MLE   Df Model:                            0
Date:                Wed, 26 Apr 2023   Pseudo R-squ.:                 -0.2413
Time:                        14:07:48   Log-Likelihood:                -44.465
converged:                       True   LL-Null:                       -35.822
Covariance Type:            nonrobust  

#### Конечная система уравнений и веса

In [312]:
final_fn1_odn = pd.concat([x1_train], axis=1)
CustomLinearRegression(y1_train, final_fn1_odn, model_type=Poisson).get_coefficients()

Optimization terminated successfully.
         Current function value: 0.705800
         Iterations 6
x1   -1.462581
dtype: float64
$$\hat y_1 = -1.4626x_{1}$$


$$\hat y_1 = -1.1110x_{1}$$

In [313]:
fig = make_subplots(rows=1, cols=1)
fig.update_yaxes(title_text='Y1', row=1, col=1)

fig.add_trace(px.scatter(x=x1_train, y=y1_train).data[0], row=1, col=1)
fig.update_xaxes(title_text='X1', row=1, col=1)

fig.update_layout(height=500, title='Графики рассеяния')
fig.show()

### Второе уравнение

$$y_2 = a_2 + a_{21}y_1 + b_{23}x_{3} + b_{24}x_{4} + b_{25}x_{5} + b_{26}x_{6} + b_{27}x_{7} + b_{28}x_{8} + b_{29}x_{9} + \epsilon \\$$

#### Исходная система уравнений

In [314]:
fn2_odn = pd.concat([y1_train, x3_train, x4_train, x5_train, x6_train, x7_train, x8_train, x9_train], axis=1)
CustomLinearRegression(y2_train, fn2_odn, model_type=Poisson).summary()

Optimization terminated successfully.
         Current function value: 0.772556
         Iterations 6
                          Poisson Regression Results                          
Dep. Variable:                     y2   No. Observations:                   63
Model:                        Poisson   Df Residuals:                       55
Method:                           MLE   Df Model:                            7
Date:                Wed, 26 Apr 2023   Pseudo R-squ.:                -0.09209
Time:                        14:07:49   Log-Likelihood:                -48.671
converged:                       True   LL-Null:                       -44.567
Covariance Type:            nonrobust   LLR p-value:                     1.000
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
y1            -0.2344      3.235     -0.072      0.942      -6.575       6.106
x3             0.5035      1.

#### Исходная система уравнений после отбора признаков методом обратного исключения (Backward elimination)

In [315]:
CustomLinearRegression(y2_train, fn2_odn, model_type=Poisson).backward_elimination(start=1)

Optimization terminated successfully.
         Current function value: 0.772556
         Iterations 6
Optimization terminated successfully.
         Current function value: 0.772556
         Iterations 6
Optimization terminated successfully.
         Current function value: 0.772556
         Iterations 6
Optimization terminated successfully.
         Current function value: 0.773092
         Iterations 6
Optimization terminated successfully.
         Current function value: 0.774538
         Iterations 6
Optimization terminated successfully.
         Current function value: 0.780352
         Iterations 6
Optimization terminated successfully.
         Current function value: 0.788100
         Iterations 6
Optimization terminated successfully.
         Current function value: 0.789354
         Iterations 6
Optimization terminated successfully.
         Current function value: 0.797955
         Iterations 6
Optimization terminated successfully.
         Current function value: 0.797955
  

#### Конечная система уравнений и веса

In [316]:
final_fn2_odn = pd.concat([y1_train, x5_train, x6_train], axis=1)
CustomLinearRegression(y2_train, final_fn2_odn, model_type=Poisson).get_coefficients()

Optimization terminated successfully.
         Current function value: 0.795284
         Iterations 6
y1    2.090360
x5   -1.265753
x6   -1.386602
dtype: float64
$$\hat y_2 = 2.0904y_{1} + -1.2658x_{5} + -1.3866x_{6}$$


$$\hat y_2 = -3.0124y_{1} - 2.0495x_{5} + 3.9198x_{6}$$

In [317]:
fig = make_subplots(rows=1, cols=3)
fig.update_yaxes(title_text='Y2', row=1, col=1)

fig.add_trace(px.scatter(x=y1_train, y=y2_train).data[0], row=1, col=1)
fig.update_xaxes(title_text='Y1', row=1, col=1)

fig.add_trace(px.scatter(x=x5_train, y=y2_train).data[0], row=1, col=2)
fig.update_xaxes(title_text='X5', row=1, col=2)

fig.add_trace(px.scatter(x=x6_train, y=y2_train).data[0], row=1, col=3)
fig.update_xaxes(title_text='X6', row=1, col=3)

fig.update_layout(height=500, title='Графики рассеяния')
fig.show()

### Третье уравнение

$$y_3 = a_3 + a_{31}y_1 + b_{310}x_{10} + b_{311}x_{11} + \epsilon$$

#### Исходная система уравнений

In [318]:
fn3_odn = pd.concat([y1_train, x10_train, x11_train], axis=1)
CustomLinearRegression(y3_train, fn3_odn, model_type=Poisson).summary()

Optimization terminated successfully.
         Current function value: 0.813533
         Iterations 6
                          Poisson Regression Results                          
Dep. Variable:                     y3   No. Observations:                   63
Model:                        Poisson   Df Residuals:                       60
Method:                           MLE   Df Model:                            2
Date:                Wed, 26 Apr 2023   Pseudo R-squ.:                 -0.1768
Time:                        14:07:49   Log-Likelihood:                -51.253
converged:                       True   LL-Null:                       -43.551
Covariance Type:            nonrobust   LLR p-value:                     1.000
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
y1            -3.3156      2.397     -1.383      0.167      -8.013       1.382
x10            1.4630      2.

#### Исходная система уравнений после отбора признаков методом обратного исключения (Backward elimination)

In [319]:
CustomLinearRegression(y3_train, fn3_odn, model_type=Poisson).backward_elimination(start=0)

Optimization terminated successfully.
         Current function value: 0.813533
         Iterations 6
Optimization terminated successfully.
         Current function value: 0.813533
         Iterations 6
Optimization terminated successfully.
         Current function value: 0.813533
         Iterations 6
Optimization terminated successfully.
         Current function value: 0.813685
         Iterations 6
Optimization terminated successfully.
         Current function value: 0.819638
         Iterations 6
                          Poisson Regression Results                          
Dep. Variable:                     y3   No. Observations:                   63
Model:                        Poisson   Df Residuals:                       62
Method:                           MLE   Df Model:                            0
Date:                Wed, 26 Apr 2023   Pseudo R-squ.:                 -0.1857
Time:                        14:07:49   Log-Likelihood:                -51.637
converged:      

#### Конечная система уравнений и веса

In [320]:
final_fn3_odn = pd.concat([y1_train, x10_train], axis=1)
CustomLinearRegression(y3_train, final_fn3_odn, model_type=Poisson).get_coefficients()

Optimization terminated successfully.
         Current function value: 0.813685
         Iterations 6
y1    -3.120946
x10    1.578445
dtype: float64
$$\hat y_3 = -3.1209y_{1} + 1.5784x_{10}$$


$$\hat y_3 = -5.2016y_{1} + 4.0587x_{10}$$

In [321]:
fig = make_subplots(rows=1, cols=2)
fig.update_yaxes(title_text='Y3', row=1, col=1)

fig.add_trace(px.scatter(x=x10_train, y=y3_train).data[0], row=1, col=1)
fig.update_xaxes(title_text='X11', row=1, col=1)

fig.add_trace(px.scatter(x=x11_train, y=y3_train).data[0], row=1, col=2)
fig.update_xaxes(title_text='X11', row=1, col=2)

fig.update_layout(height=500, title='Графики рассеяния')
fig.show()

# Прогнозирование

### Система независимых уравнеий

$$
\begin{cases}
\hat y_1 = 0.5015x_{1} + 0.1920x_{2} \\
\hat y_2 = 0.3381x_{1} + 0.2250x_{4} + 0.3879x_{6} \\
\hat y_3 = 0.2437x_{1} + 0.2441x_{4} + 0.4219x_{11} \\
\end{cases}
$$

In [322]:
final_fn1_nez.columns.values.tolist(), final_fn2_nez.columns.values.tolist(), final_fn3_nez.columns.values.tolist()

(['x1', 'x2'], ['x1', 'x4', 'x6'], ['x1', 'x4', 'x11'])

#### Первое уравнение

In [323]:
CustomLinearRegression(y1_train, final_fn1_nez).predict(pd.concat([x1_test, x2_test], axis=1), y1_test)

Коэффициент детерминации (R^2): 85.2%
Cредняя ошибка аппроксимации (MAE): 4.6%
Cредняя квадратичная ошибка (MSE): 0.3%


#### Второе уравнение

In [324]:
CustomLinearRegression(y2_train, final_fn2_nez).predict(pd.concat([x1_test, x4_test, x6_test], axis=1), y2_test)

Коэффициент детерминации (R^2): 94.1%
Cредняя ошибка аппроксимации (MAE): 4.1%
Cредняя квадратичная ошибка (MSE): 0.3%


#### Третье уравнение

In [325]:
CustomLinearRegression(y3_train, final_fn3_nez).predict(
    pd.concat([x1_test, x4_test, x11_test], axis=1), y3_test)

Коэффициент детерминации (R^2): 95.9%
Cредняя ошибка аппроксимации (MAE): 3.6%
Cредняя квадратичная ошибка (MSE): 0.2%


### Система рекурсивных уравнеий

$$
\begin{cases}
\hat y_1 = 0.5015x_{1} + 0.1920x_{2} \\
\hat y_2 = 0.1879y_{1} + 0.3133x_{1} + 0.1938x_{4} + 0.2805x_{6} \\
\hat y_3 = 0.4545y_{2} + 0.4928x_{11} \\
\end{cases}
$$

In [326]:
final_fn1_rec.columns.values.tolist(), final_fn2_rec.columns.values.tolist(), final_fn3_rec.columns.values.tolist()

(['x1', 'x2'], ['y1', 'x1', 'x4', 'x6'], ['y2', 'x11'])

#### Первое уравнение

In [327]:
CustomLinearRegression(y1_train, final_fn1_rec).predict(pd.concat([x1_test, x2_test], axis=1), y1_test)

Коэффициент детерминации (R^2): 85.2%
Cредняя ошибка аппроксимации (MAE): 4.6%
Cредняя квадратичная ошибка (MSE): 0.3%


#### Второе уравнение

In [328]:
CustomLinearRegression(y2_train, final_fn2_rec).predict(pd.concat([y1_test, x1_test, x4_test, x6_test], axis=1),
                                                        y2_test)

Коэффициент детерминации (R^2): 94.4%
Cредняя ошибка аппроксимации (MAE): 4.2%
Cредняя квадратичная ошибка (MSE): 0.3%


#### Третье уравнение

In [329]:
CustomLinearRegression(y3_train, final_fn3_rec).predict(pd.concat([y2_test, x11_test], axis=1), y3_test)

Коэффициент детерминации (R^2): 91.4%
Cредняя ошибка аппроксимации (MAE): 5.4%
Cредняя квадратичная ошибка (MSE): 0.4%


### Система одновременных уравнеий

$$
\begin{cases}
\hat y_1 = -1.1110x_{1} \\
\hat y_2 = -3.0124y_{1} + -2.0495x_{5} + 3.9198x_{6} \\
\hat y_3 = -5.2016y_{1} + 4.0587x_{10} \\
\end{cases}
$$

In [330]:
final_fn1_odn.columns.values.tolist(), final_fn2_odn.columns.values.tolist(), final_fn3_odn.columns.values.tolist()

(['x1'], ['y1', 'x5', 'x6'], ['y1', 'x10'])

#### Первое уравнение

In [331]:
CustomLinearRegression(y1_train, final_fn1_odn).predict(pd.concat([x1_test], axis=1), y1_test)

Коэффициент детерминации (R^2): 81.0%
Cредняя ошибка аппроксимации (MAE): 5.2%
Cредняя квадратичная ошибка (MSE): 0.4%


#### Второе уравнение

In [332]:
CustomLinearRegression(y2_train, final_fn2_odn).predict(pd.concat([y1_test, x5_test, x6_test], axis=1), y2_test)

Коэффициент детерминации (R^2): 91.2%
Cредняя ошибка аппроксимации (MAE): 5.2%
Cредняя квадратичная ошибка (MSE): 0.4%


#### Третье уравнение

In [333]:
CustomLinearRegression(y3_train, final_fn3_odn).predict(pd.concat([y1_test, x10_test], axis=1), y3_test)

Коэффициент детерминации (R^2): 88.0%
Cредняя ошибка аппроксимации (MAE): 5.5%
Cредняя квадратичная ошибка (MSE): 0.6%


# Прогнозирование с помощью методов машинного обучения

In [334]:
class MLPrediction():
    def __init__(self, X_train, X_test, y_train):
        self.X_train = X_train
        self.X_test = X_test
        self.y_train = preprocessing.LabelEncoder().fit_transform(y_train)

    def logreg(self):  # Logistic Regression
        self.logreg = LogisticRegression()
        self.logreg.fit(self.X_train, self.y_train)
        Y_pred = self.logreg.predict(self.X_test)
        self.acc_log = round(self.logreg.score(self.X_train, self.y_train) * 100, 2)

    def logreg_score(self):
        self.logreg()
        print(self.acc_log)
        print(self.logreg.coef_)

    def svc(self):  # Support Vector Machines
        self.svc = SVC(kernel='linear')
        self.svc.fit(self.X_train, self.y_train)
        Y_pred = self.svc.predict(self.X_test)
        self.acc_svc = round(self.svc.score(self.X_train, self.y_train) * 100, 2)

    def svc_score(self):
        self.svc()
        print(self.acc_svc)
        print(self.svc.coef_)

    def knn(self):
        self.knn = KNeighborsClassifier(n_neighbors=3)  # 3
        self.knn.fit(self.X_train, self.y_train)
        Y_pred = self.knn.predict(self.X_test)
        self.acc_knn = round(self.knn.score(self.X_train, self.y_train) * 100, 2)

    def knn_score(self):
        self.knn()
        print(self.acc_knn)

    def gaussian(self):  # Gaussian Naive Bayes
        self.gaussian = GaussianNB()
        self.gaussian.fit(self.X_train, self.y_train)
        Y_pred = self.gaussian.predict(self.X_test)
        self.acc_gaussian = round(self.gaussian.score(self.X_train, self.y_train) * 100, 2)

    def gaussian_score(self):
        self.gaussian()
        print(self.acc_gaussian)

    def perceptron(self):
        self.perceptron = Perceptron()
        self.perceptron.fit(self.X_train, self.y_train)
        Y_pred = self.perceptron.predict(self.X_test)
        self.acc_perceptron = round(self.perceptron.score(self.X_train, self.y_train) * 100, 2)

    def perceptron_score(self):
        self.perceptron()
        print(self.acc_perceptron)

    def linear_svc(self):  # Linear SVC
        self.linear_svc = LinearSVC()
        self.linear_svc.fit(self.X_train, self.y_train)
        Y_pred = self.linear_svc.predict(self.X_test)
        self.acc_linear_svc = round(self.linear_svc.score(self.X_train, self.y_train) * 100, 2)

    def linear_svc_score(self):
        self.linear_svc()
        print(self.acc_linear_svc)

    def sgd(self):  # Stochastic Gradient Descent
        self.sgd = SGDClassifier()
        self.sgd.fit(self.X_train, self.y_train)
        Y_pred = self.sgd.predict(self.X_test)
        self.acc_sgd = round(self.sgd.score(self.X_train, self.y_train) * 100, 2)

    def sgd_score(self):
        self.sgd()
        print(self.acc_sgd)

    def decision_tree(self):  # Decision Tree
        self.decision_tree = DecisionTreeClassifier()
        self.decision_tree.fit(self.X_train, self.y_train)
        Y_pred = self.decision_tree.predict(self.X_test)
        self.acc_decision_tree = round(self.decision_tree.score(self.X_train, self.y_train) * 100, 2)

    def decision_tree_score(self):
        self.decision_tree()
        print(self.acc_decision_tree)

    def random_forest(self):  # Random Forest
        self.random_forest = RandomForestClassifier(n_estimators=1000, max_depth=100, min_samples_leaf=1)
        self.random_forest.fit(self.X_train, self.y_train)
        self.Y_pred = self.random_forest.predict(self.X_test)
        self.random_forest.score(self.X_train, self.y_train)
        self.acc_random_forest = self.random_forest.score(self.X_train, self.y_train) * 100

    def random_forest_score(self):
        self.random_forest()
        print(self.acc_random_forest)

    def rfc_plot(self):
        self.random_forest()
        importances = self.random_forest.feature_importances_
        std = np.std([tree.feature_importances_ for tree in self.random_forest.estimators_], axis=0)
        indices = np.argsort(importances)[::-1]
        df = pd.DataFrame({
            'Features': indices,
            'Importance': importances[indices],
            'Importance std': std[indices]
        })
        fig = px.bar(df, x='Features', y='Importance', error_y='Importance std', labels={'Importance': 'Importance score'})
        return fig.show()

    def compare(self):
        self.logreg()
        self.svc()
        self.knn()
        self.gaussian()
        self.perceptron()
        self.linear_svc()
        self.sgd()
        self.decision_tree()
        self.random_forest()
        models = pd.DataFrame({
            'Model': ['Support Vector Machines', 'KNN', 'Logistic Regression',
                      'Random Forest', 'Naive Bayes', 'Perceptron',
                      'Stochastic Gradient Decent', 'Linear SVC',
                      'Decision Tree'],
            'Score': [self.acc_svc, self.acc_knn, self.acc_log,
                      self.acc_random_forest, self.acc_gaussian, self.acc_perceptron,
                      self.acc_sgd, self.acc_linear_svc, self.acc_decision_tree]})
        return models.sort_values(by='Score', ascending=False)

In [335]:
MLPrediction(X_train, X_test, y_train['y1']).compare()

Unnamed: 0,Model,Score
0,Support Vector Machines,100.0
3,Random Forest,100.0
4,Naive Bayes,100.0
8,Decision Tree,100.0
7,Linear SVC,85.71
2,Logistic Regression,41.27
5,Perceptron,23.81
1,KNN,22.22
6,Stochastic Gradient Decent,20.63


In [336]:
MLPrediction(X_train, X_test, y_train['y2']).compare()

Unnamed: 0,Model,Score
0,Support Vector Machines,100.0
3,Random Forest,100.0
4,Naive Bayes,100.0
8,Decision Tree,100.0
7,Linear SVC,85.71
2,Logistic Regression,41.27
1,KNN,34.92
5,Perceptron,15.87
6,Stochastic Gradient Decent,14.29


In [337]:
MLPrediction(X_train, X_test, y_train['y3']).compare()

Unnamed: 0,Model,Score
0,Support Vector Machines,100.0
3,Random Forest,100.0
4,Naive Bayes,100.0
8,Decision Tree,100.0
7,Linear SVC,85.71
2,Logistic Regression,41.27
1,KNN,31.75
6,Stochastic Gradient Decent,26.98
5,Perceptron,17.46


In [338]:
MLPrediction(X_train, X_test, y_train['y3']).rfc_plot()