**Разработка программы для анализа временных рядов и построения линейной модели**

Процесс создания линейной многофакторной модели (ЛМФМ) для анализа данных временных рядов и факторов с использованием библиотеки pandas для работы с данными и statsmodels для статистического анализа и построения модели.

In [22]:
import numpy as np
import pandas as pd
import statsmodels.api as sm

# Генерация случайных данных с шумом
np.random.seed(42)

# Временные ряды
data = pd.DataFrame({
    'Time': range(1, 21),
    'y': 15 + 3 * np.random.randn(20) + 5 * np.random.rand(20),  # y с шумом
    'X1': 2 + 2 * np.random.randn(20),
    'X2': 5 + 1 * np.random.randn(20),
    'X3': 7 + 3 * np.random.randn(20),
    'X4': 3 + 4 * np.random.randn(20),
    'X5': 6 + 2 * np.random.randn(20)
})

# Создаем матрицу факторов и добавляем константу
X = data[['X1', 'X2', 'X3', 'X4', 'X5']]
X = sm.add_constant(X)

# Модель линейной регрессии
y = data['y']
model = sm.OLS(y, X).fit()

# Вывод результатов
print(model.summary())


                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.202
Model:                            OLS   Adj. R-squared:                 -0.083
Method:                 Least Squares   F-statistic:                    0.7086
Date:                Mon, 11 Nov 2024   Prob (F-statistic):              0.627
Time:                        18:05:02   Log-Likelihood:                -50.011
No. Observations:                  20   AIC:                             112.0
Df Residuals:                      14   BIC:                             118.0
Df Model:                           5                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         23.8813      6.172      3.870      0.0

2. **Построение линейной многофакторной модели**

In [23]:
import statsmodels.api as sm

# Зависимая переменная (отклик)
y = data['y']
# Независимые переменные (факторы)
X = data[['X1', 'X2', 'X3', 'X4', 'X5']]
X = sm.add_constant(X)  # Добавляем константу для смещения

# Построение модели
model = sm.OLS(y, X).fit()
print("Результаты оценки параметров модели:")
display(model.summary())


Результаты оценки параметров модели:


0,1,2,3
Dep. Variable:,y,R-squared:,0.202
Model:,OLS,Adj. R-squared:,-0.083
Method:,Least Squares,F-statistic:,0.7086
Date:,"Mon, 11 Nov 2024",Prob (F-statistic):,0.627
Time:,18:05:09,Log-Likelihood:,-50.011
No. Observations:,20,AIC:,112.0
Df Residuals:,14,BIC:,118.0
Df Model:,5,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,23.8813,6.172,3.870,0.002,10.645,37.118
X1,-0.6064,0.468,-1.294,0.216,-1.611,0.398
X2,-1.0399,1.068,-0.974,0.347,-3.330,1.250
X3,-0.2767,0.299,-0.926,0.370,-0.917,0.364
X4,-0.0793,0.210,-0.378,0.711,-0.529,0.370
X5,0.2158,0.426,0.506,0.621,-0.699,1.130

0,1,2,3
Omnibus:,2.077,Durbin-Watson:,2.289
Prob(Omnibus):,0.354,Jarque-Bera (JB):,1.05
Skew:,-0.056,Prob(JB):,0.592
Kurtosis:,1.883,Cond. No.,87.5


3. **Продолжение с отбором факторов и оценки модели**  
Продолжим с фильтрации значимых факторов, корреляции и оценки адекватности модели:

In [24]:
# Уровень значимости, заданный пользователем
alpha = 0.05
significant_factors = model.pvalues[model.pvalues < alpha]
print("Значимые факторы по уровню значимости:")
display(significant_factors)

# Корреляция между факторами и откликом
correlation_matrix = data.corr()
print("Корреляционная матрица:")
display(correlation_matrix)

# Извлечение корреляции отклика y с факторами
y_correlations = correlation_matrix['y'].drop('y')
print("Корреляция отклика y с факторами:")
display(y_correlations)

# Коэффициент детерминации (R²)
r_squared = model.rsquared
print(f"Коэффициент детерминации (R²): {r_squared:.3f}")

# Проверка статистической значимости модели (F-статистика)
f_pvalue = model.f_pvalue
if f_pvalue < alpha:
    print("Модель адекватна (статистически значима).")
else:
    print("Модель неадекватна (не статистически значима).")


Значимые факторы по уровню значимости:


const    0.001701
dtype: float64

Корреляционная матрица:


Unnamed: 0,Time,y,X1,X2,X3,X4,X5
Time,1.0,-0.530885,0.092943,0.216454,0.249252,0.338883,-0.192387
y,-0.530885,1.0,-0.309463,-0.228363,-0.094751,-0.151072,0.045632
X1,0.092943,-0.309463,1.0,0.155465,-0.225919,0.002023,-0.01641
X2,0.216454,-0.228363,0.155465,1.0,-0.288388,0.23586,0.319655
X3,0.249252,-0.094751,-0.225919,-0.288388,1.0,0.031528,-0.029399
X4,0.338883,-0.151072,0.002023,0.23586,0.031528,1.0,0.103603
X5,-0.192387,0.045632,-0.01641,0.319655,-0.029399,0.103603,1.0


Корреляция отклика y с факторами:


Time   -0.530885
X1     -0.309463
X2     -0.228363
X3     -0.094751
X4     -0.151072
X5      0.045632
Name: y, dtype: float64

Коэффициент детерминации (R²): 0.202
Модель неадекватна (не статистически значима).


4. **Вычисление ошибки (RMSE)**

In [25]:
import numpy as np

# RMSE
predicted_y = model.predict(X)
rmse = np.sqrt(((y - predicted_y) ** 2).mean())
print(f"Среднеквадратичная ошибка (RMSE): {rmse:.3f}")


Среднеквадратичная ошибка (RMSE): 2.949


**Прогнозирование на новых данных**

Создаем новый набор данных для прогнозирования. Этот набор содержит значения факторов, которые не входят в исходные данные, и мы будем использовать модель для предсказания отклика y.

In [13]:
# Новый набор данных для прогнозирования
new_data = pd.DataFrame({
    'X1': [3.2, 3.8],
    'X2': [2.8, 3.2],
    'X3': [1.5, 1.6],
    'X4': [4.1, 4.3],
    'X5': [2.2, 2.4]
})
new_data = sm.add_constant(new_data)

# Прогнозирование
y_pred_new = model.predict(new_data)
print("Предсказанные значения:", y_pred_new)


Предсказанные значения: 0    20.296202
1    22.747431
dtype: float64


    **Сохранение результатов в текстовый файл**

В завершение сохраняем все результаты анализа в текстовый файл для удобного просмотра и отчетности.

In [21]:
with open('results.txt', 'w') as f:
    f.write(str(model.summary()))
    f.write(f"\nОшибка E = {E}")
    f.write(f"\nRMSE = {RMSE}")
    f.write(f"\nПредсказанные значения:\n{y_pred_new}")
