In [48]:
import pandas as pd
import numpy as np
import statsmodels.api as sm
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from scipy.stats import shapiro
from statsmodels.stats.stattools import durbin_watson
import sys
import os

## Данные:
**Target:**

инвестиции в основной капитал (I)

**Features:**

-	численность населения Челябинской области, тыс. чел (далее Ppl);
-	численность безработных в возрасте 15-72 лет, тыс. чел (далее Uem);
-	численность занятых в возрасте 15-72 лет, тыс. чел (далее Em);
-	среднедушевые денежные доходы населения, руб./месяц (далее In);
-	объем выбросов в атмосферу загрязняющих веществ, отходящих от стационарных источников, тыс. тонн (далее Pln);
-	оборот розничной торговли, млн руб. (далее Tr);
-	число предприятий и организаций, шт. (далее Cmp);
-	валовый региональный продукт (ВРП), млн руб. (далее GRP).


In [38]:
def split_response_factors(data, response_col, factor_cols):
    y = data[response_col]
    X = data[factor_cols]
    print(f"\nОтклик (y): '{response_col}'")
    print(f"Факторы (X): {factor_cols}")
    return y, X

def split_train_test(X, y, test_size=0.2, random_state=42):
     #Для временных рядов часто лучше использовать разделение по времени:
     train_size = int(len(X) * (1 - test_size))
     X_train, X_test = X.iloc[:train_size], X.iloc[train_size:]
     y_train, y_test = y.iloc[:train_size], y.iloc[train_size:]

     print(f'\nДанные разделены на обучающую ({len(X_train)} наблюдений) и тестовую ({len(X_test)} наблюдений) выборки.')

     return X_train, X_test, y_train, y_test


In [68]:
def estimate_lmfm(X_train, y_train, add_constant=True, significance_level=0.05):
    """
    Оценивает параметры линейной многофакторной модели (ЛМФМ)
    с использованием метода наименьших квадратов (OLS) из statsmodels.
    Выводит рекомендации по отбору факторов на основе p-значений.
    """
    X_train_processed = X_train.copy()
    if add_constant:
        # Добавляем константу к матрице факторов для расчета свободного члена
        X_train_processed = sm.add_constant(X_train_processed)
        print("\nКонстанта добавлена к матрице факторов.")

    model = sm.OLS(y_train, X_train_processed)
    results = model.fit()
    print("\nМодель ЛМФМ оценена.")
    print(results.summary()) # Выводим сводку результатов

    print(f"\n--- Отбор факторов по статистической значимости (уровень значимости = {significance_level}) ---")
    for factor, p_value in results.pvalues.items():
        if factor == 'const':
            continue # Пропускаем константу
        if p_value < significance_level:
            print(f"Фактор '{factor}': p-value = {p_value:.4f} < {significance_level}. Рекомендуется ОСТАВИТЬ (статистически значим).")
        else:
            print(f"Фактор '{factor}': p-value = {p_value:.4f} >= {significance_level}. Рекомендуется УДАЛИТЬ (статистически не значим).")
    print("--------------------------------------------------------------------------------")

    return results

In [50]:
def calculate_and_print_correlations(X, y):
    """
    Рассчитывает и выводит корреляции:
    - между каждым фактором и откликом
    - между факторами (мультиколлинеарность)
    """
    print("\n--- Корреляции факторов с откликом ---")
    factor_response_corr = X.corrwith(y)
    print(factor_response_corr.to_string())
    print("--------------------------------------")

    print("\n--- Корреляционная матрица факторов (мультиколлинеарность) ---")
    factor_factor_corr = X.corr()
    print(factor_factor_corr.to_string())
    print("--------------------------------------------------------------")

In [52]:
def calculate_rmse(y_true, y_pred):
    """Вычисляет среднеквадратичную ошибку (RMSE)."""
    return np.sqrt(mean_squared_error(y_true, y_pred))

In [54]:
def calculate_error_e(y_true, y_pred):
    """Вычисляет ошибку E = 1/n * sum ((yi-yit)/yit)."""
    # Избегаем деления на ноль, если y_true содержит нули
    # Заменяем нули на очень маленькое число или исключаем их, в зависимости от контекста
    # Для простоты, здесь исключаем нули из y_true для расчета относительной ошибки
    non_zero_indices = y_true != 0
    if not np.any(non_zero_indices):
        return np.nan # Нет ненулевых значений для расчета

    y_true_filtered = y_true[non_zero_indices]
    y_pred_filtered = y_pred[non_zero_indices]

    if len(y_true_filtered) == 0:
        return np.nan # После фильтрации не осталось данных

    return np.mean(np.abs((y_true_filtered - y_pred_filtered) / y_true_filtered))

In [56]:
def assess_model_adequacy(model_results, y_train, X_train_original, alpha=0.05):
    """
    Оценивает адекватность модели, включая R^2, F-статистику, RMSE,
    и тесты остатков.
    """
    print("\n--- Оценка адекватности модели на обучающей выборке ---")

    # R^2 и F-статистика
    r_squared = model_results.rsquared
    f_statistic = model_results.fvalue
    f_pvalue = model_results.f_pvalue

    print(f"Коэффициент детерминации (R^2): {r_squared:.4f}")
    print(f"F-статистика: {f_statistic:.4f}")
    print(f"p-value для F-статистики: {f_pvalue:.4f}")

    if f_pvalue < alpha:
        print(f"Модель статистически значима (p-value < {alpha}). Модель АДЕКВАТНА.")
    else:
        print(f"Модель статистически не значима (p-value >= {alpha}). Модель НЕ АДЕКВАТНА.")

    # Вычисление ошибок
    # y_pred_train = model_results.predict(model_results.model.exog) # Это предсказания на основе X_train_processed (с константой)
    # Нужно получить предсказания на основе исходного X_train_original, если константа была добавлена внутри estimate_lmfm
    # Если add_constant=True, то model_results.model.exog уже содержит константу.
    y_pred_train = model_results.predict(sm.add_constant(X_train_original) if 'const' not in X_train_original.columns else X_train_original)


    rmse = calculate_rmse(y_train, y_pred_train)
    error_e = calculate_error_e(y_train, y_pred_train)

    print(f"Ошибка RMSE на обучающей выборке: {rmse:.4f}")
    print(f"Ошибка E на обучающей выборке: {error_e:.4f}")

    # Проверка остатков
    residuals = model_results.resid
    print("\n--- Проверка остатков ---")

    # Сумма остатков
    sum_residuals = np.sum(residuals)
    print(f"Сумма остатков: {sum_residuals:.4f} (должна быть близка к нулю для OLS)")

    # Тест на нормальность (Шапиро-Уилка)
    if len(residuals) >= 3 and len(residuals) <= 5000: # Shapiro-Wilk test is valid for N between 3 and 5000
        shapiro_stat, shapiro_p = shapiro(residuals)
        print(f"Тест Шапиро-Уилка на нормальность остатков:")
        print(f"  Статистика: {shapiro_stat:.4f}")
        print(f"  p-value: {shapiro_p:.4f}")
        if shapiro_p < alpha:
            print(f"  Остатки НЕ распределены нормально (p-value < {alpha}).")
        else:
            print(f"  Остатки распределены нормально (p-value >= {alpha}).")
    else:
        print(f"Тест Шапиро-Уилка не применим для {len(residuals)} наблюдений (нужно от 3 до 5000).")


    # Тест на автокорреляцию (Дарбина-Уотсона)
    dw_stat = durbin_watson(residuals)
    print(f"Тест Дарбина-Уотсона на автокорреляцию остатков:")
    print(f"  Статистика: {dw_stat:.4f}")
    print("  Интерпретация:")
    print("    Значение ~2.0 указывает на отсутствие автокорреляции.")
    print("    Значение <1.5 или >2.5 может указывать на положительную/отрицательную автокорреляцию.")
    if dw_stat < 1.5 or dw_stat > 2.5:
        print("  Возможно, присутствует автокорреляция остатков.")
    else:
        print("  Автокорреляция остатков, вероятно, отсутствует.")

    print("--------------------------------------------")

In [58]:
def perform_predictions(model_results, X_test, y_test, prediction_output_filename="predictions_output.csv"):
    """
    Выполняет предсказания на тестовой выборке и сохраняет их в CSV-файл.
    """
    print("\n--- Выполнение предсказаний на тестовой выборке ---")

    # Убедимся, что X_test имеет такую же структуру (с константой или без)
    # как и X_train, на котором обучалась модель.
    X_test_processed = X_test.copy()
    if 'const' in model_results.params.index and 'const' not in X_test_processed.columns:
        X_test_processed = sm.add_constant(X_test_processed, has_constant='add')
        print("Константа добавлена к тестовой выборке факторов для предсказания.")
    elif 'const' not in model_results.params.index and 'const' in X_test_processed.columns:
        # Если модель обучалась без константы, а в тестовой выборке она есть (что маловероятно, но для надежности)
        X_test_processed = X_test_processed.drop(columns=['const'])

    y_pred_test = model_results.predict(X_test_processed)

    predictions_df = pd.DataFrame({
        'Actual_Y': y_test.values,
        'Predicted_Y': y_pred_test.values
    }, index=y_test.index) # Сохраняем исходные индексы для сопоставления

    # Сохраняем предсказания в новый файл
    predictions_df.to_csv(prediction_output_filename, index=False)
    print(f"Предсказания на тестовой выборке сохранены в файл: {prediction_output_filename}")

    # Оценка RMSE на тестовой выборке
    rmse_test = calculate_rmse(y_test, y_pred_test)
    print(f"Ошибка RMSE на тестовой выборке: {rmse_test:.4f}")
    print("-------------------------------------------------")

    return predictions_df

In [64]:
def run_lmfm_analysis(filepath, response_col, factor_cols, test_size=0.2,
                      add_constant=True, significance_level=0.05,
                      output_filename="lmfm_output.txt",
                      predictions_output_filename="lmfm_predictions.csv"):
    """
    Основная функция для выполнения анализа ЛМФМ.
    """
    # Перенаправляем вывод консоли в файл
    original_stdout = sys.stdout
    if output_filename:
        sys.stdout = open(output_filename, 'w', encoding='utf-8')
        print(f"Вывод консоли будет сохранен в файл: {output_filename}\n")

    print("--- Начало анализа ЛМФМ ---")

    # 1. Загрузка данных
    data = pd.read_excel('Chel_obl_invest_index_data.xlsx')

    # 2. Разделение на отклик и факторы
    y, X = split_response_factors(data, response_col, factor_cols)

    # 3. Разделение на обучающую и тестовую выборки
    X_train, X_test, y_train, y_test = split_train_test(X, y, test_size=test_size)

    # 4. Расчет и вывод корреляций
    calculate_and_print_correlations(X, y)

    # 5. Оценка параметров ЛМФМ и отбор факторов
    model_results = estimate_lmfm(X_train, y_train, add_constant=add_constant, significance_level=significance_level)

    # 6. Оценка адекватности модели
    # Передаем оригинальный X_train для расчета предсказаний, если константа была добавлена внутри estimate_lmfm
    assess_model_adequacy(model_results, y_train, X_train, alpha=significance_level)

    # 7. Выполнение предсказаний на тестовой выборке
    predictions_df = perform_predictions(model_results, X_test, y_test, predictions_output_filename)

    print("\n--- Анализ ЛМФМ завершен ---")

    # Возвращаем вывод консоли к стандартному
    if output_filename:
        sys.stdout.close()
        sys.stdout = original_stdout
        print(f"\nВывод сохранен в {output_filename}")
        print(f"Предсказания сохранены в {predictions_output_filename}")

    return model_results, X_train, X_test, y_train, y_test, X, y, predictions_df


In [70]:
file_path = 'Chel_obl_invest_index_data.xlsx'
response_column = 'I'
factor_columns = ['people', 'income', 'GRP', 'pollution', 'trade', 'unemployment ',
       'employees', 'companies']
user_significance_level = 0.05   
results, X_train_data, X_test_data, y_train_data, y_test_data, X_full, y_full, predictions_df = run_lmfm_analysis(
    filepath=file_path,
    response_col=response_column,
    factor_cols=factor_columns,
    test_size=0.2,
    add_constant=True, # Добавлять ли свободный член
    significance_level=user_significance_level,
    output_filename="lmfm_income_analysis_output.txt",
    predictions_output_filename="lmfm_income_predictions.csv"
 )

  res = hypotest_fun_out(*samples, **kwds)
