In [None]:
# eco_health_analysis.py
# © 2025. Можно свободно модифицировать и использовать.

import os
import pathlib
import warnings
from typing import List

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

import statsmodels.api as sm
from sklearn.model_selection import TimeSeriesSplit, train_test_split
from sklearn.metrics import r2_score, mean_squared_error
from sklearn.impute import SimpleImputer
from lightgbm import LGBMRegressor
import shap

warnings.filterwarnings("ignore")      # приглушаем «лишние» ворнинги

# ────────────────────────────────────────────────────────────────────────────────
# 1. ПАРАМЕТРЫ ПОЛЬЗОВАТЕЛЯ
# ────────────────────────────────────────────────────────────────────────────────
DATA_PATH   = "тест.xlsx"              # исходная таблица (можно .csv)
TARGET_COL  = "Всего заболеваний"      # целевая переменная (заболеваемость на 100 тыс.)
YEAR_COL    = "Год"
REGION_COL  = "Район"
# целевые нозологии: задавайте список колонок с интересующими болезнями,
# либо оставьте одну общую («Всего заболеваний»)
# Например: TARGET_GROUP = ["Болезни органов дыхания", "Злокачественные новообразования"]
TARGET_GROUP: List[str] = [TARGET_COL]

# сколько топ‑факторов рисовать на dependence‑plots
N_TOP_DEP   = 3

# ────────────────────────────────────────────────────────────────────────────────
# 2. ЧТЕНИЕ И ПРЕДОБРАБОТКА
# ────────────────────────────────────────────────────────────────────────────────
out_dir = pathlib.Path("outputs")
out_dir.mkdir(exist_ok=True)

print("► читаем данные…")
if DATA_PATH.endswith(".csv"):
    df = pd.read_csv(DATA_PATH, encoding="utf-8-sig")
else:
    df = pd.read_excel(DATA_PATH)

# убираем возможные пробелы вокруг имён колонок
df.columns = [c.strip() for c in df.columns]

# > превращаем запятые в числа, если вдруг остались строки
numeric_cols = df.columns.difference([YEAR_COL, REGION_COL])
df[numeric_cols] = df[numeric_cols].replace(",", ".", regex=True).apply(pd.to_numeric, errors="coerce")

# ── лаговые признаки (экология за прошлый год) ────────────────────────────────
eco_cols = [c for c in df.columns if c.startswith(("Air_", "Water_", "Soil_"))]
df = df.sort_values([REGION_COL, YEAR_COL])
df_lag = df[[REGION_COL, YEAR_COL] + eco_cols].copy()
df_lag[eco_cols] = df_lag.groupby(REGION_COL)[eco_cols].shift(1)
df_lag.columns = [c + "_lag1" if c in eco_cols else c for c in df_lag.columns]

df = df.merge(df_lag, on=[REGION_COL, YEAR_COL], how="left")

# ── трендовые графики (по желанию) ────────────────────────────────────────────
def plot_trends():
    # усредняем по всем регионам: один график «экология» и один «заболеваемость»
    mean_env = df.groupby(YEAR_COL)[eco_cols].mean()
    target   = df.groupby(YEAR_COL)[TARGET_COL].mean()

    fig, ax1 = plt.subplots(figsize=(8, 4))
    ax2 = ax1.twinx()
    ax1.plot(target.index, target.values, label="Заболеваемость (средняя)", lw=2)
    ax2.plot(mean_env.index, mean_env["Air_Аммиак"].values, color="tab:red", label="Аммиак (сред.)")
    ax1.set_xlabel("Год")
    ax1.set_ylabel("Заболеваемость на 100 тыс.")
    ax2.set_ylabel("Аммиак, мг/м³")
    ax1.legend(loc="upper left"); ax2.legend(loc="upper right")
    fig.tight_layout()
    fig.savefig(out_dir / "trend_example.png")
    plt.close()

plot_trends()

# ────────────────────────────────────────────────────────────────────────────────
# 3. ЛИНЕЙНАЯ МОДЕЛЬ (OLS)
# ────────────────────────────────────────────────────────────────────────────────
def build_linear_model(df_in: pd.DataFrame, target: str):
    predictors = eco_cols + [c + "_lag1" for c in eco_cols]
    X = df_in[predictors]
    y = df_in[target]
    X = sm.add_constant(X)                         # добавляем константу
    # простейшая median‑импутация (statsmodels не любит NaN)
    X = X.fillna(X.median(numeric_only=True))
    y = y.fillna(y.median())

    model = sm.OLS(y, X).fit(cov_type="HC3")       # робастные ошибки
    model_summary_path = out_dir / f"ols_summary_{target}.txt"
    with open(model_summary_path, "w", encoding="utf-8") as f:
        f.write(model.summary().as_text())
    print(f"► OLS готов — сохранён {model_summary_path}")

    # рисуем столбики коэффициентов ±95 % ДИ
    coefs = model.params.drop("const")
    errs  = model.bse.drop("const") * 1.96
    plt.figure(figsize=(6, 10))
    coefs.sort_values().plot(kind="barh", xerr=errs.loc[coefs.index])
    plt.title(f"Коэффициенты OLS для «{target}»")
    plt.tight_layout()
    plt.savefig(out_dir / f"ols_coefs_{target}.png")
    plt.close()

for tgt in TARGET_GROUP:
    build_linear_model(df, tgt)

# ────────────────────────────────────────────────────────────────────────────────
# 4. ML‑МОДЕЛЬ + SHAP
# ────────────────────────────────────────────────────────────────────────────────
def build_ml_model(df_in: pd.DataFrame, target: str):
    # признаки — все экологии + лаги; можно добавить dummy‑код «Год» / «Район» при желании
    X = df_in[eco_cols + [c + "_lag1" for c in eco_cols]]
    y = df_in[target]

    # train/test: последние 2 года — test
    train_mask = df_in[YEAR_COL] < df_in[YEAR_COL].max() - 1
    X_train, X_test = X[train_mask], X[~train_mask]
    y_train, y_test = y[train_mask], y[~train_mask]

    # Импутация пропусков + модель
    imp = SimpleImputer(strategy="median")
    X_train_imp = imp.fit_transform(X_train)
    X_test_imp  = imp.transform(X_test)

    model = LGBMRegressor(
        n_estimators=600,
        max_depth=4,
        learning_rate=0.05,
        subsample=0.8,
        colsample_bytree=0.8,
        random_state=42,
    )
    model.fit(X_train_imp, y_train)

    # оценка
    y_pred = model.predict(X_test_imp)
    r2  = r2_score(y_test, y_pred)
    rmse = mean_squared_error(y_test, y_pred, squared=False)
    print(f"► ML‑модель «{target}»:  R²={r2:.3f},  RMSE={rmse:.1f}")

    # SHAP
    explainer = shap.TreeExplainer(model)
    shap_values = explainer.shap_values(X_train_imp)

    # bar
    plt.figure()
    shap.summary_plot(shap_values, X_train, plot_type="bar", show=False)
    plt.title(f"SHAP важность факторов – {target}")
    plt.tight_layout(); plt.savefig(out_dir / f"shap_bar_{target}.png"); plt.close()

    # beeswarm
    plt.figure()
    shap.summary_plot(shap_values, X_train, show=False)
    plt.tight_layout(); plt.savefig(out_dir / f"shap_beeswarm_{target}.png"); plt.close()

    # dependence plots для топ‑N
    importance = np.abs(shap_values).mean(axis=0)
    top_idx = np.argsort(importance)[-N_TOP_DEP:][::-1]
    for i in top_idx:
        feature = X_train.columns[i]
        shap.dependence_plot(i, shap_values, X_train, show=False)
        plt.tight_layout()
        plt.savefig(out_dir / f"shap_dep_{target}_{feature}.png")
        plt.close()

    # один waterfall для первого тест‑наблюдения
    shap.plots.waterfall(explainer(X_test_imp[0]), show=False, max_display=10)
    plt.tight_layout(); plt.savefig(out_dir / f"shap_waterfall_{target}.png"); plt.close()

for tgt in TARGET_GROUP:
    build_ml_model(df, tgt)

print(f"► Все результаты и графики лежат в папке: {out_dir.resolve()}")
