In [1]:
import csv
import numpy as np
from sklearn import linear_model
from sklearn import preprocessing

In [2]:
def get_river_dataset(fname, pr_list=None, y_name='h_max'):
    pr_arr = []
    y_arr = []
    with open(fname, newline='') as f:
        reader = csv.DictReader(f, delimiter=';')
        for row in reader:
            pr_arr_row = []
            for col in pr_list:
                pr_arr_row.append(row[col])
                #print(f'{col}: {row[col]}', end='; ')
            pr_arr.append(pr_arr_row)
            y_arr.append(row[y_name])
    X = np.asarray(pr_arr, dtype=np.float32)
    y = np.asarray(y_arr, dtype=np.float32)
    return X, y

#### Среднеквадратическое отклонение sigma

In [3]:
def get_sigma(hydropost):
    sigma = {
        'Неман-Белица': 93,
    }
    return sigma[hydropost]

#### Допустимая погрешность прогноза sigma_dop

In [4]:
def get_delta_dop(sigma):
    return 0.674 * sigma

#### Сумма, средний, высший, низший уровни

In [5]:
def get_sum(h_max):
    return np.sum(h_max)
    
def get_avg(h_max):
    return np.mean(h_max)
    
def get_max(h_max):
    return np.amax(h_max)
    
def get_min(h_max):
    return np.amin(h_max)

#### Среднеквадратическая погрешность S

In [6]:
def get_s(h_max, h_forecast=None):
    if h_forecast is None:
        # Среднеквадратическая погрешность климатическая
        return np.std(h_max, ddof=1)
    else:
        # Среднеквадратическая погрешность прогноза
        n = h_max.shape[0]
        sqr_diff = np.sum((h_max - h_forecast) ** 2) / (n - 1)
        std = sqr_diff ** 0.5
        return std    

#### Критерий эффективности метода прогнозирования климатический S/sigma

In [7]:
def get_criterion(s, sigma):
    return s / sigma

#### Климатическая обеспеченность Pk

In [8]:
def get_pk(h_max, delta_dop):
    avg_level = np.mean(h_max)
    diff = np.abs(h_max - avg_level)
    trusted_values = diff[diff <= delta_dop]
    m = trusted_values.shape[0]
    n = h_max.shape[0]
    return m / n * 100.00

#### Обеспеченность метода (оправдываемость) Pm

In [9]:
def get_pm(h_max, h_forecast, delta_dop):
    diff = np.abs(h_max - h_forecast)
    trusted_values = diff[diff <= delta_dop]
    m = trusted_values.shape[0]
    n = h_max.shape[0]
    #print(m, n)
    return m / n * 100.00

#### Корреляционное отношение

In [10]:
def get_correlation_ratio(criterion):
    return (1 - criterion ** 2) ** 0.5

#### Вероятная погрешность прогноза delta50

In [11]:
def get_delta50(s):
    return 0.674 * s

In [12]:
def compare_models():
    from sklearn.linear_model import LinearRegression
    from sklearn.linear_model import Ridge
    from sklearn.linear_model import Lasso
    from sklearn.linear_model import ElasticNet, ElasticNetCV
    from sklearn.linear_model import Lars, LarsCV
    from sklearn.linear_model import LassoLars
    
    
    ds_dir = 'data'
    
    names = [
        'LinearRegression',
        'Ridge',
        'Lasso',
        'ElasticNet',
        'ElasticNetCV',
        'LassoLars',
        'Lars1',
        'Lars2',
        'Lars3',
        'Lars4',
        'Lars5',
        'Lars6',
        'Lars7',
        'Lars8',
        'LarsCV',
        
    ]

    regressors = [
        LinearRegression(),
        Ridge(alpha=10),
        Lasso(alpha=100.0),
        ElasticNet(alpha=2.0, l1_ratio=0.1),
        ElasticNetCV(l1_ratio=[.1, .5, .7, .9, .95, .99, 1], eps=0.01, n_alphas=1000),
        LassoLars(alpha=1.0),
        Lars(n_nonzero_coefs=1),
        Lars(n_nonzero_coefs=2),
        Lars(n_nonzero_coefs=3),
        Lars(n_nonzero_coefs=4),
        Lars(n_nonzero_coefs=5),
        Lars(n_nonzero_coefs=6),
        Lars(n_nonzero_coefs=7),
        Lars(n_nonzero_coefs=8),
        LarsCV(max_iter=5000, max_n_alphas=10000, cv=3)
    ]

    datasets = [
        ('Неман-Белица', 'Неман')
    ]

    predictors_lists = {
        'Неман': ['s_2802', 's_max', 'h', 'x', 'x1', 'x2', 'x3', 'xs'],
    }
    
    # Итерация по датасетам
    for ds in datasets:
        dataset_result = []
        X, y = get_river_dataset(f'{ds_dir}/{ds[0]}-2022.csv', pr_list=predictors_lists[ds[1]])

        # Итерация по моделям регрессии
        for name, regr in zip(names, regressors):
            model_row = dict()
            regr = regr.fit(X, y)
            y_predicted = regr.predict(X)

            # Коэффициенты уравнения (если есть)
            coef = [regr.intercept_] + list(regr.coef_)
            model_row['Coefficients'] = coef

            # Название метода
            model_row['Method'] = name

            # Расчет показателей качества по методике
            
            sigma = get_sigma(ds[0])
            delta_dop = get_delta_dop(sigma)
            s_forecast = get_s(y, y_predicted)
            
            
            # Критерий эффективности метода прогнозирования климатический S/sigma
            criterion_forecast = get_criterion(s_forecast, sigma)
            model_row['Criterion'] = criterion_forecast
            
            # Корреляционное отношение ro
            correlation_forecast = get_correlation_ratio(criterion_forecast)
            model_row['Correlation'] = correlation_forecast
            
            # Обеспеченность метода (оправдываемость) Pm
            pm = get_pm(y, y_predicted, delta_dop)
            model_row['Pm'] = pm

            dataset_result.append(model_row)

    return dataset_result

In [13]:
result = compare_models()
print(*result, sep='\n')

{'Coefficients': [24.197784, 1.0610785, 0.21267018, 0.5112204, 1.5756874, 1.413107, -0.17308418, 0.20844698, -1.1489737], 'Method': 'LinearRegression', 'Criterion': 0.4021554017309133, 'Correlation': 0.9155714242256842, 'Pm': 97.2972972972973}
{'Coefficients': [24.592773, 1.0632551, 0.20979734, 0.5103637, 1.5628877, 1.3992375, -0.16239217, 0.20847481, -1.1366146], 'Method': 'Ridge', 'Criterion': 0.40215755424329747, 'Correlation': 0.9155704787535743, 'Pm': 97.2972972972973}
{'Coefficients': [88.08821, 1.1761521, 0.0, 0.3748466, 0.3386301, 0.065920874, 0.6624551, 0.18379827, 0.0], 'Method': 'Lasso', 'Criterion': 0.42683244054441427, 'Correlation': 0.904330729157701, 'Pm': 89.1891891891892}
{'Coefficients': [26.953308, 1.076192, 0.19257985, 0.50522083, 1.4873344, 1.3173317, -0.09908021, 0.20855168, -1.0636121], 'Method': 'ElasticNet', 'Criterion': 0.4022580387923042, 'Correlation': 0.9155263350810664, 'Pm': 97.2972972972973}
{'Coefficients': [102.26698, 0.68595904, 0.35937253, 0.3345598,

### Формирование набора данных

In [14]:
#pr_list = ['s_2802', 's_max', 'h', 'x', 'x1', 'x2', 'x3', 'x4', 'xs']

In [15]:
pr_list = ['s_2802', 's_max', 'h', 'x', 'x1', 'x2', 'x3', 'xs']

In [16]:
X, y = get_river_dataset('data/Неман-Белица-2022.csv', pr_list=pr_list)

### Нормализация данных

In [17]:
# Стандартизация
scaler = preprocessing.StandardScaler().fit(X)
X_train_st = scaler.transform(X)


### Модели регрессии

#### Линейная регрессия

In [18]:
regr = linear_model.LinearRegression(fit_intercept=True)
regr = regr.fit(X, y)
y_predicted = regr.predict(X)
print(y_predicted)

[286.93362 332.2034  450.00058 305.71146 272.21848 328.75143 274.95148
 247.11786 309.54523 357.50894 308.29926 302.80096 198.77213 247.64255
 225.88858 259.2711  359.91058 209.04156 392.2415  367.39505 240.46748
 265.1662  312.10843 309.33817 343.2314  307.57132 255.45235 257.1446
 365.37827 281.2949  210.21956 393.61426 155.48703 238.5918  272.66873
 261.3518  209.70856]


### Вычисление статистики

In [19]:
# Среднеквадратическое отклонение sigma
sigma = get_sigma('Неман-Белица')
print(f'Среднеквадратическое отклонение sigma = {sigma}')

# Допустимая погрешность прогноза delta_dop
delta_dop = get_delta_dop(sigma)
print(f'Допустимая погрешность прогноза sigma_dop = {delta_dop}')

Среднеквадратическое отклонение sigma = 93
Допустимая погрешность прогноза sigma_dop = 62.682


#### Климат

In [20]:
# Статистика максимального уровня
sum_level = get_sum(y)
avg_level = get_avg(y)
max_level = get_max(y)
min_level = get_min(y)
print(f'Сумма {sum_level}, Средний {avg_level}, Высший {max_level}, Низший {min_level}')

# Среднеквадратическая погрешность климатическая S
s_climate = get_s(y)
print(f'Среднеквадратическая погрешность климатическая: {s_climate}')

# Критерий эффективности метода прогнозирования климатический S/sigma
criterion_climate = get_criterion(s_climate, sigma)
print(f'Критерий эффективности метода прогнозирования климатический S/sigma = {criterion_climate}')

# Климатическая обеспеченность Pk
pk = get_pk(y, delta_dop)
print(f'Климатическая обеспеченность Pk, % = {pk}')

# Корреляционное отношение ro
ro_climate = get_correlation_ratio(criterion_climate)
print(f'Корреляционное отношение климатическое ro = {ro_climate}')

# Вероятная погрешность прогноза delta50
delta50_climate = get_delta50(s_climate)
print(f'Вероятная погрешность климатическая delta50 = {delta50_climate}')

Сумма 10715.0, Средний 289.5946044921875, Высший 494.0, Низший 181.0
Среднеквадратическая погрешность климатическая: 72.81576538085938
Критерий эффективности метода прогнозирования климатический S/sigma = 0.7829652191490255
Климатическая обеспеченность Pk, % = 48.64864864864865
Корреляционное отношение климатическое ro = 0.622065483372063
Вероятная погрешность климатическая delta50 = 49.07782586669922


#### Прогноз

In [21]:
# Коэффициенты регрессии
print(regr.intercept_, regr.coef_)

# Среднеквадратическая погрешность климатическая S
s_forecast = get_s(y, y_predicted)
print(f'Среднеквадратическая погрешность прогноза: {s_forecast}')

# Критерий эффективности метода прогнозирования климатический S/sigma
criterion_forecast = get_criterion(s_forecast, sigma)
print(f'Критерий эффективности метода прогнозирования S/sigma = {criterion_forecast}')

# Обеспеченность метода (оправдываемость) Pm
pm = get_pm(y, y_predicted, delta_dop)
print(f'Обеспеченность метода (оправдываемость) Pm, % = {pm}')

# Корреляционное отношение ro
ro_forecast = get_correlation_ratio(criterion_forecast)
print(f'Корреляционное отношение ro = {ro_forecast}')

# Вероятная погрешность прогноза delta50
delta50_forecast = get_delta50(s_forecast)
print(f'Вероятная погрешность прогноза delta50 = {delta50_forecast}')

24.197784 [ 1.0610785   0.21267018  0.5112204   1.5756874   1.413107   -0.17308418
  0.20844698 -1.1489737 ]
Среднеквадратическая погрешность прогноза: 37.40045236097494
Критерий эффективности метода прогнозирования S/sigma = 0.4021554017309133
Обеспеченность метода (оправдываемость) Pm, % = 97.2972972972973
Корреляционное отношение ro = 0.9155714242256842
Вероятная погрешность прогноза delta50 = 25.20790489129711


### Обучающий набор

In [22]:
test_qnt = 5

In [23]:
X_train = X[:-test_qnt]
X_test = X[-test_qnt:]

In [24]:
y_train = y[:-test_qnt]
y_test = y[-test_qnt:]

## Этап нормализации