In [1]:
import pandas as pd
import numpy as np
from statsmodels.tsa.statespace.sarimax import SARIMAX
%config IPCompleter.greedy=False

In [2]:
data_flow = pd.read_csv('./Haivoron_waterflow.csv')
replace_value = "52,8"  # avg or first row
cleared_data = data_flow.drop(["Year", "Average annual"], axis=1).fillna(replace_value).iloc[:-3]
print(cleared_data)

     Jan   Feb   Mar   Apr   May   Jun   Jul   Aug   Sep   Oct   Nov   Dec
0   52,8  52,8  75,1  88,5    48  37,2  49,2  66,8  65,8  45,5  51,7  35,8
1   21,9  40,7   189   118  83,3  64,3  44,5  50,8  28,7    28  34,6  33,7
2     29  27,8   130  55,3  39,8  26,5  22,6  25,9  17,7  17,7  19,3  10,8
3   11,2  59,5  65,5   130  31,5  21,1    23   9,1  11,3  13,2    20    49
4   30,3  26,1  73,4   443  72,5  24,5  36,6  29,4  16,4    19  21,8  27,5
..   ...   ...   ...   ...   ...   ...   ...   ...   ...   ...   ...   ...
78  37,4  71,3   251   108  33,5  13,4  24,4  17,7  18,2  42,3  41,2  32,7
79  32,7  54,8  50,6    41  24,4  15,4  15,6  38,1  45,7  60,7  44,4  43,4
80  49,7  62,1   110    98  98,9  46,3  31,3  34,6  54,7  61,1  51,8  62,9
81  54,2  43,5  89,7   172  56,9  94,3  44,8  27,6  65,1  67,8  62,4    48
82  47,3  61,1  64,1  38,3  21,1  16,2  11,7  20,4  37,4  51,6  45,7  38,1

[83 rows x 12 columns]


In [3]:
# linearized_data = [float(x.replace(",", ".")) for x in cleared_data.to_numpy().flatten().tolist()]

In [4]:
import copy

predicted_values = []
for column in cleared_data.columns:
    print(f"Iteration for column {column}")
    column_data = [float(x.replace(",", ".")) for x in cleared_data[column].iloc[:-1].to_numpy().flatten().tolist()]
    
    print(column_data)
    model = SARIMAX(column_data, order=(2, 1, 0))
    model_fit = model.fit(disp=False)
    yhat = model_fit.predict(len(column_data), len(column_data))
    
    predicted_values.append(yhat[0])
    
print("Predicted:", [float(f"{x:.1f}") for x in predicted_values])
print("Actual   :", [float(x.replace(",", ".")) for x in cleared_data.iloc[-1]])

Iteration for column Jan
[52.8, 21.9, 29.0, 11.2, 30.3, 18.0, 25.3, 44.8, 38.8, 22.9, 14.0, 31.3, 26.5, 48.6, 22.7, 23.7, 17.0, 47.2, 30.5, 39.0, 12.7, 87.9, 5.8, 183.0, 18.8, 26.5, 24.1, 17.9, 25.6, 9.16, 18.7, 32.7, 26.4, 14.6, 46.7, 35.4, 79.7, 21.3, 14.1, 13.4, 31.7, 48.7, 29.3, 34.3, 40.5, 34.4, 71.5, 76.4, 26.0, 28.2, 72.5, 33.1, 32.9, 25.8, 49.7, 55.5, 98.9, 119.0, 61.8, 59.1, 69.2, 74.2, 44.1, 61.4, 57.8, 49.3, 62.4, 40.5, 38.3, 73.8, 38.3, 26.7, 45.3, 92.5, 39.7, 57.8, 68.4, 41.4, 37.4, 32.7, 49.7, 54.2]
Iteration for column Feb
[52.8, 40.7, 27.8, 59.5, 26.1, 39.8, 28.7, 30.2, 26.8, 60.7, 32.6, 26.1, 25.9, 49.6, 84.0, 16.3, 138.0, 34.0, 30.9, 65.2, 14.9, 39.2, 8.72, 107.0, 82.0, 103.0, 16.7, 23.8, 39.0, 5.08, 13.2, 53.1, 94.3, 59.0, 28.3, 106.0, 51.0, 29.1, 34.6, 11.3, 30.4, 80.9, 54.3, 46.0, 36.0, 63.6, 116.0, 49.8, 38.2, 59.1, 49.0, 38.9, 198.0, 34.6, 95.2, 43.4, 101.0, 70.8, 93.4, 82.7, 49.2, 62.8, 51.2, 45.6, 52.6, 50.7, 29.0, 48.4, 36.1, 63.4, 49.2, 37.2, 49.1, 48.9, 61.5