# Transformation and Decomposition. Taks1

    author: Oleg Naidovich

In [None]:
from tsdata.raw import available_data, load_data

import pandas as pd
import numpy as np

import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
plt.rcParams["figure.figsize"] = (18, 8)
pd.set_option('display.max_columns', 500)

from statsmodels.tsa.seasonal import seasonal_decompose
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf
from statsmodels.tsa.stattools import adfuller, kpss, acf, pacf
from statsmodels.distributions.empirical_distribution import ECDF
import scipy.stats as st

from sklearn.metrics import mean_absolute_error

import warnings
warnings.filterwarnings('ignore')

In [None]:
def plot_series(data, legend='', title=''):
    plt.figure(figsize=(20, 5))
    plt.plot(data, '-d', color='navy', markersize=3)
    plt.legend([legend], loc='upper right')
    plt.grid(linestyle=':', color='k')
    plt.title(title)


def plot_decomposition(decomposition):
    plt.subplots(3, 1, figsize=(20, 21))

    plt.subplot(3, 1, 1)
    plt.plot(decomposition.trend, color='navy', markersize=3, label='trend')
    plt.legend(loc='upper right')
    plt.grid(linestyle=':', color='k')
    plt.title("Trend")


    plt.subplot(3, 1, 2)
    plt.plot(decomposition.seasonal, 
             '-gd', markersize=3, label='seasonal')
    plt.plot([decomposition.seasonal.index[0], decomposition.seasonal.index[-1]], 
             decomposition.seasonal.mean()*np.array([1, 1]), '--k', 
             label=f"mean = {decomposition.seasonal.mean():.3g}")
    plt.legend(loc='upper right')
    plt.grid(linestyle=':', color='k')
    plt.title(f"Seasonal : range={(decomposition.seasonal.max() - decomposition.seasonal.min()):.3g}")


    plt.subplot(3, 1, 3)
    plt.plot(decomposition.resid, '-o', color='maroon', markersize=3,  label='residuals')
    plt.plot([decomposition.resid.index[0], decomposition.resid.index[-1]], 
             decomposition.resid.mean()*np.array([1, 1]), '--k', 
             label=f"mean = {decomposition.resid.mean():.3g}")
    plt.legend(loc='upper right')
    plt.grid(linestyle=':', color='k')
    plt.title("Residuals")

    plt.show()
    

def plot_ACF(data, decomposition, lags=50):
#     if lags == None:
#         lags = len(data) - 1

    fig, axes = plt.subplots(4, 1, figsize=(15, 4*6))
    
!    plot_acf(data, ax=axes[0], 
             lags=lags, 
             vlines_kwargs={'color' : 'b'},
             markerfacecolor='b', markeredgecolor='b', 
             title='Autocorrelation of target');

    trend = decomposition.trend
    plot_acf(trend.dropna(), 
             lags=lags, 
             vlines_kwargs={'color' : 'navy'}, 
             markerfacecolor='navy', markeredgecolor='navy', 
             title='Autocorrelation of trend');

    seasonal = decomposition.seasonal
    plot_acf(seasonal, 
             lags=lags, 
             vlines_kwargs={'color' : 'g'}, 
             markerfacecolor='g', markeredgecolor='g', 
             title='Autocorrelation of seasonal');

    resid = decomposition.resid
    plot_acf(resid.dropna(), 
             lags=lags,   
             vlines_kwargs={'color' : 'maroon'}, 
             markerfacecolor='maroon', markeredgecolor='maroon', 
             title='Autocorrelation of residuals');


    plt.show()
    
    
def plot_PACF(data, decomposition, lags=36):
    plot_pacf(data, 
             lags=lags, 
             vlines_kwargs={'color' : 'b'},
             markerfacecolor='b', markeredgecolor='b', 
             title='Partial autocorrelation of target');

    trend = decomposition.trend
    plot_pacf(trend.dropna(), 
             lags=lags, 
             vlines_kwargs={'color' : 'navy'}, 
             markerfacecolor='navy', markeredgecolor='navy', 
             title='Partial autocorrelation of trend');

    seasonal = decomposition.seasonal
    try:
        plot_pacf(seasonal, 
                 lags=lags, 
                 vlines_kwargs={'color' : 'g'}, 
                 markerfacecolor='g', markeredgecolor='g', 
                 title='Partial autocorrelation of seasonal')
    except Exception as exc:
        print(exc)
        

    resid = decomposition.resid
    try:
        plot_pacf(resid.dropna(), 
                 lags=lags,   
                 vlines_kwargs={'color' : 'maroon'}, 
                 markerfacecolor='maroon', markeredgecolor='maroon', 
                 title='Partial autocorrelation of residuals')
    except Exception as exc:
        print(exc)

    plt.show()
    
def resid_analytics(resid):
    resid = resid.dropna()
    color = 'maroon'

    plt.subplots(1, 2, figsize=(24, 8))

    plt.subplot(1, 2, 1)
    plt.plot(resid, '-', color=color)
    plt.grid(linestyle=':', color='k')
    plt.title("Residuals")

    x_fit = np.linspace(resid.min(), resid.max(), 201)
    loc_laplace, scale_laplace = st.laplace.fit(resid.dropna())
    loc_norm, scale_norm = st.norm.fit(resid.dropna())
    # print(f"Fitting of residuals by Laplace distribution: fitted mean = {loc:.3f}, fitted std = {scale:.3f}")
    y_fit_laplace = st.laplace.pdf(x_fit, loc_laplace, scale_laplace)
    y_fit_norm = st.norm.pdf(x_fit, loc_norm, scale_norm)

    plt.subplot(1, 2, 2)
    sns.distplot(resid, color=color, bins=100, vertical=True, label="distribution of residuals")
    plt.plot(y_fit_laplace, x_fit, '-b', 
             label=f"approximation by Laplace distribution:\n  fitted mean = {loc_laplace:.4g}, fitted std = {scale_laplace:.4g}")
    plt.plot(y_fit_norm, x_fit, '-g', 
             label=f"approximation by normal distribution:\n  fitted mean = {loc_norm:.4g}, fitted std = {scale_norm:.4g}")
    plt.legend()
    # plt.ylim(resid-0.02*y_range, y_max+0.02*y_range)
    plt.title("Distribution of residuals")
    plt.grid(linestyle=':', color='k')

    plt.show()
    
    
    ecdf_resid_instance = ECDF(resid.dropna())
    resid_arr = resid.dropna().sort_values().values
    ecdf_resid = ecdf_resid_instance(resid_arr)


    cdf_norm = st.norm.cdf(resid_arr, loc=loc_norm, scale=scale_norm)
    cdf_laplace = st.laplace.cdf(resid_arr, loc=loc_laplace, scale=scale_laplace)


    mae_norm = mean_absolute_error(ecdf_resid, cdf_norm)
    mae_laplace = mean_absolute_error(ecdf_resid, cdf_laplace)


    plt.subplots(1, 1, figsize=(20, 8))
    plt.plot(resid_arr, ecdf_resid, '-', color='maroon')
    plt.plot(resid_arr, cdf_norm, '-g', 
             label=f"Normal approx : MAE = {mae_norm:.3g}")
    plt.plot(resid_arr, cdf_laplace, '-b', 
             label=f"Laplace approx: MAE = {mae_laplace:.3g}")
    plt.legend()
    plt.title("CDF of decomposition residuals")
    plt.show()
    
    
    get_stationary(resid)
    

class color:
    PURPLE = '\033[95m'
    CYAN = '\033[96m'
    DARKCYAN = '\033[36m'
    BLUE = '\033[94m'
    GREEN = '\033[92m'
    YELLOW = '\033[93m'
    RED = '\033[91m'
    BOLD = '\033[1m'
    UNDERLINE = '\033[4m'
    END = '\033[0m'

    
def get_stationary(data):
    alpha = 0.05
    print("==== Augmented Dickey–Fuller (Null hypothesis - The process is non-stationary) ====")
    result = adfuller(data.values, autolag='AIC')
    print(f'ADF Statistic: {result[0]}')
    print(f'p-value: {result[1]}')
    if result[1] < alpha:
        print("The process is" + color.BOLD + color.GREEN + " stationary " + color.END + "by ADF.\n")
    else:
        print("The process is" + color.BOLD + color.RED + " non-stationary " + color.END + "by ADF.\n")
        
    # kpss test
    print('==== Kwiatkowski–Phillips–Schmidt–Shin (KPSS) test (Null hypothesis - The process is stationary) ====')
    kpsstest = kpss(data.values, regression='c')
    print("KPSS Statistic = " + str(kpsstest[0]))
    print( "p-value = " + str(kpsstest[1]))
    if kpsstest[1] < alpha:
        print("The process is" + color.BOLD + color.RED + " non-stationary " + color.END + "by KPSS.\n")
    else:
        print("The process is" + color.BOLD + color.GREEN + " stationary " + color.END + "by KPSS.\n")



In [None]:
print(available_data())

# Task 1

Consider the GDP information in global_economy. Plot the GDP per capita for each country over time. Which country has the highest GDP per capita? How has this changed over time?



In [None]:
global_economy = load_data('global_economy')
global_economy.head(10)

In [None]:
print(f"Number of unique Code:    {len(global_economy['Code'].unique())}")
print(f"Number of unique Country: {len(global_economy['Country'].unique())}")

In [None]:
global_economy.isna().sum(axis=0)

In [None]:
global_economy['Year'].value_counts()

In [None]:
global_economy_pivot = global_economy.pivot_table(values='GDP', index='Country', columns='Year', dropna=False).reset_index()
global_economy_pivot.head(10)

In [None]:
global_economy_pivot.isna().sum(axis=0)

In [None]:
len(global_economy_pivot.columns)

In [None]:
global_economy_pivot[(global_economy_pivot.isna().sum(axis=1).isin(list(range(50, 60))))]


# ok, i realized that we dont need to drop these values

In [None]:
global_economy_clear =  pd.melt(global_economy_pivot, id_vars='Country', value_vars=global_economy_pivot.columns[1:])
global_economy_clear

In [None]:
global_economy_clear.shape

In [None]:
global_economy.shape

In [None]:
(2017 - 1960 + 1) * (len(global_economy_clear.Country.unique()))

In [None]:
px.line(data_frame=global_economy_clear, x='Year', y='value', color='Country')

<div style="background-color: rgb(255, 255, 224);">
<span style="color: rgb(186, 22, 12)">

**ALERT:** 

The question in the task is about GDP **per capita** not about GDP *itself*

</span>
</div>

In [None]:
df = global_economy_clear.groupby(['Country']).agg({'value': 'max'}).reset_index()
df.columns = ['Country', 'Max']

df['Country'] = df['Country'].astype('string')
global_economy_clear['Country'] = global_economy_clear['Country'].astype('string')

global_economy_clear = global_economy_clear.merge(df, how='left', on='Country')

In [None]:
global_economy_clear['normalized'] = global_economy_clear['value'] / global_economy_clear['Max']

In [None]:
px.line(data_frame=global_economy_clear, x='Year', y='normalized', color='Country')

It looks too bad...

However, in general we can mention that most countries have the largest values at the end of the observed period.

At least we found many gaps in the data. :)

# Task 2

For each of the following series, make a graph of the data. If transforming seems appropriate, do so and describe the effect.


* United States GDP from global_economy.
* Slaughter of Victorian “Bulls, bullocks and steers” in aus_livestock.
* Victorian Electricity Demand from vic_elec.
* Gas production from aus_production.


## United States GDP from global_economy.

In [None]:
global_economy = load_data('global_economy')
global_economy = global_economy[global_economy['Country'] == 'United States']

_index = pd.date_range('1960-01-01', '2018-01-01', freq ='Y')
global_economy.index = _index
global_economy = global_economy.asfreq(freq = 'Y')
global_economy = global_economy['GDP']
global_economy.head(10)

In [None]:
plt.figure(figsize=(20, 5))
plt.plot(global_economy, '-d', color='navy', markersize=3)
plt.legend(['GDB value'], loc='upper right')
plt.grid(linestyle=':', color='k')
plt.title(f'GDP: Unated States')


In [None]:
decomposition = seasonal_decompose(global_economy, period=1)

In [None]:
plot_decomposition(decomposition)

In [None]:
plot_ACF(global_economy, decomposition)

In [None]:
plot_PACF(global_economy, decomposition, lags=10)

# error since out resid and seasonal == 0

In [None]:
get_stationary(global_economy)

По графикам выше можно сделать несколько выводов:
1. Очевидно, что ряд нестационарный, потому что у него не постоянная средняя
2. так как периодичность = 1, то такие компонеты как сезонность и остатки будут отсутствовать (мы просто не можем выявить сезонную компоненту)
3. видно, что в графике присутствует трент, поэтому автокорреляция тренда будет убывать с ростом значения лага. НО не понятен один момент, почему после 20 значения лагов меняются на отрицательные. Тренд же не меняет направление...
4. в PACF видно, что единственный значимый лаг = 1, остальные незначимы. Это логично, потому что считая PACF мы вычитаем линейную составляющую предыдущих компонент.     


Для дальнейшего исследования графика можно продифференцировать

### >>> Fourier analysis BEGIN

In [None]:
from scipy import fftpack

### TODO: REWRITE: follow https://colab.research.google.com/github/FabrizioMusacchio/Python_Neuro_Practical/blob/master/05%20Using%20Fourier%20transform%20for%20time%20series%20deconstruction%20.ipynb
### https://medium.com/@khairulomar/deconstructing-time-series-using-fourier-transform-e52dd535a44e
### see also https://www.technology.matthey.com/article/66/2/169-176/ 

def get_fourier(target, 
                trend, 
                seasonal, 
                resid, 
                time_series, 
                visualize=False):
    """
    WRITE: docstrings
    """

#     time_series = data[tt]
#     target = data[target_name]
    Fs = time_series.values[1] - time_series.values[0] #1/step
    n = np.size(target)
    if n//2 == 0:
        num = int(n/2)
    else:
        num = int((n+1)/2)
    fr = Fs/2 * np.linspace(0, 1, num=num)


    ### --- Spectrum of target
    spectrum_target = fftpack.fft(target.values)
    spectrum_target = 2/n * np.abs(spectrum_target[0:np.size(fr)])


    ### --- Spectrum of seasonal
    spectrum_seasonal = fftpack.fft(seasonal.values)
    spectrum_seasonal = 2/n * np.abs(spectrum_seasonal[0:np.size(fr)])


    ### --- Spectrum of trend
    trend_not_na = trend.notna()
    n = np.size(trend[trend_not_na])
    if n//2 == 0:
        num = int(n/2)
    else:
        num = int((n+1)/2)
    fr_trend = Fs/2 * np.linspace(0, 1, num=num)
    spectrum_trend = fftpack.fft(trend[trend_not_na].values)
    spectrum_trend = 2/n * np.abs(spectrum_trend[0:np.size(fr_trend)])

    ### --- Spectrum of residuals
    resid_not_na = resid.notna()
    n = np.size(resid[resid_not_na])
    if n//2 == 0:
        num = int(n/2)
    else:
        num = int((n+1)/2)
    fr_resid = Fs/2 * np.linspace(0, 1, num=num)
    spectrum_resid = fftpack.fft(resid[resid_not_na].values)
    spectrum_resid = 2/n * np.abs(spectrum_resid[0:np.size(fr_resid)])


    
    ### === Visualizaion
    if visualize:
        plt.subplots(4, 1, figsize=(15, 4*8))

        plt.subplot(4, 1, 1)
        plt.plot(fr/max(fr), np.abs(spectrum_target), "-o")
        plt.grid(linestyle=":")
        plt.xlabel(f"The maximal frequency = 1/{max(fr)}")
        plt.title("Fourier spectrum (abs) of target")

        plt.subplot(4, 1, 2)
        plt.plot(fr_trend/max(fr_trend), np.abs(spectrum_trend), "-o", color='maroon')
        plt.grid(linestyle=":")
        plt.xlabel(f"The maximal frequency = 1/{max(fr_trend)}")
        plt.title("Fourier spectrum (abs) of trend")

        plt.subplot(4, 1, 3)
        plt.plot(fr/max(fr), np.abs(spectrum_seasonal), "-og")
        plt.xlabel(f"The maximal frequency = 1/{max(fr)}")
        plt.grid(linestyle=":")
        plt.title("Fourier spectrum (abs) of `seasonal`")

        plt.subplot(4, 1, 4)
        plt.plot(fr_resid/max(fr_resid), np.abs(spectrum_resid), "-o", color='maroon')
        plt.grid(linestyle=":")
        plt.xlabel(f"The maximal frequency = 1/{max(fr_resid)}")
        plt.title("Fourier spectrum (abs) of `residuals`")

        plt.show()
    
    
    res = [(fr, spectrum_target), 
           (fr_trend, spectrum_trend), 
           (fr, spectrum_seasonal), 
           (fr_resid, spectrum_resid)]
    
    return res

In [None]:
res = get_fourier(global_economy, 
                  decomposition.trend, 
                  decomposition.seasonal, 
                  decomposition.resid, 
                  global_economy.index, 
                  visualize=True)

In [None]:
for k in range(len(res)):
    print(f"Maximal freq =1/{max(res[k][0])}", 
         f"= 1/{int(max(res[k][0]))/ ((10**9) *60*60*24 )} days")

In [None]:
len(global_economy), global_economy.index

In [None]:
model = 'additive'

seasonal_maxs = []
for k in range(1, int(len(global_economy)/2)):
    decomposition = seasonal_decompose(global_economy, period=k, model=model)
    res = get_fourier(global_economy, 
                      decomposition.trend, 
                      decomposition.seasonal, 
                      decomposition.resid, 
                      global_economy.index, 
                      visualize=False)
    seasonal_maxs.append(max(res[2][1]))
    
seasonal_maxs = np.array(seasonal_maxs)
k_max = seasonal_maxs.argmax() + 1



plt.subplots(1, 1, figsize=(15, 8))
plt.plot(seasonal_maxs)
plt.xlabel(f"'period' in 'seasonal_decompose'")
plt.grid(linestyle=":")
plt_title = "Amplitude of `seasonal` component\n"
plt_title += f"the period corresponding to the maximum is {k_max}"
plt.title(plt_title)
plt.show()



decomposition = seasonal_decompose(global_economy, period=k_max, model=model)
plot_decomposition(decomposition)

In [None]:

plt.subplots(1, 1, figsize=(15, 8))
plt.semilogy(global_economy, '-o', label="target")
plt.semilogy(decomposition.trend, '-o', label="trend")
plt.grid(linestyle=":")
plt.legend()
plt.show()

In [None]:
model = 'multiplicative'

seasonal_maxs = []
for k in range(1, int(len(global_economy)/2)):
    decomposition = seasonal_decompose(global_economy, period=k, model=model)
    res = get_fourier(global_economy, 
                      decomposition.trend, 
                      decomposition.seasonal, 
                      decomposition.resid, 
                      global_economy.index, 
                      visualize=False)
    seasonal_maxs.append(max(res[2][1]))
    
seasonal_maxs = np.array(seasonal_maxs)
k_max = seasonal_maxs.argmax() + 1



plt.subplots(1, 1, figsize=(15, 8))
plt.plot(seasonal_maxs)
plt.xlabel(f"'period' in 'seasonal_decompose'")
plt.grid(linestyle=":")
plt_title = "Amplitude of `seasonal` component\n"
plt_title += f"the period corresponding to the maximum is {k_max}"
plt.title(plt_title)
plt.show()



decomposition = seasonal_decompose(global_economy, period=k_max, model=model)
plot_decomposition(decomposition)

### <<< Fourier analysis END

In [None]:
global_economy_diff = np.log(global_economy).diff().dropna()

<div style="background-color: rgb(175, 219, 245);">
<span style="color:blue">

**NOTE:** 

I believe `np.log10` will be better

</span>
</div>

In [None]:
plot_series(global_economy_diff, legend='GBP diff value', title='GDP of US')

In [None]:
get_stationary(global_economy_diff)

In [None]:
decomposition = seasonal_decompose(global_economy_diff)

plot_ACF(global_economy_diff, decomposition)

In [None]:
plot_PACF(global_economy_diff, decomposition, lags=10)

Если бы мы обучали ариму, я бы взял:
1. q = 4 (на основе ACF, последний значимый несезонный лаг) 
2. p = 1 (PACF)

у нас вообще нет сезонности, период = 1

## Slaughter of Victorian “Bulls, bullocks and steers” in aus_livestock.


In [None]:
aus_livestock = load_data('aus_livestock')

In [None]:
aus_livestock[aus_livestock['Animal'] == 'Bulls, bullocks and steers']

aus_livestock_observed = aus_livestock[(aus_livestock['Animal'] == 'Bulls, bullocks and steers') & (aus_livestock.State == 'Victoria')]

_index = pd.date_range('1976-07-01', '2019-01-01', freq ='M')
aus_livestock_observed.index = _index
aus_livestock_observed = aus_livestock_observed['Count']
aus_livestock_observed.head(10)

In [None]:
plot_series(aus_livestock_observed, legend='Value', title='Bulls, bullocks and steers in Victoria')

Сразу можно наблюдать периодичность в год (значит есть сезонная помпонента), также видны резкие снижения (1980), а также циклические компоненты(2015, 2007, 1992) 

In [None]:
plt.plot(aus_livestock_observed.rolling(12).std(), '-ob')
plt.plot(aus_livestock_observed.index[0], 0)
plt.grid()

In [None]:
decomposition = seasonal_decompose(aus_livestock_observed, period=12)

In [None]:
plot_decomposition(decomposition)

В тренде можно заметить недольшие бугорки (возможно в ряду осталась компонента сезонности, нужно посмореть на acf и pacf), спады и падения, иногда меняет направление роста вверх, но потом все равно падает. Рассмотрим остатки повнимательнее, также можно заметить, что вначале у остатков дисперсия больше. Думаю это из-за того, что ряд начинал стремительно падать с 1975 по 1980

In [None]:
resid_analytics(decomposition.resid.dropna())

Видно, что ряд стациоранный, критерии это подтвердили. Остатки больше всего похожи на белый шум (=нормальное распределение), значит лучше всего будет в качетсве минимизируещего функционала взять сумму квадрата ошибок 

<div style="background-color: rgb(255, 255, 224);">
<span style="color: rgb(186, 22, 12)">

**ALERT:** 

Белый шум и нормальное распределение - совершенно разные понятия.

</span>
</div>

In [None]:
plot_ACF(aus_livestock_observed, decomposition, lags=100)

In [None]:
plot_PACF(aus_livestock_observed, decomposition, lags=40)

очень странно виглядит pacf для сезонности, особенно если посмотреть на 45 лаг. Лаги по бокам от сеазональных лагов выглядят намного больше, почему?  

In [None]:
plot_series(np.log(aus_livestock_observed))

In [None]:
aus_livestock_observed_diff = np.log(aus_livestock_observed).diff().dropna()

In [None]:
plot_series(aus_livestock_observed_diff)

In [None]:
get_stationary(aus_livestock_observed_diff)

In [None]:
decomposition = seasonal_decompose(aus_livestock_observed_diff)
plot_decomposition(decomposition)

In [None]:
plot_ACF(aus_livestock_observed_diff, decomposition)

In [None]:
plot_PACF(aus_livestock_observed_diff, decomposition)

Если не иследовать ряд дальше, то для модели арима можно было бы взять параметры
* p = 10
* P = 12
* q = 11
* Q = 24
* d = 1
* D = 0

Еще очень не нравятся остатки в acf, потому что в них осталась структура, а также слишнов большие значение pacf для тренда и сеазовальной компонент.
Нужно попробовать достать из ряда недостающую компоненту.

<div style="background-color: rgb(144, 238, 144);">
<span style="color: rgb(0, 128, 0);">

**THUMP UP:** 

Верно. ACF сезонной компоненты показывает, что есть ещё периоды в 5 - 6 месяцев.
    
</span>
</div>

## Victorian Electricity Demand from vic_elec.

In [None]:
vic_elec = load_data('vic_elec')

In [None]:
vic_elec = load_data('vic_elec')

_index = pd.date_range('2011-12-31 13:00:00', '2014-12-31 12:30:00', freq ='30min')

vic_elec.index = _index
vic_elec = vic_elec['Demand']
vic_elec.head(10)

In [None]:
plt.figure(figsize=(20, 5))
plt.plot(vic_elec, color='navy')
plt.title('Demand of the whole time range')
plt.grid(linestyle=':', color='k')
plt.show()

plt.figure(figsize=(20, 5))
plt.plot(vic_elec.loc['2014-01-01':'2015-01-01'], color='red')
plt.title('Demand of last 2014 year')
plt.grid(linestyle=':', color='k')
plt.show()

plt.figure(figsize=(20, 5))
plt.plot(vic_elec.loc['2014-12-01':'2015-01-01'], '-o', color='green')
plt.title('Demand of last month')
plt.grid(linestyle=':', color='k')
plt.show()

plt.figure(figsize=(20, 5));
plt.plot(vic_elec.loc['2014-12-25':'2015-01-01'], '-o', color='orange')
plt.title('Demand of last week')
plt.grid(linestyle=':', color='k')
plt.show()

видна цикличность, тренд с начала до середины года имеет растущий тренд, затем плавно убывающий. 

<div style="background-color: rgb(250, 230, 250);">
<span style="color: rgb(204, 51, 204)">

**DISCUSS:** 
    
Чем это не сезонность с периодом год?

</span>
</div>

In [None]:
decomposition = seasonal_decompose(vic_elec, period=48*365)
plot_decomposition(decomposition)

Из ряда мы достали дневную компоненту, но в нем еще осталась недельная компонента

<div style="background-color: rgb(175, 219, 245);">
<span style="color:blue">

**NOTE:** 

и годичная...

</span>
</div>

In [None]:
plt.figure(figsize=(20, 5))
plt.plot(decomposition.trend.dropna(), color='navy')
plt.title('Demand of the whole time range')
plt.grid(linestyle=':', color='k')
plt.show()

plt.figure(figsize=(20, 5))
plt.plot(decomposition.trend.dropna().loc['2014-01-01':'2015-01-01'], color='red')
plt.title('Demand of last 2014 year')
plt.grid(linestyle=':', color='k')
plt.show()

plt.figure(figsize=(20, 5))
plt.plot(decomposition.trend.dropna().loc['2014-12-01':'2015-01-01'], '-o', color='green')
plt.title('Demand of last month')
plt.grid(linestyle=':', color='k')
plt.show()

plt.figure(figsize=(20, 5));
plt.plot(decomposition.trend.dropna().loc['2014-12-25':'2015-01-01'], '-o', color='orange')
plt.title('Demand of last week')
plt.grid(linestyle=':', color='k')
plt.show()

In [None]:
decomposition = seasonal_decompose(decomposition.trend.dropna(), period=48*7)
plot_decomposition(decomposition)

In [None]:
decomposition = seasonal_decompose(decomposition.trend.dropna(), period=48*365)
plot_decomposition(decomposition)

In [None]:
# decomposition = seasonal_decompose(vic_elec, period=24*2*7*24*2)
# plot_decomposition(decomposition)

In [None]:
resid_analytics(decomposition.resid.dropna())

Я бы назвал ошибки стационарными несмотря на то, что кпсс провалился (вроде он чуствителен к выбросам). Еще видно, что остатки фитятся под распределение Лапласа.

Аномалии, которые мы наблюдаем в начале каждого года, могут вовсе не ясляться выбрасами, так как существует закономерность в том, что деманд в начале года растет. (нужно провести еще иследования, чтобы убедиться, что это не выбросы. Например посмтореть на месту holiday)




In [None]:
plot_ACF(vic_elec, decomposition, lags=16128)

In [None]:
plot_ACF(vic_elec, decomposition, lags=365)

Мне очень нравится acf для тредна и для сезонности. Тренд явно убывающий, а вот автокорреляция сезонной компоненты не постоянно затухает. Бывает так, что сходящийся тренд сменяется на рост acf. (вывод?)

В остатках точно осталась структура. Ее было бы хорошо остать фурье разложением.


In [None]:
plot_PACF(vic_elec, decomposition, lags=1000)

In [None]:
plot_PACF(vic_elec, decomposition, lags=100)

In [None]:
vic_elec_diff = np.log(vic_elec).diff().dropna()

In [None]:
plot_series(vic_elec_diff)

In [None]:
plot_series(vic_elec_diff.loc['2014-12-01':])

In [None]:
get_stationary(vic_elec_diff)

In [None]:
decomposition = seasonal_decompose(vic_elec_diff, period=24*2*7*24*2)
plot_decomposition(decomposition)

In [None]:
plot_ACF(vic_elec_diff, decomposition, lags=500)

In [None]:
plot_PACF(vic_elec_diff, decomposition, lags=500)

Сделать выводы, какие выводы можно сделать из аcf и pacf для diff ряда

# Task 3
Why is a Box-Cox transformation unhelpful for the canadian_gas data?

In [None]:
canadian_gas = load_data('canadian_gas')

_index = pd.date_range('1960-01-01', '2005-03-01', freq ='M')
canadian_gas.index = _index

canadian_gas['boxcox'] = st.boxcox(canadian_gas['Volume'], lmbda=0.8)
canadian_gas['log'] = np.log(canadian_gas['Volume'])

canadian_gas.head(15)

In [None]:
plot_series(canadian_gas['Volume'])
plot_series(canadian_gas['boxcox'])
plot_series(canadian_gas['log'])

In [None]:
plt.plot(canadian_gas['Volume'].rolling(12).std(), '-ob')
plt.plot(canadian_gas.index[0], 0)
plt.grid()

In [None]:
canadian_gas

Как можно заметить, логарифмирование и преобрахование бокса кокса не сработало. Как видно в начале и в конце дисперсия сожается, а посерединке она растет. Думаю в этом и есть причина. 

Даже если мы возьмем логарифм, дисперсия стабилизируется в начала и в середине, но в конце она станет еще меньше прежней. 


# Task 5
For the following series, find an appropriate Box-Cox transformation in order to stabilise the variance. Tobacco from aus_production, Economy class passengers between Melbourne and Sydney from ansett, and Pedestrian counts at Southern Cross Station from pedestrian.

## Tobacco from aus_production

In [None]:
aus_production =  load_data('aus_production')
_index = pd.date_range('1956-01-01', '2010-07-01', freq ='Q')
aus_production.index = _index
aus_production = aus_production['Tobacco']

In [None]:
print(f'nans: {aus_production.isna().sum()}')
print(f'full: {aus_production.shape[0]}')

In [None]:
aus_production[aus_production.isna() == True]

In [None]:
aus_production = aus_production.dropna()

In [None]:
plot_series(aus_production, title='Tobacco production')
plot_series(aus_production.loc['2000-01-01':], title='Tobacco production')

In [None]:
plt.plot(aus_production.rolling(12).std(), '-ob')
plt.plot(aus_production.index[0], 0)
plt.grid()

In [None]:
fitted_data, fitted_lambda = st.boxcox(aus_production)
print(f'fitted_lambda: {fitted_lambda}')
aus_production = pd.DataFrame(aus_production)
aus_production['boxcox'] = fitted_data

In [None]:
aus_production

In [None]:
plot_series(aus_production['boxcox'])

In [None]:
y0 = aus_production['Tobacco'].rolling(12).std()
y1 = aus_production['boxcox'].rolling(12).std()

plt.plot(y0/y0.max(), '-xr')
plt.plot(y1/y1.max(), '-ob')
# plt.plot(0, 0)
plt.grid()

# Task 6

In [None]:
!pip install pandas_ta

In [None]:
import pandas_ta as ta

In [None]:
moving_averages_3_5 = ta.Strategy(
    name="SMA_3_5",
    ta=[
        {"kind": "sma", "length": 3},
        {"kind": "sma", "length": 5},
    ]
)

moving_averages_7 = ta.Strategy(
    name="SMA_7",
    ta=[
        {"kind": "sma", "length": 7},
    ]
)

In [None]:
aus_production = pd.DataFrame(aus_production)

In [None]:
aus_production['SMA_7'] = aus_production['Tobacco'].rolling(window=7).mean()

In [None]:
aus_production['SMA_3'] = aus_production['Tobacco'].rolling(window=3).mean()
aus_production['SMA_3_5'] = aus_production['SMA_3'].rolling(window=5).mean()

In [None]:
aus_production = aus_production.dropna()

In [None]:
px.line(aus_production)

Как видно, графики sma_7 и sma_3_5 почти одинаковые. Разнина заключается в том, что для sma_7 у нас для значения возьмутся с коэф 1/7=0.1428, а для sma_3_5 у нас будут такие: 0.067, 0.133, 0.200, 0.200, 0.200, 0.133, and 0.067.

Зачем делать и так и так: потому что ряд может быть четный и нечетный, то есть чтобы ряд был симметричным 

# Task7 
Consider the last five years of the Gas data from aus_production.

In [None]:
aus_production = load_data('aus_production')

_index = pd.date_range('1956-01-01', '2010-07-01', freq ='Q')
aus_production.index = _index
aus_production = aus_production['Gas']
aus_production.head(10)

## Plot the time series. Can you identify seasonal fluctuations and/or a trend-cycle?

In [None]:
plot_series(aus_production, title='Gas production')

Легко заметить тренд и сезонность

In [None]:
decomposition = seasonal_decompose(aus_production)
plot_decomposition(decomposition)

Интересно посмотреть на остатки, потому что к центру дисперсия уменьшается, как будто она не постоянная, значит они не стационарные, но это нужно проверить.

In [None]:
resid_analytics(decomposition.resid.dropna())

Ага, я ошибся, она все таки стационарные :) 

Давайте ка проверем acf и pacf для стац и не стац ряда 

In [None]:
plot_ACF(aus_production, decomposition)

все выглядит отлично, кроме остатков

In [None]:
plot_PACF(aus_production, decomposition)

тут мало что понятно, почему-то есть большие пинги, не могу их объяснить

## Use classical_decomposition with type=multiplicative to calculate the trend-cycle and seasonal indices.


In [None]:
decomposition = seasonal_decompose(aus_production, model='multiplicative')
plot_decomposition(decomposition)

Вооо, так намнооого лучше. Действительно, при постоянном увеличении дисперсии лучше исплользовать multiplicative модель.

И остатки приятнее выглядят

In [None]:
resid_analytics(decomposition.resid.dropna())

### Do the results support the graphical interpretation from part a?


yes.

## Compute and plot the seasonally adjusted data.


In [None]:
aus_production = pd.DataFrame(aus_production)

In [None]:
aus_production['diff'] = aus_production.diff(1)

In [None]:
plot_series(aus_production['Gas'].dropna(), title='just gas data')
plot_series(aus_production['diff'].dropna(), title='diff gas with period=4')

In [None]:
decomposition = seasonal_decompose(aus_production['diff'].dropna())
plot_decomposition(decomposition)

In [None]:
resid_analytics(decomposition.resid.dropna())

Как-то непонялтно, почему остатки стациораный, а дисперсия непостоянна



In [None]:
get_stationary(aus_production['diff'].dropna())

Даже сам ряд стал стационарным

In [None]:
plot_ACF(aus_production['diff'], decomposition)

In [None]:
plot_PACF(aus_production['diff'], decomposition)

Непонятно, о чем говорят такие большие пинги...

## Change one observation to be an outlier (e.g., add 300 to one observation), and recompute the seasonally adjusted data. What is the effect of the outlier?


In [None]:
aus_production.iloc[-2, 0] = 300
aus_production['diff'] = aus_production['Gas']#.diff(1)

plot_series(aus_production['diff'])

In [None]:
get_stationary(aus_production['diff'].dropna())

In [None]:
decomposition = seasonal_decompose(aus_production['diff'].dropna())
plot_decomposition(decomposition)

Это аутлаер повлиял только на остаток

In [None]:
plot_ACF(aus_production['diff'], decomposition, lags=150)

## Does it make any difference if the outlier is near the end rather than in the middle of the time series?


In [None]:
aus_production.iloc[aus_production.shape[0] // 2, 0] = 300
aus_production['diff'] = aus_production['Gas']#.diff(1)

In [None]:
plot_series(aus_production['diff'])

In [None]:
get_stationary(aus_production['diff'].dropna())

In [None]:
decomposition = seasonal_decompose(aus_production['diff'].dropna())
plot_decomposition(decomposition)

In [None]:
plot_ACF(aus_production['diff'], decomposition, lags=150)

В целом наличие аутлаеров в середине, в конце не влияет на Декомпозицию. Да, там выявляется сеазональность, а также растает ошибка в этих точках и тренд подскакивает. 

Наверно нам плохи аутлауры в конце ряда, когда мы хотим сделать predict.


Мне кажется, что я не прав, но выводы выше я сделал на основе декомпозиции и acf, pacf

Вопрос: если аутлаеры влияют на предикты, почему тогда на графиках acf pacf мы ничего не увидели

# Task 8

Recall your retail time series data (from Exercise 8 in Section 2.10). Decompose the series using X-11. Does it reveal any outliers, or unusual features that you had not noticed previously?



not now

# Task 9

Обсудим вместе :) 