# Przekształcenia wstępne szeregu

In [None]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
%matplotlib inline

#from google.colab import files
#src = list(files.upload().values())[0]
#open('ts_utils.py','wb').write(src)

#from ts_utils import check_time_series_stationary
from statsmodels.graphics.tsaplots import plot_acf

In [None]:
#funkcja do badania stacjonarności
from statsmodels.tsa.stattools import adfuller

def check_time_series_stationary(y, rolling_len=12):
    
    y = pd.Series(y)
    df_test = adfuller(y)
    
    if df_test[1] < 0.05:
        print('Szereg jest stacjonarny')
    
    else:
        print('Szereg jest niestacjonarny')
    
    print("{0:^32s}".format("Dickey-Fuller Test"))
    print("-"*32+"\n")
    
    print("{0:<20s}: {1:>10.4f}".format('Test Statistic', df_test[0]))
    print("{0:<20s}: {1:>10.4f}".format('p-value', df_test[1]))
    print("-"*32+"\n")
    
    rolling_mean = y.rolling(rolling_len).mean()
    rolling_var = y.rolling(rolling_len).var()

    plt.plot(y)
    plt.plot(rolling_mean, label="Rolling mean")
    plt.plot(rolling_var, label="Rolling var")
    plt.legend()
    plt.show()
    
    print("{0:^32s}".format("Autocorrelation plot"))
    print("-"*32+"\n")
    
    pd.plotting.autocorrelation_plot(y)
    plt.show()

Chcemy umieć odwzorować zmiany w szeregu za pomocą modeli. Najłatwiej jest zamodelować szeregi stacjonarne. Tak więc przed przystąpieniem do analizy i prognozowania szeregów powinniśmy odpowiednio przygotować nasze dane.

Przy użyciu określonych przekształceń, możemy 
- wyeliminować z szeregu składowe zmienności,
- ułatwić identyfikację regularnych tendencji.

## Transformacja logarytmiczna

Jeśli w analizowanych danych dostrzegamy, że wariancja wzrasta lub maleje wraz z poziomem szeregu, przydatne może być zastosowanie transformacji logarytmicznej.

Używająć logarytmu, możemy ustabilizować wariancję, a potem kontynuawać kolejne kroki analizy.
Stabilizacja wariancji jest konieczna dla zastosowania modeli stacjonarnych.

**Transformacja logarytmiczna/potęgowa danych przydatna jest między innymi w następujących przypadkach:**
- występowanie wzrostu (lub spadku) amplitudy wahań sezonowych w kolejnych okresach, 
- niejednorodnej zmienności danych w kolejnych okresach,
- dużego wpływu obserwacji odstających

In [None]:
air_passengers = pd.read_csv('../data/AirPassengers.csv', parse_dates=['Month'], index_col='Month')
air_passengers.head()

In [None]:
check_time_series_stationary(air_passengers['#Passengers'])

In [None]:
log_air_passengers = np.log(air_passengers)
check_time_series_stationary(log_air_passengers['#Passengers'])

## Różnicowanie 

Operację różnicowania stosujemy między innymi w celu przekształcenia danych do postaci **stacjonarnej**.

Róznicowanie sprowadza się do zastąpienia oryginalnych danych szeregiem różnic, wyznaczonych dla ustalonych opóźnień czasowych. Dobierając odpowiednio parametry różnicowania możemy wyeliminować z danych trend liniowy, kwadratowy, wielomianowy, a także sezonowość. 

### Róźnicowanie z opóźnieniem 1

Wczytaj dane `USGDP.csv` przedstawiające informację na temat kwartalnego produktu krajowego brutto w USA w latach 1947-2006, a następnie zastosuj różnicowanie z opóźnieniem 1 i sprawdź stacjonarność otrzymanego szeregu.

In [None]:
usgdp = pd.read_csv('../data/USGDP.csv', parse_dates=['DATE'], index_col='DATE')
usgdp.head()

In [None]:
check_time_series_stationary(usgdp.GDPC1)

In [None]:
log_usgdp = np.log(usgdp)
check_time_series_stationary(log_usgdp.GDPC1)

In [None]:
log_usgdp_diff = log_usgdp.diff(1)
log_usgdp_diff

In [None]:
check_time_series_stationary(log_usgdp_diff.GDPC1.dropna())

### Róźnicowanie z opóźnieniem sezonowym

Różnicowanie szeregu zawierające dwie składowe systematyczne -- trend i sezonowość.

In [None]:
log_air_passengers = np.log(air_passengers)
check_time_series_stationary(log_air_passengers['#Passengers'])

In [None]:
log_air_passengers

In [None]:
log_air_passengers_diff = log_air_passengers.diff(1)
log_air_passengers_diff

In [None]:
check_time_series_stationary(log_air_passengers_diff['#Passengers'].dropna())

In [None]:
log_air_passengers_diff_diff12 = log_air_passengers_diff.diff(12)
log_air_passengers_diff_diff12

In [None]:
check_time_series_stationary(log_air_passengers_diff_diff12['#Passengers'].dropna())

## Zadanie - `co2`

Wczytaj dane `co2_interpolated.csv` wskazujące stężenie CO2 w atmosferze (więcej pod [linkiem](https://datahub.io/core/co2-ppm)). Następnie korzystając z powyższych metod, spróbuj doprowadzić szereg do postaci stacjonarnej.

In [None]:
co2 = pd.read_csv('../data/co2_interpolated.csv', parse_dates=['Date'], index_col='Date')
co2.head()

## Zadanie - `a10`
Wczytaj dane ` a10.csv` opisujące miesięczną sprzedaż leków przeciwcukrzycowych w Australii w latach 1992–2008. Następnie korzystając z powyższych metod, spróbuj doprowadzić szereg do postaci stacjonarnej.

In [None]:
a10 = pd.read_csv('../data/a10.csv', parse_dates=['date'], index_col='date')
a10.head()
a10.plot(legend=False)

## Zadanie - `daily-min-temperatures`
Wczytaj dane `daily-min-temperatures.csv` opisujący minimalne dzienne temperatury w ciągu 10 lat (1981-1990) w Melbourne w Australii. Następnie korzystając z powyższych metod, spróbuj doprowadzić szereg do postaci stacjonarnej.

In [None]:
daily_temp = pd.read_csv('../data/daily-min-temperatures.csv', parse_dates=['Date'], index_col='Date')
daily_temp.head()

## Zadanie - `daily-total-female-births`
Wczytaj dane `daily-total-female-births.csv` przedstawiające całkowitą liczbę urodzeń kobiet zarejestrowanych w Kalifornii w USA w 1959 roku. Następnie korzystając z powyższych metod, spróbuj doprowadzić szereg do postaci stacjonarnej.

In [None]:
daily_birth = pd.read_csv('../data/daily-total-female-births.csv', parse_dates=['Date'], index_col='Date')
daily_birth.head()