# Języki Programowania Python i R


## dr inż. Patryk Jasik
### Division of Theoretical Physics and Quantum Information
### Institute of Physics and Computer Science
### Faculty of Applied Physics and Mathematics
### Gdansk University of Technology

In [None]:
#ładowanie bibliotek
from pandas import read_csv
from pandas import datetime
import random as rnd

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

In [None]:
#ustawienia wykresów i wyświetlanie liczb zmiennoprzecinkowych
get_ipython().run_line_magic('matplotlib', 'inline')
plt.rc('figure', figsize=(8, 5))
np.set_printoptions(precision=8, suppress=True)

In [None]:
#tworzymy funkcję, która będzie interpretowała daty w zadany przez nas sposób
def parser(x):
    return datetime.strptime('202'+x, '%Y-%m')

In [None]:
#wczytujemy plik z danymi
series = read_csv('dane/shampoo-sales.csv',
                  header=0,
                  index_col=0,
                  parse_dates=True,
                  squeeze=True,
                  date_parser=parser)
series

In [None]:
series['2022']

In [None]:
type(series)

In [None]:
series.plot()

In [None]:
# funkcja autokorelacji
pd.plotting.autocorrelation_plot(series)
plt.show()

In [None]:
#dokonujemy zmiany próbkowania szergu (upsample -> z miesięcy na dni)
upsampled = series.resample('D').mean()
print(upsampled.head(32))

In [None]:
#do wypełnienia pustych wartości wykorzystujemy różne rodzaje interpolacji
#interpolated = upsampled.interpolate(method='linear')
interpolated = upsampled.interpolate(method='spline', order=2)
print(interpolated.head(32))

In [None]:
interpolated.plot()

In [None]:
#możemy również zmniejszyć częstotliwość próbkowania szergu (downsample -> z miesięcy na kwartały lub lata)
#resample = series.resample('Q')
resample = series.resample('A')
resample


In [None]:
#dla kwartałów wyznaczamy średnią, natomiast dla lat sumujemy dane
#quarterly_mean_sales = resample.mean()
yearly_sum_sales = resample.sum()
#quarterly_mean_sales.head()
yearly_sum_sales

In [None]:
yearly_sum_sales.plot()

In [None]:
#transformacje szeregów czasowych w celu redukcji szumów i poprawieniu jakości sygnału
#Wczytanie danych
series = read_csv('dane/airline-passengers.csv',
                  header=0,
                  index_col=0,
                  parse_dates=True, squeeze=True)
plt.figure(1)
# linia
plt.subplot(211)
plt.plot(series)
# histogram
plt.subplot(212)
plt.hist(series)
plt.show()

In [None]:
#przykład 1: trend zmienia się jak funkcja kwadratowa
series = [i**2 for i in range(1,20)]
plt.figure(1)
# linia
plt.subplot(211)
plt.plot(series)
# histogram
plt.subplot(212)
plt.hist(series)
plt.show()

In [None]:
#Przykład 1
series = [i**2 for i in range(1,20)]
#usunięcie trendu polega na spierwiastkowaniu szeregu
transform = np.sqrt(series)
plt.figure(1)
# linia
plt.subplot(211)
plt.plot(transform)
# histogram
plt.subplot(212)
plt.hist(transform)
plt.show()

In [None]:
#poprzez pierwiastkowanie próbujemy zmienić trend na liniowy, a rozkład na gaussowski
series = read_csv('dane/airline-passengers.csv',
                  header=0,
                  index_col=0,
                  parse_dates=True, squeeze=True)

dataframe = pd.DataFrame(series.values)
dataframe.columns = ['passengers']
dataframe['passengers'] = np.sqrt(dataframe['passengers'])

plt.figure(1)
# linia
plt.subplot(211)
plt.plot(dataframe['passengers'])
# histogram
plt.subplot(212)
plt.hist(dataframe['passengers'])
plt.show()

In [None]:
#jeżeli jednak trend rośnie wykładniczo możemy zlogarytmować szereg
series = read_csv('dane/airline-passengers.csv', header=0, index_col=0, parse_dates=True, squeeze=True)

dataframe = pd.DataFrame(series.values)
dataframe.columns = ['passengers']
dataframe['passengers'] = np.log(dataframe['passengers'])

plt.figure(1)
# linia
plt.subplot(211)
plt.plot(dataframe['passengers'])
# histogram
plt.subplot(212)
plt.hist(dataframe['passengers'])
plt.show()

In [None]:
# transformacja Box-Cox jest transformacją parametryczną, w której sterujemy parametrem lambda
#w zależności od wartości tego parametru otrzymujemy różne przekształcenia szeregów
#np. lambda = 0.0 logarytmowanie, lambda = 0.5 pierwiastkowanie, lambda = 1.0 brak transformacji
from scipy.stats import boxcox

series = read_csv('dane/airline-passengers.csv', header=0, index_col=0, parse_dates=True, squeeze=True)
dataframe = pd.DataFrame(series.values)
dataframe.columns = ['passengers']
dataframe['passengers'] = boxcox(dataframe['passengers'], lmbda=0.5)

plt.figure(1)
# line plot
plt.subplot(211)
plt.plot(dataframe['passengers'])
# histogram
plt.subplot(212)
plt.hist(dataframe['passengers'])
plt.show()

In [None]:
#możemy również automatycznie wyznaczyć najlepszy parametr lambda dla rozważanego szeregu
series = read_csv('dane/airline-passengers.csv', header=0, index_col=0, parse_dates=True, squeeze=True)
dataframe = pd.DataFrame(series.values)
dataframe.columns = ['passengers']
dataframe['passengers'], lam = boxcox(dataframe['passengers'])

print('Lambda: %f' % lam)

plt.figure(1)
# line plot
plt.subplot(211)
plt.plot(dataframe['passengers'])
# histogram
plt.subplot(212)
plt.hist(dataframe['passengers'])
plt.show()

In [None]:
# zastosowanie średniej kroczącej w celu przygotowania danych
#wczytanie danych
series = read_csv('dane/daily-total-female-births.csv',
                  header=0,
                  index_col=0, parse_dates=True, squeeze=True)

In [None]:
series[:30].plot()

In [None]:
series.head(10)

In [None]:
# wyznaczenie wartości średniej dla trzech wartości t-2, t-1 i t
rolling = series.rolling(window=7)
print(rolling)


In [None]:
rolling_mean = rolling.mean()
print(rolling_mean.head(10))

In [None]:
rolling_mean.tail(10)

In [None]:
#wykres danych oryginalnych i po zastosowaniu średniej kroczącej
series.plot()
rolling_mean.plot(color='red')
plt.show()

In [None]:
# wykres części danych oryginalnych i po zastosowaniu średniej kroczącej
series[:100].plot()
rolling_mean[:100].plot(color='red')
plt.show()

In [None]:
# średnia krocząca w celu tworzenia
# nowych cech szeregu (feature engineering)

#wczytanie danych
series = read_csv('dane/daily-total-female-births.csv', header=0, index_col=0, parse_dates=True, squeeze=True)
df = pd.DataFrame(series.values)



In [None]:
df

In [None]:
width = 4 #szerokość okna

lag1 = df.shift(2) #przesunięcie oryginalnego szeregu o jeden krok czasowy
lag3 = df.shift(width - 1) #przesunięcie oryginalnego szeregu o krok czasowy zależny od rozmiaru okna
window = lag3.rolling(window=width) 
means = window.mean() #wyznaczenie średniej kroczącej

dataframe = pd.concat([means, lag1, df], axis=1) #połączenie kolumn w jedną ramkę danych
dataframe.columns = ['mean', 't', 't+1']
dataframe.head(20)

In [None]:
#średnia krocząca jako naiwny podel predykcyjny
from sklearn.metrics import mean_squared_error

series = read_csv('dane/daily-total-female-births.csv',
                  header=0,
                  index_col=0, parse_dates=True, squeeze=True)

# przygotowanie zmiennych
X = series.values
window = 3
history = [X[i] for i in range(window)]
test = [X[i] for i in range(window, len(X))]
predictions = list()

# wyznaczanie średniej kroczącej w celu obliczenia przyszłych wartości szeregu czasowego
for t in range(len(test)):
    length = len(history)
    yhat = np.mean([history[i] for i in range(length-window,length)])
    obs = test[t]
    predictions.append(yhat)
    history.append(obs)
    print('predicted=%f, expected=%f' % (yhat, obs))
rmse = mean_squared_error(test, predictions, squared=False)
print('Test RMSE: %.3f' % rmse)

In [None]:
series = read_csv('dane/daily-total-female-births.csv',
                  header=0,
                  index_col=0, parse_dates=True, squeeze=True)

# przygotowanie zmiennych
X = series.values
window = 3
history = [X[i] for i in range(window)]
test = [X[i] for i in range(window, len(X))]
predictions = list()

# wyznaczanie średniej kroczącej w celu obliczenia przyszłych wartości szeregu czasowego
for t in range(len(test)):
    length = len(history)
    yhat = np.mean([history[i] for i in range(length-window,length)])
    obs = test[t]
    predictions.append(yhat)
    history.append(obs)
    print('predicted=%f, expected=%f' % (yhat, obs))
rmse = mean_squared_error(test, predictions, squared=False)
print('Test RMSE: %.3f' % rmse)

In [None]:
series = read_csv('dane/daily-total-female-births.csv',
                  header=0,
                  index_col=0, parse_dates=True, squeeze=True)

# przygotowanie zmiennych
X = series.values
window = 1
history = [X[i] for i in range(window)]
test = [X[i] for i in range(window, len(X))]
predictions = list()

# wyznaczanie średniej kroczącej w celu obliczenia przyszłych wartości szeregu czasowego
for t in range(len(test)):
    length = len(history)
    yhat = np.mean([history[i] for i in range(length-window,length)])
    obs = test[t]
    predictions.append(yhat)
    history.append(obs)
    print('predicted=%f, expected=%f' % (yhat, obs))
rmse = mean_squared_error(test, predictions, squared=False)
print('Test RMSE: %.3f' % rmse)

In [None]:
# wykres
plt.plot(test)
plt.plot(predictions, color='red')
plt.show()

In [None]:
#biały szum
#jeżeli szereg czasowy okaże się być białym szumem (całkowita losowość) wówczas rozsądna predykcja nie jest możliwa
#błąd predykcji szeregu czasowego powinien być białym szumem, wówczas jesteśmy pewni,
#że model został zbudowany na esencji sygnału
#szereg czasowy nie jest białym szumem jeżeli któreś z poniższych pytań jest prawdziwe:
#1. czy średnia jest niezerowa?
#2. czy wariancja zmienia się w czasie?
#3. czy wartości szeregu korelują ze sobą po przesunięciu o lag?

In [None]:
#przykład białego szumu

from random import gauss
from random import seed

seed(1)
series = [gauss(0.0, 1.0) for i in range(1000)]
series = pd.Series(series)

In [None]:
series.describe()

In [None]:
# wykres
series.plot()
plt.show()

In [None]:
# histogram
series.hist()
plt.show()

In [None]:
# funkcja autokorelacji
pd.plotting.autocorrelation_plot(series)
plt.show()

In [None]:
#błądzenie losowe (random walk)
#błądzenie losowe pozwala na zrozumienie przewidywalności szeregu czasowego

# tworzymy i rysujemy przykładowe błądzenie losowe
seed(123)
random_walk = list()
random_walk.append(-1 if rnd.random() < 0.5 else 1)
for i in range(1, 1000):
    movement = -1 if rnd.random() < 0.5 else 1
    value = random_walk[i-1] + movement
    random_walk.append(value)
plt.plot(random_walk)
plt.show()

In [None]:
# funkcja autokorelacji (FA) błądzenia losowego
# FA pokazuje, że błądzenie losowe nie jest szeregiem stacjonarnym
pd.plotting.autocorrelation_plot(random_walk)
plt.show()

In [None]:
np.mean(random_walk)

In [None]:
# do wiarygodnego sprawdzenia stacjonarności szeregu służy
#rozszerzony test Dickey-Fullera (ADF)
# hipoteza zerowa testu to szereg czasowy jest niestacjonarny
# w wyniku testu dostajemy wartość większą od wszystkich
#krytycznych poziomów ufności
# zatem szereg czasowy jest niestacjonarny
from statsmodels.tsa.stattools import adfuller

result = adfuller(series)
print('ADF Statistic: %f' % result[0])
print('p-value: %f' % result[1])
print('Critical Values:')
for key, value in result[4].items():
    print('\t%s: %.3f' % (key, value))

In [None]:
series = read_csv('dane/daily-total-female-births.csv',
                  header=0,
                  index_col=0, parse_dates=True, squeeze=True)

In [None]:
series.plot()

In [None]:
pd.plotting.autocorrelation_plot(random_walk)
plt.show()

In [None]:
series.describe()

In [None]:
result = adfuller(diff)
print('ADF Statistic: %f' % result[0])
print('p-value: %f' % result[1])
print('Critical Values:')
for key, value in result[4].items():
    print('\t%s: %.3f' % (key, value))

In [None]:
(series-series.mean()).mean()

In [None]:
#z szeregu, który jest błądzeniem losowym możemy stworzyć szereg stacjonarny

#skoro w błądzeniu losowym kolejne wartości zależą od poprzednich, usunięcie tych róźnic stworzy szereg stacjonarny
#szereg nie zawiera teraz żadnych struktur które można wykorzystać w uczeniu maszynowym
diff = list()
for i in range(1, len(random_walk)):
    value = random_walk[i] - random_walk[i - 1]
    diff.append(value)
# wykres różnic
plt.plot(diff)
plt.show()

In [None]:
plt.hist(diff)
plt.show()

In [None]:
#i jeszcze FA
#wyraźnie widać, że korelacje są małe i poniżej 95% i 99% przedziału ufności
pd.plotting.autocorrelation_plot(diff)
plt.ylim(-0.5,0.5)
plt.show()


In [None]:
plt.plot(random_walk)
plt.show()

In [None]:
#nie można przeprowadzić rozsądnej predykcji błądzenia losowego
#można jedynie wykonać naiwną predykcję bazując na najbliższych wartościach szeregu t-1 -> t

# dzielimy dane na zbiór uczący i testowy
train_size = int(len(random_walk) * 0.66)
train, test = random_walk[0:train_size], random_walk[train_size:]

# naiwna predykcja uwzględniająca zmianę między kolejnymi
# elementami równą 1
predictions = list()
history = train[-1]
for i in range(len(test)):
    yhat = history
    predictions.append(yhat)
    history = test[i]
rmse = np.sqrt(mean_squared_error(test, predictions))
print('RMSE: %.3f' % rmse)


In [None]:
# naiwna predykcja uwzględniająca kierunek i wartość zmiany między kolejnymi elementami równą +/-1
predictions = list()
history = train[-1]
for i in range(len(test)):
    yhat = history + (-1 if rnd.random() < 0.5 else 1)
    predictions.append(yhat)
    history = test[i]
rmse = np.sqrt(mean_squared_error(test, predictions))
print('RMSE: %.3f' % rmse)

In [None]:
#dekompozycja szeregów czasowych
#szereg czasowy można rozłożyć na dwa główne komponenty
#1. systematyczne - elementy szeregu, które są konsystentne lub
# rekurencyjne i mogą opisane i modelowane
#2. niesystematyczne - elementy szeregu, które nie mogą być
# bezpośrednio modelowane

#Komponenty systematyczne to: poziom (wartość średnia),
# trend (występuje opcjonalnie) i sezonowość (występuje opcjonalnie)
#Komponent niesystematyczny to szum.

#Możemy rozważać dwa modele szeregów czasowych:
#1. addytywne (liniowe): poziom + trend + sezonowość + szum
#2. multiplikatywne (nieliniowe): poziom * trend * sezonowość * szum

In [None]:
# przykład dekompozycji szeregu czasowego przy założeniu modelu addytywnego

from statsmodels.tsa.seasonal import seasonal_decompose
series = [i + rnd.randrange(10) for i in range(1,100)]
result_add = seasonal_decompose(series, model='additive', freq=1)
result_add.plot()
plt.show()

In [None]:
#poszczególne składowe dekompozycji są zapisywane w odpowiednich zmiennych
print(result_add.trend)
print(result_add.seasonal)
print(result_add.resid)
print(result_add.observed)

In [None]:
series = [i**2.0 for i in range(1,100)]
result_multi = seasonal_decompose(series, model='multiplicative', freq=1)
result_multi.plot()
plt.show()

In [None]:
series = [np.sin(i)+1 for i in range(1,100)]
result_multi = seasonal_decompose(series, model='multiplicative', freq=1)
result_multi.plot()
plt.show()

In [None]:
# dekompozycja rzeczywistego szeregu czasowego - model multiplikatywny
series = read_csv('dane/airline-passengers.csv', header=0, index_col=0, parse_dates=True, squeeze=True)
series.plot()

In [None]:
result = seasonal_decompose(series, model='multiplicative')
result.plot()
plt.show()

In [None]:
result = seasonal_decompose(series, model='additive')
result.plot()
plt.show()

In [None]:
#Usuwanie trendu z szeregu czasowego
#Możemy wyróżnić kilka cech trendów:
#1. Deterministyczne (monotonicznie rosnące lub malejące) 
# i stochastyczne (monotoniczność trendu się zmienia)
#2. Globalne i lokalne

#Szereg czasowy z trendem to szereg niestacjonarny.
#Usunięcie trendu z szeregu czasowego powoduje, że staje się on stacjonarny.

#Z punktu widzenia uczenia maszynowego usunięcie trendu
# zmniejsza zaburzenia pomiędzy danymi wejściowymi i wyjściowymi.
#Z drugiej strony dodanie trendu może poprawić relację pomiędzy predyktorami a zmienną celu.



In [None]:
#Usuwanie trendu poprzez różnicowanie szeregu czasowego

def parser(x):
    return datetime.strptime('202'+x, '%Y-%m')

series = read_csv('dane/shampoo-sales.csv', header=0, index_col=0, parse_dates=True, squeeze=True, date_parser=parser)
X = series.values
print(np.mean(X))

In [None]:
#trend wznoszący jest wyraźnie widoczny na wykresie
plt.plot(X)
plt.show()

In [None]:
# tworzymy nową zmienną, która jest różnicą dwóch
# kolejnych wartości szeregu
# new_x(t) = x(t) - x(t-1)
diff = list()
for i in range(1, len(X)):
    value = X[i] - X[i - 1]
    diff.append(value)

print(np.mean(diff))
#plt.plot(X)
plt.plot(diff)
plt.show()

In [None]:
#Usuwanie trendu poprzez budowanie modelu regresyjnego 

from sklearn.linear_model import LinearRegression

# budujemy model regrsji liniowej
X = [i for i in range(0, len(series))]
X = np.reshape(X, (len(X), 1))
y = series.values
model = LinearRegression()
model.fit(X, y)

In [None]:
# wyznaczamy trend liniowy korzystając z modelu
trend = model.predict(X)

# wykres danych i trendu
plt.plot(y)
plt.plot(trend)
plt.show()

In [None]:
# usuwamy trend 
detrended = [y[i]-trend[i] for i in range(0, len(series))]

# rusujemy dane bez trendu
print(np.mean(detrended))
plt.plot(detrended)
plt.show()

In [None]:
plt.hist(detrended)
plt.show()

In [None]:
result = adfuller(detrended)
print('ADF Statistic: %f' % result[0])
print('p-value: %f' % result[1])
print('Critical Values:')
for key, value in result[4].items():
    print('\t%s: %.3f' % (key, value))

In [None]:
result = seasonal_decompose(series, model='multiplicative')
result.plot()
plt.show()

In [None]:
#Wyodrębnianie sezonowości

#Sezonowość może mieć znaczny wpływ na modelowanie szeregów czasowych
#1. Czysty sygnał - usunięcie sezonowości może poprawić związek pomiędzy
#danymi wejściowymi i wyjściowymi
#2. Dodatkowe informacja - sezonowść może stać się kolejnym predyktorem

#Szereg czasowy z usuniętą sezonowością nazywamy sezonowo stacjnarnym.

In [None]:
#wczytanie danych i wyświetlenie wykresu

series = read_csv('dane/daily-minimum-temperatures.csv', header=0, index_col=0,
                  parse_dates=True, squeeze=True)
plt.plot(series)
plt.show()

In [None]:
# usunięcie sezonowości poprzez różnicowanie
# dnia w roku do dnia w roku kolejnym
#uwaga na lata przestępne
X = series.values
diff = list()
days_in_year = 365
for i in range(days_in_year, len(X)):
    value = X[i] - X[i - days_in_year]
    diff.append(value)
plt.plot(diff)
plt.show()
print(np.mean(diff))

In [None]:
#może warto rozważyć sezonowść w odstępach miesięcznych
series = read_csv('dane/daily-minimum-temperatures.csv', header=0, index_col=0,
                  parse_dates=True, squeeze=True)
resample = series.resample('M')
monthly_mean = resample.mean()

print(monthly_mean.head(18))
monthly_mean.plot()
plt.show()

In [None]:
# usunięcie sezonowości poprzez różnicowanie miesiąca
# w roku do miesiąca w roku kolejnym

series = read_csv('dane/daily-minimum-temperatures.csv', header=0, index_col=0,
                  parse_dates=True, squeeze=True)

resample = series.resample('M')
monthly_mean = resample.mean()

X = series.values
diff = list()
months_in_year = 12
for i in range(months_in_year, len(monthly_mean)):
    value = monthly_mean[i] - monthly_mean[i - months_in_year]
    diff.append(value)
plt.plot(diff)
plt.show()
print(np.mean(diff))

In [None]:
# usunięcie sezonowości poprzez różnicowanie średniej miesięcznej w roku
#do dnia w roku kolejnym

series = read_csv('dane/daily-minimum-temperatures.csv', header=0, index_col=0,
                  parse_dates=True, squeeze=True)
X = series.values
diff = list()
days_in_year = 365
for i in range(days_in_year, len(X)):
    month_str = str(series.index[i].year-1)+'-'+str(series.index[i].month)
    month_mean_last_year = series[month_str].mean()
    value = X[i] - month_mean_last_year
    diff.append(value)

plt.plot(diff)
plt.show()
print(np.mean(diff))

In [None]:
#podobnie jak trend, sezonowość możemy modelować za pomocą fitowania
#funkcji okresowych (np. sinus lub cosinus) lub wielomianem w ramach sezonu (okresu)

#jeżeli znajdziemy funkcję szacującą sezonowść, możemy jej użyć do predykcji 

# modelowanie sezonowości poprzez wielomian wybranego stopnia - super sprawa!!!
#uwaga na lata przestępne

series = read_csv('dane/daily-minimum-temperatures.csv', header=0, index_col=0,
                  parse_dates=True, squeeze=True)

# znajdujemy wielomian postaci: x^n*b1 + x^(n-1)*b2 + ... + bn dla k

X = [i%365 for i in range(0, len(series))]
y = series.values
degree = 4
coef = np.polyfit(X, y, degree)
print('Coefficients: %s' % coef)


# wyznaczamy krzywą
curve = list()
for i in range(len(X)):
    value = coef[-1]
    for d in range(degree):
        value += X[i]**(degree-d) * coef[d]
    curve.append(value)

# tworzymy wykres porównawczy
plt.plot(series.values)
plt.plot(curve, color='red', linewidth=3)
plt.show()

In [None]:
#posiadając wymodelowaną sezonowość możemy ją usunąć z szeregu czasowego
#poprzez różnicowanie wartości rzeczywistej i oszacowanej

values = series.values
diff = list()
for i in range(len(values)):
    value = values[i] - curve[i]
    diff.append(value)
plt.plot(diff)
plt.show()
print(np.mean(diff))

In [None]:
np.std(diff)

In [None]:
plt.hist(diff)
plt.show()

In [None]:
result = adfuller(diff)
print('ADF Statistic: %f' % result[0])
print('p-value: %f' % result[1])
print('Critical Values:')
for key, value in result[4].items():
    print('\t%s: %.3f' % (key, value))