In [103]:
import numpy as np
import pandas as pd
from datetime import datetime as dt, timedelta as tmd

from warnings import filterwarnings
filterwarnings('ignore')

from importlib import reload
import DataLoader.xAPIConnector
reload(DataLoader.xAPIConnector)
from DataLoader.xAPIConnector import *


import DataLoader.DataLoader
reload(DataLoader.DataLoader)
from DataLoader.DataLoader import *

from DataLoader.config import user_id, pwd

# Pobieranie danych

Należy podać listę symboli, datę, od której chcemy zaciągnąć dane i częstotliwość (teraz '5min'). Można też podać datę 'end', ale domyślnie zaciąga się do chwili obecnej.

In [104]:
symbols = ['BITCOIN', 'ETHEREUM']
start, interval = '2024-12-01 00:00:00', '5min'

dl = DataLoader(user_id, pwd)
data = dl.getData(symbols=symbols, start_date=start, interval=interval)

[2025-01-13 16:15:23.035885] Loguję do API...
	Wysyłam zapytanie do API...
	Wysyłam zapytanie do API...
[2025-01-13 16:15:30.529496] Wylogowuję z API...


Klasyfikatory można budować na mnóstwo różnych sposobów. Ogólnie trzeba się zdecydować, na ilu obserwacjach wstecz ma się opierać klasyfikacja. Liczbę tych obserwacji nazwiemy 'window' i przyjmiemy jako parametr.

Pierwszy pomysł to klasyfikacja na podstawie stóp zwrotu, klasy również będziemy budować na podstawie stóp zwrotu. Metoda budowania klas zostanie omówiona dalej.

In [106]:
window = int(60/int(interval[:-3]))
returnsBTC = data.loc[:, 'BITCOIN'].pct_change().dropna()

In [141]:
def prepareData(data: pd.Series, window: int, skip: int) -> tuple:   
    # można ustawić okna zachodzące (0 < skip < window)
    # można ustawić niezachodzące (skip >= window)
    assert skip > 0, "Pętla w kodzie nigdy się nie zakończy..."
    
    # Generujemy 'okna'
    X = pd.DataFrame(columns=range(window))
    
    i = len(data)
    count = 0
    while i >= window:
        temp_y = data.iloc[i-window:i]
        
        X.loc[count, :] = temp_y.values
        
        i = i - skip    
        count += 1
        
    return np.array(X)

# Modele klasyfikacyjne

In [156]:
from sklearn.linear_model import LogisticRegression as LogR, LinearRegression as LinR
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier as DTC
from sklearn.ensemble import GradientBoostingClassifier as GBC

### Definiowanie klas

Pierwszy pomysł na zdefiniowanie klas to przyjęcie $1$ jeśli stopa zwrotu jest $>$'threshold' oraz $0$ w p.p.

Próg odcięcia można podać jako parametr i już po pierwszych testach widać, że dla prostej klasyfikacji typu "czy zwrot > $0$" skuteczność jest około $50\%$. Im wyższy próg, tym lepsza skuteczność.

In [135]:
skip = 1
arr = prepareData(data=returnsBTC, window=window, skip=skip)
X = arr[:, :-1]
y = arr[:, -1]

threshold = np.quantile(y, 0.75)
y = (y > threshold)*1.0

for i in range(0, 2):
    print(f"Klasa {i}: {np.sum(y == i)/len(y):.4%}")

Klasa 0: 75.0027%
Klasa 1: 24.9973%


Teraz podzielimy dane na treningowe i testowe, po czym sprawdzimy jakość predykcji

In [136]:
train_test_ratio = 0.7
len_train = int(train_test_ratio*X.shape[0])

Xtrain = X[:len_train, :]
ytrain = y[:len_train]

Xtest = X[len_train:, :]
ytest = y[len_train:]

print(f"[INFO] W zbiorze treningowym znaduje się {Xtrain.shape[0]} obserwacji.")
print(f"[INFO] W zbiorze testowym znajduje się {Xtest.shape[0]} obserwacji.")

[INFO] W zbiorze treningowym znaduje się 6527 obserwacji.
[INFO] W zbiorze testowym znajduje się 2798 obserwacji.


In [None]:
print(f"[INFO] Regresja logistyczna")
clf = LogR().fit(Xtrain, ytrain)
print(f"\tSkuteczność treningowa modelu: {clf.score(Xtrain, ytrain):.4%}")
print(f"\tSkuteczność testowa modelu: {clf.score(Xtest, ytest):.4%}")

[INFO] Regresja logistyczna
	Skuteczność treningowa modelu: 76.3138%
	Skuteczność testowa modelu: 71.9442%


In [138]:
print(f"[INFO] Support Vector Machines")
clf = SVC(kernel='poly').fit(Xtrain, ytrain)
print(f"\tSkuteczność treningowa modelu: {clf.score(Xtrain, ytrain):.4%}")
print(f"\tSkuteczność testowa modelu: {clf.score(Xtest, ytest):.4%}")

[INFO] Support Vector Machines
	Skuteczność treningowa modelu: 77.9838%
	Skuteczność testowa modelu: 70.8006%


In [139]:
print(f"[INFO] Drzewo decyzyjne")
clf = DTC(max_depth=3).fit(Xtrain, ytrain)
print(f"\tSkuteczność treningowa modelu: {clf.score(Xtrain, ytrain):.4%}")
print(f"\tSkuteczność testowa modelu: {clf.score(Xtest, ytest):.4%}")

[INFO] Drzewo decyzyjne
	Skuteczność treningowa modelu: 76.6662%
	Skuteczność testowa modelu: 71.8013%


In [140]:
print(f"[INFO] Las decyzyjny")
clf = GBC(n_estimators=100, max_depth=5).fit(Xtrain, ytrain)
print(f"\tSkuteczność treningowa modelu: {clf.score(Xtrain, ytrain):.4%}")
print(f"\tSkuteczność testowa modelu: {clf.score(Xtest, ytest):.4%}")

[INFO] Las decyzyjny
	Skuteczność treningowa modelu: 83.9896%
	Skuteczność testowa modelu: 69.0136%


Predykcje uzyskane przy użyciu tych metod tworzenia $y$ dają rezultaty gorsze od naiwnego klasyfikatora przypisującego zawsze $0$.

### Inne pomysły na definiowanie klas

Pomysł oparty na regresji liniowej

$$y_t = \beta_0 + \beta_{-5}y_{t-5} + ... + \beta_{-1}y_{t-1} + \beta_1y_{t+1} + ... +\beta_5y_{t+5}$$

In [161]:
window = 11
skip = window

arr = prepareData(data=returnsBTC, window=window, skip=skip)
X = np.delete(arr, 5, axis=1)
y = arr[:, 5]

In [162]:
model = LinR().fit(X, y)
model.coef_

array([ 0.01991393, -0.04023283, -0.03274852,  0.05045935,  0.02898242,
       -0.08376527, -0.04969022,  0.0946578 , -0.00211609,  0.07973739])

In [159]:
np.mean(model.coef_)

0.006519796843450826