Практическая работа #2

Задача: Реализовать модель, которая бы предсказывала цвет следующих 5 свечей.

Данные: Я взяла данные о криптовалюте биткоин, валютная пара биткоин-доллар. Данные за период с 01.04.2019 по 06.05.2020. Интервал свечек - 1 минута

In [1]:
import pandas as pd

In [2]:
data = pd.read_csv("GDAX.BTC-USD_190401_200506.csv", delimiter=',')
data.describe()

Unnamed: 0,<DATE>,<TIME>,<OPEN>,<HIGH>,<LOW>,<CLOSE>,<VOL>
count,577395.0,577395.0,577395.0,577395.0,577395.0,577395.0,577395.0
mean,20193800.0,117823.238511,8376.290281,8380.25764,8372.0526,8376.339349,10.305174
std,4399.736,69243.484101,1761.24778,1762.210846,1760.187578,1761.259006,28.102935
min,20190400.0,0.0,3933.8,4015.28,3858.0,3936.5,0.0
25%,20190710.0,55900.0,7212.01,7214.32,7210.01,7212.095,1.0
50%,20191020.0,115800.0,8329.91,8331.91,8327.45,8329.95,3.0
75%,20200130.0,175900.0,9706.42,9710.125,9702.745,9706.41,9.0
max,20200510.0,235900.0,13850.0,13868.44,13841.64,13850.0,1318.0


Сначала преобразовываем входные данные.

В качестве параметров беру данные за предыдущие 10 свечей.

Параметры моей модели:

    1) Цены закрытия за предыдущие 10 свечей;
    2) Скользящее среднее по цене открытия с окном в 10 свечей;
    3) Цвет предыдущих 10 свечей;
    4) Объем предыдущих 10 свечей.

In [3]:
# копируем фрейм в data1 чтобы не портить исходные данные
data1 = data.copy()

# cначала удаляем столбцы даты, времени, наивысшей цены и наименьшей. Они не понадобятся.
data1 = data1.drop(['<DATE>','<TIME>','<HIGH>','<LOW>'], axis=1)

# добавляем столбец <COLOR> - цвет свечи (0 - красная, 1 - зеленая)
data1['<COLOR>'] = 0
data1.loc[data1['<CLOSE>'] >= data1['<OPEN>'], '<COLOR>'] = 1

# нормализуем столбец с объемами (делим на максимум)
maxVol = data1['<VOL>'].max()
data1['<VOL>'] = data1['<VOL>'] / maxVol

# добавляем столбец со скользящим средним
data1['<ROLLING_MEAN>'] = data1['<OPEN>'].rolling(window = 10).mean()

# dependColumns - список столбцов-параметров модели
dependColumns = ['<ROLLING_MEAN>']

# predictColumns - список стобцов, значения которых нужно предсказать (цвет текущей и последующих 4 свечей)
predictColumns = ['<COLOR>']

# Добавляем столбцы <PREV_CLOSE%i>, <PREV_COLOR%i>, <PREV_VOL%i>, где %i - номер предыдущей свечки %i=1..10
for i in range(10):
    columnName = '<PREV_CLOSE{}>'.format(i + 1)
    data1[columnName] = data1['<CLOSE>'].shift(i + 1)
    dependColumns.append(columnName)
    
    columnName = '<PREV_COLOR{}>'.format(i + 1)
    data1[columnName] = data1['<COLOR>'].shift(i+1)
    dependColumns.append(columnName)
    
    columnName = '<PREV_VOL{}>'.format(i + 1)
    data1[columnName] = data1['<VOL>'].shift(i + 1)
    dependColumns.append(columnName)
    
# Добавляем столбцы <FUTURE_COLOR%i> обозначающие цвет следующих 4 свечек (нужно для обучения), %i=1..4
for i in range(4):
    columnName = '<FUTURE_COLOR{}>'.format(i + 1)
    data1[columnName] = data1['<COLOR>'].shift(-i - 1)
    predictColumns.append(columnName)

data1.describe()

Unnamed: 0,<OPEN>,<CLOSE>,<VOL>,<COLOR>,<ROLLING_MEAN>,<PREV_CLOSE1>,<PREV_COLOR1>,<PREV_VOL1>,<PREV_CLOSE2>,<PREV_COLOR2>,...,<PREV_CLOSE9>,<PREV_COLOR9>,<PREV_VOL9>,<PREV_CLOSE10>,<PREV_COLOR10>,<PREV_VOL10>,<FUTURE_COLOR1>,<FUTURE_COLOR2>,<FUTURE_COLOR3>,<FUTURE_COLOR4>
count,577395.0,577395.0,577395.0,577395.0,577386.0,577394.0,577394.0,577394.0,577393.0,577393.0,...,577386.0,577386.0,577386.0,577385.0,577385.0,577385.0,577394.0,577393.0,577392.0,577391.0
mean,8376.290281,8376.339349,0.007819,0.543197,8376.318589,8376.338222,0.543198,0.007819,8376.337097,0.543198,...,8376.329178,0.5432,0.007819,8376.328039,0.543201,0.007819,0.543198,0.543197,0.543196,0.543195
std,1761.24778,1761.259006,0.021322,0.498131,1761.171235,1761.260323,0.498131,0.021322,1761.261641,0.498131,...,1761.270849,0.498131,0.021323,1761.272161,0.498131,0.021323,0.498131,0.498131,0.498131,0.498131
min,3933.8,3936.5,0.0,0.0,4076.167,3936.5,0.0,0.0,3936.5,0.0,...,3936.5,0.0,0.0,3936.5,0.0,0.0,0.0,0.0,0.0,0.0
25%,7212.01,7212.095,0.000759,0.0,7212.0355,7212.0925,0.0,0.000759,7212.09,0.0,...,7212.0825,0.0,0.000759,7212.08,0.0,0.000759,0.0,0.0,0.0,0.0
50%,8329.91,8329.95,0.002276,1.0,8329.6415,8329.945,1.0,0.002276,8329.94,1.0,...,8329.94,1.0,0.002276,8329.94,1.0,0.002276,1.0,1.0,1.0,1.0
75%,9706.42,9706.41,0.006829,1.0,9706.378,9706.41,1.0,0.006829,9706.41,1.0,...,9706.4175,1.0,0.006829,9706.42,1.0,0.006829,1.0,1.0,1.0,1.0
max,13850.0,13850.0,1.0,1.0,13834.816,13850.0,1.0,1.0,13850.0,1.0,...,13850.0,1.0,1.0,13850.0,1.0,1.0,1.0,1.0,1.0,1.0


Теперь разделим данные на две части: данные для обучения и данные для тестирования. Всего в таблице 577 тыс. записей. Из них первые 550 тыс. выделим под тренировочные данные, а оставшиеся - под тестовые.
При этом это не определяет размер тренировочной и тестовой выборок. Исходные данные просто разбиваются на две непересекающиеся части.

Размер тренировочной выборки - 20 тыс. записей. Размер тестовой выборки - 10 тыс. записей.

Тренировочные данные в данном блоке будут отфильтрованы (останутся записи с объемом больше 25%, но меньше 75%). Также из отфильтрованных данных тренировачная выборка будет выбрана таким образом, чтобы не возникало пересечений между собой.

In [4]:
import numpy as np

# trainLen и testLen соответственно размеры выборок
trainLen = 20000
testLen = 10000

# разбиение исходных данных на 2 непересекающихся множества
trainData = data1.loc[:550000, data1.columns]
testData = data1.loc[550000:, data1.columns]

# Необходимо, чтобы переопределить индексы в тестовых данных (сделать индексацию не с 550000, а с 0)
s = pd.Series(range(len(testData)))
testData.set_index(s, drop=True, inplace=True)

# Оставляем только те строки, где 25% <= объем <= 75%
volWindow = 0.000759 <= data1['<VOL>']
trainData1 = trainData.loc[volWindow, trainData.columns]

volWindow = trainData1['<VOL>'] <= 0.006829
trainData1 = trainData1.loc[volWindow, trainData.columns]
s = pd.Series(range(len(trainData1)))
trainData1.set_index(s, drop=True, inplace=True)

# Обучающая выборка
trainX = np.asarray([trainData1.loc[10 + 12*i, dependColumns] for i in range(trainLen)])
trainY = np.asarray([trainData1.loc[10 + 12*i, predictColumns] for i in range(trainLen)])

# Тестовая выборка
testX = np.asarray(testData.loc[:testLen, dependColumns])
testY = np.asarray(testData.loc[:testLen, predictColumns])

print('Done')

Done


В блоке ниже происходит задание модели, её обучение и проверка качества предсказаний модели.

Я использовала модель k-ближайших соседей, где k=15.

Для тестовой выборки размером 10 тыс. записей удалось достигнуть точности в 53,64%.

In [5]:
from sklearn import *

model = neighbors.KNeighborsRegressor(n_neighbors = 15, n_jobs = 16)
model.fit(trainX, trainY)

pred = model.predict(testX)

# преобразуем массив чисел в массив со значениями [0,1]
predY = [[1 if x >= 0.5 else 0 for x in y] for y in pred]

# создаем соединенный массив с элементами типа tuple 
# ([список из 5 предсказанных свечей], [список из 5 тестовых свечей])
splitY = list(map(lambda x, y: (x,y), predY, testY))

# количество успешных предсказываний
correct = 0

from functools import reduce

# функция вычисляет счет, где a - массив предсказанных свечей, b - тестовых
def computeScore(a, b):
    scoreArray = list(map(lambda x,y: 1 if x == y else -1, a, b))
    score = reduce(lambda a, b: a + b, scoreArray)
    return score

# Считаем общий счет для всей тестовой выборки
scoreSum = 0
for i in splitY:
    score = computeScore(i[0], i[1])
    if score > 0:
        correct += 1
    scoreSum += score

print('Summary score: ', scoreSum)
print('Average score: ', scoreSum / testLen)
print('Percentage of successful predictions: {:.3f}%'.format(correct / testLen * 100))

Summary score:  2095
Average score:  0.2095
Percentage of successful predictions: 53.640%
