# Загрузка Order book из CSV

In [1]:
import pandas as pd
from sqlalchemy import create_engine
import numpy as np
from sklearn import linear_model
from sklearn.linear_model import LogisticRegression
from sklearn.linear_model import LinearRegression
from sklearn import metrics
from sklearn.cross_validation import cross_val_score
from sklearn.cross_validation import cross_val_predict
import datetime as dt
import matplotlib.pyplot as plt
%matplotlib inline
from alex.database import Database
from pprint import pprint



### Скоростная загрузка с диска, из заархивированного CSV-файла

In [6]:
# результат выполнения запроса:
# select * from tvf_get_order_book_snapshots(2880) where exchange='binance' and pair='ETH/USDT' # запрос на 20 минут
order = pd.read_csv('tvf_get_order_book_snapshots 15.09.2018-01.10.2018.zip', index_col='dt')

In [3]:
# загрузка истории
# 15 секунд
db = Database()
sql_history = f"select * from v_history with (snapshot) where exchange='binance' and pair='ETH/USDT' and dt>'2018-09-23'"
df_history = db.query(sql_history)
df_history.set_index('dt', inplace=True)

### Немного статистики по загруженным датасетам

In [7]:
order.describe()

Unnamed: 0,exchange,pair,bid_ask,price,amount,volume
count,153400,153400,153400,153400,153400,153400
unique,1,1,2,1509,22817,29503
top,binance,ETH/USDT,ask,232,1,1006027
freq,153400,153400,76700,682,3122,500


In [None]:
len(order.index.sort_values().unique())

In [5]:
len(df_history)

1228706

### Получение Order Book в другом виде, напрямую из исторической таблицы dbo.order_book

Это не снимки, а только новые записи, добавляемые в order book в момент отрабатывания воркера. Поля ValidFrom и ValidTill показывают время жизни каждого ордера

In [23]:
# должно быть около 30 секунд
sql_orderbook = "SELECT *, ValidFrom, ValidTill FROM mem.order_book for system_time from '2018-09-29 23:23:00' to '2018-09-30 05:25:00' where id_ex_pair=19"
# id_ex_pair=19 - это Binance + ETH/USDT
df_orderbook = db.query(sql_orderbook)

In [24]:
df_orderbook['dt'] = pd.to_datetime(df_orderbook.dt)
df_orderbook['id'] = df_orderbook['id'].astype(int)
df_orderbook['ValidFrom'] = pd.to_datetime(df_orderbook.ValidFrom)
df_orderbook['ValidTill'] = pd.to_datetime(df_orderbook.ValidTill)
del df_orderbook['id_ex_pair']

In [25]:
df_orderbook.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 66107 entries, 0 to 66106
Data columns (total 7 columns):
id           66107 non-null int32
dt           66107 non-null datetime64[ns]
is_bid       66107 non-null bool
price        66107 non-null float64
amount       66107 non-null float64
ValidFrom    66107 non-null datetime64[ns]
ValidTill    66107 non-null datetime64[ns]
dtypes: bool(1), datetime64[ns](3), float64(2), int32(1)
memory usage: 2.8 MB


In [26]:
# dt - время загрузки, id - порядковый номер записи, обычный инкремент identity(1,1)
df_orderbook.sort_values(['dt','id'], inplace=True)
df_orderbook.set_index(['dt','id'], inplace=True)

##### Скрипт загружает Order Book 1 раз в 3 секунды. Интервалы более 3 секунд между соседними записями могут означать, что Order Book не менялся, либо по каким-то причинам увеличилось время срабатывания скрипта

In [28]:
df_orderbook.tail(100)

Unnamed: 0_level_0,Unnamed: 1_level_0,is_bid,price,amount,ValidFrom,ValidTill
dt,id,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2018-09-30 05:24:22,32840542,True,227.47,0.57339,2018-09-30 05:24:23,2018-09-30 05:25:00
2018-09-30 05:24:25,32840685,False,233.05,70.56138,2018-09-30 05:24:26,2018-09-30 05:24:41
2018-09-30 05:24:25,32840686,False,230.40,21.52500,2018-09-30 05:24:26,2018-09-30 05:24:30
2018-09-30 05:24:25,32840687,True,230.11,1.18714,2018-09-30 05:24:26,2018-09-30 05:24:30
2018-09-30 05:24:25,32840688,False,230.32,20.48352,2018-09-30 05:24:26,2018-09-30 05:24:32
2018-09-30 05:24:25,32840689,True,230.01,1.00000,2018-09-30 05:24:26,2018-09-30 05:24:30
2018-09-30 05:24:25,32840690,True,229.96,22.74600,2018-09-30 05:24:26,2018-09-30 05:24:38
2018-09-30 05:24:25,32840691,True,229.77,3.50000,2018-09-30 05:24:26,2018-09-30 05:25:44
2018-09-30 05:24:25,32840692,False,230.22,9.99254,2018-09-30 05:24:26,2018-09-30 05:24:32
2018-09-30 05:24:28,32840749,True,230.11,0.85834,2018-09-30 05:24:30,2018-09-30 05:24:41


In [69]:
df_orderbook.describe()

Unnamed: 0,id_ex_pair,price,amount
count,2317073.0,2317073.0,2317073.0
mean,19.0,225.4567,21.1677
std,0.0,10.35779,83.15237
min,19.0,201.68,1e-05
25%,19.0,216.58,0.963
50%,19.0,225.92,4.0
75%,19.0,233.05,17.04812
max,19.0,252.31,4091.701


In [70]:
# кол-во записей в Order Book
len(df_orderbook)

2317073

In [76]:
# количество уникальных дат - дат загрузок Order Book
len(df_orderbook.index.unique(0))

225776