https://python.ivan-shamaev.ru/python-data-wrangling-tutorial-for-cryptocurrency/

In [None]:
from functools import reduce
import pandas as pd

pd.options.display.float_format = '{:,.2f}'.format
pd.options.display.max_rows = 200
pd.options.display.max_columns = 100

df = pd.read_csv('BNC2_sample.csv',
                 names=['Code', 'Date', 'Open', 'High', 'Low', 
                        'Close', 'Volume', 'VWAP', 'TWAP'])

In [None]:
#Эквивалентность в гранулярности —  например, 10 строк данных. Но не 11-ю аггрегацией по среднему или сумме
#Эквивалентность в единицах — 10 строк с ценами в USD, не должно быть еще 10 строк в евро
#Для расчета returns путем смещения набора данных нужно отсортировать их по дате, не иметь пропущенных дат (!)

In [None]:
#Проверка уникальных значений в колонке
print( df.Code.unique() )

In [None]:
#Фильтр фрейма, оставить только строки с опредленным значением в одной из колонок
print( 'Before:', len(df) )
gwa_codes = [code for code in df.Code.unique() if 'GWA_' in code]
df = df[df.Code.isin(gwa_codes)]
print( 'After:', len(df) )

In [None]:
#повернем набор данных, оставив только один ценовой столбец VWAP (средневзвешенная цена).

In [None]:
# Pivot dataset
pivoted_df = df.pivot(index='Date', columns='Code', values='VWAP')
 
# Display examples from pivoted dataset
pivoted_df.tail()

In [None]:
#Чтобы легко рассчитать returns за предыдущие 7, 14, 21 и 28 дней, используем метод shift из Pandas
#функция сдвигает индекс dataframe на указанное количество периодов. 

In [None]:
print(pivoted_df.tail(3))
print(pivoted_df.tail(3).shift(1))

In [None]:
#для расчета доходности за 7 дней понадобится prices_today / prices_7_days_ago - 1.0, что означает:

In [None]:
#Calculate returns over 7 days prior
delta_7 = pivoted_df / pivoted_df.shift(7) - 1.0

#display examples
delta_7.tail()

In [None]:
# Calculate returns over each window and store them in dictionary
delta_dict = {}
for offset in [7, 14, 21, 28]:
    delta_dict['delta_{}'.format(offset)] = pivoted_df / pivoted_df.shift(offset) - 1.0
# Display result "delta_dict"
delta_dict

In [None]:
#Чтобы расплавить данные требуется:
#reset_index(), чтобы вызывать столбцы по имени;
#метод melt();
#Передайте столбец (столбцы), чтобы сохранить в аргумент id_vars=;
#Назовите растопленный столбец (melted column), используя аргумент value_name=.

In [None]:
# Melt delta_7 returns
melted_7 = delta_7.reset_index().melt(id_vars=['Date'], value_name='delta_7')
 
# Melted dataframe examples
melted_7.tail()

In [None]:
# Melt all the delta dataframes and store in list
melted_dfs = []
for key, delta_df in delta_dict.items():
    melted_dfs.append( delta_df.reset_index().melt(id_vars=['Date'], value_name=key) )
melted_dfs

In [None]:
#расплавленный фрейм данных, который содержит прогнозные 7-дневные возвраты будет «целевой переменной» для оценки
#Просто сдвинуть сводный набор данных на — 7, чтобы получить «будущие» цены

In [None]:
# Calculate 7-day returns after the date
return_df = pivoted_df.shift(-7) / pivoted_df - 1.0
 
# Melt the return dataset and append to list
melted_dfs.append( return_df.reset_index().melt(id_vars=['Date'], value_name='return_7') )

In [None]:
#Объединить расплавленные DataFrames в единую аналитическую базовую таблицу

In [None]:
# Merge two dataframes
pd.merge(melted_dfs[0], melted_dfs[1], on=['Date', 'Code']).tail()

In [None]:
#список feature_dfs содержит базовые элементы из исходного набора данных плюс расплавленные наборы данных

In [None]:
# Grab features from original dataset
base_df = df[['Date', 'Code', 'Volume', 'VWAP']]
 
# Create a list with all the feature dataframes
feature_dfs = [base_df] + melted_dfs

In [None]:
#Reduce применяет функцию двух аргументов кумулятивно к объектам в последовательности (например, список)
#reduce(lambda x,y: x+y, [1,2,3,4,5]) = ((((1+2)+3)+4)+5)

In [None]:
# Reduce-merge features into analytical base table
abt = reduce(lambda left,right: pd.merge(left, right, on=['Date', 'Code']), feature_dfs)
 
# Display examples from the ABT
abt.tail(10)

In [None]:
#если  хотим выбрать монету, которая имела наибольший импульс 1 сентября 2017, 
#просто выбираем строки для этой даты и смотрим на 7, 14, 21 и 28-дневный возврат:

In [None]:
# Data from Sept 1st, 2017
abt[abt.Date == '2017-09-01']

In [None]:
#выбрать криптовалюту (пару для торгов) с наибольшим импульсом (например, за предыдущие 28 дней)

In [None]:
max_momentum_id = abt[abt.Date == '2017-09-01'].delta_28.idxmax()
abt.loc[max_momentum_id, ['Code','return_7']]

In [None]:
# если хотим сохранить только первые дни каждого месяца: группирование с последующей агрегацией
#новая функцию ‘month’ из первых 7 символов строк Date.
#группируем наблюдения по «Коду» и «месяцу». 
#в каждой группе возьмите .first() и сбросьте индекс.

In [None]:
# Create 'month' feature
abt['month'] = abt.Date.apply(lambda x: x[:7])
 
# Group by 'Code' and 'month' and keep first date
gb_df = abt.groupby(['Code', 'month']).first().reset_index()
 
# Display examples
gb_df.tail()

In [None]:
#ИТОГ0

In [None]:
# 2. Import libraries and dataset
import pandas as pd
pd.options.display.float_format = '{:,.2f}'.format
pd.options.display.max_rows = 200
pd.options.display.max_columns = 100
 
df = pd.read_csv('BNC2_sample.csv',
                 names=['Code', 'Date', 'Open', 'High', 'Low', 
                        'Close', 'Volume', 'VWAP', 'TWAP'])
 
# 4. Filter unwanted observations
gwa_codes = [code for code in df.Code.unique() if 'GWA_' in code]
df = df[df.Code.isin(gwa_codes)]
 
# 5. Pivot the dataset
pivoted_df = df.pivot(index='Date', columns='Code', values='VWAP')
 
# 6. Shift the pivoted dataset
delta_dict = {}
for offset in [7, 14, 21, 28]:
    delta_dict['delta_{}'.format(offset)] = pivoted_df / pivoted_df.shift(offset) - 1
    
# 7. Melt the shifted dataset
melted_dfs = []
for key, delta_df in delta_dict.items():
    melted_dfs.append( delta_df.reset_index().melt(id_vars=['Date'], value_name=key) )
 
return_df = pivoted_df.shift(-7) / pivoted_df - 1.0
melted_dfs.append( return_df.reset_index().melt(id_vars=['Date'], value_name='return_7') )
 
# 8. Reduce-merge the melted data
from functools import reduce
 
base_df = df[['Date', 'Code', 'Volume', 'VWAP']]
feature_dfs = [base_df] + melted_dfs
 
abt = reduce(lambda left,right: pd.merge(left,right,on=['Date', 'Code']), feature_dfs)
 
# 9. Aggregate with group-by.
abt['month'] = abt.Date.apply(lambda x: x[:7])
gb_df = abt.groupby(['Code', 'month']).first().reset_index()