In [49]:
import os

import numpy as np
import pandas as pd

In [67]:
BACKTEST_CCY = 'USDRUB'
BACKTEST_DAYS = 5

PATH_TEXTS = 'data/telegram'
PATH_SPOT_PNL = 'data/moex'
PATH_OPT_PNL = 'data/pnl'

In [51]:
# Get all available data_sources
sources = os.listdir(PATH_TEXTS)
sources

['cbonds.csv',
 'themovchans.csv',
 'headlines_QUANTS.csv',
 'War_Wealth_Wisdom.csv',
 'mmi.csv',
 'vts.csv',
 'signal.csv',
 '.gitignore',
 'rshb_invest.csv',
 'Alfa_Wealth.csv',
 'sky_bond.csv',
 'bitkogan.csv']

In [52]:
# Generate dataframes
data_sources = []

for s in sources:
    if s != '.gitignore':
        source_data = pd.read_csv(f'{PATH_TEXTS}/{s}')
        data_sources.append((s.split('.')[0], source_data))

In [100]:
spot_pnl = pd.read_csv(f'{PATH_SPOT_PNL}/{BACKTEST_CCY}.csv')
spot_pnl.dropna(inplace=True)
spot_pnl['timestamp'] = pd.to_datetime(spot_pnl['timestamp']).dt.strftime('%Y-%m-%d')
spot_pnl.drop_duplicates(subset=['timestamp'], keep='first', inplace=True)
spot_pnl.reset_index(inplace=True, drop=True)
spot_pnl

Unnamed: 0,timestamp,Bid,Ask
0,2022-03-01,94.994073,96.879993
1,2022-03-02,95.803033,95.971040
2,2022-03-03,114.920925,114.999880
3,2022-03-04,105.000043,108.100490
4,2022-03-09,116.958480,117.096750
...,...,...,...
153,2022-10-18,61.484698,61.978255
154,2022-10-19,61.588507,62.014587
155,2022-10-20,61.600813,62.025917
156,2022-10-21,61.144888,61.667988


In [53]:
# Create target variable dataframe
pnl = pd.read_csv(f'{PATH_OPT_PNL}/Backtest_{BACKTEST_CCY}_{BACKTEST_DAYS}_days.txt')
pnl['date_start'] = pd.to_datetime(pnl['date_start']).dt.strftime('%Y-%m-%d')
pnl['pnl_sign'] = pnl['pnl'].apply(lambda x: 1 if x >= 0 else 0)
pnl

Unnamed: 0,date_start,pnl,pnl_sign
0,2021-01-04,291264.097914,1
1,2021-01-05,-411993.830320,0
2,2021-01-06,521491.686795,1
3,2021-01-08,62842.634116,1
4,2021-01-11,-537598.706217,0
...,...,...,...
245,2021-12-20,-407527.554561,0
246,2021-12-21,-176881.417077,0
247,2021-12-22,-206943.414418,0
248,2021-12-23,23073.596468,1


In [54]:
# Get balance of the sample
pnl['pnl_sign'].sum() / pnl.shape[0]

0.536

In [12]:
# df = df[(df['date'] >= '2022-03-01') & (df['date'] <= '2022-10-31')]

In [55]:
data_sources[0][1]

Unnamed: 0,id,date,text
0,9,2017-07-28T10:56:14,Cbonds.ru запустило канал в Telegram. Планиру...
1,10,2017-08-03T15:28:17,Облигационный бюллетень Cbonds – все данные о ...
2,11,2017-08-03T15:41:02,Cbonds prepared monthly report: CBONDS GLOBAL ...
3,12,2017-08-03T18:11:32,Дайджест Cbonds от 3 августа:«Группа Компаний...
4,13,2017-08-04T12:42:41,Совкомбанк открыл книгу заявок на вторичное ра...
...,...,...,...
11997,13124,2022-11-04T12:38:56,​​ #РейтингиСНГ 🗂 Присвоение / Изменение рейт...
11998,13125,2022-11-04T13:17:23,#CbondsNewsletter 🌎📰 В октябре объем новых вы...
11999,13126,2022-11-04T14:30:00,"​​ 🏢Онлайн-семинар «Ключевые факты, финансовые..."
12000,13128,2022-11-05T11:30:11,#Аналитика 🏆 Research Hub Cbonds: самое попу...


In [14]:
# df = pnl
# for source_name, source_dataframe in data_sources:
#     df[f'{source_name}'] = None
    
#     i = 0
#     texts = []
#     for _, row in source_dataframe.iterrows():
#         if i >= df.shape[0]:
#             break

#         if pd.to_datetime(row['date']).strftime('%Y-%m-%d') <= df['date_start'][i]:
#             texts.append(row['text'])
#         else:
#             df.at[i, source_name] = texts
#             texts = []
#             i += 1
#             continue

In [56]:
df = pnl
for source_name, source_dataframe in data_sources:
    df[f'{source_name}'] = ''
    
    i = 0
    texts = ''
    for _, row in source_dataframe.iterrows():
        if i >= df.shape[0]:
            break

        if pd.to_datetime(row['date']).strftime('%Y-%m-%d') <= df['date_start'][i]:
            texts += ' ' + row['text']
        else:
            df.at[i, source_name] = texts
            texts = ''
            i += 1
            continue

In [73]:
df = df.iloc[1:]
df

Unnamed: 0,date_start,pnl,pnl_sign,cbonds,themovchans,mmi,signal,rshb_invest,Alfa_Wealth,sky_bond,bitkogan
2,2021-01-06,521491.686795,1,"⚡️ Российские компании: основные события, 6 я...",,ВСЕМИРНЫЙ БАНК: \n• РИСКИ НЕГАТИВНОГО РАЗВИТ...,"$=73,72р. RTS +0,68% BRENT +0,71%📌 LIVE Карт...",,,,Нефть марки Brent. «Коммунисты России» жгут. ...
3,2021-01-08,62842.634116,1,🤔 Ключевая ставка ЦБ РФ останется на текущем...,,🟢 - Risk-on на рынках продолжается. Беспорядк...,Уже даже Бэтмен около Капитолия #Макро #Выб...,,,,Друзья!\nНаш хрупкий мир держится на целой си...
4,2021-01-11,-537598.706217,0,"⚡️ Российские компании: основные события, 11 ...",,ГЛОБАЛЬНЫЙ РОСТ СТАВОК В НАЧАЛА ГОДА ПОКА НЕ ...,#Вирус #Макро \n⚡️ КОЛИЧЕСТВО ЗАРЕГИСТРИРО...,🇺🇸 В моменте доходность по десятилетней треже...,,,Во время протестов задержана женщина молдав...
5,2021-01-12,-359059.057843,0,🏛Неквалифицированным инвесторам не будут прод...,,МАЛАЙЗИЯ ВВОДИТ ПОЛУГОДИЧНОЕ ЧРЕЗВЫЧАЙНОЕ ПОЛ...,"$=74,14р. RTS +0,90% BRENT +1,26%📌 LIVE Карт...",ГЛАВНОЕ В РОССИИ США обвинили Россию в попытк...,,,"Кстати, про рубль. \n \n Вопреки всем обещани..."
6,2021-01-13,181132.689784,1,🆙 Обзор российского рынка на 13 января: рубл...,,🟢 - рост цен на нефть усиливается на новостях...,#WTI #Статистика \n💥 Изменение запасов сыро...,ГЛАВНОЕ В РОССИИ Росстат подтвердил оценку ин...,,,Продолжая тему сворачивания программы покупки...
...,...,...,...,...,...,...,...,...,...,...,...
245,2021-12-20,-407527.554561,0,#Интересное 🌱 📈ESG: Банки-дебютанты ЕС и рос...,,ЭКОНОМИКА – ПОСТКРИЗИСНЫЕ ТРЕНДЫ Росстат на ...,🔦 Фокус недели #ФН Сегодня\n🙋‍♂️ Самолет ( ...,ГЛАВНОЕ В РОССИИ \n \n📈 Ключевая ставка увели...,,,4️⃣ Укрепление положения на рынке . Некоторы...
246,2021-12-21,-176881.417077,0,​​ 📝❓ Уже сегодня в 16:30 (мск): онлайн-семин...,,УРОВЕНЬ ЗАБОЛЕВАЕМОСТИ В МИРЕ ВНОВЬ РАСТЕТ За...,🔦 Фокус недели #ФН Сегодня\n🤷‍♂️22 декабря\...,"ГЛАВНОЕ В РОССИИ 📊 ""Ренессанс страхование"" ра...",,,"Micron помогает обыгрывать рынки Вчера, когда..."
247,2021-12-22,-206943.414418,0,#НовостиКомпаний ⚡️Российские компании: осно...,,РОСТ ПАНДЕМИИ В США УСИЛИВАЕТСЯ За последние ...,🔦 Фокус недели #ФН Сегодня\n💰 Детский мир (...,ГЛАВНОЕ В РОССИИ 📊 Reuters: в 2022 году «Атон...,,,China Mobile в Шанхае – второй после Rivian к...
248,2021-12-23,23073.596468,1,​​ 📝💡 Макроэкономические индикаторы по всем с...,,"• Рынок ОФЗ ведёт себя так, как будто увере...",🔦 Фокус недели #ФН Сегодня\n❗️ Ежегодная пр...,ГЛАВНОЕ В РОССИИ 📊 Инфляция в России с 14 по ...,,,Уже не такой страшный Омикрон напугал Сиань ....


In [74]:
df = df[~df.isin([''])].dropna(axis=1, how='all')

In [85]:
# df_final = df.drop(['cbonds', 'signal', 'rshb_invest', 'Alfa_Wealth', 'bitkogan'], axis=1)
df_final = df
df_final

Unnamed: 0,date_start,pnl,pnl_sign,cbonds,mmi,signal,rshb_invest,Alfa_Wealth,bitkogan
2,2021-01-06,521491.686795,1,"⚡️ Российские компании: основные события, 6 я...",ВСЕМИРНЫЙ БАНК: \n• РИСКИ НЕГАТИВНОГО РАЗВИТ...,"$=73,72р. RTS +0,68% BRENT +0,71%📌 LIVE Карт...",,,Нефть марки Brent. «Коммунисты России» жгут. ...
3,2021-01-08,62842.634116,1,🤔 Ключевая ставка ЦБ РФ останется на текущем...,🟢 - Risk-on на рынках продолжается. Беспорядк...,Уже даже Бэтмен около Капитолия #Макро #Выб...,,,Друзья!\nНаш хрупкий мир держится на целой си...
4,2021-01-11,-537598.706217,0,"⚡️ Российские компании: основные события, 11 ...",ГЛОБАЛЬНЫЙ РОСТ СТАВОК В НАЧАЛА ГОДА ПОКА НЕ ...,#Вирус #Макро \n⚡️ КОЛИЧЕСТВО ЗАРЕГИСТРИРО...,🇺🇸 В моменте доходность по десятилетней треже...,,Во время протестов задержана женщина молдав...
5,2021-01-12,-359059.057843,0,🏛Неквалифицированным инвесторам не будут прод...,МАЛАЙЗИЯ ВВОДИТ ПОЛУГОДИЧНОЕ ЧРЕЗВЫЧАЙНОЕ ПОЛ...,"$=74,14р. RTS +0,90% BRENT +1,26%📌 LIVE Карт...",ГЛАВНОЕ В РОССИИ США обвинили Россию в попытк...,,"Кстати, про рубль. \n \n Вопреки всем обещани..."
6,2021-01-13,181132.689784,1,🆙 Обзор российского рынка на 13 января: рубл...,🟢 - рост цен на нефть усиливается на новостях...,#WTI #Статистика \n💥 Изменение запасов сыро...,ГЛАВНОЕ В РОССИИ Росстат подтвердил оценку ин...,,Продолжая тему сворачивания программы покупки...
...,...,...,...,...,...,...,...,...,...
245,2021-12-20,-407527.554561,0,#Интересное 🌱 📈ESG: Банки-дебютанты ЕС и рос...,ЭКОНОМИКА – ПОСТКРИЗИСНЫЕ ТРЕНДЫ Росстат на ...,🔦 Фокус недели #ФН Сегодня\n🙋‍♂️ Самолет ( ...,ГЛАВНОЕ В РОССИИ \n \n📈 Ключевая ставка увели...,,4️⃣ Укрепление положения на рынке . Некоторы...
246,2021-12-21,-176881.417077,0,​​ 📝❓ Уже сегодня в 16:30 (мск): онлайн-семин...,УРОВЕНЬ ЗАБОЛЕВАЕМОСТИ В МИРЕ ВНОВЬ РАСТЕТ За...,🔦 Фокус недели #ФН Сегодня\n🤷‍♂️22 декабря\...,"ГЛАВНОЕ В РОССИИ 📊 ""Ренессанс страхование"" ра...",,"Micron помогает обыгрывать рынки Вчера, когда..."
247,2021-12-22,-206943.414418,0,#НовостиКомпаний ⚡️Российские компании: осно...,РОСТ ПАНДЕМИИ В США УСИЛИВАЕТСЯ За последние ...,🔦 Фокус недели #ФН Сегодня\n💰 Детский мир (...,ГЛАВНОЕ В РОССИИ 📊 Reuters: в 2022 году «Атон...,,China Mobile в Шанхае – второй после Rivian к...
248,2021-12-23,23073.596468,1,​​ 📝💡 Макроэкономические индикаторы по всем с...,"• Рынок ОФЗ ведёт себя так, как будто увере...",🔦 Фокус недели #ФН Сегодня\n❗️ Ежегодная пр...,ГЛАВНОЕ В РОССИИ 📊 Инфляция в России с 14 по ...,,Уже не такой страшный Омикрон напугал Сиань ....


In [86]:
X = df_final.drop(['date_start', 'pnl', 'pnl_sign'], axis=1)
y = df_final['pnl_sign']

In [87]:
from sklearn.model_selection import train_test_split

X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=121)

In [88]:
import nltk
nltk.download("stopwords")

from nltk.corpus import stopwords

russian_stopwords = stopwords.words("russian")

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/buchkovv/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [89]:
from scipy.sparse import coo_matrix, hstack
from sklearn.feature_extraction.text import TfidfVectorizer

X_train_transformed = []
X_val_transformed = []
for i in range(len(X_train.columns)):
    tf_idf = TfidfVectorizer(stop_words=russian_stopwords, ngram_range=(1,1))
    
    X_train_transformed.append(coo_matrix(tf_idf.fit_transform(X_train.iloc[:,i].astype(str))))
    X_val_transformed.append(coo_matrix(tf_idf.transform(X_val.iloc[:,i].astype(str))))

In [90]:
for x in X_train_transformed:
    print(x.shape)

(198, 22962)
(198, 21692)
(198, 25564)
(198, 12621)
(198, 2315)
(198, 47666)


In [91]:
X_train_transformed = hstack(X_train_transformed)
X_val_transformed = hstack(X_val_transformed)
X_train_transformed

<198x132820 sparse matrix of type '<class 'numpy.float64'>'
	with 697493 stored elements in COOrdinate format>

In [92]:
from sklearn.metrics import accuracy_score
from sklearn.linear_model import LogisticRegression

log_reg = LogisticRegression(multi_class='auto', solver='lbfgs', verbose=False)
log_reg.fit(X_train_transformed, y_train)

preds = log_reg.predict(X_val_transformed)
accuracy_score(preds, y_val)

0.66