<img src = "https://lh3.googleusercontent.com/u/0/drive-viewer/AKGpihan-Z3J8eNIfjKxs7kjn3-UP06mTZ5YMCjoId4lu1rtyGO4tQ2krk9w4pjgc2PnmAU2HeipCFNLa8plaHrzGswnc4Du5g=w3584-h1998">

# Оптимизация портфеля криптовалют за счет учета влияния новостного фона

## Курсовой проект

**Выполнили студенты:**
- 2 курс БПМИ227 Мирон Барателиа
- 2 курс БПМИ227 Александр Мищенко

## Оглавление

* **[1. Введение](#1)**


* **[2. Извлечение данных о криптовалютах](#2)**
    * [2.1. Описание](#2.1)    
    * [2.2. Функция для получения исторических данных](#2.2)
    * [2.3. Получение и сохранение данных](#2.3)
    * [2.4. Обработка данных](#2.4)
    
    
* **[3. Визуализируем полученные данные](#3)**
    * [3.1. Линейные графики временных рядов](#3.1)    
    * [3.2. Гистограммы распределения цен](#3.2)
    * [3.3. Корреляционная матрица](#3.3)
    

* **[4. Модель Марковица](#4)**     
    * [4.1. Описание](#4.1)
    * [4.2. Подготовка данных](#4.2)
    * [4.3. Функции для расчета портфельной доходности и волатильности](#4.3)
    * [4.4. Оптимизация](#4.4)  
    * [4.5. Вывод оптимальных весов](#4.5)  


* **[5. Модель Блэка-Литтермана](#5)**      
    * [5.1. Описание](#5.1)
    * [5.2. Оптимизация](#5.2)
    * [5.3. Вывод оптимальных весов](#5.3)


* **[6. Нейронные сети](#6)**      
    * [6.1. Описание](#6.1)
    * [6.2. Предобработка данных](#6.2)
    * [6.3. Создание модели](#6.3)
    * [6.4. Обучение и прогнозирование](#6.4)  
    * [6.5. Оптимизация портфеля](#6.5)
    * [6.6. Вывод оптимальных весов](#6.6)
    

* **[7. Обработка новостей](#7)**    
    * [7.1. Описание](#7.1)
    * [7.2. Функция для получения новостей о криптовалюте](#7.2)
    * [7.3. Получение новостей](#7.3)
    * [7.4. Анализ тональности новостей](#7.4)
    * [7.5. Визуализируем полученную информацию](#7.5)


* **[8. Метод Марковица + новостной фон](#8)**    
    * [8.1. Описание](#8.1)
    * [8.2. Функции для расчета портфельной доходности и волатильности с учетом новостей](#8.2)
    * [8.3. Оптимизация портфеля с учетом новостей](#8.3)
    * [8.4. Вывод оптимальных весов](#8.4)


* **[9. Обработка новостей за весь промежуток наблюдения](#9)**
    * [9.1. Описание](#9.1)
    * [9.2. Функция для получения новостей о криптовалюте](#9.2)
    * [9.3. Функция для построения DataFrame с влиянием новостей](#9.3)
    * [9.4. Получение новостей и анализ тональности новостей](#9.4)
    * [9.5. Визуализация полученной информации](#9.5)
    
    
* **[10. Нейросеть + новостной фон](#10)**
    * [10.1. Описание](#10.1)
    * [10.2. Подготовка данных](#10.2)
    * [10.3. Фнункия для построения портфеля при известных доходах](#10.3)
    * [10.4. Создание обучающих данных](#10.4)
    * [10.5. Создание модели](#10.5)
    * [10.6. Вывод оптимальных весов](#10.6)
    
   
* **[11. Итоговая модель](#11)**
    * [11.1. Описание](#11.1)
    * [11.2. Создание обучающих данных](#11.2)
    * [11.3. Создание модели](#11.3)
    * [11.4. Предсказание изменения курса](#11.4)
    * [11.5. Метод Марковица](#11.5)
    * [11.6. Вывод оптимальных весов](#11.6)

<a id='1'></a>
# 1. Введение

**Оптимизация портфеля** - это процесс выбора наилучшего сочетания активов для достижения определенных инвестиционных целей при заданном уровне риска. В контексте криптовалют это может включать в себя анализ исторических данных о ценах, волатильности и корреляции между различными криптовалютами.

Однако, криптовалюты особенно чувствительны к новостям. Новости могут оказывать значительное влияние на цены криптовалют, их волатильность и корреляцию. Поэтому, для эффективной оптимизации портфеля криптовалют, важно учитывать влияние новостного фона.

В этом проекте мы рассмотрим два подхода к оптимизации портфеля криптовалют с учетом новостного фона: метод Марковица и использование нейронных сетей. Мы также рассмотрим, как можно извлечь и обработать данные о криптовалютах и новостях, а также как визуализировать эти данные для лучшего понимания.

Цель этого проекта - исследовать и придумать различные стратегии оптимизации портфеля криптовалют, спосбные учитывать новостной фон.

**Запускать ячейки нужно последовательно!** \
Некоторые функции и рассчеты определены в других разделах и не дублируются для более удобной подачи материала.

<a id='2'></a>
# 2. Извлечение данных о криптовалютах


<a id='2.1'></a>
## 2.1. Описание

Код использует **API CoinGecko** для получения исторических данных о криптовалютах.

1. **Надежность и точность:** CoinGecko - это один из самых надежных источников данных о криптовалютах, предоставляющий точную информацию о ценах, объемах торгов и других важных метриках.
2. **Широкий спектр данных:** CoinGecko предоставляет данные по большому количеству криптовалют, что позволяет анализировать различные активы и строить диверсифицированный портфель.
3. **Бесплатное использование:** API CoinGecko бесплатен и не требует аутентификации, что упрощает его использование.

Код предусматривает возможность сбоев при получении данных, поэтому он выполняет несколько попыток запроса данных для каждой криптовалюты. Если данные успешно получены, они сохраняются в датафрейме df.

После получения всех данных, они сохраняются в датафрейме df для дальнейшего анализа. \
Если в датафрейме отсутствует столбец ‘tether’, он создается и заполняется единицами, так как Tether (USDT) - это стабильная монета, цена которой всегда приближенно равна 1$.


In [None]:
# Импорт необходимых библиотек
import requests
import pandas as pd
import time
from termcolor import colored


<a id='2.2'></a>
## 2.2. Функция для получения исторических данных


In [None]:
def get_historical_data(crypto, days):
    url = f'https://api.coingecko.com/api/v3/coins/{crypto}/market_chart?vs_currency=usd&days={days}'
    try:
        response = requests.get(url)
        data = response.json()
        prices = data['prices']
        # Округляем время до ближайшего часа
        rounded_timestamps = [round(timestamp / 3600000) * 3600000 for timestamp, _ in prices]
        print(colored('Данные успешно получены', 'green'))
        return pd.DataFrame({'timestamp': rounded_timestamps, crypto: [price for _, price in prices]})
    except Exception as e:
        print(colored('Не удалось получить данные', 'red'))
    return None


<a id='2.3'></a>
## 2.3. Получение и сохранение данных

Нужно заметить, что не все запросы успешно приходят. В связи с этим производится несколько попыток с небольшим интервалов, до тех пор пока информация о всех криптовалютах не будет получена, либо лимит попыток не будет исчерпан.

In [None]:
# Список криптовалют
crypto_list = ['bitcoin', 'ethereum', 'ripple', 'solana', 'cardano', 'dogecoin', 'polkadot', 'binancecoin', 'tether']

# Создаем пустой датафрейм для сохранения данных
df = pd.DataFrame()

# Получение данных для каждой криптовалюты в списке
for i in range(30):  # Попытки запроса
    for crypto in crypto_list:
        if crypto not in df.columns:
            print(f'Попытка {i+1}, Криптовалюта: {crypto}')
            historical_data = get_historical_data(crypto, 90)  # Получение данных за последние n дней
            if historical_data is not None:
                if df.empty:
                    df = historical_data
                else:
                    # Объединяем данные по времени
                    df = pd.merge(df, historical_data, on='timestamp', how='outer')

    if (len(crypto_list) == len(df.columns) - 1):
        break
    time.sleep(5)  # Задержка перед следующей попыткой


<a id='2.4'></a>
## 2.4. Обработка данных


In [None]:
# Преобразование столбца 'timestamp' в формат datetime
df.loc[:, 'timestamp'] = pd.to_datetime(df['timestamp'], unit='ms')

#Объединяем случайные повторения, если они имеются
df = df.groupby('timestamp').median().reset_index()

#Сохраним список криптовалют, котрые мы смогли скачать
crypto_names = df.columns[1:]

# Проверка наличия столбца 'tether' в датафрейме
if 'tether' not in df.columns:
    df['tether'] = 1


Теперь у нас есть датафрейм с историческими данными о криптовалютах из списка.


In [None]:
df

<a id='3'></a>
# 3. Визуализируем полученные данные

<a id='3.1'></a>
## 3.1. Линейные графики временных рядов
Эти графики показывают, как цена каждой криптовалюты менялась со временем.

In [None]:
import plotly.graph_objects as go

fig = go.Figure()
df_temp = df.copy()

for crypto in df.columns[1:]:
    if crypto != 'timestamp':
        # Смотрим, как изменилась бы цена, при покупку 1$ месяц назад
        if df_temp[crypto].dropna().shape[0] > 0:  # Проверяем, есть ли в столбце какие-либо ненулевые значения
            df_temp.loc[:, crypto] = df_temp[crypto] / df_temp[crypto].dropna().iloc[0]
        # Удаление строк с отсутствующими данными
        df_temp.dropna(subset=[crypto], inplace=True)
        fig.add_trace(go.Scatter(x=df_temp['timestamp'], y=df_temp[crypto], mode='lines', name=crypto))

fig.update_layout(
    title='Изменение курса криптовалют',
    xaxis_title='Дата',
    yaxis_title='Цена',
    plot_bgcolor='rgb(10,10,10)',
    paper_bgcolor='rgb(10,10,10)',
    font=dict(color='rgb(255,255,255)'),
    hovermode='x',
    autosize=True,
    margin=dict(l=30, r=30, b=20, t=40),
    legend=dict(font=dict(size=10), yanchor='middle', xanchor='right'),
)

fig.show()


<a id='3.2'></a>
## 3.2. Гистограммы распределения цен
Эти графики показывают, как часто встречаются различные цены для каждой криптовалюты.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

# Количество криптовалют
num_assets = len(df.columns[1:])

# Количество строк и столбцов для субплотов
num_rows = int(np.ceil(num_assets / 3))
num_cols = min(num_assets, 3)

In [None]:
# Создание фигуры и осей
fig, axs = plt.subplots(num_rows, num_cols, figsize=(15, num_rows*3.5))

# Построение гистограмм для каждой криптовалюты
for i, column in enumerate(df.columns[1:]):
    if num_rows == 1:
        if num_cols == 1:
            ax = axs
        else:
            ax = axs[i % num_cols]
    else:
        ax = axs[i // num_cols, i % num_cols]
    sns.histplot(df[column], bins=30, kde=True, ax=ax)
    ax.set_title(f'Distribution of prices for {column}')
    ax.set_xlabel('Price')
    ax.set_ylabel('Frequency')

# Удаление пустых субплотов
if num_assets % num_cols != 0:
    for ax in axs.flatten()[num_assets:]:
        fig.delaxes(ax)

plt.tight_layout()
plt.show()


<a id='3.3'></a>
## 3.3. Корреляционная матрица
Этот график показывает, как связаны цены различных криптовалют.

In [None]:
# Расчет корреляционной матрицы
corr_matrix = df[df.columns[1:]].corr()

# Построение тепловой карты корреляционной матрицы
plt.figure(figsize=(14,7))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')
plt.title('Correlation matrix of cryptocurrency prices')
plt.show()

<a id='4'></a>
# 4. Модель Марковица

<a id='4.1'></a>
## 4.1. Описание

**Модель Марковица** - это теория портфеля, которая позволяет определить оптимальный портфель, минимизируя риск при заданном уровне ожидаемой доходности. Она основана на двух основных параметрах: средней доходности и стандартном отклонении (или волатильности) доходности.

Программа реализует метод оптимизации портфеля, известный как **минимизация волатильности**. Этот подход используется для определения весов криптовалют в портфеле, которые минимизируют общую волатильность портфеля при заданных ожидаемых доходностях.

Волатильность портфеля рассчитывается по формуле:

$$\sigma_p = \sqrt{w^T \Sigma w}$$

- $\sigma_p$ - волатильность портфеля,
- $w$ - вектор весов портфеля,
- $\Sigma$ - матрица ковариации доходностей.

Ожидаемая доходность портфеля рассчитывается по формуле:

$$\mu_p = w^T \mu$$

- $\mu_p$ - ожидаемая доходность портфеля,
- $\mu$ - вектор средних доходностей.

**Цель оптимизации** - найти такой вектор весов $w$, который минимизирует $\sigma_p$ при заданном $\mu_p$. Это достигается с помощью метода оптимизации SLSQP из библиотеки scipy.optimize.

Важно отметить, что в данном случае мы не учитываем ожидаемую доходность портфеля, а стремимся минимизировать только волатильность. Это полезно в случаях, когда инвестор предпочитает стабильность и хочет избежать риска больших колебаний цен.

In [None]:
import numpy as np
from tqdm import tqdm
from scipy.optimize import minimize


<a id='4.2'></a>
## 4.2. Подготовка данных
Мы удаляем столбец 'timestamp' из нашего датафрейма и рассчитываем ожидаемую доходность и ковариацию.


In [None]:
df_cripto = df.drop(columns=['timestamp'])

# Рассчитываем ожидаемую доходность и ковариацию
returns = df_cripto.pct_change()
mean_returns = returns.mean()
cov_matrix = returns.cov()



<a id='4.3'></a>
## 4.3. Функции для расчета портфельной доходности и волатильности
Мы определяем две функции: одну для расчета портфельной доходности и волатильности, и другую для минимизации волатильности.


In [None]:
def portfolio_performance(weights, mean_returns, cov_matrix):
    returns = np.sum(mean_returns*weights)*252
    std = np.sqrt(np.dot(weights.T, np.dot(cov_matrix, weights)))*np.sqrt(252)
    return std, returns

def maximize_returns(weights, mean_returns, cov_matrix):
    return -portfolio_performance(weights, mean_returns, cov_matrix)[1]



<a id='4.4'></a>
## 4.4. Оптимизация
Мы запускаем процесс оптимизации 1000 раз с различными случайными начальными весами.


In [None]:
# Максимальный уровень риска
max_risk = 0.2

# Количество запусков оптимизации
num_runs = 1000
best_return = -np.inf
best_weights = None

for _ in tqdm(range(num_runs)):
    # Случайные начальные веса
    weights = np.random.random(len(mean_returns))
    weights /= np.sum(weights)

    # Оптимизация
    result = minimize(maximize_returns, weights, args=(mean_returns, cov_matrix), method='SLSQP', bounds=[(0.0, 1.0) for asset in range(num_assets)], constraints=[{'type': 'eq', 'fun': lambda x: np.sum(x) - 1}, {'type': 'ineq', 'fun': lambda x: max_risk - portfolio_performance(x, mean_returns, cov_matrix)[0]}])

    # Если текущий результат лучше предыдущего лучшего, обновляем лучший результат
    if -result.fun > best_return:
        best_return = -result.fun
        best_weights = result.x



<a id='4.5'></a>
## 4.5. Вывод оптимальных весов


In [None]:
best_weights_rounded = np.round(best_weights, 4)

display(pd.DataFrame({'Crypto': crypto_names, 'Weight': best_weights_rounded}))


<a id='5'></a>
# 5. Модель Блэка-Литтермана

<a id='5.1'></a>
## 5.1. Описание

**Модель Блэка-Литтермана** - это модификация модели Марковица, которая позволяет инвесторам внести свои собственные прогнозы относительно ожидаемой доходности активов. Это достигается путем введения параметра “доверия” к собственным прогнозам и последующего объединения этих прогнозов с историческими данными.

Важным отличием модели Блэка-Литтермана от модели Марковица является то, что она позволяет инвесторам **учитывать свои собственные прогнозы доходности**, а не полагаться только на исторические данные.

**Цель оптимизации** - такая же, как и в модели Марковица: найти такой вектор весов $w$, который минимизирует $\sigma_p$ при заданном $\mu_{BL}$.

<a id='5.2'></a>
## 5.2. Оптимизация

Функция для расчета портфельной доходности и волатильности, а так же функция для максимизации ожидаемой доходности остаются без изменений

In [None]:
# Прогнозы ожидаемой доходности от инвестора
my_expected_returns = np.random.normal(loc=0.05, scale=0.1, size=len(crypto_names))

# Определите максимальный уровень риска, который вы готовы принять
max_risk = 0.2

num_runs = 1000
best_return = -np.inf
best_weights = None

for _ in tqdm(range(num_runs)):
    # Случайные начальные веса
    weights = np.random.random(len(my_expected_returns))
    weights /= np.sum(weights)

    # Оптимизация
    result = minimize(maximize_returns, weights, args=(my_expected_returns, cov_matrix), method='SLSQP', bounds=[(0.0, 1.0) for asset in range(num_assets)], constraints=[{'type': 'eq', 'fun': lambda x: np.sum(x) - 1}, {'type': 'ineq', 'fun': lambda x: max_risk - portfolio_performance(x, my_expected_returns, cov_matrix)[0]}])

    # Если текущий результат лучше предыдущего лучшего, обновляем лучший результат
    if -result.fun > best_return:
        best_return = -result.fun
        best_weights = result.x


<a id='5.3'></a>
## 5.3. Вывод оптимальных весов


In [None]:
best_weights_rounded = np.round(best_weights, 4)

display(pd.DataFrame({'Crypto': crypto_names, 'Weight': best_weights_rounded}))


В дальнейшем мы будем использовать Модель Марковица, но при необходимости ее легко преобразовать в модель Блэка-Литтермана, просто заменив прогноз, вычисляемый программной, на прогноз инвестора.

<a id='6'></a>
# 6. Нейронные сети

<a id='5.1'></a>
## 6.1. Описание

Программа реализует стратегию оптимизации портфеля с использованием нейронной сети для прогнозирования доходности криптовалют.

Нейронная сеть обучается на исторических данных о доходности криптовалют с целью прогнозирования будущих значений. Затем эти прогнозы используются для определения оптимальных весов портфеля, которые максимизируют ожидаемую доходность.

Оптимизация портфеля осуществляется путем минимизации функции optimize_portfolio, которая возвращает отрицательное значение прогнозируемой доходности портфеля. Это эквивалентно максимизации прогнозируемой доходности.

Оптимизация выполняется с использованием метода SLSQP из библиотеки scipy.optimize. Веса портфеля ограничены так, что они не могут быть меньше 0 или больше 1 и их сумма должна быть равна 1. Это соответствует реальной ситуации, поскольку у инвестора есть ограниченный бюджет, который он может распределить между различными активами.

В результате оптимизации получаются веса, которые максимизируют прогнозируемую доходность портфеля при заданных ограничениях. Эти веса можно использовать для распределения инвестиций между криптовалютами.

In [None]:
import pandas as pd
import numpy as np
from keras.models import Sequential
from keras.layers import Dense, Dropout
from scipy.optimize import minimize
from tqdm.keras import TqdmCallback
import random
import tensorflow as tf

<a id='6.2'></a>
## 6.2. Предобработка данных
Мы заполняем пропущенные значения и рассчитываем процентное изменение.


In [None]:
# Установка seed для повторяемости результатов
np.random.seed(0)
random.seed(0)
tf.random.set_seed(0)


In [None]:
df_cripto = df.drop(columns=['timestamp'])
df_cripto.fillna(method ='pad', inplace = True)
df_cripto = df_cripto.pct_change()
df_cripto.dropna(how='any', inplace=True)


<a id='6.3'></a>
## 6.3. Создание модели

Создаем модель с тремя слоями и компилируем ее.


In [None]:
model = Sequential()
model.add(Dense(150, input_dim=df_cripto.shape[1], activation='relu'))
model.add(Dropout(0.2))
model.add(Dense(50, activation='relu'))
model.add(Dropout(0.2))
model.add(Dense(df_cripto.shape[1], activation='linear'))
model.compile(loss='mean_squared_error', optimizer='adam')

<a id='6.4'></a>
## 6.4. Обучение и прогнозирование


In [None]:
model.fit(df_cripto.values, df_cripto.values, epochs=150, verbose=0, callbacks=[TqdmCallback(verbose=1)])

predictions = model.predict(df_cripto.values)


<a id='6.5'></a>
## 6.5. Оптимизация портфеля
Мы оптимизируем веса в нашем портфеле, используя прогнозы нашей модели.


In [None]:
def optimize_portfolio(weights):
    return -np.dot(weights, predictions[-1])

constraints = ({'type': 'eq', 'fun': lambda x: np.sum(x) - 1})
bounds = tuple((0,1) for x in range(df_cripto.shape[1]))
init_weights = [1./df_cripto.shape[1]]*df_cripto.shape[1]
optimized = minimize(optimize_portfolio, init_weights, method='SLSQP', bounds=bounds, constraints=constraints)


<a id='6.6'></a>
## 6.6. Вывод оптимальных весов


In [None]:
best_weights_rounded = np.round(optimized.x, 4)

display(pd.DataFrame({'Crypto': crypto_names, 'Weight': best_weights_rounded}))


<a id='7'></a>
# 7. Обработка недавних новостей


<a id='7.1'></a>
## 7.1. Описание

Используем API NewsAPI, которое предоставляет новости о криптовалютах. Новости сортируются по дате публикации. Запросы отправляются для каждой криптовалюты из списка.

Для анализа тональность текста используется инструмент SentimentIntensityAnalyzer из библиотеки NLTK, который  возвращает “составной” показатель, который отражает общую эмоциональную окраску текста. Этот показатель рассчитывается для каждой статьи в списке новостей для каждой криптовалюты.

К средней доходности каждой криптовалюты добавляется соответствующий показатель тональности. Это предполагает, что эмоциональная окраска новостей может влиять на доходность криптовалюты.

Выбор именно такого подхода обусловлен тем, что новости могут оказывать значительное влияние на курс криптовалют. Анализ тональности новостей позволяет учесть этот фактор при расчете ожидаемой доходности.

In [None]:
import requests
from bs4 import BeautifulSoup
from datetime import datetime, timedelta
from nltk.sentiment.vader import SentimentIntensityAnalyzer


<a id='7.2'></a>
## 7.2. Функция для получения новостей о криптовалюте


In [None]:
def get_crypto_news(crypto_list, api_key):
    news = {crypto: [] for crypto in crypto_list}
    for crypto in tqdm(crypto_list):
        url = 'https://newsapi.org/v2/everything'
        from_date = (datetime.now() - timedelta(days=2)).isoformat()
        params = {
            'q': f'{crypto}',
            'language': 'en',
            'sortBy': 'publishedAt',
            'from': from_date,
            'apiKey': api_key
        }
        response = requests.get(url, params=params)
        data = response.json()
        if 'articles' in data:
            for article in data['articles']:
                news[crypto].append(article['title'])
#                 print(article['title'])
#                 print(article['url'])
#                 print()
    return news


<a id='7.3'></a>
## 7.3. Получение новостей
Мы получаем новости для каждой криптовалюты в нашем списке.


In [None]:
api_key = '77bfef74c3e34e9c82554a03aaefa63f'
crypto_list = df.columns[1:]
news = get_crypto_news(crypto_list, api_key)


<a id='7.4'></a>
## 7.4. Анализ тональности новостей

Мы используем SentimentIntensityAnalyzer из библиотеки nltk для анализа тональности каждой новости.


In [None]:
import nltk
nltk.download('vader_lexicon')

In [None]:
sia = SentimentIntensityAnalyzer()
sentiments = {coin: np.mean([sia.polarity_scores(article)['compound'] for article in news[coin]]) if news[coin] else 0 for coin in news}


<a id='7.5'></a>
## 7.5. Визуализируем полученную информацию

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Устанавливаем стиль и цветовую палитру
sns.set_style("darkgrid")
color_palette = sns.color_palette("coolwarm", 3)

# Создаем словарь цветов для различных тональностей
colors = {coin: color_palette[0] if sentiments[coin] < 0 else color_palette[1] if sentiments[coin] == 0 else color_palette[2] for coin in sentiments}

# Создаем список криптовалют
coins = list(sentiments.keys())

# Создаем список тональностей
sentiment_values = list(sentiments.values())

# Создаем график
plt.figure(figsize=(12,6))
bars = plt.bar(coins, sentiment_values, color=[colors[coin] for coin in coins])

# Добавляем значения над столбцами
for bar in bars:
    yval = bar.get_height()
    plt.text(bar.get_x() + bar.get_width()/2, yval + 0.01, round(yval, 2), ha='center', va='bottom')

plt.xlabel('Криптовалюта', fontsize=14)
plt.ylabel('Тональность', fontsize=14)
plt.title('Влияние новостей на криптовалюты', fontsize=16)
plt.xticks(rotation=45)
plt.show()


<a id='8'></a>
# 8. Метод Марковица + новостной фон

<a id='8.1'></a>
## 8.1. Описание

Улучшим модель Марковица, добавляя новостной фон (сентименты) в расчеты. Это делается путем добавления сентиментов к средним доходностям в функции portfolio_performance. Сентименты могут быть положительными или отрицательными и отражают общее настроение новостей относительно конкретного актива.

1. Расчет доходности портфеля:

$$\text{returns} = 252 \times \sum_{i=1}^{n} w_i \times (r_i + s_i)$$

- $w_i$ - вес i-го актива в портфеле,
- $r_i$ - средняя доходность i-го актива,
- $s_i$ - сентимент i-го актива,
- $n$ - количество активов в портфеле.

2. Расчет стандартного отклонения портфеля:

$$\text{std} = \sqrt{252} \times \sqrt{w^T \cdot C \cdot w}$$

- $w$ - вектор весов активов в портфеле,
- $C$ - матрица ковариации доходностей активов.

3. Минимизация волатильности:

Цель состоит в том, чтобы минимизировать $\text{std}$, подобрав оптимальные веса $w$.

Число 252 используется для преобразования дневных доходностей в годовые. Это стандартная практика в финансовом моделировании, основанная на том, что в среднем в году около 252 торговых дней. Перевод дневной волатильности и доходности в годовые облегчает сравнение и анализ.

<a id='8.2'></a>
## 8.2. Функции для расчета портфельной доходности и волатильности с учетом новостей


In [None]:
def portfolio_performance(weights, mean_returns, cov_matrix, sentiments):
    returns = np.dot([mean_returns.get(key, 0) + sentiments.get(key, 0) / 1000 for key in crypto_names], weights) * 252
    std = np.sqrt(np.dot(weights.T, np.dot(cov_matrix, weights))) * np.sqrt(252)
    return std, returns

def maximize_returns(weights, mean_returns, cov_matrix, sentiments):
    return -portfolio_performance(weights, mean_returns, cov_matrix, sentiments)[1]


<a id='8.3'></a>
## 8.3. Оптимизация портфеля с учетом новостей

Оптимизируем веса в нашем портфеле, используя прогнозы нашей модели и тональность новостей.


In [None]:
# Определите максимальный уровень риска, который вы готовы принять
max_risk = 0.2

# Количество запусков оптимизации
num_runs = 1000
best_return = -np.inf
best_weights = None

for _ in range(num_runs):
    # Случайные начальные веса
    weights = np.random.random(len(mean_returns))
    weights /= np.sum(weights)

    # Оптимизация
    result = minimize(maximize_returns, weights, args=(mean_returns, cov_matrix, sentiments), method='SLSQP', bounds=[(0.0, 1.0) for asset in range(num_assets)], constraints=[{'type': 'eq', 'fun': lambda x: np.sum(x) - 1}, {'type': 'ineq', 'fun': lambda x: max_risk - portfolio_performance(x, mean_returns, cov_matrix, sentiments)[0]}])

    # Если текущий результат лучше предыдущего лучшего, обновляем лучший результат
    if -result.fun > best_return:
        best_return = -result.fun
        best_weights = result.x

<a id='8.4'></a>
## 8.4. Вывод оптимальных весов


In [None]:
best_weights_rounded = np.round(best_weights, 4)

display(pd.DataFrame({'Crypto': crypto_names, 'Weight': best_weights_rounded}))


<a id='9'></a>
# 9. Обработка новостей за весь промежуток наблюдения

<a id='9.1'></a>
## 9.1. Описание

Очевидно, что для понимания того, как новости влиют на курс криптовалют определение тональностей криптовалют за последнее время не самое оптимальное решение. Поэтому пришла идея получить историю новостей, понять каким был новостной фон в разное время и обучить на этих данных нейронную есть. \
Для начала получим DataFrame влияния новостей на криптовалюты.

In [None]:
import feedparser
from nltk.sentiment.vader import SentimentIntensityAnalyzer

<a id='9.2'></a>
## 9.2. Функция для получения новостей о криптовалюте

Нам придется переписать функцию get_crypto_news, поскольку источник NewsAPI не поредоставляет информацию о старых новостях. Так как мы ограничены бесплатными ресурсами, теперь будем брать новости из Google search.

In [None]:
def get_crypto_news(crypto_list):
    news = {crypto: [] for crypto in crypto_list}
    for crypto in tqdm(crypto_list):
        url = f'https://news.google.com/rss/search?q={crypto}&hl=en-US&gl=US&ceid=US:en'
        feed = feedparser.parse(url)
        for entry in feed.entries:
            news[crypto].append({
                'title': entry.title,
                'published': entry.published
            })
    return news


<a id='9.3'></a>
## 9.3. Функция для построения DataFrame с влиянием новостей

Функция calculate_news_impact будет расчитывать влияния новостей на криптовалюты. Она принимает DataFrame с данными о криптовалютах и словарь новостей, полученных функцией get_crypto_news. Функция возвращает DataFrame, который содержит влияние каждой новости на соответствующую криптовалюту. Влияние новости рассчитывается как взвешенное значение сентимента новости, где вес обратно пропорционален времени, прошедшему с момента публикации новости.

In [None]:
def calculate_news_impact(df, news):
    sia = SentimentIntensityAnalyzer()
    news_impact = df.copy()
    for crypto in tqdm(df.columns[1:]):
        news_impact[crypto] = 0
        for article in news[crypto]:
            publish_date = datetime.strptime(article['published'], '%a, %d %b %Y %H:%M:%S %Z')
            sentiment = sia.polarity_scores(article['title'])
            index = news_impact.shape[0] - 1
            hours_since_published = (news_impact.timestamp[index] - publish_date).total_seconds() / 3600

            while (hours_since_published >= 0 and index >= 0):
                weight = 24 / (hours_since_published + 24)
                news_impact.loc[index, crypto] += sentiment['compound'] * weight
                hours_since_published -= 1
                index -= 1

    return news_impact


<a id='9.4'></a>
## 9.4. Получение новостей и анализ тональности новостей

**Нужно включить VPN**, поскольку Google search заблокирован на территории РФ.

In [None]:
print('Получение данных')
news = get_crypto_news(df.columns[1:])
print('Обработка данных')
news_impact = calculate_news_impact(df, news)


<a id='9.5'></a>
## 9.5. Визуализация полученной информации

In [None]:
import plotly.graph_objects as go

fig = go.Figure()
df_temp = news_impact.copy()

for crypto in df.columns[1:]:
    if crypto != 'timestamp':
        # Удаление строк с отсутствующими данными
        df_temp.dropna(subset=[crypto], inplace=True)
        fig.add_trace(go.Scatter(x=df_temp['timestamp'], y=df_temp[crypto], mode='lines', name=crypto))

fig.update_layout(
    title='Влияние новостного фона на криптовалюты',
    xaxis_title='Дата',
    yaxis_title='Влияние новостей',
    plot_bgcolor='rgb(10,10,10)',
    paper_bgcolor='rgb(10,10,10)',
    font=dict(color='rgb(255,255,255)'),
    hovermode='x',
    autosize=True,
    margin=dict(l=30, r=30, b=20, t=40),
    legend=dict(font=dict(size=10), yanchor='middle', xanchor='right'),
)


fig.show()


<a id='10'></a>
# 10. Нейросеть + новостной фон

<a id='10.1'></a>
## 10.1. Описание

Теперь у нас есть DataFrame влияния новостей на криптовалюты. используем эти данные для обучения модели. Так же немного модифицируем саму модель. Вместо курса цен криптовалют возьмем процентное изменение цен. В качестве X_train будем подавать окана данных за последние 24 часа для получения оптимального портфеля на следующий час.

Единственное не совсем понятной функцией является функция для построения портфеля при известных доходах. Поскольку не совсем понятно какой портфель не просто принес бы хорошую прибыль, но и снизил риски. Не знаю, на сколько функция приведенная ниже оптимальна, но она точно неплохая.

Так же можно вместо предсказания оптимального портфеля предсказывать на сколько изменится курс каждой криптовалюты, а затем брать с максимальной прибытью. Нейронная сеть, выполняющая такие предсказания реализована в финальной модели.

<a id='10.2'></a>
## 10.2. Подготовка данных

Объединяем данные о курсе криптовалют и новостном фоне в один датафрейм. \
Вместо цен криптовалют будем использовать их процентное изменение.

In [None]:
# Переименовываем столбцы в news_impact, добавляя суффикс '_news'
news_impact.columns = [col + '_news' if col != 'timestamp' else col for col in news_impact.columns]

In [None]:
# Объединяем df и news_impact по timestamp
df_big = pd.merge(df, news_impact, on='timestamp', how='outer')

In [None]:
# Удаление столбца timestamp
df_big.drop('timestamp', axis=1, inplace=True)

# Заполнение пропущенных значений средними значениями соседних значений
df_big[crypto_names] = df_big[crypto_names].interpolate(method='linear', limit_direction='forward')

# Вычисление процентного изменения
df_big = df_big.pct_change()

# Удаление первой строки, которая теперь содержит NaN из-за pct_change()
df_big = df_big.iloc[1:]

# Замена inf значений на максимальное значение в данных
max_val = df_big[~np.isinf(df_big)].max().max()
df_big = df_big.replace([np.inf, -np.inf], max_val)

#Заменяем значения NaN на 0, которые могли отсться в столбцах с новостным фоном
df_big = df_big.fillna(0)


In [None]:
df_big

<a id='10.3'></a>
## 10.3. Фнункия для построения портфеля при известных доходах

Используем модель Марковица для нахождения оптимального портфеля

In [None]:
def portfolio_performance(weights, mean_returns, cov_matrix):
    returns = np.sum(mean_returns*weights)*252
    std = np.sqrt(np.dot(weights.T, np.dot(cov_matrix, weights)))*np.sqrt(252)
    return std, returns

def maximize_returns(weights, mean_returns, cov_matrix):
    return -portfolio_performance(weights, mean_returns, cov_matrix)[1]


In [None]:
def get_investment_weights(future_returns):

    # Определите максимальный уровень риска, который вы готовы принять
    max_risk = 0.2

    num_runs = 3
    best_return = -np.inf
    best_weights = None

    for _ in range(num_runs):
        # Случайные начальные веса
        weights = np.random.random(len(future_returns))
        weights /= np.sum(weights)

        # Оптимизация
        result = minimize(maximize_returns, weights, args=(future_returns, cov_matrix), method='SLSQP', bounds=[(0.0, 1.0) for asset in range(len(weights))], constraints=[{'type': 'eq', 'fun': lambda x: np.sum(x) - 1}, {'type': 'ineq', 'fun': lambda x: max_risk - portfolio_performance(x, future_returns, cov_matrix)[0]}])

        # Если текущий результат лучше предыдущего лучшего, обновляем лучший результат
        if -result.fun > best_return:
            best_return = -result.fun
            best_weights = result.x

    return best_weights

Можно просто смотреть какая из криптовалют увеличется больше всего и брать только ее. \
Так быстрее, но возможно у такого портфеля слишком большой риск.

In [None]:
# def get_investment_weights(future_returns):

#     investment_weights = future_returns.copy()
#     max_val = investment_weights.max().max()
#     investment_weights[investment_weights != max_val] = 0
#     investment_weights[investment_weights == max_val] = 1

#     # Если у нас несколько максимальных значений
#     investment_weights = investment_weights / investment_weights.sum().sum()
#     return investment_weights

<a id='10.4'></a>
## 10.4. Создание обучающих данных

Для каждого временного окна (размером window_size) используются прошлые данные (X_train) для предсказания весов инвестиций (y_train) на следующем шаге (то есть через час).

In [None]:
window_size = 24
X_train = []
y_train = []

for i in tqdm(range(window_size, len(df_big))):
    X_train.append(df_big[i-window_size:i].values)

    future_returns = df_big[crypto_names][i:i+1].squeeze()
    investment_weights = get_investment_weights(future_returns)
    y_train.append(investment_weights)

X_train, y_train = np.array(X_train), np.array(y_train)

<a id='10.5'></a>
## 10.5. Создание модели

Модель LSTM с двумя слоями. Также добавим слои Dropout после каждого слоя LSTM для предотвращения переобучения. Выходной слой имеет столько нейронов, сколько у вас есть криптовалют, и использует функцию активации softmax для преобразования выходных данных в вероятности (чтобы сумма равнялась 1, и все значения были неотрицательны). Использованием оптимизатор Adam и функции потерь категориальной кросс-энтропии.

In [None]:
import requests
from datetime import datetime, timedelta
from nltk.sentiment.vader import SentimentIntensityAnalyzer
from keras.models import Sequential
from keras.layers import Dense, Dropout, LSTM, Activation
from keras.callbacks import EarlyStopping, ReduceLROnPlateau

In [None]:
# Создание модели
model = Sequential()

# Добавление слоя LSTM
model.add(LSTM(units=y_train.shape[1] * 10, return_sequences=True, input_shape=(X_train.shape[1], X_train.shape[2])))
model.add(Dropout(0.2))

# Добавление еще одного слоя LSTM
model.add(LSTM(units=y_train.shape[1] * 10))
model.add(Dropout(0.2))

# Добавление выходного слоя
model.add(Dense(units=y_train.shape[1]))
model.add(Activation('softmax'))  # Добавление функции активации softmax

# Компиляция модели
model.compile(optimizer='adam', loss='categorical_crossentropy')  # Изменение функции потерь на категориальную кросс-энтропию

# создание колбеков
early_stopping = EarlyStopping(monitor='val_loss', patience=4)
reduce_lr = ReduceLROnPlateau(monitor='val_loss', factor=0.2, patience=5)

# обучение модели
model.fit(X_train, y_train, epochs=100, batch_size=32, validation_split=0.2, callbacks=[early_stopping, reduce_lr])


<a id='10.6'></a>
## 10.6. Вывод оптимальных весов

In [None]:
# Подготовка данных для предсказания
X_test = df_big[len(df_big) - 1 - window_size:len(df_big) - 1].values.reshape(1, window_size, 18)

# Получение предсказания
prediction = model.predict(X_test)[0]

prediction_rounded = np.round(prediction, 6)

display(pd.DataFrame({'Crypto': crypto_names, 'Weight': prediction_rounded}))


<a id='11'></a>
# 11. Итоговая модель

<a id='11.1'></a>
## 11.1. Описание

Идея: скомбинировать результаты нейросети и модель Марковица, поскольку модель Марковица лучше подходит для оптимизации портфеля, а нейросеть лучше справляется и обработкой новостей.

Для того чтобы модель Марковица могла учитывать результат нейросети, будем предсказывать не оптимальный портфель, а то на сколько изменится курс криптовалют.

- Перепишем нейронную сеть для новой задачи
- Напишем модель Марковица, которая будет опираться на результаты предсказания нейронной сети

<a id='11.2'></a>
## 11.2. Создание обучающих данных

In [None]:
window_size = 24
X_train = []
y_train = []

for i in range(window_size, len(df_big) - 1):
    X_train.append(df_big[i-window_size:i].values)
    y_train.append(df_big[crypto_names][i:i+1].values.flatten())

X_train, y_train = np.array(X_train), np.array(y_train)


<a id='11.3'></a>
## 11.3. Создание модели

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Dropout
from tensorflow.keras.regularizers import L1L2
from tensorflow.keras.callbacks import EarlyStopping, ReduceLROnPlateau

In [None]:
# определение размера входных данных
input_shape = (window_size, X_train.shape[2])

# создание модели
model = Sequential()
model.add(LSTM(y_train.shape[1] * 5, return_sequences=True, input_shape=input_shape, kernel_regularizer=L1L2(l1=0.01, l2=0.01)))
model.add(Dropout(0.2))
model.add(LSTM(y_train.shape[1] * 5, return_sequences=False, kernel_regularizer=L1L2(l1=0.01, l2=0.01)))
model.add(Dropout(0.2))
model.add(Dense(y_train.shape[1]))

# компиляция модели
model.compile(optimizer='adam', loss='mean_squared_error')

# создание колбеков
early_stopping = EarlyStopping(monitor='val_loss', patience=4)
reduce_lr = ReduceLROnPlateau(monitor='val_loss', factor=0.2, patience=5)

# обучение модели
model.fit(X_train, y_train, epochs=50, batch_size=32, validation_split=0.2, callbacks=[early_stopping, reduce_lr])


<a id='11.4'></a>
## 11.4. Предсказание изменения курса

In [None]:
prediction = model.predict(X_test)[0]

prediction_rounded = np.round(prediction, 6)

display(pd.DataFrame({'Crypto': crypto_names, 'Weight': prediction_rounded}))

<a id='11.5'></a>
## 11.5. Метод Марковица

In [None]:
import numpy as np
from scipy.optimize import minimize
import pandas as pd

В качестве ожидаемой доходности будем передавать наше предсказание

In [None]:
# Функция для расчета портфельной доходности и волатильности
def portfolio_performance(weights, expected_returns, cov_matrix):
    returns = np.sum(expected_returns*weights)*252
    std = np.sqrt(np.dot(weights.T, np.dot(cov_matrix, weights)))*np.sqrt(252)
    return std, returns

# Функция для максимизации ожидаемой доходности
def maximize_returns(weights, expected_returns, cov_matrix):
    return -portfolio_performance(weights, expected_returns, cov_matrix)[1]



In [None]:
df_cripto = df.drop(columns=['timestamp'])

# Преобразуем прогнозы в ожидаемые доходности
expected_returns = pd.Series(prediction, index=crypto_names)


In [None]:
expected_returns

In [None]:
# Максимальный уровень риска
max_risk = 0.2

num_runs = 1000
best_return = -np.inf
best_weights = None

for _ in tqdm(range(num_runs)):
    # Случайные начальные веса
    weights = np.random.random(len(crypto_names))
    weights /= np.sum(weights)

    # Оптимизация
    result = minimize(maximize_returns, weights, args=(expected_returns, cov_matrix), method='SLSQP', bounds=[(0.0, 1.0) for asset in range(num_assets)], constraints=[{'type': 'eq', 'fun': lambda x: np.sum(x) - 1}, {'type': 'ineq', 'fun': lambda x: max_risk - portfolio_performance(x, expected_returns, cov_matrix)[0]}])

    # Если текущий результат лучше предыдущего лучшего, обновляем лучший результат
    if -result.fun > best_return:
        best_return = -result.fun
        best_weights = result.x



<a id='11.6'></a>
## 11.6. Вывод оптимальных весов

In [None]:
best_weights_rounded = np.round(best_weights, 4)

display(pd.DataFrame({'Crypto': crypto_names, 'Weight': best_weights_rounded}))