# Предсказание курса биткоина с использованием CatBoost и BERTA

Этот ноутбук демонстрирует, как предсказывать цены биткоина, комбинируя:
1. Анализ текста новостных заголовков с использованием модели BERTA от Hugging Face
2. Традиционные признаки, обрабатываемые с помощью CatBoost

Мы сгенерируем эмбеддинги из новостных данных и объединим их с другими релевантными признаками для обучения прогностической модели.

## 1. Установка необходимых библиотек

Установим необходимые пакеты с помощью `uv`.

In [None]:
# Установка необходимых библиотек с помощью uv
!uv pip install catboost transformers pandas numpy scikit-learn torch matplotlib seaborn yfinance tqdm

## 2. Импорт библиотек

Импортируем все необходимые библиотеки для нашего анализа.

In [None]:
# Базовая обработка данных
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import json
from datetime import datetime, timedelta

# Модели и метрики
from catboost import CatBoostRegressor, CatBoostClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Обработка текста и эмбеддинги
import torch
import torch.nn.functional as F
from transformers import AutoTokenizer, AutoModel
import re
import nltk
from nltk.corpus import stopwords
from tqdm.auto import tqdm

tqdm.pandas()

# Данные биткоина
import yfinance as yf

# Конфигурация
import warnings

warnings.filterwarnings("ignore")
plt.style.use("fivethirtyeight")

nltk.download("stopwords")
nltk.download("punkt_tab")

## 3. Загрузка и предобработка новостных данных

Загрузим наши новостные данные и выполним предобработку текста:
- Очистка и нормализация
- Удаление стоп-слов
- Токенизация для входа в модель

In [None]:
def load_json_articles(file_path: str) -> list:
    with open(file_path, "r", encoding="utf-8") as f:
        articles = json.load(f)
    return articles


# Загрузка статей из обоих источников
print("Загрузка статей Bitcoin Magazine...")
try:
    btc_magazine_articles = load_json_articles("BitcoinMagazine_Articles.json")
    print(f"Загружено {len(btc_magazine_articles)} статей из Bitcoin Magazine")
except Exception as e:
    print(f"Ошибка загрузки статей Bitcoin Magazine: {e}")
    btc_magazine_articles = []

print("\nЗагрузка статей CoinTelegraph...")
try:
    cointelegraph_articles = load_json_articles("CoinTelegraph_Articles.json")
    print(f"Загружено {len(cointelegraph_articles)} статей из CoinTelegraph")
except Exception as e:
    print(f"Ошибка загрузки статей CoinTelegraph: {e}")
    cointelegraph_articles = []


def articles_to_dataframe(articles: list, source_name: str) -> pd.DataFrame:
    data = []
    # Применяем разную логику парсинга в зависимости от источника
    if source_name == "CoinTelegraph":
        for article in tqdm(articles, desc=f"Обработка {source_name}"):
            if "title" in article and "published_time" in article:
                try:
                    date = pd.to_datetime(article["published_time"])
                    data.append(
                        {
                            "date": date,
                            "headline": article.get("title", ""),
                            "content": article.get("text", ""),
                            "url": article.get("url", ""),
                            "views": article.get("views", 0),
                            "source": source_name,
                        }
                    )
                except:
                    pass
    elif source_name == "Bitcoin Magazine":
        for article in tqdm(articles, desc=f"Обработка {source_name}"):
            if "title" in article and "published_time" in article:
                try:
                    date = pd.to_datetime(article["published_time"])
                    data.append(
                        {
                            "date": date,
                            "headline": article.get("title", ""),
                            "content": article.get("text", ""),
                            "url": article.get("url", ""),
                            "source": source_name,
                        }
                    )
                except:
                    pass
    return pd.DataFrame(data)


# Преобразование статей в DataFrame
btc_magazine_df = articles_to_dataframe(btc_magazine_articles, "Bitcoin Magazine")
cointelegraph_df = articles_to_dataframe(cointelegraph_articles, "CoinTelegraph")

# Объединение всех источников новостей
news_data = pd.concat([btc_magazine_df, cointelegraph_df], ignore_index=True)

# Сортировка по дате
news_data = news_data.sort_values("date")

print(f"\nВсего новостных статей: {len(news_data)}")
print("Диапазон дат:", news_data["date"].min(), "до", news_data["date"].max())
print("\nПример данных:")
print(news_data.head())


def clean_text(text: str) -> str:
    if not isinstance(text, str):
        return ""

    text = text.lower()
    text = re.sub(r"[^a-zA-Z\s]", "", text)
    text = re.sub(r"\s+", " ", text).strip()

    stop_words = set(stopwords.words("english"))
    tokens = nltk.word_tokenize(text)
    filtered_tokens = [word for word in tokens if word not in stop_words]

    return " ".join(filtered_tokens)


# Применение очистки текста с использованием progress_apply
print("\nОчистка текстовых данных...")
news_data["clean_headline"] = news_data["headline"].progress_apply(clean_text)
news_data["clean_content"] = news_data["content"].progress_apply(clean_text)

# Вывод примера очищенных данных
print("\nПримеры очищенных текстов:")
print(news_data[["clean_headline", "clean_content"]].head(2))


## 4. Загрузка предобученной модели BERTA из Hugging Face

Будем использовать модель sergeyzh/BERTA из Hugging Face, которая специально настроена для русского текста.

In [None]:
# Загрузка предобученной модели BERTA из Hugging Face
model_name = "sergeyzh/BERTA"

tokenizer = AutoTokenizer.from_pretrained(model_name)
berta_model = AutoModel.from_pretrained(model_name)

# Перенос модели на GPU, если доступно
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
berta_model = berta_model.to(device)
print(f"Используется устройство: {device}")

In [None]:
def pool(
    hidden_state: torch.Tensor, mask: torch.Tensor, pooling_method: str = "mean"
) -> torch.Tensor:
    if pooling_method == "mean":
        s = torch.sum(hidden_state * mask.unsqueeze(-1).float(), dim=1)
        d = mask.sum(axis=1, keepdim=True).float()
        return s / d
    elif pooling_method == "cls":
        return hidden_state[:, 0]
    elif pooling_method == "max":
        masked = hidden_state * mask.unsqueeze(-1).float()
        masked_fill = masked + (1 - mask.unsqueeze(-1).float()) * -1e9
        return torch.max(masked_fill, dim=1)[0]
    else:
        raise ValueError(f"Неизвестный метод пулинга: {pooling_method}")

## 5. Генерация текстовых эмбеддингов

Теперь используем модель BERTA для генерации эмбеддингов нашего новостного текста.

In [None]:
def get_bert_embeddings(
    texts: list, max_length: int = 256, pooling_method: str = "mean"
) -> np.ndarray:
    encoded_input = tokenizer(
        texts,
        padding="max_length",
        truncation=True,
        max_length=max_length,
        return_tensors="pt",
    ).to(device)

    with torch.no_grad():
        model_output = berta_model(**encoded_input)

    sentence_embeddings = pool(
        model_output.last_hidden_state,
        encoded_input["attention_mask"],
        pooling_method=pooling_method,
    )

    sentence_embeddings = F.normalize(sentence_embeddings, p=2, dim=1)

    return sentence_embeddings.cpu().numpy()


# Генерация эмбеддингов для заголовков и содержания новостей
batch_size = 128  # Меньший размер батча для предотвращения проблем с памятью
headline_embeddings = []
content_embeddings = []

print("Генерация эмбеддингов заголовков...")
for i in tqdm(range(0, len(news_data), batch_size)):
    batch_texts = news_data["clean_headline"][i : i + batch_size].tolist()
    batch_embeddings = get_bert_embeddings(batch_texts, pooling_method="mean")
    headline_embeddings.extend(batch_embeddings)

print("\nГенерация эмбеддингов содержания...")
for i in tqdm(range(0, len(news_data), batch_size)):
    batch_texts = news_data["clean_content"][i : i + batch_size].fillna("").tolist()
    batch_embeddings = get_bert_embeddings(batch_texts, pooling_method="mean")
    content_embeddings.extend(batch_embeddings)

# Преобразование эмбеддингов в массивы numpy
headline_embeddings = np.array(headline_embeddings)
content_embeddings = np.array(content_embeddings)

print(f"Размерность эмбеддингов заголовков: {headline_embeddings.shape}")
print(f"Размерность эмбеддингов содержания: {content_embeddings.shape}")

## 6. Подготовка данных для CatBoost

Теперь объединим текстовые эмбеддинги с другими релевантными признаками, такими как исторические данные цен, объемы торгов и технические индикаторы, для подготовки нашего набора данных к обучению.

In [None]:
# Получение самой ранней и самой поздней дат из наших новостных данных
start_date = news_data["date"].min().strftime("%Y-%m-%d")
end_date = news_data["date"].max().strftime("%Y-%m-%d")

start_date_obj = datetime.strptime(start_date, "%Y-%m-%d") - timedelta(days=30)
end_date_obj = datetime.strptime(end_date, "%Y-%m-%d") + timedelta(days=30)
start_date = start_date_obj.strftime("%Y-%m-%d")
end_date = end_date_obj.strftime("%Y-%m-%d")

print(f"Загрузка данных о ценах биткоина с {start_date} по {end_date}")

# Загрузка данных о ценах биткоина
btc_price = yf.download("BTC-USD", start=start_date, end=end_date)
btc_price.reset_index(inplace=True)
btc_price.rename(
    columns={
        "Date": "date",
        "Close": "price",
        "Volume": "volume",
        "Open": "open",
        "High": "high",
        "Low": "low",
    },
    inplace=True,
)

print(f"Загружено {len(btc_price)} записей исторических цен")
print(btc_price.head())

# Убедимся, что даты в формате datetime
news_data["date"] = (
    pd.to_datetime(news_data["date"], utc=True).dt.tz_localize(None).dt.date
)
btc_price["date"] = (
    pd.to_datetime(btc_price["date"], utc=True).dt.tz_localize(None).dt.date
)

# Объединяем эмбеддинги заголовков с данными о ценах на основе даты
# Сначала создаем DataFrame с датой и эмбеддингами
headline_emb_df = pd.DataFrame(
    headline_embeddings,
    columns=[f"h_emb_{i}" for i in range(headline_embeddings.shape[1])],
)
headline_emb_df["date"] = news_data["date"].values

# Создаем DataFrame для эмбеддингов содержания
content_emb_df = pd.DataFrame(
    content_embeddings,
    columns=[f"c_emb_{i}" for i in range(content_embeddings.shape[1])],
)
content_emb_df["date"] = news_data["date"].values

# Группируем по дате и усредняем эмбеддинги для одного дня
daily_headline_emb = headline_emb_df.groupby("date").mean().reset_index()
daily_content_emb = content_emb_df.groupby("date").mean().reset_index()

# Объединяем эмбеддинги
daily_emb = pd.merge(daily_headline_emb, daily_content_emb, on="date", how="inner")

# Объединяем с данными о ценах
merged_data = pd.merge(btc_price, daily_emb, on="date", how="inner")
print(f"\nРазмерность объединенных данных: {merged_data.shape}")


def add_technical_indicators(df: pd.DataFrame) -> pd.DataFrame:
    """Добавляет технические индикаторы к DataFrame с ценовыми данными.

    Args:
        df: DataFrame с ценовыми данными

    Returns:
        pd.DataFrame: DataFrame с добавленными техническими индикаторами
    """
    # Простые скользящие средние
    df["SMA7"] = df["price"].rolling(window=7).mean()
    df["SMA30"] = df["price"].rolling(window=30).mean()

    # Моментум цены
    df["price_momentum"] = df["price"].pct_change(periods=7)

    # Волатильность
    df["volatility"] = df["price"].rolling(window=7).std()

    # Изменение объема торгов
    df["volume_change"] = df["volume"].pct_change()

    # Диапазон цен
    df["daily_range"] = (df["high"] - df["low"]) / df["open"]

    # Индекс относительной силы (RSI)
    delta = df["price"].diff()
    gain = delta.where(delta > 0, 0)
    loss = -delta.where(delta < 0, 0)
    avg_gain = gain.rolling(window=14).mean()
    avg_loss = loss.rolling(window=14).mean()
    rs = avg_gain / avg_loss
    df["RSI"] = 100 - (100 / (1 + rs))

    return df


# Добавляем технические индикаторы и обрабатываем пропущенные значения
print("\nДобавление технических индикаторов...")
merged_data = add_technical_indicators(merged_data)
merged_data = merged_data.dropna()

# Подготовка признаков и целевой переменной
# Предсказываем изменение цены на следующий день (в процентах)
merged_data["target_pct_change"] = merged_data["price"].pct_change(periods=1).shift(-1)
merged_data["target_direction"] = (merged_data["target_pct_change"] > 0).astype(
    int
)  # 1, если цена растет, 0, если падает
merged_data["target_price"] = merged_data["price"].shift(
    -1
)  # Фактическая цена следующего дня
merged_data = merged_data.dropna()

print(f"Итоговая размерность данных после предобработки: {merged_data.shape}")

# Определяем признаки
price_features = [
    "price",
    "volume",
    "SMA7",
    "SMA30",
    "price_momentum",
    "volatility",
    "volume_change",
    "daily_range",
    "RSI",
]


# Применяем PCA к эмбеддингам заголовков
headline_cols = [col for col in merged_data.columns if col.startswith("h_emb_")]
headline_data = merged_data[headline_cols]
pca_headline = PCA(n_components=20)
headline_pca = pca_headline.fit_transform(headline_data)
headline_pca_df = pd.DataFrame(headline_pca, columns=[f"h_pca_{i}" for i in range(20)])

# Применяем PCA к эмбеддингам содержания
content_cols = [col for col in merged_data.columns if col.startswith("c_emb_")]
content_data = merged_data[content_cols]
pca_content = PCA(n_components=20)
content_pca = pca_content.fit_transform(content_data)
content_pca_df = pd.DataFrame(content_pca, columns=[f"c_pca_{i}" for i in range(20)])

# Сбрасываем индекс перед добавлением столбцов PCA
merged_data = merged_data.reset_index(drop=True)
headline_pca_df = headline_pca_df.reset_index(drop=True)
content_pca_df = content_pca_df.reset_index(drop=True)

# Добавляем столбцы PCA в merged_data
for col in headline_pca_df.columns:
    merged_data[col] = headline_pca_df[col].values

for col in content_pca_df.columns:
    merged_data[col] = content_pca_df[col].values

# Определяем все признаки
embedding_pca_features = [
    col
    for col in merged_data.columns
    if col.startswith("h_pca_") or col.startswith("c_pca_")
]
all_features = price_features + embedding_pca_features

# Подготовка признаков и целевой переменной
X = merged_data[all_features]
y_price = merged_data["target_price"]  # Для регрессии (предсказание цены)
y_direction = merged_data["target_direction"]  # Для классификации (направление цены)

# Разделение данных
train_size = int(len(merged_data) * 0.8)
X_train, X_test = X[:train_size], X[train_size:]
y_price_train, y_price_test = y_price[:train_size], y_price[train_size:]
y_direction_train, y_direction_test = y_direction[:train_size], y_direction[train_size:]

print(f"\nОбучающая выборка: {X_train.shape}, Тестовая выборка: {X_test.shape}")
print(
    f"Распределение направления цены в обучающей выборке: {y_direction_train.value_counts()}"
)
print(
    f"Распределение направления цены в тестовой выборке: {y_direction_test.value_counts()}"
)

## 7. Обучение моделей CatBoost

Обучим две модели:
1. Регрессионную модель для предсказания точной цены биткоина
2. Классификационную модель для предсказания направления движения цены (вверх или вниз)

In [None]:
# 1. Обучение CatBoost регрессора для предсказания цены
print("Обучение модели предсказания цены...")
catboost_regressor = CatBoostRegressor(
    iterations=500, learning_rate=0.03, depth=6, loss_function="RMSE", verbose=100
)

# Обучение модели
catboost_regressor.fit(X_train, y_price_train, eval_set=(X_test, y_price_test))

# Делаем предсказания цены
y_price_pred = catboost_regressor.predict(X_test)

# 2. Обучение CatBoost классификатора для предсказания направления
print("\nОбучение модели предсказания направления цены...")
catboost_classifier = CatBoostClassifier(
    iterations=500, learning_rate=0.03, depth=6, loss_function="Logloss", verbose=100
)

# Обучение классификатора
catboost_classifier.fit(X_train, y_direction_train, eval_set=(X_test, y_direction_test))

# Делаем предсказания направления
y_direction_pred = catboost_classifier.predict(X_test)

# График важности признаков для модели предсказания цены
plt.figure(figsize=(14, 8))
feature_importance = catboost_regressor.get_feature_importance()
feature_names = X_train.columns
importance_df = pd.DataFrame({"Признак": feature_names, "Важность": feature_importance})
importance_df = importance_df.sort_values("Важность", ascending=False).head(20)

plt.barh(importance_df["Признак"], importance_df["Важность"])
plt.title("Важность признаков для предсказания цены (Топ-20)")
plt.xlabel("Важность")
plt.gca().invert_yaxis()
plt.tight_layout()
plt.show()

# График важности признаков для модели предсказания направления
plt.figure(figsize=(14, 8))
feature_importance = catboost_classifier.get_feature_importance()
feature_names = X_train.columns
importance_df = pd.DataFrame({"Признак": feature_names, "Важность": feature_importance})
importance_df = importance_df.sort_values("Важность", ascending=False).head(20)

plt.barh(importance_df["Признак"], importance_df["Важность"])
plt.title("Важность признаков для предсказания направления (Топ-20)")
plt.xlabel("Важность")
plt.gca().invert_yaxis()
plt.tight_layout()
plt.show()

## 8. Оценка моделей

Теперь оценим обе модели предсказания, используя соответствующие метрики.

In [None]:
# Оценка регрессионной модели (предсказание цены)
print("Оценка модели предсказания цены...")
rmse = np.sqrt(mean_squared_error(y_price_test, y_price_pred))
mae = mean_absolute_error(y_price_test, y_price_pred)
r2 = r2_score(y_price_test, y_price_pred)

print(f"Корень среднеквадратичной ошибки (RMSE): ${rmse:.2f}")
print(f"Средняя абсолютная ошибка (MAE): ${mae:.2f}")
print(f"Коэффициент детерминации (R²): {r2:.4f}")

# Расчет процентной ошибки
y_test_array = np.array(y_price_test)
percentage_error = np.abs((y_test_array - y_price_pred) / y_test_array) * 100
mean_percentage_error = np.mean(percentage_error)
print(f"Средняя процентная ошибка: {mean_percentage_error:.2f}%")

# Оценка классификационной модели (предсказание направления)
print("\nОценка модели предсказания направления цены...")
accuracy = accuracy_score(y_direction_test, y_direction_pred)
print(f"Точность: {accuracy:.4f}")

print("\nОтчет по классификации:")
print(classification_report(y_direction_test, y_direction_pred))

print("\nМатрица ошибок:")
conf_mat = confusion_matrix(y_direction_test, y_direction_pred)
print(conf_mat)

# График реальных и предсказанных цен
plt.figure(figsize=(16, 8))
plt.plot(y_price_test.values, label="Реальная цена", color="blue")
plt.plot(y_price_pred, label="Предсказанная цена", color="red", linestyle="--")
plt.title("Предсказание цены биткоина: Реальная vs Предсказанная")
plt.xlabel("Время")
plt.ylabel("Цена (USD)")
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()

# График распределения ошибок предсказания
plt.figure(figsize=(12, 6))
error = y_price_test.values - y_price_pred
sns.histplot(error, kde=True)
plt.title("Распределение ошибок предсказания")
plt.xlabel("Ошибка предсказания (USD)")
plt.ylabel("Частота")
plt.axvline(x=0, color="red", linestyle="--")
plt.grid(True)
plt.tight_layout()
plt.show()

# Визуализация матрицы ошибок
plt.figure(figsize=(8, 6))
sns.heatmap(
    conf_mat,
    annot=True,
    fmt="d",
    cmap="Blues",
    xticklabels=["Вниз", "Вверх"],
    yticklabels=["Вниз", "Вверх"],
)
plt.title("Матрица ошибок")
plt.xlabel("Предсказано")
plt.ylabel("Фактически")
plt.tight_layout()
plt.show()

## 9. Предсказания на новых данных

Создадим функцию для предсказания на новых, неизвестных новостных статьях.

In [None]:
def predict_with_new_article(
    headline: str, content: str, current_price: float, current_volume: float
) -> dict:
    """Делает предсказание на основе новой статьи и текущих рыночных данных.

    Args:
        headline: Заголовок новости
        content: Содержание новости
        current_price: Текущая цена биткоина
        current_volume: Текущий объем торгов биткоина

    Returns:
        dict: Словарь с результатами предсказания
    """
    # Очистка текста
    clean_headline = clean_text(headline)
    clean_content = clean_text(content)

    # Генерация эмбеддингов
    headline_embedding = get_bert_embeddings([clean_headline])[0]
    content_embedding = get_bert_embeddings([clean_content])[0]

    # Преобразование с помощью PCA
    h_pca = pca_headline.transform([headline_embedding])[0]
    c_pca = pca_content.transform([content_embedding])[0]

    # Создание строки признаков
    features = {feature: 0 for feature in all_features}

    # Заполняем ценовые признаки разумными значениями
    features["price"] = current_price
    features["volume"] = current_volume
    features["SMA7"] = current_price  # упрощенно
    features["SMA30"] = current_price  # упрощенно
    features["price_momentum"] = 0.0  # заполнитель
    features["volatility"] = 0.0  # заполнитель
    features["volume_change"] = 0.0  # заполнитель
    features["daily_range"] = 0.01  # заполнитель
    features["RSI"] = 50  # заполнитель (нейтральный RSI)

    # Добавляем признаки PCA
    for i, val in enumerate(h_pca):
        features[f"h_pca_{i}"] = val

    for i, val in enumerate(c_pca):
        features[f"c_pca_{i}"] = val

    # Преобразуем в DataFrame
    features_df = pd.DataFrame([features])

    # Делаем предсказания
    price_prediction = catboost_regressor.predict(features_df)[0]
    direction_proba = catboost_classifier.predict_proba(features_df)[0]
    direction = "Вверх ↑" if direction_proba[1] > 0.5 else "Вниз ↓"
    confidence = (
        direction_proba[1] if direction == "Вверх ↑" else 1 - direction_proba[1]
    )

    return {
        "predicted_price": price_prediction,
        "price_change": price_prediction - current_price,
        "price_change_pct": (price_prediction - current_price) / current_price * 100,
        "predicted_direction": direction,
        "confidence": confidence * 100,
    }


# Тестирование функции предсказания на примере статьи
sample_headline = "Bitcoin Surges as Institutional Investors Increase Holdings"
sample_content = """
Major financial institutions are significantly increasing their Bitcoin positions amid growing optimism about
regulatory clarity in the cryptocurrency sector. According to recent filings, several Wall Street firms have
doubled their BTC holdings in the last quarter, signaling strong institutional confidence in the leading cryptocurrency.
"""

# Получаем текущую цену биткоина из Yahoo Finance
current_btc = yf.Ticker("BTC-USD")
current_price = current_btc.history(period="1d")["Close"].iloc[0]
current_volume = current_btc.history(period="1d")["Volume"].iloc[0]

prediction = predict_with_new_article(
    sample_headline, sample_content, current_price, current_volume
)

print(f"Текущая цена BTC: ${current_price:.2f}")
print(f"Предсказанная цена BTC: ${prediction['predicted_price']:.2f}")
print(
    f"Предсказанное изменение: ${prediction['price_change']:.2f} ({prediction['price_change_pct']:.2f}%)"
)
print(
    f"Направление: {prediction['predicted_direction']} (Уверенность: {prediction['confidence']:.1f}%)"
)

## Заключение

В этом ноутбуке мы создали модель предсказания курса биткоина, используя:

1. Текстовые эмбеддинги из новостных статей с помощью модели BERTA от sergeyzh
2. Исторические данные о цене и объеме торгов биткоина
3. Технические индикаторы рынка

Мы обучили две модели CatBoost:
- Регрессионную модель для предсказания точной цены биткоина
- Классификационную модель для предсказания направления движения цены (вверх или вниз)

Результаты показывают, что комбинирование новостного сентимента с техническими индикаторами позволяет достичь лучших результатов, чем использование только одного типа данных./