# 🚀 FORECAST - Запуск в Google Colab

**Команда Pulsetech**

Этот ноутбук запускает полное обучение и создание предсказаний.

⏱️ **Время выполнения**: ~20-30 минут

⚙️ **Runtime**: Используйте **CPU** (GPU не нужен!)

---


## 0. Настройка Runtime (ВАЖНО!)

**Выберите CPU runtime:**
1. В меню сверху: `Runtime` → `Change runtime type`
2. В поле `Hardware accelerator` выберите **None** (это CPU)
3. Нажмите `Save`

⚠️ **GPU не нужен для этой задачи!** Мы используем gradient boosting деревья (LightGBM/sklearn), которые работают на CPU.

---

## 1. Клонирование репозитория

**Важно**: Если репозиторий приватный, используйте GitHub token или сделайте его публичным временно.


In [25]:
# Клонируем репозиторий
!git clone https://github.com/sokanaid/finnam-forecast-pulsetech.git
%cd finnam-forecast-pulsetech

print("✅ Репозиторий склонирован!")
print("\n📦 Устанавливаем зависимости...")

# Устанавливаем зависимости
!pip install -q -r requirements.txt

print("✅ Зависимости установлены!")


Cloning into 'finnam-forecast-pulsetech'...
remote: Enumerating objects: 48, done.[K
remote: Counting objects: 100% (48/48), done.[K
remote: Compressing objects: 100% (37/37), done.[K
remote: Total 48 (delta 14), reused 44 (delta 10), pack-reused 0 (from 0)[K
Receiving objects: 100% (48/48), 21.89 MiB | 8.73 MiB/s, done.
Resolving deltas: 100% (14/14), done.
Updating files: 100% (23/23), done.
/finnam-forecast-pulsetech/finnam-forecast-pulsetech/finnam-forecast-pulsetech
✅ Репозиторий склонирован!

📦 Устанавливаем зависимости...
✅ Зависимости установлены!


## 2. Проверка данных

Данные уже включены в репозиторий! Проверяем что все на месте:


In [26]:
import os

# Проверяем наличие всех необходимых файлов
data_files = {
    'data/raw/train_candles.csv': 'Обучающие котировки',
    'data/raw/train_news.csv': 'Обучающие новости',
    'data/raw/public_test_candles.csv': 'Публичный тест котировки',
    'data/raw/private_test_candles.csv': 'Приватный тест котировки',
    'data/raw/test_news.csv': 'Тестовые новости'
}

all_present = True
for filepath, description in data_files.items():
    if os.path.exists(filepath):
        size_mb = os.path.getsize(filepath) / 1024 / 1024
        print(f"✅ {description}: {size_mb:.2f} MB")
    else:
        print(f"❌ {description}: НЕ НАЙДЕН!")
        all_present = False

if all_present:
    print("\n🎉 Все данные на месте! Можно продолжать.")
else:
    print("\n⚠️ ОШИБКА: Некоторые файлы отсутствуют!")
    print("Убедитесь, что репозиторий склонирован полностью.")


✅ Обучающие котировки: 2.13 MB
✅ Обучающие новости: 82.61 MB
✅ Публичный тест котировки: 0.02 MB
✅ Приватный тест котировки: 0.02 MB
✅ Тестовые новости: 82.75 MB

🎉 Все данные на месте! Можно продолжать.


## 3. 🚀 Обучение модели

Это займет ~20-30 минут


In [27]:
import time

start_time = time.time()

print("="*70)
print("🎓 НАЧАЛО ОБУЧЕНИЯ")
print("="*70)

!python train.py

elapsed = time.time() - start_time
print(f"\n⏱️ Время обучения: {elapsed/60:.2f} минут")


🎓 НАЧАЛО ОБУЧЕНИЯ
🚀 ОБУЧЕНИЕ МОДЕЛИ FORECAST

📁 Входные данные:
   Train candles: /finnam-forecast-pulsetech/finnam-forecast-pulsetech/finnam-forecast-pulsetech/data/raw/train_candles.csv
   Train news: /finnam-forecast-pulsetech/finnam-forecast-pulsetech/finnam-forecast-pulsetech/data/raw/train_news.csv
   Output dir: /finnam-forecast-pulsetech/finnam-forecast-pulsetech/finnam-forecast-pulsetech/models

ЭТАП 1: Загрузка данных
📊 Загрузка данных (режим: train)...
   ✓ Train candles: 23118 строк, 19 тикеров
   ✓ Train news: 24127 новостей
   ✓ Test candles: 777 строк (public: 378, private: 399)
   ✓ Test news: 24162 новостей
🔍 Извлечение тикеров из новостей...
   ✓ Найдено тикеров в 42899/48289 новостях
   ✓ Total candles: 23895 строк
   ✓ Total news: 48289 новостей

📊 Статистика данных:
   Тикеров: 19
   Дат: 1217
   Период: 2020-06-19 00:00:00 - 2025-04-15 00:00:00

ЭТАП 2: Подготовка таргетов

🎯 Подготовка таргетов для всех горизонтов...
   ✓ Создано 20 пар таргетов (return + directi

## 4. 🔮 Создание предсказаний


In [28]:
print("="*70)
print("🔮 СОЗДАНИЕ ПРЕДСКАЗАНИЙ")
print("="*70)

!python predict.py


🔮 СОЗДАНИЕ ПРЕДСКАЗАНИЙ
🔮 СОЗДАНИЕ ПРЕДСКАЗАНИЙ FORECAST

📁 Входные данные:
   Public test: /finnam-forecast-pulsetech/finnam-forecast-pulsetech/finnam-forecast-pulsetech/data/raw/public_test_candles.csv
   Private test: /finnam-forecast-pulsetech/finnam-forecast-pulsetech/finnam-forecast-pulsetech/data/raw/private_test_candles.csv
   Test news: /finnam-forecast-pulsetech/finnam-forecast-pulsetech/finnam-forecast-pulsetech/data/raw/test_news.csv
   Models dir: /finnam-forecast-pulsetech/finnam-forecast-pulsetech/finnam-forecast-pulsetech/models
   Output: /finnam-forecast-pulsetech/finnam-forecast-pulsetech/finnam-forecast-pulsetech/submission.csv

ЭТАП 1: Загрузка модели

📂 Загрузка моделей из /finnam-forecast-pulsetech/finnam-forecast-pulsetech/finnam-forecast-pulsetech/models/forecast_models.pkl...
   ✓ Загружено 20 моделей
   ✓ Количество признаков: 31

📂 Загрузка обработанных данных...
   ✓ Данных загружено: 23895 строк
   ✓ Признаков: 31

ЭТАП 2: Загрузка тестовых данных
📊 Загруз

## 5. 📊 Проверка результатов


In [29]:
import pandas as pd
import os

if os.path.exists('submission.csv'):
    submission = pd.read_csv('submission.csv')
    print("✅ Submission создан!")
    print(f"\nРазмер: {len(submission)} строк")
    print(f"Колонки: {list(submission.columns)}")
    print(f"\nПервые 10 строк:")
    print(submission.head(10))

    # Статистика вероятностей
    prob_cols = [f'p{i}' for i in range(1, 21)]
    print(f"\n📊 Статистика вероятностей:")
    print(f"   Среднее: {submission[prob_cols].mean().mean():.4f}")
    print(f"   Std: {submission[prob_cols].std().mean():.4f}")
    print(f"   Min: {submission[prob_cols].min().min():.4f}")
    print(f"   Max: {submission[prob_cols].max().max():.4f}")
else:
    print("❌ submission.csv не создан!")


✅ Submission создан!

Размер: 777 строк
Колонки: ['ticker', 'p1', 'p2', 'p3', 'p4', 'p5', 'p6', 'p7', 'p8', 'p9', 'p10', 'p11', 'p12', 'p13', 'p14', 'p15', 'p16', 'p17', 'p18', 'p19', 'p20']

Первые 10 строк:
  ticker        p1        p2        p3        p4        p5        p6  \
0   AFLT  0.688869  0.386482  0.739634  0.631576  0.559333  0.536281   
1   AFLT  0.580385  0.449441  0.672390  0.643369  0.476439  0.501803   
2   AFLT  0.681172  0.510298  0.680584  0.608363  0.492421  0.452996   
3   AFLT  0.590007  0.376286  0.578494  0.608363  0.401511  0.264387   
4   AFLT  0.681713  0.533620  0.634477  0.630248  0.474179  0.284613   
5   AFLT  0.701375  0.511921  0.681978  0.645652  0.440930  0.361479   
6   AFLT  0.689304  0.512333  0.703038  0.603111  0.468616  0.357102   
7   AFLT  0.590443  0.502853  0.643238  0.559247  0.451440  0.409741   
8   AFLT  0.675704  0.613393  0.762324  0.544197  0.386265  0.438158   
9   AFLT  0.675267  0.430756  0.691818  0.537556  0.388597  0.240970   

## 6. 📥 Скачивание результатов


In [30]:
from google.colab import files

# Скачиваем submission
if os.path.exists('submission.csv'):
    files.download('submission.csv')
    print("✅ submission.csv скачан!")
else:
    print("❌ Файл не найден!")

print("\n🎉 Готово! Теперь можете отправить submission.csv на лидерборд")


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

✅ submission.csv скачан!

🎉 Готово! Теперь можете отправить submission.csv на лидерборд


---

## ✅ Готово!

**Результаты:**
- ✅ Модель обучена
- ✅ Предсказания созданы
- ✅ submission.csv готов для отправки

**Следующие шаги:**
1. Отправьте `submission.csv` на лидерборд
2. Обновите метрики в презентации реальными значениями из обучения

---

**Команда Pulsetech** 🚀


In [31]:
# Дополнительная ячейка для экспериментов
# Используйте эту ячейку если нужно что-то проверить или отладить

# Например, посмотреть на feature importance:
# import joblib
# fe = joblib.load('models/feature_engineer.pkl')
# print(fe.get_feature_names())


---

## ✅ Готово!

**Результаты:**
- ✅ Модель обучена
- ✅ Предсказания созданы
- ✅ submission.csv готов для отправки

**Следующие шаги:**
1. Отправьте `submission.csv` на лидерборд
2. Обновите метрики в презентации реальными значениями из обучения

---

**Команда Pulsetech** 🚀
