# 🚀 FORECAST - Запуск в Google Colab

**Команда Pulsetech**

Этот ноутбук запускает полное обучение и создание предсказаний.

⏱️ **Время выполнения**: ~20-30 минут

⚙️ **Runtime**: Используйте **CPU** (GPU не нужен!)

---


## 0. Настройка Runtime (ВАЖНО!)

**Выберите CPU runtime:**
1. В меню сверху: `Runtime` → `Change runtime type`
2. В поле `Hardware accelerator` выберите **None** (это CPU)
3. Нажмите `Save`

⚠️ **GPU не нужен для этой задачи!** Мы используем gradient boosting деревья (LightGBM/sklearn), которые работают на CPU.

---

## 1. Клонирование репозитория

**Важно**: Если репозиторий приватный, используйте GitHub token или сделайте его публичным временно.


In [None]:
# Клонируем репозиторий
!git clone https://github.com/sokanaid/finnam-forecast-pulsetech.git
%cd finnam-forecast-pulsetech

print("✅ Репозиторий склонирован!")
print("\n📦 Устанавливаем зависимости...")

# Устанавливаем зависимости
!pip install -q -r requirements.txt

print("✅ Зависимости установлены!")


## 2. Проверка данных

Данные уже включены в репозиторий! Проверяем что все на месте:


In [None]:
import os

# Проверяем наличие всех необходимых файлов
data_files = {
    'data/raw/train_candles.csv': 'Обучающие котировки',
    'data/raw/train_news.csv': 'Обучающие новости',
    'data/raw/public_test_candles.csv': 'Публичный тест котировки',
    'data/raw/private_test_candles.csv': 'Приватный тест котировки',
    'data/raw/test_news.csv': 'Тестовые новости'
}

all_present = True
for filepath, description in data_files.items():
    if os.path.exists(filepath):
        size_mb = os.path.getsize(filepath) / 1024 / 1024
        print(f"✅ {description}: {size_mb:.2f} MB")
    else:
        print(f"❌ {description}: НЕ НАЙДЕН!")
        all_present = False

if all_present:
    print("\n🎉 Все данные на месте! Можно продолжать.")
else:
    print("\n⚠️ ОШИБКА: Некоторые файлы отсутствуют!")
    print("Убедитесь, что репозиторий склонирован полностью.")


## 3. 🚀 Обучение модели

Это займет ~20-30 минут


In [None]:
import time

start_time = time.time()

print("="*70)
print("🎓 НАЧАЛО ОБУЧЕНИЯ")
print("="*70)

!python train.py

elapsed = time.time() - start_time
print(f"\n⏱️ Время обучения: {elapsed/60:.2f} минут")


## 4. 🔮 Создание предсказаний


In [None]:
print("="*70)
print("🔮 СОЗДАНИЕ ПРЕДСКАЗАНИЙ")
print("="*70)

!python predict.py


## 5. 📊 Проверка результатов


In [None]:
import pandas as pd
import os

if os.path.exists('submission.csv'):
    submission = pd.read_csv('submission.csv')
    print("✅ Submission создан!")
    print(f"\nРазмер: {len(submission)} строк")
    print(f"Колонки: {list(submission.columns)}")
    print(f"\nПервые 10 строк:")
    print(submission.head(10))
    
    # Статистика вероятностей
    prob_cols = [f'p{i}' for i in range(1, 21)]
    print(f"\n📊 Статистика вероятностей:")
    print(f"   Среднее: {submission[prob_cols].mean().mean():.4f}")
    print(f"   Std: {submission[prob_cols].std().mean():.4f}")
    print(f"   Min: {submission[prob_cols].min().min():.4f}")
    print(f"   Max: {submission[prob_cols].max().max():.4f}")
else:
    print("❌ submission.csv не создан!")


## 6. 📥 Скачивание результатов


In [None]:
from google.colab import files

# Скачиваем submission
if os.path.exists('submission.csv'):
    files.download('submission.csv')
    print("✅ submission.csv скачан!")
else:
    print("❌ Файл не найден!")

print("\n🎉 Готово! Теперь можете отправить submission.csv на лидерборд")


---

## ✅ Готово!

**Результаты:**
- ✅ Модель обучена
- ✅ Предсказания созданы
- ✅ submission.csv готов для отправки

**Следующие шаги:**
1. Отправьте `submission.csv` на лидерборд
2. Обновите метрики в презентации реальными значениями из обучения

---

**Команда Pulsetech** 🚀


In [None]:
# Дополнительная ячейка для экспериментов
# Используйте эту ячейку если нужно что-то проверить или отладить

# Например, посмотреть на feature importance:
# import joblib
# fe = joblib.load('models/feature_engineer.pkl')
# print(fe.get_feature_names())


---

## ✅ Готово!

**Результаты:**
- ✅ Модель обучена
- ✅ Предсказания созданы
- ✅ submission.csv готов для отправки

**Следующие шаги:**
1. Отправьте `submission.csv` на лидерборд
2. Обновите метрики в презентации реальными значениями из обучения

---

**Команда Pulsetech** 🚀
