In [3]:
from llm_opt_toolkit.prompt_builder import build_prompt
from llm_opt_toolkit.optimization_journal import  Journal
from llm_opt_toolkit.llm_requester import call_llm
from IPython.display import Markdown, display
from config import GRIDS, InformerConfig, build_llm_list_config, get_train_config
from pprint import pprint

grid = GRIDS['grid3']
journal = Journal(filename='llm_opt/etth2/ETTh2-grid3_pred_len=168;th_b=8192;hypot.json')
history_table = journal.get_history_table(last_n=5)
prompt = build_prompt(grid, 2, history_table)
ListConfigs = build_llm_list_config(grid)

In [4]:
Markdown(prompt)

Подбери 2 РАЗНЫХ конфигураций.

Датасет: ETTh (часовая гранулярность)

Параметры:
| Parameter   | Values                      |
|:------------|:----------------------------|
| seq_len     | [24, 48, 96, 168, 336, 720] |
| label_len   | [24, 48, 96, 168, 336, 720] |
| e_layers    | [2, 3, 4, 6]                |
| n_heads     | [8, 16]                     |
| factor      | [3, 5, 8, 10]               |
| d_model     | [256, 512, 768]             |
| d_ff        | [1024, 2048, 3072]          |
| d_layers    | [1, 2, 3]                   |
| dropout     | [0.05, 0.1, 0.2]            |

Определение параметров:
| Parameter   | Description                               |
|:------------|:------------------------------------------|
| seq_len     | Input sequence length of Informer encoder |
| label_len   | Start token length of Informer decoder    |
| e_layers    | Num of encoder layers                     |
| n_heads     | Num of heads                              |
| factor      | Probsparse attn factor                    |
| d_model     | Dimension of model                        |
| d_ff        | Dimension of fcn                          |
| d_layers    | Num of decoder layers                     |
| dropout     | The probability of dropout                |

ОГРАНИЧЕНИЯ:
1. label_len < seq_len (строго!)
2. ЗАПРЕЩЕНЫ дубликаты (в т.ч. из истории)


### История последних экспериментов
|   mae_val |   mse_val |   seq_len |   label_len |   e_layers |   n_heads |   factor |   d_model |   d_ff |   d_layers |   dropout | hypothesis                                            |
|----------:|----------:|----------:|------------:|-----------:|----------:|---------:|----------:|-------:|-----------:|----------:|:------------------------------------------------------|
|    0.7833 |    0.8748 |        48 |          24 |          2 |        16 |        8 |       768 |   2048 |          1 |    0.0500 | Эта конфигурация тестирует эффект использования ма... |
|    0.5727 |    0.4664 |       720 |         336 |          4 |         8 |       10 |       768 |   1024 |          3 |    0.2000 | Эта конфигурация тестирует способность глубокого д... |
|    0.6810 |    0.6592 |        96 |          48 |          2 |        16 |        3 |       768 |   3072 |          1 |    0.0500 | Данная конфигурация исследует, может ли широкая, н... |
|    0.6029 |    0.5249 |        96 |          48 |          6 |        16 |       10 |       768 |   2048 |          3 |    0.2000 | Эта конфигурация максимизирует емкость (ширина и г... |
|    0.7851 |    0.8132 |       720 |          48 |          3 |         8 |        3 |       512 |   3072 |          2 |    0.0500 | Данная конфигурация исследует, насколько эффективн... |

### Топ 3 по MSE
|   mae_val |   mse_val |   seq_len |   label_len |   e_layers |   n_heads |   factor |   d_model |   d_ff |   d_layers |   dropout | hypothesis                                            |
|----------:|----------:|----------:|------------:|-----------:|----------:|---------:|----------:|-------:|-----------:|----------:|:------------------------------------------------------|
|    0.5727 |    0.4664 |       720 |         336 |          4 |         8 |       10 |       768 |   1024 |          3 |    0.2000 | Эта конфигурация тестирует способность глубокого д... |
|    0.6029 |    0.5249 |        96 |          48 |          6 |        16 |       10 |       768 |   2048 |          3 |    0.2000 | Эта конфигурация максимизирует емкость (ширина и г... |
|    0.6810 |    0.6592 |        96 |          48 |          2 |        16 |        3 |       768 |   3072 |          1 |    0.0500 | Данная конфигурация исследует, может ли широкая, н... |
|    0.7851 |    0.8132 |       720 |          48 |          3 |         8 |        3 |       512 |   3072 |          2 |    0.0500 | Данная конфигурация исследует, насколько эффективн... |

### Худшие 3 по MSE
|   mae_val |   mse_val |   seq_len |   label_len |   e_layers |   n_heads |   factor |   d_model |   d_ff |   d_layers |   dropout | hypothesis                                            |
|----------:|----------:|----------:|------------:|-----------:|----------:|---------:|----------:|-------:|-----------:|----------:|:------------------------------------------------------|
|    0.7833 |    0.8748 |        48 |          24 |          2 |        16 |        8 |       768 |   2048 |          1 |    0.0500 | nan                                                   |
|    0.7851 |    0.8132 |       720 |          48 |          3 |         8 |        3 |       512 |   3072 |          2 |    0.0500 | Данная конфигурация исследует, насколько эффективн... |
|    0.6810 |    0.6592 |        96 |          48 |          2 |        16 |        3 |       768 |   3072 |          1 |    0.0500 | Данная конфигурация исследует, может ли широкая, н... |
|    0.6029 |    0.5249 |        96 |          48 |          6 |        16 |       10 |       768 |   2048 |          3 |    0.2000 | Эта конфигурация максимизирует емкость (ширина и г... |


Для каждой конфигурации дай краткую гипотезу (1-2 предложения).

JSON: {"list_of_configs": [{"hypothesis": "<обоснование>", "seq_len": <>, "label_len": <>, "e_layers": <>, "n_heads": <>, "factor": <>, "d_model": <>, "d_ff": <>, "d_layers": <>, "dropout": <>}]}

In [2]:
scheme = call_llm(prompt, ListConfigs, temperature=0.7, thinking_budget=8192)
cfg = scheme[0]
pprint(cfg.model_dump())

{'e_layers': 2,
 'factor': 8,
 'hypothesis': 'Мы тестируем, может ли более высокий фактор (8) улучшить '
               'обобщение на оптимальном коротком контексте (48ч) и '
               'высокопараллельной/низкоглубинной архитектуре (2 слоя, 16 '
               'голов). Это проверяет, может ли более широкий, но быстрый '
               'отбор зависимостей обеспечить лучшее обобщение, чем '
               'сфокусированное внимание (factor 3/5).',
 'label_len': 24,
 'n_heads': 16,
 'seq_len': 48}


In [3]:
train_cfg = get_train_config(cfg, pred_len=24)
pprint(train_cfg.model_dump())

{'activation': 'gelu',
 'attn': 'prob',
 'batch_size': 32,
 'c_out': 1,
 'checkpoints': './informer_checkpoints',
 'd_ff': 2048,
 'd_layers': 1,
 'd_model': 512,
 'data': 'custom',
 'dec_in': 7,
 'des': 'llm_search',
 'detail_freq': 'h',
 'device_ids': [],
 'devices': '',
 'distil': True,
 'dropout': 0.05,
 'e_layers': 2,
 'embed': 'timeF',
 'enc_in': 7,
 'factor': 8,
 'features': 'MS',
 'freq': 'h',
 'gpu': None,
 'hypothesis': 'Мы тестируем, может ли более высокий фактор (8) улучшить '
               'обобщение на оптимальном коротком контексте (48ч) и '
               'высокопараллельной/низкоглубинной архитектуре (2 слоя, 16 '
               'голов). Это проверяет, может ли более широкий, но быстрый '
               'отбор зависимостей обеспечить лучшее обобщение, чем '
               'сфокусированное внимание (factor 3/5).',
 'itr': 1,
 'label_len': 24,
 'learning_rate': 0.0001,
 'loss': 'mse',
 'lradj': 'type1',
 'mix': True,
 'model': 'informer',
 'n_heads': 16,
 'num_workers': 

In [4]:
params_str = ' '.join(f"{k}={v}" for k, v in cfg.__dict__.items() if k != 'hypothesis')
print(f"[1/10] {params_str}", end=' ')
# [1/10] seq_len=48 label_len=24 e_layers=3 n_heads=16 factor=5
# [1/10] seq_len=48 label_len=24 e_layers=3 n_heads=16 factor=10 d_model=768 d_ff=3072 d_layers=1 dropout=0.1

[1/10] seq_len=48 label_len=24 e_layers=2 n_heads=16 factor=8 