In [5]:
import torch

from transformers import AutoModelForCausalLM, AutoTokenizer
from transformers import Trainer, TrainingArguments
from flash_attn import flash_attn_qkvpacked_func, flash_attn_func

model_name = 'huggyllama/llama-7b'

tokenizer = AutoTokenizer.from_pretrained(model_name)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"
model = AutoModelForCausalLM.from_pretrained(
    model_name, 
    torch_dtype=torch.bfloat16, 
    device_map="auto",
    use_flash_attention_2=True
)

The model was loaded with use_flash_attention_2=True, which is deprecated and may be removed in a future release. Please use `attn_implementation="flash_attention_2"` instead.


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

In [7]:
model

LlamaForCausalLM(
  (model): LlamaModel(
    (embed_tokens): Embedding(32000, 4096, padding_idx=0)
    (layers): ModuleList(
      (0-31): 32 x LlamaDecoderLayer(
        (self_attn): LlamaFlashAttention2(
          (q_proj): Linear(in_features=4096, out_features=4096, bias=False)
          (k_proj): Linear(in_features=4096, out_features=4096, bias=False)
          (v_proj): Linear(in_features=4096, out_features=4096, bias=False)
          (o_proj): Linear(in_features=4096, out_features=4096, bias=False)
          (rotary_emb): LlamaRotaryEmbedding()
        )
        (mlp): LlamaMLP(
          (gate_proj): Linear(in_features=4096, out_features=11008, bias=False)
          (up_proj): Linear(in_features=4096, out_features=11008, bias=False)
          (down_proj): Linear(in_features=11008, out_features=4096, bias=False)
          (act_fn): SiLU()
        )
        (input_layernorm): LlamaRMSNorm()
        (post_attention_layernorm): LlamaRMSNorm()
      )
    )
    (norm): LlamaRMSNorm()

In [9]:
from datasets import load_dataset 
# dataset names in low-case
task_name = ["simplear", 
             "rwsd", 
             "rumultiar", 
             "rumodar", 
             "rutie", 
             "rummlu", 
             "ruhumaneval", 
             "ruhatespeech", 
             "rcb", 
             "lcs", 
             "bps", 
             "rudetox", 
             "ruethics", 
             "ruhhh", 
             "use", 
             "parus", 
             "mathlogicqa", 
             "ruopenbookqa", 
             "ruworldtree", 
             "multiq", 
             "chegeka"]

i = 5
DATASET_PATH = "ai-forever/MERA"
DATASET_NAME = f"{task_name[i]}"
df = load_dataset(DATASET_PATH, 
                  DATASET_NAME, download_mode="force_redownload")

Downloading readme:   0%|          | 0.00/135k [00:00<?, ?B/s]

Downloading data files:   0%|          | 0/2 [00:00<?, ?it/s]

Downloading data:   0%|          | 0.00/13.3M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/845k [00:00<?, ?B/s]

Extracting data files:   0%|          | 0/2 [00:00<?, ?it/s]

Generating train split:   0%|          | 0/10033 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/961 [00:00<?, ? examples/s]

In [10]:
df

DatasetDict({
    train: Dataset({
        features: ['instruction', 'inputs', 'outputs', 'meta'],
        num_rows: 10033
    })
    test: Dataset({
        features: ['instruction', 'inputs', 'outputs', 'meta'],
        num_rows: 961
    })
})

In [11]:
df['train'].to_pandas().head(4)

Unnamed: 0,instruction,inputs,outputs,meta
0,Задание содержит вопрос по теме {subject} и 4 ...,{'text': 'В какой из этих двух ситуаций действ...,B,"{'domain': 'moral_scenarios', 'id': 0}"
1,Задание содержит вопрос по теме {subject} и 4 ...,{'text': 'В какой из этих двух ситуаций действ...,C,"{'domain': 'moral_scenarios', 'id': 1}"
2,Ниже приведен вопрос на определенную профессио...,{'text': 'В какой из этих двух ситуаций действ...,C,"{'domain': 'moral_scenarios', 'id': 2}"
3,Найдите правильный ответ на вопрос по теме {su...,{'text': 'В какой из этих двух ситуаций действ...,A,"{'domain': 'moral_scenarios', 'id': 3}"


In [12]:
doc = df['train'].to_pandas().loc[300]
prompt = doc["instruction"].format(**doc["inputs"])

In [13]:
# rummlu evaluation by domain:
domain = doc["meta"]["domain"]
domain

'professional_medicine'

In [14]:
# model query
print(prompt)

Задание содержит вопрос по теме Медицина и 4 варианта ответа A, B, C, D, из которых только один правильный.
4-летнего мальчика доставили к врачу из-за температуры до 39,4°C (102,9°F) в течение 8 дней. Обследование показывает переднюю шейную лимфаденопатию, двусторонний неэкссудативный конъюнктивит, земляничный язык, эритематозную сыпь на туловище и отек кистей и стоп. Какая из перечисленных ниже фармакотерапий является наиболее подходящей для предотвращения осложнений этого заболевания?
A Внутривенное введение иммуноглобулина
B Пенициллин для внутривенного введения
C Внутривенное введение преднизолона
D Пероральный изониазид
Запишите букву правильного ответа
Ответ:


In [None]:
doc["meta"]["domain"]

In [22]:
device = 'cuda'

In [28]:
tokens = torch.tensor(tokenizer(prompt)['input_ids']).long().unsqueeze(0).to(device)
out = model.generate(tokens).to(device)

In [32]:
print(tokenizer.decode(out[0]))

<s> Задание содержит вопрос по теме Медицина и 4 варианта ответа A, B, C, D, из которых только один правильный.
4-летнего мальчика доставили к врачу из-за температуры до 39,4°C (102,9°F) в течение 8 дней. Обследование показывает переднюю шейную лимфаденопатию, двусторонний неэкссудативный конъюнктивит, земляничный язык, эритематозную сыпь на туловище и отек кистей и стоп. Какая из перечисленных ниже фармакотерапий является наиболее подходящей для предотвращения осложнений этого заболевания?
A Внутривенное введение иммуноглобулина
B Пенициллин для внутривенного введения
C Внутривенное введение преднизолона
D Пероральный изониазид
Запишите букву правильного ответа
Ответ: C


In [61]:
from src.dataset import MERA_dataset

In [62]:
data = MERA_dataset(df)

KeyError: 'prompt'