In [1]:
import pandas as pd
from transformers import AutoTokenizer, Trainer, TrainingArguments, DataCollatorForLanguageModeling, LlamaForCausalLM, LlamaConfig, TrainerCallback
import torch
from torch.utils.data import Dataset, DataLoader
import math

In [None]:
import pandas as pd
from transformers import AutoTokenizer, Trainer, TrainingArguments, DataCollatorForLanguageModeling, LlamaForCausalLM, LlamaConfig, TrainerCallback
import torch
from torch.utils.data import Dataset, DataLoader
import math




import pandas as pd
from transformers import AutoTokenizer
import torch
import gc
from tqdm import tqdm

# Load Bengali Tokenizer
print("Loading tokenizer...")
tokenizer = AutoTokenizer.from_pretrained('/kaggle/input/eos-tokenizer')

# Load and preprocess Bengali text data from CSV in chunks
print("Loading and preprocessing text data from CSV...")
chunk_size = 1000  # Adjust based on available memory
context_length = 256

# Define a generator function to read and process chunks with a progress bar
def text_generator(file_path, tokenizer, context_length, chunk_size=1000):
    total_lines = sum(1 for _ in open(file_path)) - 1  # Total lines excluding header
    with tqdm(total=total_lines, desc="Processing CSV") as pbar:
        for chunk in pd.read_csv(file_path, chunksize=chunk_size):
            chunk['text'] = chunk['text'].apply(str)
            chunk['text'] = chunk['text'].apply(lambda x: f"{tokenizer.bos_token} {x} {tokenizer.eos_token}")
            
            # Tokenize each text in the chunk
            for text in chunk['text']:
                tokens = tokenizer.encode(text, add_special_tokens=True)
                for i in range(0, len(tokens), context_length):
                    pbar.update(1)  # Update the progress bar
                    yield tokens[i: i + context_length]

# Create a generator instance
tokens_generator = text_generator('/kaggle/input/bengali-news/news.csv', tokenizer, context_length)

# Convert the generator to a list (optional, only if you need to store it)
chunks = list(tokens_generator)

# Clear any unused memory
torch.cuda.empty_cache()
gc.collect()

print("Tokenization complete. Total chunks created:", len(chunks))


Loading tokenizer...
Loading and preprocessing text data from CSV...


Processing CSV: 143295it [01:58, 1213.65it/s]                          


Tokenization complete. Total chunks created: 143295


In [3]:
print(chunks[0])

[2, 11798, 9634, 9635, 1142, 7608, 5300, 2019, 1261, 14146, 1089, 3193, 8647, 13965, 26, 10156, 2627, 514, 17880, 4441, 7954, 1524, 1317, 15981, 4198, 3438, 6226, 1102, 1742, 2332, 13454, 14146, 1022, 1460, 4329, 2859, 2978, 1114, 3607, 2442, 552, 1246, 10077, 18685, 812, 1039, 23680, 1056, 1220, 4846, 6506, 523, 576, 4329, 545, 1805, 3268, 10770, 28532, 5677, 3073, 3456, 1317, 15981, 1799, 1027, 1442, 1742, 2332, 7640, 1116, 1410, 1742, 1241, 13454, 24674, 1317, 15981, 4198, 3438, 6226, 1102, 1742, 2332, 7640, 1116, 1442, 1742, 1241, 7640, 26, 14146, 1022, 3242, 1460, 4329, 2859, 2978, 3356, 19050, 10156, 2627, 14146, 9959, 20719, 4362, 2035, 2172, 7548, 1517, 1316, 1340, 2896, 14146, 1012, 4445, 1895, 26286, 1260, 1943, 20566, 13311, 1542, 15981, 7938, 7947, 1164, 1057, 7877, 7293, 5978, 7081, 1496, 1007, 3406, 19778, 10770, 24156, 514, 1133, 1967, 1375, 7648, 3883, 11430, 16074, 8067, 1402, 26, 4198, 3438, 7938, 1539, 20350, 15289, 1284, 14146, 1384, 1460, 4329, 545, 514, 15549, 427

In [4]:


# Dataset Class
print("Creating dataset class...")
class BengaliDataset(Dataset):
    def __init__(self, chunks):
        self.chunks = chunks

    def __len__(self):
        return len(self.chunks)

    def __getitem__(self, idx):
        input_ids = torch.tensor(self.chunks[idx], dtype=torch.long)
        attention_mask = torch.ones(len(input_ids), dtype=torch.long)  # All tokens are attended to

        # Padding
        padding_length = context_length - input_ids.size(0)
        if padding_length > 0:
            input_ids = torch.cat([input_ids, torch.zeros(padding_length, dtype=torch.long)])
            attention_mask = torch.cat([attention_mask, torch.zeros(padding_length, dtype=torch.long)])

        return {'input_ids': input_ids, 'attention_mask': attention_mask}

# Create Dataset
print("Splitting dataset into train and validation sets...")
bengali_dataset = BengaliDataset(chunks)
train_size = int(0.8 * len(bengali_dataset))
val_size = len(bengali_dataset) - train_size
train_dataset, val_dataset = torch.utils.data.random_split(bengali_dataset, [train_size, val_size])




def inspect_dataset(dataset, tokenizer, num_samples=5):
    for i in range(num_samples):
        sample = dataset[i]
        input_ids = sample['input_ids']
        attention_mask = sample['attention_mask']
        
        print(f"\nSample {i+1}:")
        print(f"Length: {len(input_ids)}")
        print(f"Non-padding tokens: {attention_mask.sum()}")
        print(f"Text: {tokenizer.decode(input_ids)}")

# Then call it on both datasets:
print("\nInspecting Training Dataset:")
inspect_dataset(train_dataset, tokenizer)

print("\nInspecting Validation Dataset:")
inspect_dataset(val_dataset, tokenizer)

Creating dataset class...
Splitting dataset into train and validation sets...

Inspecting Training Dataset:

Sample 1:
Length: 256
Non-padding tokens: 256
Text: ржХрж░рзЗржиред рждрж┐ржирж┐ ржмрж▓рзЗржи, тАЬржкрзНрж░рждрж┐ржжрж┐ржи ржкрзНрж░рж╛ржпрж╝ рзнрзж-рзорзж ржХрж╛ржк ржоржЯржХрж╛ ржЪрж╛ ржмрж┐ржХрзНрж░рж┐ ржХрж░рж╛ рж╣ржпрж╝ред рждржмрзЗ ржЫрзБржЯрж┐рж░ ржжрж┐ржи рж╣рж▓рзЗ ржмрж┐ржХрзНрж░рж┐ рззрзжрзж ржХрж╛ржк ржЫрж╛ржбрж╝рж┐ржпрж╝рзЗ ржпрж╛ржпрж╝ред рж╢рзАржд ржорзМрж╕рзБржорзЗ ржмрзЗржЪрж╛ржХрзЗржирж╛ ржмрзЗржбрж╝рзЗ ржпрж╛ржпрж╝редтАЭржмрж╛ржмрзБрж░ ржнрж╛рж╖рзНржп, тАЬржХрзБрж╖рзНржЯрж┐ржпрж╝рж╛ ржЬрзЗрж▓рж╛ржпрж╝ ржЖржорж┐ржЗ ржПржХржорж╛рждрзНрж░ ржоржЯржХрж╛ ржЪрж╛ ржмрж┐ржХрзНрж░рж┐ ржХрж░рж┐ред ржоржЯржХрж╛ ржЪрж╛ ржЦрзЗрждрзЗ ржкрзНрж░рж╛ржпрж╝ ржкрзНрж░рждрж┐ржжрж┐ржиржЗ ржЕржирзНржп ржЬрзЗрж▓рж╛ ржерзЗржХрзЗржУ ржЪрж╛ ржкрж┐ржкрж╛рж╕рзБрж░рж╛ ржЖрж╕рзЗржиредтАЭрждрж╛рж░ ржжрзЛржХрж╛ржирзЗ ржоржЯржХрж╛ ржЪрж╛ рждрзИрж░рж┐рждрзЗ ржжрзБржз-ржЪрж┐ржирж┐ ржЫрж╛ржбрж╝рж╛ 

In [5]:
# Model Configuration
print("Configuring Llama model...")
config = LlamaConfig(
    hidden_size=512,  # Adjust hidden size
    vocab_size=len(tokenizer.vocab),
    num_attention_heads=8,
    num_hidden_layers=8,
    intermediate_size=256,
    eos_token_id=tokenizer.eos_token_id,
    bos_token_id=tokenizer.bos_token_id,
    pad_token_id=tokenizer.pad_token_id
)
model = LlamaForCausalLM(config)

# Calculate and print total parameters
print("Calculating total parameters in the model...")
total_params = sum(p.numel() for p in model.parameters())
trainable_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
print(f"Total parameters: {total_params:,}")
print(f"Trainable parameters: {trainable_params:,}")

# Training Setup
print("Setting up training arguments and device...")
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

training_args = TrainingArguments(
    output_dir="./bengali_llama",
    evaluation_strategy="steps",
    eval_steps=1100,  # Evaluate every 500 steps
    logging_steps=100,
    per_device_train_batch_size=10,
    per_device_eval_batch_size=10,
    save_steps=1100,
    save_total_limit=1,
    report_to="none",
    num_train_epochs=6,
    do_train=True,
    do_eval=True
)
data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)


import math
# import wandb
from transformers import TrainerCallback

class PerplexityCallback(TrainerCallback):
    def __init__(self):
        self.perplexity_by_epoch = []  # List to store [epoch, perplexity] pairs

    def on_evaluate(self, args, state, control, metrics=None, **kwargs):
        if metrics and "eval_loss" in metrics:
            perplexity = math.exp(metrics["eval_loss"])
            # Store [epoch, perplexity] in the matrix
            self.perplexity_by_epoch.append([state.epoch, perplexity])
            # Log the perplexity to W&B
            print({"eval_perplexity": perplexity,"epoch":state.epoch})

    def on_log(self, args, state, control, logs=None, **kwargs):
        if "eval_loss" in logs:
            perplexity = math.exp(logs["eval_loss"])
            # Log the perplexity to W&B
            # wandb.log({"eval_perplexity": perplexity})
            print({"eval_perplexity": perplexity,"epoch":state.epoch})

    def on_train_end(self, args, state, control, **kwargs):
        # Print the matrix after training is done
        print("Epoch-Perplexity Matrix:")
        for epoch, perplexity in self.perplexity_by_epoch:
            print(f"Epoch: {epoch}, Perplexity: {perplexity}")






# Trainer with Perplexity Callback
print("Initializing Trainer...")
perplexity_callback = PerplexityCallback()
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=val_dataset,
    tokenizer=tokenizer,
    data_collator=data_collator,
    callbacks=[PerplexityCallback]
)

# Training
print("Starting training...")
trainer.train()

# Save Model and Tokenizer
print("Saving model and tokenizer...")
model.save_pretrained('/kaggle/input/outpu6')
tokenizer.save_pretrained('/kaggle/input/outpu6')
print("Training complete.")
# print("Perplexity Matrix:", perplexity_callback.perplexity_matrix)

Configuring Llama model...
Calculating total parameters in the model...
Total parameters: 45,098,496
Trainable parameters: 45,098,496
Setting up training arguments and device...




Initializing Trainer...
Starting training...


Step,Training Loss,Validation Loss
1100,8.1615,8.111774
2200,6.9839,6.993573
3300,6.4665,6.410713
4400,6.0492,6.037925
5500,5.782,5.763635
6600,5.546,5.54857
7700,5.375,5.376654
8800,5.2366,5.23568
9900,5.1449,5.123484
11000,5.032,5.018804


{'eval_perplexity': 3333.4878744890184, 'epoch': 0.09595254710397767}
{'eval_perplexity': 3333.4878744890184, 'epoch': 0.09595254710397767}
{'eval_perplexity': 1089.6079033185829, 'epoch': 0.19190509420795535}
{'eval_perplexity': 1089.6079033185829, 'epoch': 0.19190509420795535}
{'eval_perplexity': 608.3273829209174, 'epoch': 0.28785764131193303}
{'eval_perplexity': 608.3273829209174, 'epoch': 0.28785764131193303}
{'eval_perplexity': 419.0227621461282, 'epoch': 0.3838101884159107}
{'eval_perplexity': 419.0227621461282, 'epoch': 0.3838101884159107}
{'eval_perplexity': 318.5040397288412, 'epoch': 0.47976273551988835}
{'eval_perplexity': 318.5040397288412, 'epoch': 0.47976273551988835}
{'eval_perplexity': 256.8698866996486, 'epoch': 0.5757152826238661}
{'eval_perplexity': 256.8698866996486, 'epoch': 0.5757152826238661}
{'eval_perplexity': 216.2973644314433, 'epoch': 0.6716678297278437}
{'eval_perplexity': 216.2973644314433, 'epoch': 0.6716678297278437}
{'eval_perplexity': 187.856735378213

OSError: [Errno 30] Read-only file system: '/kaggle/input/outpu6/config.json'

In [38]:
# Testing Model Outputs for Bengali Prompts


print("Saving model and tokenizer...")
model.save_pretrained('/kaggle/working/outpu6')
tokenizer.save_pretrained('/kaggle/working/outpu6/tokenser')
print("Training complete.")
print("Testing model outputs for Bengali prompts...")
prompts = [
    "ржХрзГрж╖ржХрж░рж╛ ржЕржирзЗржХ рж╕ржорж╕рзНржпрж╛рж░ рж╕ржорзНржорзБржЦрзАржи рж╣ржпрж╝",
    "ржЕржирзЗржХ ржЙржирзНржиржпрж╝ржи ржХрж░рзНржоржХрж╛ржирзНржб ржпрзЗржоржи",
    "ржмржЩрзНржЧржмржирзНржзрзБ рж╢рзЗржЦ ржорзБржЬрж┐ржмрзБрж░ рж░рж╣ржорж╛ржи",
    "ржмрж╛ржВрж▓рж╛ржжрзЗрж╢рзЗрж░ ржХрзНрж░рж┐ржХрзЗржЯ ржжрж▓рзЗрж░ рж╕рж╛ржорзНржкрзНрж░рждрж┐ржХ ржкрж╛рж░ржлрж░ржорзНржпрж╛ржирзНрж╕ ржХрзЗржоржи",
    "ржПржХржЯрж┐ рж╕рзВрж░рзНржпрж╛рж╕рзНрждрзЗрж░ ржмрж░рзНржгржирж╛ ржжрж╛ржУ",
    "ржорж╣рж╛рж╕ржбрж╝ржХрзЗ ржорзЛржЯрж░рж╕рж╛ржЗржХрзЗрж▓ ржЪрж▓рж╛ржЪрж▓ ",
    "ржнрж╛рж░рждрзЗрж░ ржЙрждрзНрждрж░ ржкрзНрж░ржжрзЗрж╢рзЗ ржПржХ ржмрж┐рзЯрзЗрж░ ржЕржирзБрж╖рзНржарж╛ржирзЗ ",
    "ржкрж╛ржмрж▓рзЛ ржорж╛рж░рж┐рж░ ржУржкрж░ рж╣рж╛ржорж▓рж╛",
    "рж░тАМрзНржпрж╛ржмрж╕рж╣ рзлрзп ржЬржиржХрзЗ ржЙржжрзНржзрж╛рж░ ржХрж░рзЗржЫрзЗ",
    "ржПрж▓ржПржиржЬрж┐ ржЖржоржжрж╛ржирж┐ ржкрзБржирж░рж╛ржпрж╝ рж╢рзБрж░рзБ ржПржмржВ ржмрж┐ржХрж▓рзНржк ржЬрзНржмрж╛рж▓рж╛ржирж┐рж░"
]


for i, prompt in enumerate(prompts):
    print(f"Generating text for prompt {i+1}: {prompt}")
    inputs = tokenizer(prompt, return_tensors="pt").to(device)
    inputs.pop("token_type_ids", None)

    with torch.no_grad():
        outputs = model.generate(**inputs, max_new_tokens=200,do_sample=True,temperature=0.2)
    # print(outputs)
    generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)

    print(f"Prompt {i+1}: {prompt}")
    print(f"Output {i+1}: {generated_text}\n")

Saving model and tokenizer...
Training complete.
Testing model outputs for Bengali prompts...
Generating text for prompt 1: ржХрзГрж╖ржХрж░рж╛ ржЕржирзЗржХ рж╕ржорж╕рзНржпрж╛рж░ рж╕ржорзНржорзБржЦрзАржи рж╣ржпрж╝
Prompt 1: ржХрзГрж╖ржХрж░рж╛ ржЕржирзЗржХ рж╕ржорж╕рзНржпрж╛рж░ рж╕ржорзНржорзБржЦрзАржи рж╣ржпрж╝
Output 1: ржХрзГрж╖ржХрж░рж╛ ржЕржирзЗржХ рж╕ржорж╕рзНржпрж╛рж░ рж╕ржорзНржорзБржЦрзАржи рж╣ржпрж╝ ржирж╛редтАЭрждрж┐ржирж┐ ржЖрж░ржУ ржмрж▓рзЗржи, тАЬржПржЦржи ржкрж░рзНржпржирзНржд ржЖржорж░рж╛ ржкрзНрж░рж╛ржпрж╝ рззрзж рж▓рж╛ржЦ ржорж╛ржирзБрж╖ ржмрж┐ржжрзНржпрзБрзО ржЙрзОржкрж╛ржжржи ржХрж░рждрзЗ рж╕ржХрзНрж╖ржо рж╣ржЗредтАЭ 

Generating text for prompt 2: ржЕржирзЗржХ ржЙржирзНржиржпрж╝ржи ржХрж░рзНржоржХрж╛ржирзНржб ржпрзЗржоржи
Prompt 2: ржЕржирзЗржХ ржЙржирзНржиржпрж╝ржи ржХрж░рзНржоржХрж╛ржирзНржб ржпрзЗржоржи
Output 2: ржЕржирзЗржХ ржЙржирзНржиржпрж╝ржи ржХрж░рзНржоржХрж╛ржирзНржб ржпрзЗржоржи рж╣ржпрж╝ рждрзЗржоржирж┐ рждрж╛ржжрзЗрж░ржУ рж╣ржпрж╝рж░рж╛ржирж┐ ржХрж░рж╛ 

In [7]:
def generate_text(prompt, model, tokenizer, device, 
                 max_length=150,
                 temperature=0.8,
                 top_p=0.9,
                 top_k=50):
    """Generate text with controlled parameters"""
    inputs = tokenizer(prompt, 
                     return_tensors="pt",
                     padding=True,
                     truncation=True,
                     max_length=512).to(device)
    
    inputs.pop("token_type_ids", None)
    
    with torch.no_grad():
        outputs = model.generate(
            **inputs,
            max_length=max_length,
            temperature=temperature,
            top_p=top_p,
            top_k=top_k,
            do_sample=True,
            pad_token_id=tokenizer.pad_token_id,
            bos_token_id=tokenizer.bos_token_id,
            eos_token_id=tokenizer.eos_token_id,
            repetition_penalty=1.2
        )
    
    return tokenizer.decode(outputs[0], skip_special_tokens=True)

# Different parameter combinations to test
parameter_sets = [
    {"max_length": 30, "temperature": 0.6},   # Very conservative
    {"max_length": 50, "temperature": 0.7},   # Conservative
    {"max_length": 100, "temperature": 0.8},  # Balanced
    {"max_length": 150, "temperature": 0.9},  # Creative
    {"max_length": 200, "temperature": 1.0},  # Very creative
]

# Diverse prompts across different categories
prompts = [
    # Short Questions/Conversations
    "рждрзЛржорж╛рж░ ржирж╛ржо ржХрж┐?",
    "ржХрзЗржоржи ржЖржЫрзЛ?",
    "ржЖржЬ ржХрж┐ ржЦрзЗржпрж╝рзЗржЫрзЛ?",
    
    # Personal Descriptions
    "ржирж┐ржЬрзЗрж░ рж╕ржорзНржкрж░рзНржХрзЗ ржХрж┐ржЫрзБ ржмрж▓рзЛ",
    "рждрзЛржорж╛рж░ ржкржЫржирзНржжрзЗрж░ рж░ржВ ржХрж┐ ржПржмржВ ржХрзЗржи?",
    "рждрзЛржорж╛рж░ ржкрзНрж░рж┐ржпрж╝ ржЦрзЗрж▓рж╛ ржХрж┐?",
    
    # Creative Writing Prompts
    "ржПржХржЯрж┐ рж╕рзВрж░рзНржпрж╛рж╕рзНрждрзЗрж░ ржмрж░рзНржгржирж╛ ржжрж╛ржУ",
    "ржмрж░рзНрж╖рж╛рж░ ржкрзНрж░ржержо ржжрж┐ржирзЗрж░ ржЧрж▓рзНржк рж▓рзЗржЦрзЛ",
    "ржПржХржЯрж┐ ржкрзНрж░рзЗржорзЗрж░ ржХржмрж┐рждрж╛ рж▓рзЗржЦрзЛ",
    
    # Academic/Educational
    "ржмрж╛ржВрж▓рж╛ржжрзЗрж╢рзЗрж░ рж╕рзНржмрж╛ржзрзАржирждрж╛ ржпрзБржжрзНржз рж╕ржорзНржкрж░рзНржХрзЗ рж▓рзЗржЦрзЛ",
    "ржЧрзНрж▓рзЛржмрж╛рж▓ ржУржпрж╝рж╛рж░рзНржорж┐ржВ ржХрж┐ ржПржмржВ ржПрж░ ржкрзНрж░ржнрж╛ржм ржХрж┐?",
    "рж░ржмрзАржирзНржжрзНрж░ржирж╛рже ржарж╛ржХрзБрж░рзЗрж░ рж╕рж╛рж╣рж┐рждрзНржпрж┐ржХ ржЕржмржжрж╛ржи ржХрж┐?",
    
    # Instructions/How-to
    "ржЗрж▓рж┐рж╢ ржорж╛ржЫ рж░рж╛ржирзНржирж╛рж░ рж░рзЗрж╕рж┐ржкрж┐ рж▓рзЗржЦрзЛ",
    "ржЧрж╛ржбрж╝рж┐ ржЪрж╛рж▓рж╛ржирзЛ рж╢рзЗржЦрж╛рж░ ржЯрж┐ржкрж╕ ржжрж╛ржУ",
    "ржлрзЗрж╕ржмрзБржХ ржЕрзНржпрж╛ржХрж╛ржЙржирзНржЯ ржЦрзЛрж▓рж╛рж░ ржирж┐ржпрж╝ржо ржмрж▓рзЛ",
    
    # Opinion/Analysis
    "рж╕рзЛрж╢рзНржпрж╛рж▓ ржорж┐ржбрж┐ржпрж╝рж╛рж░ ржкрзНрж░ржнрж╛ржм ржХрж┐?",
    "ржЖржзрзБржирж┐ржХ рж╢рж┐ржХрзНрж╖рж╛ ржмрзНржпржмрж╕рзНржерж╛рж░ ржнрж╛рж▓рзЛ-ржоржирзНржж ржжрж┐ржХ ржЖрж▓рзЛржЪржирж╛ ржХрж░рзЛ",
    "ржЬрж▓ржмрж╛ржпрж╝рзБ ржкрж░рж┐ржмрж░рзНрждржи ржорзЛржХрж╛ржмрзЗрж▓рж╛ржпрж╝ ржЖржорж╛ржжрзЗрж░ ржХрж░ржгрзАржпрж╝ ржХрж┐?",
    
    # Business/Professional
    "ржПржХржЯрж┐ ржЬржм ржЗржирзНржЯрж╛рж░ржнрж┐ржЙ ржПрж░ ржкрзНрж░рж╕рзНрждрзБрждрж┐ ржХрж┐ржнрж╛ржмрзЗ ржирзЗржмрзЗржи?",
    "рж╕рзНржЯрж╛рж░рзНржЯржЖржк рж╢рзБрж░рзБ ржХрж░рж╛рж░ ржЬржирзНржп ржХрж┐ ржХрж┐ ржкрзНрж░ржпрж╝рзЛржЬржи?",
    "ржПржХржЯрж┐ ржкрзНрж░ржлрзЗрж╢ржирж╛рж▓ ржЗржорзЗржЗрж▓ рж▓рзЗржЦрж╛рж░ ржирж┐ржпрж╝ржо ржХрж┐?",
    
    # Cultural/Traditional
    "ржкрж╣рзЗрж▓рж╛ ржмрзИрж╢рж╛ржЦ ржЙржжржпрж╛ржкржи ржХрж┐ржнрж╛ржмрзЗ ржХрж░рж╛ рж╣ржпрж╝?",
    "ржмрж╛ржВрж▓рж╛ржжрзЗрж╢рзЗрж░ ржРрждрж┐рж╣рзНржпржмрж╛рж╣рзА ржЦрж╛ржмрж╛рж░ ржЧрзБрж▓рзЛ ржХрж┐ ржХрж┐?",
    "рж╢рзБржн ржмрж┐ржмрж╛рж╣рзЗрж░ ржЖржЪрж╛рж░-ржЕржирзБрж╖рзНржарж╛ржи ржЧрзБрж▓рзЛ ржХрж┐ ржХрж┐?",
    
    # Scientific/Technical
    "ржХрзГрждрзНрж░рж┐ржо ржмрзБржжрзНржзрж┐ржорждрзНрждрж╛ ржХрж┐ржнрж╛ржмрзЗ ржХрж╛ржЬ ржХрж░рзЗ?",
    "ржЗржирзНржЯрж╛рж░ржирзЗржЯ ржХрж┐ржнрж╛ржмрзЗ ржХрж╛ржЬ ржХрж░рзЗ?",
    "рж╕рзМрж░ржЬржЧрзО рж╕ржорзНржкрж░рзНржХрзЗ ржПржХржЯрж┐ ржмрзИржЬрзНржЮрж╛ржирж┐ржХ ржмрзНржпрж╛ржЦрзНржпрж╛ ржжрж╛ржУ",
    
    # News/Current Affairs
    "ржмрж░рзНрждржорж╛ржи ржмрж┐рж╢рзНржмрзЗрж░ ржкрзНрж░ржзрж╛ржи рж╕ржорж╕рзНржпрж╛ржЧрзБрж▓рзЛ ржХрж┐ ржХрж┐?",
    "ржбрж┐ржЬрж┐ржЯрж╛рж▓ ржмрж╛ржВрж▓рж╛ржжрзЗрж╢рзЗрж░ ржЕржЧрзНрж░ржЧрждрж┐ ржХрзЗржоржи?",
    "ржХрж░рзЛржирж╛ ржорж╣рж╛ржорж╛рж░рзА ржерзЗржХрзЗ ржХрж┐ рж╢рж┐ржХрзНрж╖рж╛ ржкрзЗрж▓рж╛ржо?",
    
    # Health/Medical
    "рж╕рзНржмрж╛рж╕рзНржерзНржпржХрж░ ржЬрзАржмржиржпрж╛ржкржирзЗрж░ ржирж┐ржпрж╝ржо ржХрж┐ ржХрж┐?",
    "ржбрж╛ржпрж╝рж╛ржмрзЗржЯрж┐рж╕ ржкрзНрж░рждрж┐рж░рзЛржзрзЗ ржХрж░ржгрзАржпрж╝ ржХрж┐?",
    "ржорж╛ржирж╕рж┐ржХ рж╕рзНржмрж╛рж╕рзНржерзНржп рж░ржХрзНрж╖рж╛рж░ ржЙржкрж╛ржпрж╝ ржХрж┐?",

       # **Basic QA (Question Answering)**
    "ржмрж╛ржВрж▓рж╛ржжрзЗрж╢рзЗрж░ ржЬрж╛рждрзАржпрж╝ ржлрзБрж▓ ржХрзА?",
    "ржиржжрзАрж░ ржирж╛ржорзЗрж░ ржоржзрзНржпрзЗ тАШржЧржЩрзНржЧрж╛тАЩ ржХрзЛржерж╛ржпрж╝ ржЕржмрж╕рзНржерж┐ржд?",
    "ржмрж┐рж╢рзНржмржмрж┐ржжрзНржпрж╛рж▓ржпрж╝ ржХржмрзЗ ржкрзНрж░рждрж┐рж╖рзНржарж┐ржд рж╣ржпрж╝рзЗржЫрж┐рж▓?",
    "ржХрзЗржи ржоржзрзБ ржорж╛ржЦрж╛рж░ ржЬржирзНржп ржорзМржорж╛ржЫрж┐ ржкрзНрж░ржпрж╝рзЛржЬржи?",
    
    # **Completion Prompts**
    "ржПржЗ рж▓рзЗржЦрж╛ржЯрж┐ рж╕ржорзНржкрзВрж░рзНржг ржХрж░рзБржи: 'ржПржХржЯрж┐ рж╢рж┐рж╢рзБрж░ рж╕ржмржЪрзЗржпрж╝рзЗ ржнрж╛рж▓рзЛ ржмржирзНржзрзБ рж╣рж▓...'",
    "рж╢рзЗрж╖ ржмрж╛ржХрзНржпржЯрж┐ ржкрзВрж░рзНржг ржХрж░рзБржи: 'ржПржЯрж┐ ржПржХржЯрж┐ рж╕рзБржирзНржжрж░ рж╕ржХрж╛рж▓, ржЖржХрж╛рж╢рзЗ...'",
    
    # **Explain**
    "ржнрзЛржХрж╛рж▓ ржХрж░рзНржб ржХрзА ржПржмржВ ржПржЯрж┐ ржХрж┐ржнрж╛ржмрзЗ ржХрж╛ржЬ ржХрж░рзЗ?",
    "рж╕ржВржмрж┐ржзрж╛ржи ржХрзА ржПржмржВ ржПрж░ ржЧрзБрж░рзБрждрзНржм ржХрж┐?",
    "ржбрж┐ржЬрж┐ржЯрж╛рж▓ ржорж╛рж░рзНржХрзЗржЯрж┐ржВ ржХрзА ржПржмржВ ржПрж░ ржмрж┐ржнрж┐ржирзНржи ржЙржкрж╛ржжрж╛ржи ржХрж┐?",
    
    # **Conversational Prompts**
    "ржЖржкржирж┐ ржХрж┐ ржХржЦржирзЛ рж╕ржЩрзНржЧрзАржд рж╢рзБржирждрзЗ ржнрж╛рж▓рзЛржмрж╛рж╕рзЗржи? ржЖржкржирж╛рж░ ржкрзНрж░рж┐ржпрж╝ ржЧрж╛ржи ржХрзА?",
    "ржЖржЬржХрж╛рж▓ ржЖржкржирж┐ ржХрзАржнрж╛ржмрзЗ ржЖржкржирж╛рж░ рж╕ржоржпрж╝ ржХрж╛ржЯрж╛ржи? ржЖржорж╛рж░ рж╕рж╛ржерзЗ ржХрж┐ржЫрзБ рж╢рзЗржпрж╝рж╛рж░ ржХрж░рждрзЗ ржЪрж╛ржи?",
    
    # **Creative Writing Prompts**
    "ржПржХржЯрж┐ ржХрж╛рж▓рзНржкржирж┐ржХ рж╢рж╣рж░рзЗрж░ ржмрж░рзНржгржирж╛ ржжрж┐ржи ржпрзЗржЦрж╛ржирзЗ ржкрзНрж░ржпрзБржХрзНрждрж┐ ржПржмржВ ржкрзНрж░ржХрзГрждрж┐ ржПржХрж╕рж╛ржерзЗ ржХрж╛ржЬ ржХрж░рзЗред",
    "ржПржХржЯрж┐ рж░рзЛржорж╛ржЮрзНржЪржХрж░ ржЙржкржирзНржпрж╛рж╕рзЗрж░ рж╢рзБрж░рзБрж░ ржЕржВрж╢ рж▓рж┐ржЦрзБржи ржпрзЗржЦрж╛ржирзЗ ржПржХржЬржи ржЕржзрзНржпрж╛ржкржХ рж░рж╣рж╕рзНржпржоржпрж╝ ржмржЗ ржЖржмрж┐рж╖рзНржХрж╛рж░ ржХрж░рзЗржиред",
    "ржмрзГрж╖рзНржЯрж┐рж░ ржжрж┐ржирзЗ ржПржХржорж╛рждрзНрж░ рж╕рзНржХрзБрж▓рзЗ ржпрж╛ржУржпрж╝рж╛ ржЫрж╛рждрзНрж░ржЯрж┐рж░ ржЕржирзБржнрзВрждрж┐ ржмрж░рзНржгржирж╛ ржХрж░рзБржиред",
    
    # **Task-Oriented Prompts**
    "ржЖржЬржХрзЗрж░ ржЖржмрж╣рж╛ржУржпрж╝рж╛ ржпржжрж┐ ржмрзГрж╖рзНржЯрж┐ рж╣ржпрж╝, рждржмрзЗ ржЖржорж╛ржХрзЗ ржХрзА ржкрзНрж░рж╕рзНрждрзБрждрж┐ ржирзЗржУржпрж╝рж╛ ржЙржЪрж┐ржд?",
    "ржЖржорж┐ ржХрзАржнрж╛ржмрзЗ ржПржХржЯрж┐ ржнрж╛рж▓ рж░рзЛржЬржЧрж╛рж░рзЗрж░ ржкрж░рж┐ржХрж▓рзНржкржирж╛ рждрзИрж░рж┐ ржХрж░рждрзЗ ржкрж╛рж░рж┐?",
    
    # **Philosophical/Reflective Prompts**
    "ржЬрзАржмржирзЗрж░ ржЕрж░рзНрже ржХрзА рж╣рждрзЗ ржкрж╛рж░рзЗ?",
    "ржЖржкржирж╛рж░ ржЬрзАржмржирзЗрж░ рж╕ржмржЪрзЗржпрж╝рзЗ ржмржбрж╝ рж╢рж┐ржХрзНрж╖рж╛ ржХрзА?",
    
    # **Explanatory Tasks**
    "ржЖржкржирж┐ ржХрзАржнрж╛ржмрзЗ ржПржХржЯрж┐ рж╕рж╛ржзрж╛рж░ржг ржкрзНрж░рзЛржЧрзНрж░рж╛ржорж┐ржВ ржнрж╛рж╖рж╛ рж╢рж┐ржЦрждрзЗ ржкрж╛рж░рзЗржи?",
    "ржХржорзНржкрж┐ржЙржЯрж╛рж░ рж╕рж┐рж╕рзНржЯрзЗржорзЗ RAM ржПржмржВ ROM ржПрж░ ржоржзрзНржпрзЗ ржкрж╛рж░рзНржержХрзНржп ржмрзНржпрж╛ржЦрзНржпрж╛ ржХрж░рзБржиред",
    
    # **Opinion-Based Prompts**
    "ржЖржкржирж┐ ржХрзА ржоржирзЗ ржХрж░рзЗржи, ржорж╛ржирзБрж╖рзЗрж░ ржЬржирзНржп ржкрзНрж░ржпрзБржХрзНрждрж┐ ржХрждржЯрж╛ ржЙржкржХрж╛рж░рзА ржмрж╛ ржХрзНрж╖рждрж┐ржХрж░?",
    "ржЖржкржирж╛рж░ ржорждрзЗ, ржкржбрж╝рж╛рж╢рзЛржирж╛ рж╢рзЗрж╖ ржХрж░рж╛рж░ ржкрж░ ржЬрзАржмржирзЗрж░ ржкрзНрж░ржержо рж╕рж┐ржжрзНржзрж╛ржирзНржд ржХрзА рж╣ржУржпрж╝рж╛ ржЙржЪрж┐ржд?",
    
    # **Fact-Based Prompts**
    "ржирзЗржкржЪрзБржи ржЧрзНрж░рж╣рзЗрж░ ржмрж┐рж╢рзЗрж╖рждрзНржм ржХрзА?",
    "ржЖржЗржлрзЗрж▓ ржЯрж╛ржУржпрж╝рж╛рж░ ржХржмрзЗ ржПржмржВ ржХрзЛржерж╛ржпрж╝ ржирж┐рж░рзНржорж┐ржд рж╣ржпрж╝рзЗржЫрж┐рж▓?",
    
    # **Descriptive Prompts**
    "ржПржХржЯрж┐ рж╕рж░рж┐рж╖рж╛ржХрзНрж╖рзЗрждрзЗрж░ ржжрзГрж╢рзНржп ржмрж░рзНржгржирж╛ ржХрж░рзБржи ржпрж╛ рж╕рж╛рж░рж╛ ржкрзГржерж┐ржмрзА ржЬрзБржбрж╝рзЗ ржмрж┐ржЦрзНржпрж╛рждред",
    "ржПржХржЯрж┐ рж╢рж╛ржирзНрждрж┐ржкрзВрж░рзНржг ржЧрзНрж░рж╛ржорзЗрж░ ржПржХржЯрж┐ рж╕ржХрж╛рж▓рзЗ рж╣рзЗржБржЯрзЗ ржпрж╛ржУржпрж╝рж╛ ржмрзНржпржХрзНрждрж┐рж░ ржЕржнрж┐ржЬрзНржЮрждрж╛ ржмрж░рзНржгржирж╛ ржХрж░рзБржиред",
    
    # **Comparative Prompts**
    "ржмрж╛ржЩрж╛рж▓рж┐ ржЦрж╛ржмрж╛рж░ ржПржмржВ ржнрж╛рж░рждрзАржпрж╝ ржЦрж╛ржмрж╛рж░рзЗрж░ ржоржзрзНржпрзЗ ржХрзА ржХрзА ржкрж╛рж░рзНржержХрзНржп ржЖржЫрзЗ?",
    "ржЗржЙрж░рзЛржкрзАржпрж╝ рж╕ржВрж╕рзНржХрзГрждрж┐ ржПржмржВ ржПрж╢рзАржпрж╝ рж╕ржВрж╕рзНржХрзГрждрж┐рж░ ржоржзрзНржпрзЗ ржкрзНрж░ржзрж╛ржи ржкрж╛рж░рзНржержХрзНржп ржХрзА?",
    
    # **Jokes or Light Conversation**
    "ржПржХржЯрж┐ ржоржЬрж╛рж░ ржЧрж▓рзНржк ржмрж▓рзБржиред",
    "ржЖржкржирж╛рж░ ржХрж╛ржЫрзЗ ржХрзЛржирзЛ ржоржЬрж╛рж░ ржХрзМрждрзБржХ ржерж╛ржХрж▓рзЗ рждрж╛ рж╢рзЗржпрж╝рж╛рж░ ржХрж░рзБржиред",
    
    # **Role-Playing Prompts**
    "ржЖржкржирж┐ ржпржжрж┐ ржПржХржЯрж┐ рж░рзЗрж╕рзНрждрзЛрж░рж╛ржБрж░ ржорзНржпрж╛ржирзЗржЬрж╛рж░ рж╣рждрзЗржи, рждржмрзЗ ржЖржкржирж╛рж░ ржкрзНрж░ржержо ржХрж╛ржЬ ржХрзА рж╣рждрзЛ?",
    "ржЖржкржирж┐ ржпржжрж┐ ржПржХржЯрж┐ рж░рж╣рж╕рзНржп рж╕ржорж╛ржзрж╛ржиржХрж╛рж░рзА detective рж╣рждрзЗржи, ржЖржкржирж╛рж░ ржкрзНрж░ржержо рждржжржирзНржд ржХрзА рж╣рждрзЛ?",
    
    # **Hypothetical Situation**
    "ржЖржкржирж┐ ржпржжрж┐ рззрзжрзж ржХрзЛржЯрж┐ ржЯрж╛ржХрж╛ ржкрзЗрждрзЗржи, рждржмрзЗ ржЖржкржирж┐ ржХрзАржнрж╛ржмрзЗ рждрж╛ ржмрзНржпржпрж╝ ржХрж░рждрзЗржи?",
    "ржпржжрж┐ ржЖржкржирж┐ ржХрзЛржирзЛ рж╕ржоржпрж╝рзЗ ржлрж┐рж░рзЗ ржпрзЗрждрзЗ ржкрж╛рж░рждрзЗржи, рждржмрзЗ ржЖржкржирж┐ ржХрзЛржерж╛ржпрж╝ ржпрзЗрждрзЗржи?",
    
    # **Advice Requests**
    "ржХрзАржнрж╛ржмрзЗ ржирж┐ржЬрзЗржХрзЗ ржПржХржЯрж┐ ржирждрзБржи ржкрж░рж┐ржмрзЗрж╢рзЗ ржорж╛ржирж┐ржпрж╝рзЗ ржирж┐рждрзЗ ржкрж╛рж░рзЗржи?",
    "ржХрзАржнрж╛ржмрзЗ ржЖрждрзНржоржмрж┐рж╢рзНржмрж╛рж╕ рждрзИрж░рж┐ ржХрж░ржмрзЗржи?"
]

print("Testing model outputs with different parameters...\n")

for i, prompt in enumerate(prompts, 1):
    print(f"\nPrompt {i}: {prompt}")
    print("=" * 80)  # Separator
    
    # Test each parameter combination
    for params in parameter_sets:
        print(f"\nParameters: max_length={params['max_length']}, temperature={params['temperature']}")
        print("-" * 40)
        
        generated_text = generate_text(
            prompt=prompt,
            model=model,
            tokenizer=tokenizer,
            device=device,
            max_length=params['max_length'],
            temperature=params['temperature']
        )
        
        print(f"Output: {generated_text}")
        # Print token count for comparison
        token_count = len(tokenizer.encode(generated_text))
        print(f"Token count: {token_count}")
        print("-" * 80)

    print("\n" + "=" * 80 + "\n")  # Separator between prompts

Testing model outputs with different parameters...


Prompt 1: рждрзЛржорж╛рж░ ржирж╛ржо ржХрж┐?

Parameters: max_length=30, temperature=0.6
----------------------------------------
Output: рждрзЛржорж╛рж░ ржирж╛ржо ржХрж┐? ржПржЯрж╛ ржЖржорж╛рж░ ржХрж╛ржЫрзЗ ржоржирзЗ рж╣ржпрж╝рзЗржЫрзЗ ржпрзЗ ржЖржорж┐ рж╕ржмрж╕ржоржпрж╝ ржЖржЫрж┐редтАЭтАЬржЖржорж┐ ржЖржорж╛рж░ ржмрж┐рж╢рзНржмрж╛рж╕ржХрзЗ ржмрж▓рждрзЗ ржЪрж╛ржЗ, тАЬржПржЯрж╛ ржЖржорж╛ржХрзЗ ржжрзЗржЦрзЗ ржмрж▓рзЗржЫрж┐,
Token count: 29
--------------------------------------------------------------------------------

Parameters: max_length=50, temperature=0.7
----------------------------------------
Output: рждрзЛржорж╛рж░ ржирж╛ржо ржХрж┐?тАЭржПрж░ ржЖржЧрзЗ ржЧржд рж╕ржкрзНрждрж╛рж╣рзЗ тАЬржЖржжрж┐ржкрзБрж░рзБрж╖тАЭ рж╕рж┐ржирзЗржорж╛ржЯрж┐ ржирж┐рж░рзНржорж╛ржг ржХрж░рж╛ рж╣ржпрж╝рзЗржЫрж┐рж▓ред ржХрж┐ржирзНрждрзБ рж╕рзЗржЗ ржЫржмрж┐ржЯрж┐ ржжрж░рзНрж╢ржХржХрзЗ рж╕рж╛ржоржирзЗ рж░рзЗржЦрзЗ рж╕рж┐ржирзЗржорж╛ржЯрж┐ржХрзЗ тАЬржкрж╛рж