In [1]:
import os
import torch
from datasets import load_dataset
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    BitsAndBytesConfig,
    HfArgumentParser,
    TrainingArguments,
    pipeline,
    logging,
)
from peft import LoraConfig, PeftModel
from trl import SFTTrainer

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
model_name = 'NousResearch/Nous-Hermes-llama-2-7b'
device_map = {"": 0}
use_4bit = True
# Compute dtype for 4-bit base models
bnb_4bit_compute_dtype = "float16"
# Quantization type (fp4 or nf4)
bnb_4bit_quant_type = "nf4"
# Activate nested quantization for 4-bit base models (double quantization)
use_nested_quant = False
compute_dtype = getattr(torch, bnb_4bit_compute_dtype)
bnb_config = BitsAndBytesConfig(
        load_in_4bit=use_4bit,
        bnb_4bit_quant_type=bnb_4bit_quant_type,
        bnb_4bit_compute_dtype=compute_dtype,
        bnb_4bit_use_double_quant=use_nested_quant,
)
    # Load base model
model = AutoModelForCausalLM.from_pretrained(
        model_name,
        quantization_config=bnb_config,
        device_map=device_map
)
model.config.use_cache = False
model.config.pretraining_tp = 1
# Load LLaMA tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right" # Fix weird overflow issue with fp16 training


Downloading pytorch_model.bin: 100%|██████████| 13.5G/13.5G [25:59<00:00, 8.64MB/s]  
Some weights of LlamaForCausalLM were not initialized from the model checkpoint at NousResearch/Nous-Hermes-llama-2-7b and are newly initialized: ['model.layers.8.self_attn.rotary_emb.inv_freq', 'model.layers.15.self_attn.rotary_emb.inv_freq', 'model.layers.21.self_attn.rotary_emb.inv_freq', 'model.layers.20.self_attn.rotary_emb.inv_freq', 'model.layers.0.self_attn.rotary_emb.inv_freq', 'model.layers.6.self_attn.rotary_emb.inv_freq', 'model.layers.22.self_attn.rotary_emb.inv_freq', 'model.layers.10.self_attn.rotary_emb.inv_freq', 'model.layers.29.self_attn.rotary_emb.inv_freq', 'model.layers.25.self_attn.rotary_emb.inv_freq', 'model.layers.26.self_attn.rotary_emb.inv_freq', 'model.layers.24.self_attn.rotary_emb.inv_freq', 'model.layers.18.self_attn.rotary_emb.inv_freq', 'model.layers.27.self_attn.rotary_emb.inv_freq', 'model.layers.13.self_attn.rotary_emb.inv_freq', 'model.layers.11.self_attn.rotary_e

In [9]:
prompt = f"""
Answer the question.
Question: من میخواهم برای کارم از کامپیوتر استفاده کنم. چطور میتوانم این کار را انجام بدهم؟
"""
# question = ''
logging.set_verbosity(logging.CRITICAL)

# Run text generation pipeline with our next model
pipe = pipeline(task="text-generation", model=model, tokenizer=tokenizer, max_length=500)
result = pipe(f"### Instruction: {prompt} \n### Response:\n ")
print(result[0]['generated_text'])

### Instruction: 
Answer the question.
Question: من میخواهم برای کارم از کامپیوتر استفاده کنم. چطور میتوانم این کار را انجام بدهم؟
 
### Response:
 برای استفاده از کامپیوتر برای کار اولین اینکه باید از یک محیط اجاره یا محل کار استفاده کنید. با استفاده از اینترنت و انتشارات محلی و نتیجه گیری از انتشار محلی و اینترنتی میتوانید به کار را انجام بدهید. با استفاده از اینترنت و انتشارات محلی میتوانید به کار را انجام بدهید و با استفاده از اینترنت و انتشارات محلی میتوانید به کار را انجام بدهید. با استفاده از اینترنت و انتشارات محلی میتوانید به کا
