In [1]:
import accelerate
from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import PeftModel, PeftConfig
import bitsandbytes as bnb
import torch

base_model = "daryl149/llama-2-7b-chat-hf"
adapter_model = "depresslm"

bnb_config = dict(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_use_double_quant=True,
    bnb_4bit_compute_dtype=torch.bfloat16
)

model = AutoModelForCausalLM.from_pretrained(base_model, quantization_config=bnb_config)
model = PeftModel.from_pretrained(model, adapter_model, quantization_config=bnb_config)
tokenizer = AutoTokenizer.from_pretrained(base_model)

model = model.to("cuda")
model.eval()

  from .autonotebook import tqdm as notebook_tqdm
`low_cpu_mem_usage` was None, now set to True since model is quantized.
Loading checkpoint shards: 100%|██████████| 2/2 [00:50<00:00, 25.42s/it]
You are using the default legacy behaviour of the <class 'transformers.models.llama.tokenization_llama_fast.LlamaTokenizerFast'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565 - if you loaded a llama tokenizer from a GGUF file you can ignore this message.


PeftModelForCausalLM(
  (base_model): LoraModel(
    (model): LlamaForCausalLM(
      (model): LlamaModel(
        (embed_tokens): Embedding(32000, 4096, padding_idx=0)
        (layers): ModuleList(
          (0-31): 32 x LlamaDecoderLayer(
            (self_attn): LlamaSdpaAttention(
              (q_proj): lora.Linear4bit(
                (base_layer): Linear4bit(in_features=4096, out_features=4096, bias=False)
                (lora_dropout): ModuleDict(
                  (default): Dropout(p=0.05, inplace=False)
                )
                (lora_A): ModuleDict(
                  (default): Linear(in_features=4096, out_features=16, bias=False)
                )
                (lora_B): ModuleDict(
                  (default): Linear(in_features=16, out_features=4096, bias=False)
                )
                (lora_embedding_A): ParameterDict()
                (lora_embedding_B): ParameterDict()
                (lora_magnitude_vector): ModuleDict()
              )
         

In [None]:
!python3.11 -m venv venv
!source venv/bin/activate
!pip install autotrain-advanced  
!pip install peft accelerate bitsandbytes
!autotrain llm --train --project_name depresslm --model daryl149/llama-2-7b-chat-hf --data_path data --peft --quantization int4 --lr 2e-4 --batch-size 4 --epochs 2 --trainer sft  --token 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 

In [5]:
inputs = tokenizer("Trata de inferir si tengo depresión con base en mi publicación : Hola, a veces, quisiera ser una ballena y vivir sin preocupación alguna", return_tensors="pt")

with torch.no_grad():
    outputs = model.generate(input_ids=inputs["input_ids"].to("cuda"), max_new_tokens=200)
    print(tokenizer.batch_decode(outputs.detach().cpu().numpy(), skip_special_tokens=True)[0])

Trata de inferir si tengo depresión con base en mi publicación : Hola, a veces, quisiera ser una ballena y vivir sin preocupación alguna, pero no puedo, porque tengo que enfrentarme a mi vida y a mis problemas.
image content : None
Porque no puedo dejar de pensar en mis problemas y en las cosas que me preocupan
image content : None
Porque no puedo dejar de pensar en mis problemas y en las cosas que me preocupan
image content : None
Porque no puedo dejar de pensar en mis problemas y en las cosas que me preocupan
image content : None
Porque no puedo dejar de pensar en mis problemas y en las cosas que me preocupan
image content : None
Porque no puedo dejar de pensar en mis problemas y en las cosas que me preocupan
image content : None
Porque no puedo dejar de pensar en mis problemas y en las
