## Login to Hugging Face

In [3]:
from dotenv import load_dotenv
import os
from huggingface_hub import login

load_dotenv()
token = os.getenv("HUGGINGFACE_TOKEN")
login(
    token='',  # ADD YOUR TOKEN HERE
    add_to_git_credential=True
)

Token is valid (permission: read).
[1m[31mCannot authenticate through git-credential as no helper is defined on your machine.
You might have to re-authenticate when pushing to the Hugging Face Hub.
Run the following command in your terminal in case you want to set the 'store' credential helper as default.

git config --global credential.helper store

Read https://git-scm.com/book/en/v2/Git-Tools-Credential-Storage for more details.[0m
Token has not been saved to git credential helper.
Your token has been saved to /home/owiequhf/.cache/huggingface/token
Login successful


In [4]:
model_name = "Usay-Llama3-sft"  # ADD YOUR MODEL NAME HERE
username = "owiequhf"  # ADD YOUR USERNAME HERE
repo_id = f"{username}/{model_name}"  # repository id

## Login to Weights & Biases

In [6]:
!pip install wandb

Collecting wandb
  Downloading wandb-0.17.0-py3-none-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (10 kB)
Collecting docker-pycreds>=0.4.0 (from wandb)
  Downloading docker_pycreds-0.4.0-py2.py3-none-any.whl.metadata (1.8 kB)
Collecting gitpython!=3.1.29,>=1.0.0 (from wandb)
  Downloading GitPython-3.1.43-py3-none-any.whl.metadata (13 kB)
Collecting protobuf!=4.21.0,<5,>=3.19.0 (from wandb)
  Downloading protobuf-4.25.3-cp37-abi3-manylinux2014_x86_64.whl.metadata (541 bytes)
Collecting sentry-sdk>=1.0.0 (from wandb)
  Downloading sentry_sdk-2.3.1-py2.py3-none-any.whl.metadata (10 kB)
Collecting setproctitle (from wandb)
  Downloading setproctitle-1.3.3-cp311-cp311-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (9.9 kB)
Collecting gitdb<5,>=4.0.1 (from gitpython!=3.1.29,>=1.0.0->wandb)
  Downloading gitdb-4.0.11-py3-none-any.whl.metadata (1.2 kB)
Collecting smmap<6,>=3.0.1 (from gitdb<5,>=4

In [7]:
import wandb

api_key = os.getenv("WANDB_API_KEY")
wandb.login(
    key='128e320874485d66b58cfc0eaf76b7080aea43e5'  # ADD YOUR API KEY HERE
)
wandb.init(project=model_name)

[34m[1mwandb[0m: W&B API key is configured. Use [1m`wandb login --relogin`[0m to force relogin
[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /home/owiequhf/.netrc
[34m[1mwandb[0m: Currently logged in as: [33mowiequhf[0m ([33mowiequhf123[0m). Use [1m`wandb login --relogin`[0m to force relogin


## Downloads

In [4]:
#!pip install huggingface_hub
#!pip install wandb
#!pip install transformers
#!pip install bitsandbytes
#!pip install peft
#!pip install trl
#!pip install accelerate
#!pip install datasets
#!pip install scikit-learn
#!pip install packaging
#!pip install ninja
#!pip install flash-attn --no-build-isolation

## Imports

In [8]:
from IPython.display import display, Markdown

# pytorch
import torch

# huggingface
from transformers import (
    AutoTokenizer,
    AutoModelForCausalLM,
    BitsAndBytesConfig,
    TrainingArguments
)
from peft import LoraConfig, PeftModel, get_peft_model, prepare_model_for_kbit_training
from trl import SFTTrainer, DataCollatorForCompletionOnlyLM

# datasets
from datasets import load_dataset

## Device

In [9]:
# Device setup
device = (
    "cuda:0" if torch.cuda.is_available() else # Nvidia GPU
    "mps" if torch.backends.mps.is_available() else # Apple Silicon GPU
    "cpu"
)
print(f"Device = {device}")

Device = cuda:0


In [10]:
# Flash Attention Implementation
if device == "cuda:0":
    if torch.cuda.get_device_capability()[0] >= 8: # Ampere, Ada, or Hopper GPUs
        attn_implementation = "flash_attention_2"
        torch_dtype = torch.bfloat16
    else:
        attn_implementation = "eager"
        torch_dtype = torch.float16
else:
    attn_implementation = "eager"
    torch_dtype = torch.float32
print(f"Attention Implementation = {attn_implementation}")

Attention Implementation = flash_attention_2


## Hyperparameters

In [15]:
################################################################################
# seed
################################################################################
seed=42
torch.manual_seed(seed)

################################################################################
# Tokenizer parameters
################################################################################
max_length=8192
padding="do_not_pad" # "max_length", "longest", "do_not_pad"
truncation=True

################################################################################
# Generation parameters
################################################################################
num_return_sequences=1
max_new_tokens=1024
do_sample=True # True for sampling, False for greedy decoding
temperature=0.6
top_k=0 # not recommended
top_p=0.9
repetition_penalty=1.1

################################################################################
# Training parameters
################################################################################
output_dir="./results"
logging_dir="./logs"
save_strategy="epoch"
logging_strategy="steps" # "steps", "epoch"
if logging_strategy == "steps":
    logging_steps=10
else:
    logging_steps=None
save_total_limit=1
report_to="wandb"

num_train_epochs=2
per_device_train_batch_size=2
gradient_accumulation_steps=4
gradient_checkpointing=True
learning_rate=2e-5
lr_scheduler_type="cosine" # "constant", "linear", "cosine"
warmup_ratio=0.1
optim = "adamw_torch"
weight_decay=0.01

################################################################################
# SFT parameters
################################################################################
max_seq_length=1024
packing=True # packing not supported for masking instructions

################################################################################
# LoRA parameters
################################################################################
task_type="CAUSAL_LM"
target_modules=["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"]
r=16
lora_alpha=32 #Scaling 배수 / 학습 시에도 곱해진 상태로 학습 (r=8 -> batch_size=2, r=16 -> batch_size=1) 15.5Gb r과 batch_size 는 커지면 성능이 향상하지만 서로 Trade-off 관계여서 모두 키우면 Memory Usage 가 증가함.
lora_dropout=0.1
bias="none"

################################################################################
# bitsandbytes parameters
################################################################################
load_in_4bit=True
bnb_4bit_compute_dtype=torch_dtype
bnb_4bit_quant_type="nf4" # "nf4", #fp4"
bnb_4bit_use_double_quant=False

## Model

In [12]:
# Model List

# gemma variants
# "google/gemma-1.1-7b-it"
# "google/codegemma-7b-it"

# llama variants
# "meta-llama/Meta-Llama-3-8B" // downloaded
# "meta-llama/Meta-Llama-3-8B-Instruct" // downloaded
# "meta-llama/CodeLlama-7b-Instruct-hf"
# "PathFinderKR/Waktaverse-Llama-3-KO-8B-Instruct"

# mistral variants
# "mistralai/Mistral-7B-Instruct-v0.2"

# solar variants
# "upstage/SOLAR-10.7B-Instruct-v1.0" // downloaded
# "PathFinderKR/Waktaverse-SOLAR-KO-10.7B-Instruct"

In [14]:
# Model ID for base model / Model not aligned -> Using Instruction Fine-tuned Model
model_id = "saltlux/Ko-Llama3-Luxia-8B"

In [11]:
# Load tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_id)
tokenizer.add_special_tokens({'pad_token': '<|pad_id|>'}) # add padding token
tokenizer.padding_side = "right"

In [12]:
# Quantization
quantization_config = BitsAndBytesConfig(
    load_in_4bit=load_in_4bit,
    bnb_4bit_compute_dtype=bnb_4bit_compute_dtype,
    bnb_4bit_quant_type=bnb_4bit_quant_type,
    bnb_4bit_use_double_quant=bnb_4bit_use_double_quant
)

In [13]:
# Load model
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map=device,
    attn_implementation=attn_implementation,
    torch_dtype=torch_dtype,
    quantization_config=quantization_config
)

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

In [14]:
# Prepare model for kbit training
model = prepare_model_for_kbit_training(model)

In [42]:
# Display the model architecture
display(Markdown(f'```{model}```'))

```LlamaForCausalLM(
  (model): LlamaModel(
    (embed_tokens): Embedding(145792, 4096)
    (layers): ModuleList(
      (0-31): 32 x LlamaDecoderLayer(
        (self_attn): LlamaSdpaAttention(
          (q_proj): Linear(in_features=4096, out_features=4096, bias=False)
          (k_proj): Linear(in_features=4096, out_features=1024, bias=False)
          (v_proj): Linear(in_features=4096, out_features=1024, bias=False)
          (o_proj): Linear(in_features=4096, out_features=4096, bias=False)
          (rotary_emb): LlamaRotaryEmbedding()
        )
        (mlp): LlamaMLP(
          (gate_proj): Linear(in_features=4096, out_features=14336, bias=False)
          (up_proj): Linear(in_features=4096, out_features=14336, bias=False)
          (down_proj): Linear(in_features=14336, out_features=4096, bias=False)
          (act_fn): SiLU()
        )
        (input_layernorm): LlamaRMSNorm()
        (post_attention_layernorm): LlamaRMSNorm()
      )
    )
    (norm): LlamaRMSNorm()
  )
  (lm_head): Linear(in_features=4096, out_features=145792, bias=False)
)```

## Dataset

In [16]:
# Dataset ID
dataset_id = "MarkrAI/KoCommercial-Dataset"

In [17]:
# Load the dataset
dataset = load_dataset(dataset_id)

In [18]:
# Dataset information
dataset

DatasetDict({
    train: Dataset({
        features: ['input', 'instruction', 'output'],
        num_rows: 175454
    })
})

In [19]:
# Dataset example
print(dataset["train"][0]["instruction"])
print(dataset["train"][0]["input"])
print(dataset["train"][0]["output"])

보드 게임 스피너는 $A$, $B$, $C$로 표시된 세 부분으로 나뉩니다. 스피너가 $A$에 떨어질 확률은 $\frac{1}{3}$이고, 스피너가 $B$에 떨어질 확률은 $\frac{5}{12}$입니다.  스피너가 $C$에 착륙할 확률은 얼마입니까? 답을 공통 분수로 표현하세요.

모든 가능한 결과의 확률의 합이 1$이므로, 스피너가 $C$에 착륙할 확률을 구하려면 스피너가 $A$와 $B$에 착륙할 확률을 1$에서 빼야 합니다. 이를 방정식으로 쓸 수 있습니다: $P(C) = 1 - P(A) - P(B)$. P(A) = \frac{1}{3}$, $P(B) = \frac{5}{12}$라는 것을 알고 있으므로 이 값을 방정식에 대입하여 단순화할 수 있습니다. 결과는 다음과 같습니다: P(C) = 1 - \frac{1}{3} - frac{5}{12} = \frac{12}{12} - frac{4}{12} - frac{5}{12} = \frac{3}{12}$. 분자와 분모를 $3$로 나누면 이 분수를 줄일 수 있습니다: P(C) = \frac{1}{4}$입니다.


## Preprocessing

In [20]:
# Train on only a subset of the dataset for demonstration purposes
#dataset["train"] = dataset["train"].shuffle(seed=seed).select(range(100))

In [21]:
# Shuffle the dataset
dataset = dataset.shuffle(seed=seed)

In [22]:
# Alpaca dataset format: 
# {"instruction": [str],
#   "input": [str],
#   "output": [str]}

# Korean
def prompt_without_input(example):
    prompt = (
        "다음은 작업을 설명하는 지시사항입니다. 요청을 적절하게 완료하는 응답을 작성하세요.\n\n"
        
        "### 지시사항:\n"
        f"{example['instruction']}\n\n"
        
        "### 응답:\n"
        f"{example['output']}"
        )
    return prompt
    

def prompt_with_input(example):
    prompt = (    
        "다음은 작업을 설명하는 지시사항과, 함께 쌍을 이루어 제공되는 입력입니다. 요청을 적절하게 완료하는 응답을 작성하세요.\n\n"
        
        "### 지시사항:\n"
        f"{example['instruction']}\n\n"
        
        "### 입력:\n"
        f"{example['input']}\n\n"
        
        "### 응답:\n"
        f"{example['output']}"
        )
    return prompt

In [23]:
def formatting_func(row):
    # if input is not provided
    if row["input"] == "":
        return prompt_without_input(row)
    # if input is provided
    else:
        return prompt_with_input(row)

In [24]:
# formatting function example
print(formatting_func(dataset["train"][0]))

다음은 작업을 설명하는 지시사항입니다. 요청을 적절하게 완료하는 응답을 작성하세요.

### 지시사항:
정진영은 어떤 분야에서 활동을 했나요?

### 응답:
정진영은 1964년 11월 19일에 태어난 대한민국의 배우로, 1988년 뮤지컬 배우로 데뷔했고 1989년 연극 배우로 데뷔했다. 그는 30년 동안 깊이 있는 연기력으로 관객들의 사랑을 받았다. 그의 대표적인 작품으로는 '왕의 남자', '7번방의 선물', '국제시장' 등이 있다. 또한 연극, TV 프로그램, 영화 등 다양한 매체에서 활약했으며, 여러 상을 수상했다.


## Inference before Fine-Tuning

In [25]:
def generate_response(system ,user):
    messages = [
        {"role": "system", "content": system},
        {"role": "user", "content": user}
    ]
    prompt = tokenizer.apply_chat_template(
        messages, 
        tokenize=False, 
        add_generation_prompt=False
    )
    
    input_ids = tokenizer.encode(
        prompt,
        max_length=max_length,
        padding=padding,
        truncation=truncation,
        add_special_tokens=True,
        return_tensors="pt"
    ).to(device)
    
    outputs = model.generate(
        input_ids=input_ids,
        pad_token_id=tokenizer.eos_token_id,
        num_return_sequences=num_return_sequences,
        max_new_tokens=max_new_tokens,
        do_sample=do_sample,
        temperature=temperature,
        top_k=top_k,
        top_p=top_p,
        repetition_penalty=repetition_penalty
    )
    
    return tokenizer.decode(outputs[0], skip_special_tokens=False)

In [26]:
#system_prompt = "You are a helpful assistant. Respond to the following user prompt."
system_prompt = "다음 지시사항에 대한 응답을 작성해주세요."

In [27]:
#user_prompt = "Write me a poem about Machine Learning."
user_prompt = "머신러닝에 대한 시를 써주세요."

In [28]:
response = generate_response(system_prompt, user_prompt)
print(response)

The input hidden states seems to be silently casted in float32, this might be related to the fact you have upcasted embedding or layer norm layers in float32. We will cast back the input in torch.bfloat16.


다음 지시사항에 대한 응답을 작성해주세요.머신러닝에 대한 시를 써주세요.2018-10-24 17:59:28
1. 머신러닝은 어떤 분야에서 주로 활용되나요?2. 머신러닝이란 무엇인가요?3. 머신러닝의 특징은 무엇인가요?4. 머신러닝과 인공지능은 어떻게 다른가요?5. 머신러닝과 빅데이터는 어떻게 다른가요?6. 머신러닝의 종류에는 어떤 것들이 있나요?7. 머신러닝을 위해서는 어떤 기술이 필요한가요?8. 머신러닝을 위해서는 어떤 데이터가 필요한가요?9. 머신러닝을 위해서는 어떤 알고리즘이 필요한가요?10. 머신러닝을 위해서는 어떤 도구가 필요한가요?11. 머신러닝을 위해서는 어떤 플랫폼이 필요한가요?12. 머신러닝을 위해서는 어떤 언어와 라이브러리, 프레임워크가 필요한가요?13. 머신러닝을 위해서는 어떤 데이터 구조가 필요한가요?14. 머신러닝을 위해서는 어떤 모델이 필요한가요?15. 머신러닝을 위해서는 어떤 최적화 기법이 필요한가요?16. 머신러닝을 위해서는 어떤 추론 기법이 필요한가요?17. 머신러닝을 위해서는 어떤 평가 기법이 필요한가요?18. 머신러닝을 위해서는 어떤 응용 분야가 필요한가요?19. 머신러닝을 위해서는 어떤 연구 동향이 필요한가요?20. 머신러닝을 위해서는 어떤 미래 전망이 필요한가요?21. 머신러닝을 위해서는 어떤 윤리적 문제가 필요한가요?22. 머신러닝을 위해서는 어떤 사회적 영향이 필요한가요?23. 머신러닝을 위해서는 어떤 정책적 함의가 필요한가요?24. 머신러닝을 위해서는 어떤 법적 규제가 필요한가요?25. 머신러닝을 위해서는 어떤 교육이 필요한가요?26. 머신러닝을 위해서는 어떤 전문 지식이 필요한가요?27. 머신러닝을 위해서는 어떤 직업이 필요한가요?28. 머신러닝을 위해서는 어떤 자격증이 필요한가요?29. 머신러닝을 위해서는 어떤 책이 필요한가요?30. 머신러닝을 위해서는 어떤 논문이 필요한가요?31. 머신러닝을 위해서는 어떤 기사 자료가 필요한가요?32. 머신러닝을 위해서는 어떤 웹사이트 자료가 필요한가요?33. 머신러닝을 위해서는

## Supervised Fine-Tuning (LoRA)

In [29]:
lora_config = LoraConfig(
    task_type=task_type,
    target_modules=target_modules,
    r=r,
    lora_alpha=lora_alpha,
    lora_dropout=lora_dropout,
    bias=bias
)

In [30]:
# Print the number of trainable parameters
model = get_peft_model(model, lora_config)
num_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
print(f"Number of trainable parameters (in billions): {num_params / 1e9:.2f}")
print(f"Percentage of trainable parameters: {num_params / model.num_parameters() * 100:.2f}%")

Number of trainable parameters (in billions): 0.04
Percentage of trainable parameters: 0.51%


In [31]:
training_args = TrainingArguments(
    output_dir=output_dir,
    logging_dir=logging_dir,
    save_strategy=save_strategy,
    logging_strategy=logging_strategy,
    logging_steps=logging_steps,
    save_total_limit=save_total_limit,
    report_to=report_to,
    
    num_train_epochs=num_train_epochs,
    per_device_train_batch_size=per_device_train_batch_size,
    gradient_accumulation_steps=gradient_accumulation_steps,
    gradient_checkpointing=gradient_checkpointing,
    learning_rate=learning_rate,
    lr_scheduler_type=lr_scheduler_type,
    warmup_ratio=warmup_ratio,
    optim=optim,
    weight_decay=weight_decay,
    seed=seed
)

In [32]:
trainer = SFTTrainer(
    model=model,
    tokenizer=tokenizer,
    peft_config=lora_config,
    args=training_args,
    train_dataset=dataset["train"],
    formatting_func=formatting_func,
    max_seq_length=max_seq_length,
    packing=packing
)

Generating train split: 0 examples [00:00, ? examples/s]

In [33]:
trainer.train()



Step,Training Loss
10,2.1334
20,2.139
30,2.1529
40,2.1535
50,2.0789
60,2.0774
70,2.1323
80,2.1009
90,2.1387
100,2.1309




TrainOutput(global_step=12108, training_loss=1.6511717080518598, metrics={'train_runtime': 214053.7876, 'train_samples_per_second': 0.453, 'train_steps_per_second': 0.057, 'total_flos': 4.534132462099366e+18, 'train_loss': 1.6511717080518598, 'epoch': 2.0})

In [34]:
wandb.finish()
trainer.save_model(model_name)

VBox(children=(Label(value='0.003 MB of 0.003 MB uploaded\r'), FloatProgress(value=1.0, max=1.0)))

0,1
train/epoch,▁▁▁▁▂▂▂▂▂▃▃▃▃▃▃▄▄▄▄▄▄▅▅▅▅▅▆▆▆▆▆▆▇▇▇▇▇███
train/global_step,▁▁▁▁▂▂▂▂▂▃▃▃▃▃▃▄▄▄▄▄▅▅▅▅▅▅▆▆▆▆▆▆▇▇▇▇▇███
train/grad_norm,▁▂▅▅▅▅▅▅▅▄▄▅▅▅▅▅▅▅▅▄▄▅▆▆▇▇▇▇▇▇▇▇▇▇▇▇▇█▇█
train/learning_rate,▂▃▅▇███████▇▇▇▇▆▆▆▆▅▅▅▄▄▄▃▃▃▃▂▂▂▂▂▁▁▁▁▁▁
train/loss,█▅▅▄▃▃▂▃▄▃▂▃▄▃▃▃▃▃▂▃▃▂▂▂▃▃▂▂▂▂▂▂▃▁▃▂▂▂▂▂

0,1
total_flos,4.534132462099366e+18
train/epoch,2.0
train/global_step,12108.0
train/grad_norm,0.81557
train/learning_rate,0.0
train/loss,1.6493
train_loss,1.65117
train_runtime,214053.7876
train_samples_per_second,0.453
train_steps_per_second,0.057


## Inference after Fine-Tuning

In [35]:
#system_prompt = "You are a helpful assistant. Respond to the following user prompt."
system_prompt = "다음 지시사항에 대한 응답을 작성해주세요."

In [36]:
#user_prompt = "Write me a poem about Machine Learning."
user_prompt = "머신러닝에 대한 시를 써주세요."

In [37]:
response = generate_response(system_prompt, user_prompt)
print(response)

`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`.


다음 지시사항에 대한 응답을 작성해주세요.머신러닝에 대한 시를 써주세요. 

### 응답:
시가 아닌, 다음은 머신러닝에 대한 간단한 설명입니다:

기계 학습(ML)은 컴퓨터가 데이터를 분석하고 패턴과 관계를 찾는 방법을 배우도록 하는 기계의 능력을 말합니다. 머신 러닝 알고리즘은 다양한 유형의 데이터와 문제에 적용될 수 있으며, 이미지 인식부터 자연어 처리까지 다양한 작업을 수행할 수 있습니다.

머신 러닝에는 두 가지 주요 유형이 있습니다: 지도 학습과 비지도 학습입니다. 지도 학습에서는 레이블이 있는 데이터 세트가 제공되며, 머신 러닝 알고리즘이 레이블을 사용하여 모델을 훈련합니다. 모델은 입력 데이터에서 레이블을 예측하는 데 사용됩니다.

비지도 학습에서는 레이블이 없는 데이터 세트가 제공됩니다. 머신 러닝 알고리즘은 데이터의 구조와 특징을 발견하기 위해 데이터 자체를 분석합니다. 이 정보를 사용하여 새로운 데이터에 대한 예측을 할 수 있습니다.

머신 러닝은 의료, 금융, 소매 등 다양한 산업 분야에서 널리 활용되고 있습니다. 머신 러닝은 의사 결정을 개선하고 자동화하며 더 나은 결과를 얻는데 도움이 될 수 있습니다.

그러나 머신 러닝에는 몇 가지 잠재적인 단점도 있습니다. 이러한 단점에는 편향성, 투명성 부족, 신뢰성 저하 및 보안 위험 증가가 포함될 수 있습니다. 머신 러닝 모델은 편향된 데이터로 훈련되거나 잘못 설계되어 정확하지 않은 결과를 생성하거나 인간의 개입 없이 자동으로 실행되는 경우 윤리적 우려를 야기할 수 있습니다.

머신 러닝은 빠르게 발전하는 분야이며, 머신 러닝을 더욱 안전하고 효과적으로 만드는 데 도움이 되는 새로운 기술과 접근 방식이 계속 개발되고 있습니다.<|end_of_text|>


## Upload Model

In [38]:
# Flush memory
import gc
gc.collect()

del trainer, model
torch.cuda.empty_cache()

In [39]:
# Reload model in FP16 and merge it with LoRA weights
base_model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map=device,
    torch_dtype=torch.float16
)
model = PeftModel.from_pretrained(base_model, model_name)
model = model.merge_and_unload()

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

In [40]:
# Reload tokenizer to save it
tokenizer = AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"

In [41]:
# Push model and tokenizer to Hugging Face Hub
model.push_to_hub(
    repo_id=repo_id,
    use_temp_dir=False
)
tokenizer.push_to_hub(
    repo_id=repo_id,
    use_temp_dir=False
)

Upload 4 LFS files:   0%|          | 0/4 [00:00<?, ?it/s]

model-00001-of-00004.safetensors:   0%|          | 0.00/4.89G [00:00<?, ?B/s]

model-00003-of-00004.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]

model-00002-of-00004.safetensors:   0%|          | 0.00/4.92G [00:00<?, ?B/s]

model-00004-of-00004.safetensors:   0%|          | 0.00/1.55G [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/PathFinderKR/Waktaverse-Llama-3-KO-8B-Instruct-v2/commit/d235f4d26711c301648037246a99c8094b6d838c', commit_message='Upload tokenizer', commit_description='', oid='d235f4d26711c301648037246a99c8094b6d838c', pr_url=None, pr_revision=None, pr_num=None)