##### Copyright 2024 Google LLC.

In [None]:
# @title Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
# https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

# How to Fine-tuning Gemma: Korean Bakery Email Processing

## Setup

### Select the Colab runtime
To complete this tutorial, you'll need to have a Colab runtime with sufficient resources to run the Gemma model:

1. In the upper-right of the Colab window, select **▾ (Additional connection options)**.
2. Select **Change runtime type**.
3. Under **Hardware accelerator**, select **L4** or **A100 GPU**.


### Gemma setup on Kaggle
To complete this tutorial, you'll first need to complete the setup instructions at [Gemma setup](https://ai.google.dev/gemma/docs/setup). The Gemma setup instructions show you how to do the following:

* Get access to Gemma on kaggle.com.
* Select a Colab runtime with sufficient resources to run the Gemma 2B model.
* Generate and configure a Kaggle username and API key.

After you've completed the Gemma setup, move on to the next section, where you'll set environment variables for your Colab environment.

### Set environemnt variables

Set environement variables for ```KAGGLE_USERNAME``` and ```KAGGLE_KEY```.

In [None]:
import os
from google.colab import userdata, drive

# Note: `userdata.get` is a Colab API. If you're not using Colab, set the env
# vars as appropriate for your system.
os.environ["KAGGLE_USERNAME"] = userdata.get("KAGGLE_USERNAME")
os.environ["KAGGLE_KEY"] = userdata.get("KAGGLE_KEY")

# Mounting gDrive for to store artifacts
drive.mount("/content/drive")

Mounted at /content/drive


### Install dependencies

Install Keras and KerasNLP

In [None]:
!pip install -q -U keras-nlp datasets
!pip install -q -U keras

# Set the backbend before importing Keras
os.environ["KERAS_BACKEND"] = "jax"
# Avoid memory fragmentation on JAX backend.
os.environ["XLA_PYTHON_CLIENT_MEM_FRACTION"] = "1.00"

import keras_nlp
import keras

# Run at half precision.
#keras.config.set_floatx("bfloat16")

# Training Configurations
token_limit = 512
num_data_limit = 100
lora_name = "cakeboss"
lora_rank = 4
lr_value = 1e-4
train_epoch = 20
model_id = "gemma2_instruct_2b_en"

[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/572.2 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m [32m563.2/572.2 kB[0m [31m17.4 MB/s[0m eta [36m0:00:01[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m572.2/572.2 kB[0m [31m12.0 MB/s[0m eta [36m0:00:00[0m
[?25h[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/527.3 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m527.3/527.3 kB[0m [31m24.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m116.3/116.3 kB[0m [31m10.2 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m39.9/39.9 MB[0m [31m21.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m134.8/134.8 kB[0m [31m11.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━

## Load Model

In [None]:
import keras
import keras_nlp

import time

# Run at half precision.
#keras.config.set_floatx("bfloat16") BUG?

gemma_lm = keras_nlp.models.GemmaCausalLM.from_preset(model_id)
gemma_lm.summary()

tick_start = 0

def tick():
    global tick_start
    tick_start = time.time()

def tock():
    print(f"TOTAL TIME ELAPSED: {time.time() - tick_start:.2f}s")

def text_gen(prompt):
    tick()
    input = f"<start_of_turn>user\n{prompt}<end_of_turn>\n<start_of_turn>model\n"
    output = gemma_lm.generate(input, max_length=token_limit)
    print("\nGemma output:")
    print(output)
    tock()

# inference before fine-tuning
text_gen("다음에 대한 이메일 답장을 작성해줘.\n\"안녕하세요, 결혼기념일을 위해 3호 케이크 1개를 주문하고 싶은데 가능할까요?\"")


Gemma output:
<start_of_turn>user
다음에 대한 이메일 답장을 작성해줘.
"안녕하세요, 결혼기념일을 위해 3호 케이크 1개를 주문하고 싶은데 가능할까요?"<end_of_turn>
<start_of_turn>model
##  답장 예시

**제목: Re: 결혼기념일 케이크 주문 문의**

안녕하세요, [주문자 이름]님,

안녕하세요. 결혼기념일 케이크 주문을 받으셨네요! 😊 

3호 케이크 1개를 주문하시는군요. 

[주문자 이름]님의 결혼기념일을 축하드립니다! 

[케이크 종류, 옵션, 주문 날짜 등]에 대한 자세한 정보를 알려주시면 최대한 멋진 케이크를 만들어 드리겠습니다. 

[주문자 이름]님께서 원하는 케이크의 디자인, 옵션, 주문 날짜 등을 알려주시면 됩니다. 

[주문자 이름]님께서 원하는 케이크를 만들어 드리겠습니다. 

감사합니다.

[이름]
[회사명/전화번호/이메일 주소] 


**참고:**

* 위 답장은 예시이며, 실제 답장에 필요한 내용을 추가하거나 수정해야 할 수 있습니다. 
* 케이크 종류, 옵션, 주문 날짜 등을 명확하게 알려주는 것이 중요합니다. 
* 답장에 친절하고 긍정적인 분위기를 유지하는 것이 좋습니다. 
* 케이크 주문에 대한 추가 질문이 있으면 언제든지 문의해주세요. 



<end_of_turn>
TOTAL TIME ELAPSED: 36.68s


## Load Dataset

In [None]:
import keras
import keras_nlp
import datasets

tokenizer = keras_nlp.models.GemmaTokenizer.from_preset(model_id)

# prompt structure
# <start_of_turn>user
# 다음에 대한 이메일 답장을 작성해줘.
# "{EMAIL CONTENT FROM THE CUSTOMER}"
# <end_of_turn>
# <start_of_turn>model
# {MODEL ANSWER}<end_of_turn>

# input, output
from datasets import load_dataset
ds = load_dataset(
    "bebechien/korean_cake_boss",
    split="train",
)
print(ds)
data = ds.with_format("np", columns=["input", "output"], output_all_columns=False)
train = []

for x in data:
  item = f"<start_of_turn>user\n다음에 대한 이메일 답장을 작성해줘.\n\"{x['input']}\"<end_of_turn>\n<start_of_turn>model\n{x['output']}<end_of_turn>"
  length = len(tokenizer(item))
  # skip data if the token length is longer than our limit
  if length < token_limit:
    train.append(item)
    if(len(train)>=num_data_limit):
      break

print(len(train))
print(train[0])
print(train[1])
print(train[2])

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


Downloading readme:   0%|          | 0.00/61.0 [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/14.9k [00:00<?, ?B/s]

Generating train split:   0%|          | 0/20 [00:00<?, ? examples/s]

Dataset({
    features: ['input', 'output'],
    num_rows: 20
})
20
<start_of_turn>user
다음에 대한 이메일 답장을 작성해줘.
"안녕하세요,
2주 뒤에 있을 아이 생일을 위해 3호 케이크 3개를 주문하고 싶은데 가능할까요?"<end_of_turn>
<start_of_turn>model
고객님, 안녕하세요.

2주 뒤 아이 생일을 위한 3호 케이크 2개 주문 문의 감사합니다.
네, 3호 케이크 2개 주문 가능합니다.

아이 생일 케이크인 만큼 더욱 신경 써서 정성껏 준비하겠습니다. 혹시 원하시는 디자인이나 특별한 요청 사항이 있으시면 편하게 말씀해주세요.

픽업 날짜와 시간을 알려주시면 더욱 자세한 안내를 도와드리겠습니다.

다시 한번 문의 감사드리며, 아이 생일 진심으로 축하합니다!

[가게 이름] 드림<end_of_turn>
<start_of_turn>user
다음에 대한 이메일 답장을 작성해줘.
"안녕하세요,

9월 15일에 있을 아들의 돌잔치를 위해 케이크를 주문하고 싶습니다.
- 케이크 종류: 생크림 케이크
- 크기: 2호
- 디자인: 아기자기한 동물 디자인
- 문구: "첫 생일 축하해, 사랑하는 아들!"
- 픽업 날짜 및 시간: 9월 14일 오후 3시

가격 및 주문 가능 여부를 알려주시면 감사하겠습니다.

감사합니다.
김민지 드림"<end_of_turn>
<start_of_turn>model
안녕하세요, 김민지 님,

9월 15일 아드님의 돌잔치를 위한 케이크 주문 문의 감사합니다.

- 생크림 케이크 2호, 아기자기한 동물 디자인, "첫 생일 축하해, 사랑하는 아들!" 문구, 9월 14일 오후 3시 픽업 모두 가능합니다.
- 가격은 5만원입니다.

주문을 원하시면 연락 주세요.
감사합니다.

[가게 이름] 드림<end_of_turn>
<start_of_turn>user
다음에 대한 이메일 답장을 작성해줘.
"안녕하세요, 박지혜라고 합니다.

10월 5일에 있을 결혼 10주년 기념일

## LoRA Fine-tuning

In [None]:
# Enable LoRA for the model and set the LoRA rank to 4.
gemma_lm.backbone.enable_lora(rank=lora_rank)
gemma_lm.summary()

# Limit the input sequence length (to control memory usage).
gemma_lm.preprocessor.sequence_length = token_limit
# Use AdamW (a common optimizer for transformer models).
optimizer = keras.optimizers.AdamW(
    learning_rate=lr_value,
    weight_decay=0.01,
)
# Exclude layernorm and bias terms from decay.
optimizer.exclude_from_weight_decay(var_names=["bias", "scale"])

gemma_lm.compile(
    loss=keras.losses.SparseCategoricalCrossentropy(from_logits=True),
    optimizer=optimizer,
    weighted_metrics=[keras.metrics.SparseCategoricalAccuracy()],
)


Note that enabling LoRA reduces the number of trainable parameters significantly.

In [None]:
class CustomCallback(keras.callbacks.Callback):
  def on_epoch_end(self, epoch, logs=None):
    model_name = f"/content/drive/MyDrive/{lora_name}_{lora_rank}_epoch{epoch+1}.lora.h5"
    gemma_lm.backbone.save_lora_weights(model_name)

    # Evaluate
    text_gen("다음에 대한 이메일 답장을 작성해줘.\n\"안녕하세요, 결혼기념일을 위해 3호 케이크 1개를 주문하고 싶은데 가능할까요?\"")

history = gemma_lm.fit(train, epochs=train_epoch, batch_size=2, callbacks=[CustomCallback()])

import matplotlib.pyplot as plt
plt.plot(history.history['loss'])
plt.show()

Epoch 1/20


XlaRuntimeError: RESOURCE_EXHAUSTED: Out of memory while trying to allocate 7258491264 bytes.
BufferAssignment OOM Debugging.
BufferAssignment stats:
             parameter allocation:    9.77GiB
              constant allocation:       512B
        maybe_live_out allocation:    9.77GiB
     preallocated temp allocation:    6.76GiB
  preallocated temp fragmentation:     8.0KiB (0.00%)
                 total allocation:   16.53GiB
              total fragmentation:   206.7KiB (0.00%)
Peak buffers:
	Buffer 1:
		Size: 2.20GiB
		Operator: op_name="jit(compiled_train_step)/jit(main)/transpose[permutation=(1, 0)]" source_file="/usr/local/lib/python3.10/dist-packages/keras/src/backend/jax/numpy.py" source_line=1120
		Entry Parameter Subshape: f32[256000,2304]
		==========================

	Buffer 2:
		Size: 1000.00MiB
		Operator: op_name="jit(compiled_train_step)/jit(main)/dot_general[dimension_numbers=(((2,), (0,)), ((), ())) precision=None preferred_element_type=float32]" source_file="/usr/local/lib/python3.10/dist-packages/keras/src/backend/jax/numpy.py" source_line=121
		XLA Label: custom-call
		Shape: f32[1024,256000]
		==========================

	Buffer 3:
		Size: 1000.00MiB
		Operator: op_name="jit(compiled_train_step)/jit(main)/reduce[computation=_ArgMinMaxReducer(gt) dimensions=(2,)]" source_file="/usr/local/lib/python3.10/dist-packages/keras/src/backend/jax/numpy.py" source_line=341
		XLA Label: fusion
		Shape: f32[1024,256000]
		==========================

	Buffer 4:
		Size: 81.00MiB
		Entry Parameter Subshape: f32[2304,9216]
		==========================

	Buffer 5:
		Size: 81.00MiB
		Entry Parameter Subshape: f32[2304,9216]
		==========================

	Buffer 6:
		Size: 81.00MiB
		Entry Parameter Subshape: f32[9216,2304]
		==========================

	Buffer 7:
		Size: 81.00MiB
		Entry Parameter Subshape: f32[2304,9216]
		==========================

	Buffer 8:
		Size: 81.00MiB
		Entry Parameter Subshape: f32[2304,9216]
		==========================

	Buffer 9:
		Size: 81.00MiB
		Entry Parameter Subshape: f32[9216,2304]
		==========================

	Buffer 10:
		Size: 81.00MiB
		Entry Parameter Subshape: f32[2304,9216]
		==========================

	Buffer 11:
		Size: 81.00MiB
		Entry Parameter Subshape: f32[2304,9216]
		==========================

	Buffer 12:
		Size: 81.00MiB
		Entry Parameter Subshape: f32[9216,2304]
		==========================

	Buffer 13:
		Size: 81.00MiB
		Entry Parameter Subshape: f32[2304,9216]
		==========================

	Buffer 14:
		Size: 81.00MiB
		Entry Parameter Subshape: f32[2304,9216]
		==========================

	Buffer 15:
		Size: 81.00MiB
		Entry Parameter Subshape: f32[9216,2304]
		==========================



In [None]:
import os
import keras
import keras_nlp

gemma_lm = keras_nlp.models.GemmaCausalLM.from_preset("gemma2_instruct_2b_en")
# Use the same LoRA rank that you trained
gemma_lm.backbone.enable_lora(rank=4)

# Load pre-trained LoRA weights
gemma_lm.backbone.load_lora_weights(f"/content/drive/MyDrive/weights/cakeboss_4_epoch17.lora.h5")

In [None]:
from google.colab import drive
drive.mount('/content/drive')

## Try a different sampler

The top-K algorithm randomly picks the next token from the tokens of top K probability.

In [None]:
gemma_lm.compile(sampler="top_k")
text_gen("다음에 대한 이메일 답장을 작성해줘.\n\"안녕하세요, 결혼기념일을 위해 3호 케이크 1개를 주문하고 싶은데 가능할까요?\"")
text_gen("다음에 대한 이메일 답장을 작성해줘.\n\"안녕하세요, 결혼기념일을 위해 3호 케이크 1개를 주문하고 싶은데 가능할까요?\"")
text_gen("다음에 대한 이메일 답장을 작성해줘.\n\"안녕하세요, 결혼기념일을 위해 3호 케이크 1개를 주문하고 싶은데 가능할까요?\"")

Try a slight different prompts

In [None]:
text_gen("다음에 대한 답장을 작성해줘.\n\"안녕하세요, 결혼기념일을 위해 3호 케이크 1개를 주문하고 싶은데 가능할까요?\"")
text_gen("아래에 적절한 답장을 써줘.\n\"안녕하세요, 결혼기념일을 위해 3호 케이크 1개를 주문하고 싶은데 가능할까요?\"")
text_gen("다음에 관한 답장을 써주세요.\n\"안녕하세요, 결혼기념일을 위해 3호 케이크 1개를 주문하고 싶은데 가능할까요?\"")

Try a differnt email inputs

In [None]:
text_gen("""다음에 대한 이메일 답장을 작성해줘.
"안녕하세요,

6월 15일에 있을 행사 답례품으로 쿠키 & 머핀 세트를 대량 주문하고 싶습니다.

수량: 50세트
구성: 쿠키 2개 + 머핀 1개 (개별 포장)
디자인: 심플하고 고급스러운 디자인 (리본 포장 등)
문구: "감사합니다" 스티커 부착
배송 날짜: 6월 14일
대량 주문 할인 혜택이 있는지, 있다면 견적과 함께 배송 가능 여부를 알려주시면 감사하겠습니다.

감사합니다.

박철수 드림" """)
