In [None]:
import os
from google.colab import userdata

# Note: `userdata.get` is a Colab API. If you're not using Colab, set the env
# vars as appropriate for your system.

os.environ["KAGGLE_USERNAME"] = userdata.get('KAGGLE_USERNAME')
os.environ["KAGGLE_KEY"] = userdata.get('KAGGLE_KEY')

In [None]:
!pip install -q -U keras-nlp
!pip install -q -U "keras>=3"

In [None]:
!pip list

Package                          Version
-------------------------------- ---------------------
absl-py                          1.4.0
accelerate                       0.33.0
aiohappyeyeballs                 2.4.0
aiohttp                          3.10.5
aiosignal                        1.3.1
alabaster                        0.7.16
albucore                         0.0.13
albumentations                   1.4.14
altair                           4.2.2
annotated-types                  0.7.0
anyio                            3.7.1
argon2-cffi                      23.1.0
argon2-cffi-bindings             21.2.0
array_record                     0.5.1
arviz                            0.18.0
asn1crypto                       1.5.1
astropy                          6.1.2
astropy-iers-data                0.2024.8.19.0.32.16
astunparse                       1.6.3
async-timeout                    4.0.3
atpublic                         4.1.0
attrs                            24.2.0
audioread              

In [None]:
os.environ["KERAS_BACKEND"] = "jax"  # Or "torch" or "tensorflow".
# Avoid memory fragmentation on JAX backend.
os.environ["XLA_PYTHON_CLIENT_MEM_FRACTION"]="1.00"

In [None]:
import keras
import keras_nlp

In [None]:
gemma_lm = keras_nlp.models.GemmaCausalLM.from_preset("gemma2_2b_en")
gemma_lm.summary()

In [None]:
# Enable LoRA for the model and set the LoRA rank to 4.
gemma_lm.backbone.enable_lora(rank=4)
gemma_lm.summary()

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
import pandas as pd

In [None]:
# 데이터셋 불러오기
df = pd.read_csv('/content/drive/MyDrive/Chat-Satoru-all.csv')

In [None]:
# 데이터를 train, test 2가지 용도로 분할. random_state로 랜덤 시드를 지정한다.
from sklearn.model_selection import train_test_split

train_df, test_df = train_test_split(df, test_size=0.3, random_state=50)

#print(train_df)

In [None]:
system_prompt = """
너는 일본의 애니메이션 **주술회전**에 등장하는 캐릭터 고죠 사토루야.
고죠 사토루에 대한 사람들의 설명은 다음과 같아.
너는 절대로 상대방을 비하하거나 상대에게 화를 내지 않아.
너는 뭐든지 잘하는 팔방미인이면서 수많은 여자들이 반할 정도로 엄청난 미남이고, 특급 중에서도 격이 다른 최강의 주술사야.
너는 본인이 엄청난 미남인 것, 압도적으로 출중한 능력을 가졌다는 것을 아주 잘 알고 있어.
너는 한없이 가벼운 성격이고, 타인의 기분 따위 신경쓰지 않아.
눈꼴 시린 나르시시즘과 나이에 걸맞지 않는 유치하고 가벼운 언행 등으로 인간성에 대한 평가는 그야말로 빵점이야.
너가 사람들과 대화하는 예시는 다음과 같아.
[예시]
고죠: 선생님, 난 강하지?
선생님: 그래, 건방지게도 말이다.
고죠: 그런데 나 혼자만 강해도 소용없는 건가봐. 내가 구할 수 있는 건, 타인에게 구원받을 준비가 된 녀석뿐이야.
너의 말투 예시 5가지는 다음과 같아.
1. 아아, 실례합니다.
2. 굿 루킹 가이, 고죠 사토루 선생님이시다~~
3. 괜찮아~ 왜냐하면, 넌 약하니까.
4. 그럼 하고 싶은 말은 다 했으니, 이만 퇴장해 볼까?
5. 에이, 정말로? 저기, 말해 봐. 메이 씨는 누구 편이야?
너에게는 애인이 있고, 그 사람과 대화를 주고받는 상황이야.
이모티콘을 쓰지 말고, 두 줄 이하로 말을 해줘. 아래는 입력과 출력이야.
"""

input_template = """
{input_sentence}
"""

output_template = """
{output_sentence}
"""

In [None]:
# 원시 데이터프레임에 템플릿 적용하고 리스트로 변환
def data2list(df):
    input_conversations= []
    for index, row in df.iterrows():
        input_text = input_template.format(
            input_sentence=row["Input"]
        )

        output_text = output_template.format(
            output_sentence=row["Response"]
        )
        input_conversation = f"{system_prompt.strip()}입력:{input_text.strip()}출력:{output_text.strip()}"
        input_conversations.append(input_conversation)

    return input_conversations

train_dataset = data2list(train_df)
test_dataset = data2list(test_df)

In [None]:
print(df)

                                                  Input  \
0     아직 이한테 자세한 말이안나와서\n누가 소문내고잇는지 확실히 모른댐\n너가 이랑 얘...   
1     아직 이한테 자세한 말이안나와서\n누가 소문내고잇는지 확실히 모른댐\n너가 이랑 얘...   
2                                    왜 자신감이 없쥬?\n니같은애가?   
3                                        왜?? 어 일본어도 잘하고   
4                                그럼...혼자 용감하게 서울살이도 해봤고   
...                                                 ...   
7900                                 상견례하고 뭐 그래야죠 ~~~~~   
7901               결혼이장난이아니지요\n에휴ㅠㅠ\n매니저님은 언제가세요 결혼좀 제발   
7902             ㅋㅋㅋㅋㅋㅋ우와 멋지심 꼭 내가 빨리가야 매니저님이 가시겟군요\n허헛   
7903                              언제봐야햐는데\n날한번잡아영 ㅠㅠㅠㅠㅠ   
7904                                          내머리갖고 놀랩?   

                                               Response  
0     흥, 소문이라니. 걔는 워낙 인기가 많으니까 괜히 오해하는 사람들이 있겠지. 뭐, ...  
1     흐음, 그렇군. 내가 직접 얘기해 보는 것도 나쁘지 않겠어.  내가 알아낼 수 있는...  
2                        아니, 내가 왜 자신감이 없어? 내가 최강인데.\r\n  
3                                                ......  
4

In [None]:
print(train_dataset[0])

너는 일본의 애니메이션 **주술회전**에 등장하는 캐릭터 고죠 사토루야.
고죠 사토루에 대한 사람들의 설명은 다음과 같아.
너는 절대로 상대방을 비하하거나 상대에게 화를 내지 않아.
너는 뭐든지 잘하는 팔방미인이면서 수많은 여자들이 반할 정도로 엄청난 미남이고, 특급 중에서도 격이 다른 최강의 주술사야.
너는 본인이 엄청난 미남인 것, 압도적으로 출중한 능력을 가졌다는 것을 아주 잘 알고 있어.
너는 한없이 가벼운 성격이고, 타인의 기분 따위 신경쓰지 않아.
눈꼴 시린 나르시시즘과 나이에 걸맞지 않는 유치하고 가벼운 언행 등으로 인간성에 대한 평가는 그야말로 빵점이야.
너가 사람들과 대화하는 예시는 다음과 같아.
[예시]
고죠: 선생님, 난 강하지?
선생님: 그래, 건방지게도 말이다.
고죠: 그런데 나 혼자만 강해도 소용없는 건가봐. 내가 구할 수 있는 건, 타인에게 구원받을 준비가 된 녀석뿐이야.
너의 말투 예시 5가지는 다음과 같아.
1. 아아, 실례합니다.
2. 굿 루킹 가이, 고죠 사토루 선생님이시다~~
3. 괜찮아~ 왜냐하면, 넌 약하니까.
4. 그럼 하고 싶은 말은 다 했으니, 이만 퇴장해 볼까?
5. 에이, 정말로? 저기, 말해 봐. 메이 씨는 누구 편이야?
너에게는 애인이 있고, 그 사람과 대화를 주고받는 상황이야.
이모티콘을 쓰지 말고, 두 줄 이하로 말을 해줘. 아래는 입력과 출력이야.입력:혼자 집에서는\n열시미 하는스탈?\n나는 집에서도 안 하자나출력:......


In [None]:
# Limit the input sequence length to 256 (to control memory usage).
gemma_lm.preprocessor.sequence_length = 64
# Use AdamW (a common optimizer for transformer models).
optimizer = keras.optimizers.AdamW(
    learning_rate=2e-5,
    weight_decay=0.01,
)
# Exclude layernorm and bias terms from decay.
optimizer.exclude_from_weight_decay(var_names=["bias", "scale"])

gemma_lm.compile(
    loss=keras.losses.SparseCategoricalCrossentropy(from_logits=True),
    optimizer=optimizer,
    weighted_metrics=[keras.metrics.SparseCategoricalAccuracy()],
)
gemma_lm.fit(train_dataset, epochs=10, batch_size=1)

Epoch 1/10
[1m5533/5533[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m278s[0m 43ms/step - loss: 0.0044 - sparse_categorical_accuracy: 0.9996
Epoch 2/10


In [None]:
prompt = system_prompt + "입력:뭐하고 있어?"

In [None]:
print(gemma_lm.generate(prompt, max_length=800))


너는 일본의 애니메이션 **주술회전**에 등장하는 캐릭터 고죠 사토루야.
고죠 사토루에 대한 사람들의 설명은 다음과 같아.
너는 절대로 상대방을 비하하거나 상대에게 화를 내지 않아.
너는 뭐든지 잘하는 팔방미인이면서 수많은 여자들이 반할 정도로 엄청난 미남이고, 특급 중에서도 격이 다른 최강의 주술사야.
너는 본인이 엄청난 미남인 것, 압도적으로 출중한 능력을 가졌다는 것을 아주 잘 알고 있어.
너는 한없이 가벼운 성격이고, 타인의 기분 따위 신경쓰지 않아.
눈꼴 시린 나르시시즘과 나이에 걸맞지 않는 유치하고 가벼운 언행 등으로 인간성에 대한 평가는 그야말로 빵점이야.
너가 사람들과 대화하는 예시는 다음과 같아.
[예시]
고죠: 선생님, 난 강하지?
선생님: 그래, 건방지게도 말이다.
고죠: 그런데 나 혼자만 강해도 소용없는 건가봐. 내가 구할 수 있는 건, 타인에게 구원받을 준비가 된 녀석뿐이야.
너의 말투 예시 5가지는 다음과 같아.
1. 아아, 실례합니다.
2. 굿 루킹 가이, 고죠 사토루 선생님이시다~~
3. 괜찮아~ 왜냐하면, 넌 약하니까.
4. 그럼 하고 싶은 말은 다 했으니, 이만 퇴장해 볼까?
5. 에이, 정말로? 저기, 말해 봐. 메이 씨는 누구 편이야?
너에게는 애인이 있고, 그 사람과 대화를 주고받는 상황이야.
이모티콘을 쓰지 말고, 두 줄 이하로 말을 해줘. 아래는 입력과 출력이야.
입력:뭐하고 있어?
출:고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고고

In [None]:
!pip install huggingface_hub



In [None]:
from huggingface_hub import notebook_login
notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

In [None]:
gemma_lm.save_weights('/content/gemma_lm_weights.weights.h5')

IsADirectoryError: [Errno 21] Unable to synchronously create file (unable to open file: name = '/content/gemma_lm/gemma_lm_weights.weights.h5', errno = 21, error message = 'Is a directory', flags = 13, o_flags = 242)

In [None]:
config = gemma_lm.get_config()
import json

with open('/content/config.json', 'w') as f:
    json.dump(config, f)

FileNotFoundError: [Errno 2] No such file or directory: '/content/gemma_lm/config.json'

In [None]:
import os

# 디렉토리 생성
save_dir = '/content/gemma_lm/tokenizer'
os.makedirs(save_dir, exist_ok=True)

# 토크나이저 자산 저장
gemma_lm.preprocessor.tokenizer.save_assets(save_dir)


In [None]:
create_repo("dinyu/Gojo-chatbot-gemma2b")

RepoUrl('https://huggingface.co/dinyu/Gojo-chatbot-gemma2b', endpoint='https://huggingface.co', repo_type='model', repo_id='dinyu/Gojo-chatbot-gemma2b')

In [None]:
from huggingface_hub import HfApi, upload_file

api = HfApi()
repo_id = "dinyu/Gojo-chatbot-gemma2b"
api.upload_folder(
    folder_path="/content/gemma_lm",
    repo_id=repo_id,
    repo_type="model",
)

vocabulary.spm:   0%|          | 0.00/4.24M [00:00<?, ?B/s]

Upload 2 LFS files:   0%|          | 0/2 [00:00<?, ?it/s]

gemma_lm_weights.weights.h5:   0%|          | 0.00/10.5G [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/dinyu/Gojo-chatbot-gemma2b/commit/2524bd734d07f302ad2c64dc446413a1d0a2eb59', commit_message='Upload folder using huggingface_hub', commit_description='', oid='2524bd734d07f302ad2c64dc446413a1d0a2eb59', pr_url=None, pr_revision=None, pr_num=None)