<a href="https://colab.research.google.com/github/zhe0/present/blob/main/Llama3_taide_unslothSFT.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

To run this, press "*Runtime*" and press "*Run all*" on a **free** Tesla T4 Google Colab instance!
<div class="align-center">
  <a href="https://github.com/unslothai/unsloth"><img src="https://github.com/unslothai/unsloth/raw/main/images/unsloth%20new%20logo.png" width="115"></a>
  <a href="https://discord.gg/u54VK8m8tk"><img src="https://github.com/unslothai/unsloth/raw/main/images/Discord button.png" width="145"></a>
  <a href="https://ko-fi.com/unsloth"><img src="https://github.com/unslothai/unsloth/raw/main/images/Kofi button.png" width="145"></a></a> Join Discord if you need help + ⭐ <i>Star us on <a href="https://github.com/unslothai/unsloth">Github</a> </i> ⭐
</div>

To install Unsloth on your own computer, follow the installation instructions on our Github page [here](https://github.com/unslothai/unsloth#installation-instructions---conda).

You will learn how to do [data prep](#Data), how to [train](#Train), how to [run the model](#Inference), & [how to save it](#Save) (eg for Llama.cpp).

**[NEW] Llama-3 8b is trained on a crazy 15 trillion tokens! Llama-2 was 2 trillion.**

In [1]:
%%capture
# Installs Unsloth, Xformers (Flash Attention) and all other packages!
!pip install "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"
!pip install --no-deps "xformers<0.0.26" trl peft accelerate bitsandbytes

* We support Llama, Mistral, CodeLlama, TinyLlama, Vicuna, Open Hermes etc
* And Yi, Qwen ([llamafied](https://huggingface.co/models?sort=trending&search=qwen+llama)), Deepseek, all Llama, Mistral derived archs.
* We support 16bit LoRA or 4bit QLoRA. Both 2x faster.
* `max_seq_length` can be set to anything, since we do automatic RoPE Scaling via [kaiokendev's](https://kaiokendev.github.io/til) method.
* [**NEW**] With [PR 26037](https://github.com/huggingface/transformers/pull/26037), we support downloading 4bit models **4x faster**! [Our repo](https://huggingface.co/unsloth) has Llama, Mistral 4bit models.

In [3]:
from unsloth import FastLanguageModel
import torch
max_seq_length = 2048 # Choose any! We auto support RoPE Scaling internally!
dtype = None # None for auto detection. Float16 for Tesla T4, V100, Bfloat16 for Ampere+
load_in_4bit = True # Use 4bit quantization to reduce memory usage. Can be False.

# 4bit pre quantized models we support for 4x faster downloading + no OOMs.
# fourbit_models = [
#     "unsloth/mistral-7b-bnb-4bit",
#     "unsloth/mistral-7b-instruct-v0.2-bnb-4bit",
#     "unsloth/llama-2-7b-bnb-4bit",
#     "unsloth/gemma-7b-bnb-4bit",
#     "unsloth/gemma-7b-it-bnb-4bit", # Instruct version of Gemma 7b
#     "unsloth/gemma-2b-bnb-4bit",
#     "unsloth/gemma-2b-it-bnb-4bit", # Instruct version of Gemma 2b
#     "unsloth/llama-3-8b-bnb-4bit", # [NEW] 15 Trillion token Llama-3
# ] # More models at https://huggingface.co/unsloth
mdl_name='taide/Llama3-TAIDE-LX-8B-Chat-Alpha1'
HF_TOKEN='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'

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = mdl_name,
    max_seq_length = max_seq_length,
    dtype = dtype,
    load_in_4bit = load_in_4bit,
    token=HF_TOKEN
)



config.json:   0%|          | 0.00/650 [00:00<?, ?B/s]

==((====))==  Unsloth: Fast Llama patching release 2024.4
   \\   /|    GPU: Tesla T4. Max memory: 14.748 GB. Platform = Linux.
O^O/ \_/ \    Pytorch: 2.2.1+cu121. CUDA = 7.5. CUDA Toolkit = 12.1.
\        /    Bfloat16 = FALSE. Xformers = 0.0.25.post1. FA = False.
 "-____-"     Free Apache license: http://github.com/unslothai/unsloth


model.safetensors.index.json:   0%|          | 0.00/23.9k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/4 [00:00<?, ?it/s]

model-00001-of-00004.safetensors:   0%|          | 0.00/4.98G [00:00<?, ?B/s]

model-00002-of-00004.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]

model-00003-of-00004.safetensors:   0%|          | 0.00/4.92G [00:00<?, ?B/s]

model-00004-of-00004.safetensors:   0%|          | 0.00/1.17G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/143 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/51.3k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.08M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/449 [00:00<?, ?B/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
taide/Llama3-TAIDE-LX-8B-Chat-Alpha1 does not have a padding token! Will use pad_token = <|reserved_special_token_250|>.


We now add LoRA adapters so we only need to update 1 to 10% of all parameters!

In [4]:
model = FastLanguageModel.get_peft_model(
    model,
    r = 16, # Choose any number > 0 ! Suggested 8, 16, 32, 64, 128
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",
                      "gate_proj", "up_proj", "down_proj",],
    lora_alpha = 16,
    lora_dropout = 0, # Supports any, but = 0 is optimized
    bias = "none",    # Supports any, but = "none" is optimized
    # [NEW] "unsloth" uses 30% less VRAM, fits 2x larger batch sizes!
    use_gradient_checkpointing = "unsloth", # True or "unsloth" for very long context
    random_state = 3407,
    use_rslora = False,  # We support rank stabilized LoRA
    loftq_config = None, # And LoftQ
)

Unsloth 2024.4 patched 32 layers with 32 QKV layers, 32 O layers and 32 MLP layers.


<a name="Data"></a>
### Data Prep
We now use the Alpaca dataset from [yahma](https://huggingface.co/datasets/yahma/alpaca-cleaned), which is a filtered version of 52K of the original [Alpaca dataset](https://crfm.stanford.edu/2023/03/13/alpaca.html). You can replace this code section with your own data prep.

**[NOTE]** To train only on completions (ignoring the user's input) read TRL's docs [here](https://huggingface.co/docs/trl/sft_trainer#train-on-completions-only).

**[NOTE]** Remember to add the **EOS_TOKEN** to the tokenized output!! Otherwise you'll get infinite generations!

If you want to use the `ChatML` template for ShareGPT datasets, try our conversational [notebook](https://colab.research.google.com/drive/1Aau3lgPzeZKQ-98h69CCu1UJcvIBLmy2?usp=sharing).

For text completions like novel writing, try this [notebook](https://colab.research.google.com/drive/1ef-tab5bhkvWmBOObepl1WgJvfvSzn5Q?usp=sharing).

In [5]:
txt='''Gogoro JEGO 系列 Smartscooter® 智慧電動機車使用手冊
發佈日期：2024.05.08

1.3 每次騎乘前應檢查項目
● 確保胎壓正常，建議胎壓為：前輪 33 psi、後輪 36 psi。
● 輪胎表面無龜裂、損傷、磨損、異物穿刺或附著。
● 胎紋深度大於 0.8 mm。
● 鏈條傳動車種之鏈條鬆緊恰當，具適當清潔及潤滑，無髒污異物沾附或卡住。
● 懸吊及動力系統無漏油或外觀異常。
● 冷卻空氣進氣口或散熱器無髒污阻塞。
● 系統電源已開啟時，儀表板無任何故障警示燈亮起。
● 電池電量充足。
● 左右把手的各項開關按鍵、頭尾燈、煞車燈、方向燈、喇叭作動正常。
● 後視鏡鏡面清潔並調整至適當角度。
● 煞車油量充足，煞車把手與煞車系統作動正常。
● 煞車來令片厚度足夠。
● 電子油門與電子倒車油門（部分機種搭載）作動正常。
● 其他政府法令要求之注意事項。
傳馬達檢查、清潔及潤滑作業過程中請務必確保車輛保持系統電源關閉狀態，嚴禁在馬達已啟動狀態下作業，以免衣物或肢體被機件捲入發生危險。
若您不確定如何操作或實施以上項目，在過程中有疑慮或發現異常，請諮詢專業人員、聯繫Gogoro 客服中心（0800-365-996），或至 Gogoro 服務中心尋求協助。

2. 認識您的 Smartscooter® 智慧電動機車
Gogoro Smartscooter® 智慧電動機車是世界上第一部高性能、零排放的智慧型電動雙輪交通載具，也是第一個與 Gogoro Network® 能源網路整合的產品。在實際開始騎乘之前，請先熟悉它的操作方式及資訊顯示。
下列詳細式樣、配備、規格等可能依車款、生產批次及年份等略有差異，請以實車為準。
2.1 JEGO 系列各部位介紹
2.2 左把手
遠燈切換鍵
● 可切換至遠光燈。
方向燈鍵
● 撥動至左 / 右側，方向燈會閃爍並發出音效。撥回中央即可關閉。
喇叭鍵
● 按住則喇叭會發出鳴響，放開則停止。
電子倒車油門鍵
● 當馬達已啟動時，按住即會倒退。
2.3 儀表板
	啟動鍵	系統電源已開啟時，按住煞車並按下此按鍵，可以啟動或關閉馬達。
	電池殘量顯示	顯示目前電池的約略剩餘電量。
	速度顯示	顯示目前車速。馬達關閉時不顯示數字，馬達已啟動且靜止時顯示「0」。
	行車里程顯示	顯示總里程。
	方向燈	隨方向燈同步閃爍。
	遠光燈	遠光燈開啟時點亮。
	錯誤警告	操作錯誤或異常時短暫點亮。
	高溫保護	電池溫度升高至保護點時會點亮，此時會自動降低動力輸出。

3. 準備上路
3.1 開啟系統電源並解鎖龍頭
● 將鑰匙插入主開關鑰匙孔。在「LOCK」位置將鑰匙往內壓入，然後順時針旋轉到「OFF」位置即可解開龍頭鎖。
● 再度順時鐘旋轉到「ON」，即可開啟系統電源。此時鑰匙會無法取下。
3.2 關閉系統電源並上鎖龍頭
● 將鑰匙逆時針方向由「ON」轉至「OFF」，即可關閉系統電源。此時已可取下鑰匙，但龍頭尚未上鎖。
● 欲上鎖龍頭，請先不要取下鑰匙。將龍頭向左打到底，將鑰匙向內壓，並逆時針方向由「OFF」轉至「LOCK」，即可上鎖。
3.3 開啟座墊下置物箱
● 把鑰匙插入主開關鎖孔內，由「OFF」位置或「LOCK」位置，逆時鐘旋轉鑰匙至 「座墊開啟」位置，即可開啟置物箱。
請隨時關閉座墊下置物箱，以免因長時間未關閉座墊，導致 Gogoro Network® 智慧電池無法對備用電池充電，進而導致備用電池過度放電而損壞。
貴重物品請隨身攜帶，當您結束騎乘並離開時，勿將其放置於置物箱內。
每台 Smartscooter® 智慧電動機車出廠時均配有二把「鑰匙」，請將不常用的另一把放置於您可以取得的地方。若您不慎將鑰匙、手機鎖在座墊下置物箱內，或鑰匙不慎遺失或損壞，即可以另一把開啟。
若您不慎將鑰匙、手機鎖在座墊下置物箱內，或鑰匙不慎遺失或損壞，且無法取得另一把鑰匙，請連絡 Gogoro 客服中心拖吊至就近之服務中心，由 Gogoro 授權之技術人員為您處理。

4. 上路騎乘
4.1 取車及架車
當您要開始騎乘 Smartscooter® 智慧電動機車之前，必須先收起側腳架及中駐架。而在您結束騎乘後，必須以側腳架或中駐架將車子平穩停放。
● 使用側腳架
	○ 以腳將側腳架踢起或展開。
	○ 側腳架具有安全感應開關，當側腳架展開時會自動關閉馬達。故每次騎乘前均需先收起側腳架，且行進間嚴禁展開。
	○ 使用側腳架停車時，需在坡度和緩之平地，以免車子滑動導致危險。
● 使用中駐架
	○ 準備騎乘前，收起中駐架時，請站在車子左側，以左手握住左把手，向後拉起車頭使前輪離地，同時以右手用力按下車尾讓後輪快速觸地，利用車子回彈的力量雙手順勢向前推出，即可將車子前推並收起中駐架。
	○ 停車時展開中駐架時，請站在車子左側，左手握住左把手，面朝車尾，右手伸直抓住車尾扶手，右腳尖及膝蓋向後，並踩住中駐架之腳踏，輕輕向下踩踏並微調車身左右傾斜度，確認中駐架下方二點均穩固接觸地面，然後將體重置於右腳用力向下踩，同時左手向上拉起，即可拉起車尾並展開中駐架。
	○ 部分車種中駐架具有安全感應開關，當中駐架展開時會自動關閉馬達。故每次騎乘前均需先收起中駐架，且行進間嚴禁展開。
Smartscooter® 智慧電動機車行進時若展開側腳架，需待時速降至 5 km/h 以下時，才會進入「馬達關閉狀態」。即使如此，行進間也請勿展開側腳架，以免發生無法預期的危險。

4.2 啟動及關閉馬達
Smartscooter® 智慧電動機車系統電源開啟後，必須先啟動馬達，才能開始騎乘。而在結束騎乘後，也必須先關閉馬達，才能關閉系統電源並上鎖。
4.2.1 啟動馬達
按住煞車，再按 「啟動鍵」，即可啟動馬達。
● 確認系統電源已開啟。此時頭尾燈、牌照燈及儀表板部分燈號會亮起。
● 每次啟動前，請先進行以下檢查：
	○ 座墊確實關閉。
	○ 收起中駐架及側腳架。
	○ 電子油門及電子倒車油門未被觸動且位於完全回彈歸零的位置。
	○ 車子處在完全靜止狀態，不在移動或滑行狀態。
● 先握緊左或右任一側煞車把手不放，然後另一手按住 「啟動鍵」不放，直至儀表上的速度表開始倒數，並顯示時速為「0」時，表示馬達已經啟動。
● 放開 「啟動鍵」及煞車把手，轉動電子油門，即可騎乘上路。
4.2.2 關閉馬達
● 將 Smartscooter® 智慧電動機車完全煞停。
● 先握緊煞車把手再按 「啟動鍵」即可關閉馬達。此時儀表不顯示時速，轉動電子油門亦不會有作用。
● 展開側腳架，也可以將馬達關閉。
● 部分車種中駐架具有安全感應開關，當中駐架展開時會自動關閉馬達。
● 機械式鑰匙車種，若將鑰匙逆時針方向轉至「OFF」，則同時關閉馬達及系統電源。
行進間若關閉馬達，會立刻失去動力並導致危險。故騎乘中嚴禁碰觸 「啟動鍵」。
Smartscooter®智慧電動機車必須在完全靜止狀態下才能啟動馬達。若在行進間發生異常，導致意外進入「馬達關閉狀態」時，請小心滑行或推行至路旁安全之處，切勿在行進間或車道上嘗試重新啟動馬達，以免發生危險。

4.3 前進及後退
4.3.1 電子油門
● 確認車子在「系統電源已啟動」狀態，並已啟動馬達。此時時速表應顯示數字「0」。
● 右手輕轉電子油門，車子即會往前進。
Smartscooter® 智慧電動機車與傳統引擎車輛不同，油門動力反應也有差異。若您尚未熟悉電子油門的特性，請務必小心操作，切勿一次轉動過大角度，以免突然出現預料之外的大動力，造成危險。
4.3.2 電子倒車油門
部分車種搭載有倒車功能，方便您將車子向後牽行。使用方法為：
● 確認車子在「系統電源已啟動」狀態，並且已啟動馬達。此時時速表顯示數字「0」。
● 確認車子完全靜止，且電子油門未被轉動。
● 按住左把手電子倒車油門鍵，即緩緩後退。
倒車功能啟動時，轉動電子油門將不會有作用。
若您同時操作電子倒車油門與電子油門，有可能會觸發系統保護而立即關閉馬達。

4.4 減速及停止
● 行進時抓握煞車把手，可降低行進速度或完全停止。
● 在正常情況下，請同時使用左右煞車把手，勿僅使用單邊煞車，以獲得較佳煞車效能。
4.4.1 SBS 同步煞車系統
● SBS（Synchronized Braking System）同步煞車系統，可以將左手按壓後煞的力道同步分配一部分至前煞，並將更多的煞車比重分配到制動力道較強的前輪，有助於在特定情況下降低後輪打滑的機率。
SBS 系統僅為輔助煞車性質，無法保証能避免所有的危險狀況，騎士本身仍需具備正確的操駕觀念及安全的駕駛行為。
搭載 SBS 系統之車種，操作前後煞車拉桿時會有互相干涉的感覺，此為正常現象，不會影響煞車的效能。SBS 系統單獨操作前煞車拉桿（右方）時，煞車力道不會分配至後輪。
4.5 低電量模式
● 當電量已經非常低，Smartscooter® 智慧電動機車進入「低電量模式」，車子動力會明顯受到限制。請立即至附近的 GoStation® 電池交換站更換電池。交換電力充足的電池後，即會恢復正常動力及速度。

5. 補充電力
Gogoro Smartscooter® 智慧電動機車使用電能驅動。當車上的 Gogoro Network® 智慧電池電力耗盡時，您必須交換電力充足之電池，或是將電池進行充電。
5.1 在 GoStation® 電池交換站交換電池
5.1.1 用 Gogoro® App 尋找站點您可利用智慧手機的 Gogoro® App 尋找附近 GoStation® 電池交換站的位置。
● 按下主畫面右下角的「地圖」圖示，即可在地圖上查看附近各站點目前是否有高電量可供交換的電池。
● 點選您欲前往的站點，按下「導航」，即可導航至該站以交換電池。
● 將站點名稱的畫面上拉則可查看該站點的詳細資訊及實景照片，方便您找尋不熟悉的站點，也可以查看常去站點一天各時段的滿格電池供應趨勢，方便您決定何時前往換電。
Gogoro® App 的畫面資訊及操作方式可能會依版本不同而略有差異，並請隨時更新至最新版本並以獲得最新的功能。

5.1.2 用 GoStation® 電池交換站的螢幕尋找其他站點
若您已抵達 GoStation® 電池交換站卻發現「所有電池均在充電中」，沒有高電量的電池供您交換，除了可以使用手機 Gogoro® App查詢附近其他站點的位置及電池資訊，也可以按下觸控螢幕右上角的「支援服務」，即可在地圖上顯示附近的站點資訊，以及本站的滿格電池趨勢等。
觸控螢幕所顯示之資訊可能因法令或軟硬體裝置不同而有所差異，且該等資訊均僅供車主使用之便利，除 Gogoro 特別聲明外，Gogoro 不就該等資訊之完整、正確或有效性負責。

5.1.3 交換電池
當您將 Smartscooter® 智慧電動機車騎乘至 GoStation® 電池交換站後，請依照以下步驟交換電池。
步驟一、取出車內電池
● 將 Smartscooter® 智慧電動機車安穩停放於 GoStation® 電池交換站旁。
● 放下側腳架，或握緊剎車把手並輕按 「啟動鍵」，以將馬達關閉。
● 開啟 Smartscooter® 智慧電動機車座墊。
● 一手握住任一電池之握把，將該電池上提後，另一手托住電池側身，自電池插槽中取出。
步驟二、將使用過的電池插入 GoStation® 電池交換站
● 將電池置入 GoStation® 電池交換站之空插槽，適度施力將電池推到底，直至電池被鎖定並發出確認音效為止。
● 若您的 Smartscooter® 智慧電動機車有不只一顆電池，則請依觸控螢幕的提示插入下一顆電池。
步驟三、取出新的電池
● 當電池全數插入 GoStation® 電池交換站之空插槽後，會進行認証及資料上傳，此時螢幕會顯示這一組電池剩餘電量、本次騎乘里程、總行駛里程等參考資訊，然後彈出可供更換之電池。
● 若您在一段時間之內沒有將剩下的電池插入，則之前插入的電池會先跳出來，您必須重新將其插入，以重啟交換電池流程。
● 有些資訊會透過 GoStation® 電池交換站的觸控螢幕對話框通知您，例如提醒您保養里程已到達、帳單逾期、或有新版 iQ System®可供更新等等。您可以按下觸控螢幕上的按鍵圖示，以閱讀說明資訊或結束對話框。
● 當對話框結束時，或在一段時間之內您未做任何操作，電池即會彈出，供您交換。
步驟四、將新電池置入 Smartscooter® 智慧電動機車
● 將電池置入 Smartscooter® 智慧電動機車電池插槽，關閉座墊，待儀表板 錯誤警告圖示熄滅後，即可開啟系統電源、啟動馬達，繼續上路。
● 單電池車款，請將電池置入 Smartscooter® 智慧電動機車左側之電池插槽。
電池每顆重量在 9 kg 以上，請小心拿取及放置。
交換電池時請一手握住電池握把，另一手托住電池側身，小心提取或插入，以免電池摔落發生危險。
若您一次需要交換一顆以上的電池，可先將電池置於 GoStation® 電池交換站旁之乾淨地面，再依序一次一顆進行操作。

電池彈出時，會突出於 GoStation® 電池交換站面板約 30 cm，故交換電池時請確保 GoStation®
電池交換站前方 30 cm 區域淨空，勿停放車輛、放置物品或站立人員，注意周邊人員及幼兒安全，避免碰撞到電池或 GoStation® 電池交換站。
GoStation® 電池交換站會彈出目前站內電量最高的電池，以供立即使用，故若站中所有電池均在充電中時，您有可能交換到尚未充滿電力的電池。
若您插入的電池，其電量高於站內現有電池的電量，則會退還原本的電池。
請務必於每 30 天內至少交換一次電池，若您預計將超過 30 天不使用車輛，可洽詢 Gogoro Network® 暫停您的能源服務合約。
5.1.4 身心障礙電池交換服務
為協助身心障礙者能夠更便利地交換電池，若您於營業時間內抵達 Gogoro 全台各地門市與維修中心的 GoStation® 電池交換站時，可以委由門市服務人員協助您交換電池。

6. 保養維護
確實的保養與維護，能提昇 Smartscooter® 智慧電動機車的耐久性與維護行車安全。建議您參照以下建議，來照顧您的愛車。
6.1 日常清潔與維護
● 請將 Gogoro Network® 智慧電池置於車廂內並保持座墊緊閉，以避免備用電池過度放電而損壞。
● 若您因暫停電池服務， Gogoro Network® 智慧電池長時間無法置於車廂內，建議委由
Gogoro 授權之技術人員將內建備用電池接頭拔除，避免備用電池過度放電而損壞，詳情請洽詢 Gogoro 服務中心。
● 儘量停放於乾燥陰涼之室內，減少日曬及雨淋，有助於延長零組件使用壽命。
● 使用清水及中性洗劑沖洗，並以軟布、海綿或軟毛刷清潔車輛表面。
● 鏈條傳動之車種，建議每 500 公里或在洗車、大雨、涉水後，使用油封鏈條專用油將鏈條上油潤滑，以保持鏈條性能表現、靜肅性及騎乘舒適性，延長使用壽命。
● 皮帶及鏈條傳動之車種，建議每 3,000 公里由 Gogoro 授權之技術人員檢查張力，必要時進行調整，以避免異常磨耗影響使用壽命。
自行拔除備用電池接頭方法不當，因而造成之故障及損傷，屬於使用者人為疏失，不在保固範圍內。
若因 30 天以上未交換電池、長時間未將電池置於車內、長時間未關閉座墊，導致備用電池過度放電而損壞者，屬於使用者人為疏失，不在保固範圍內。
嚴禁使用任何有機溶劑、強力清潔劑、酸性或鹼性洗劑、研磨劑、菜瓜布、金屬材質之毛刷或砂紙等進行清潔，以免破壞零件表面。
霧面、平光（消光）塗裝之表面，無論零件材質，均嚴禁使用任何亮光蠟或拋光劑，並請勿用力擦拭或磨擦，以免破壞表面之質地。
清洗時嚴禁使用強力水柱或高壓氣槍，以免水氣侵入或高壓造成機件故障損壞。
煞車系統嚴禁使用任何清潔劑及亮光蠟，以免影響煞車性能，造成危險。
鏈條潤滑請使用油封鏈條適用的鏈條油，建議使用含噴頭之樣式。嚴禁使用任何形式之溶劑、清潔劑、除鏽劑或非油封鏈條專用油（如汽油、酸 / 鹼性清潔劑、甲苯、丙酮、WD40 等）。
傳動皮帶或鏈條調整、檢查、清潔及潤滑作業過程中請務必確保車輛保持系統電源關閉狀態，嚴禁在馬達已啟動狀態下作業，以免衣物或肢體被機件捲入發生危險。
若您不確定如何操作或實施以上項目，在過程中有疑慮或發現異常，請諮詢專業人員、聯繫Gogoro 客服中心（0800-365-996），或至 Gogoro 服務中心尋求協助。
6.2 JEGO 系列定期檢查與保養週期
當保養里程或時間屆至時，系統會透過 Gogoro® App 及 GoStation® 電池交換站主動提醒您定期保養之訊息。您可以就近至 Gogoro 服務中心進行檢查與例行保養。
● 定期回廠檢查與保養週期：每 5,000 公里或每 6 個月（以先到者為準）。
保養里程每5,000 km並且每六個月保養時間必須進行檢查與例行保養，需檢查與保養項目如下：
	各項開關作動
	主、側腳架 / 坐墊扣座/ 煞車拉桿 / 後視鏡 / 鑰匙孔
	煞車油
	控制器接點
	輪胎 / 煞車皮 / 碟盤
	電池接頭 / 冠簧


所有維修及保養項目均須於 Gogoro 授權服務中心執行，並使用原廠指定之料件。
如未依原廠建議執行定期保養，或自行拆修，或使用非原廠指定料件，Gogoro 將有權不履行或修改保固的內容。
服務據點
您也可以至以下連結搜尋適合您的服務中心地點：
https://www.gogoro.com/tw/findus/?shop
'''

In [7]:
# alpaca_prompt = """Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

# ### Instruction:
# {}

# ### Input:
# {}

# ### Response:
# {}"""

# EOS_TOKEN = tokenizer.eos_token # Must add EOS_TOKEN
# def formatting_prompts_func(examples):
#     instructions = examples["instruction"]
#     inputs       = examples["input"]
#     outputs      = examples["output"]
#     texts = []
#     for instruction, input, output in zip(instructions, inputs, outputs):
#         # Must add EOS_TOKEN, otherwise your generation will go on forever!
#         text = alpaca_prompt.format(instruction, input, output) + EOS_TOKEN
#         texts.append(text)
#     return { "text" : texts, }
# pass

# from datasets import load_dataset
# dataset = load_dataset("yahma/alpaca-cleaned", split = "train")
# dataset = dataset.map(formatting_prompts_func, batched = True,)



EOS_TOKEN = tokenizer.eos_token # Must add EOS_TOKEN
def formatting_prompts_func(examples):
    # Assuming 'examples' is a list of strings
    texts = []
    for example in examples:
        # Format each string as needed; here we simply add an end-of-string token
        text = example + EOS_TOKEN
        texts.append(text)
    return {"text": texts}


from datasets import load_dataset
# dataset = load_dataset("yahma/alpaca-cleaned", split = "train")
dataset = load_dataset('text', data_files=r'/content/JEGO.txt', split='train')
dataset = dataset.map(formatting_prompts_func, batched = True)

Generating train split: 0 examples [00:00, ? examples/s]

Map:   0%|          | 0/194 [00:00<?, ? examples/s]

<a name="Train"></a>
### Train the model
Now let's use Huggingface TRL's `SFTTrainer`! More docs here: [TRL SFT docs](https://huggingface.co/docs/trl/sft_trainer). We do 60 steps to speed things up, but you can set `num_train_epochs=1` for a full run, and turn off `max_steps=None`. We also support TRL's `DPOTrainer`!

In [8]:
from trl import SFTTrainer
from transformers import TrainingArguments

trainer = SFTTrainer(
    model = model,
    tokenizer = tokenizer,
    train_dataset = dataset,
    dataset_text_field = "text",
    max_seq_length = max_seq_length,
    dataset_num_proc = 2,
    packing = False, # Can make training 5x faster for short sequences.
    args = TrainingArguments(
        per_device_train_batch_size = 2,
        gradient_accumulation_steps = 4,
        warmup_steps = 5,
        max_steps = 60,
        learning_rate = 2e-4,
        fp16 = not torch.cuda.is_bf16_supported(),
        bf16 = torch.cuda.is_bf16_supported(),
        logging_steps = 1,
        optim = "adamw_8bit",
        weight_decay = 0.01,
        lr_scheduler_type = "linear",
        seed = 3407,
        output_dir = "outputs",
    ),
)

num_proc must be <= 1. Reducing num_proc to 1 for dataset of size 1.


Map:   0%|          | 0/1 [00:00<?, ? examples/s]

max_steps is given, it will override any value given in num_train_epochs


In [None]:
#@title Show current memory stats
gpu_stats = torch.cuda.get_device_properties(0)
start_gpu_memory = round(torch.cuda.max_memory_reserved() / 1024 / 1024 / 1024, 3)
max_memory = round(gpu_stats.total_memory / 1024 / 1024 / 1024, 3)
print(f"GPU = {gpu_stats.name}. Max memory = {max_memory} GB.")
print(f"{start_gpu_memory} GB of memory reserved.")

GPU = Tesla T4. Max memory = 14.748 GB.
5.605 GB of memory reserved.


In [9]:
trainer_stats = trainer.train()

==((====))==  Unsloth - 2x faster free finetuning | Num GPUs = 1
   \\   /|    Num examples = 1 | Num Epochs = 60
O^O/ \_/ \    Batch size per device = 2 | Gradient Accumulation steps = 4
\        /    Total batch size = 8 | Total steps = 60
 "-____-"     Number of trainable parameters = 41,943,040


Step,Training Loss
1,2.6279
2,2.6279
3,2.6279
4,2.6279
5,2.5407
6,2.3144
7,1.8924
8,1.4143
9,1.4143
10,1.0145


In [None]:
#@title Show final memory and time stats
used_memory = round(torch.cuda.max_memory_reserved() / 1024 / 1024 / 1024, 3)
used_memory_for_lora = round(used_memory - start_gpu_memory, 3)
used_percentage = round(used_memory         /max_memory*100, 3)
lora_percentage = round(used_memory_for_lora/max_memory*100, 3)
print(f"{trainer_stats.metrics['train_runtime']} seconds used for training.")
print(f"{round(trainer_stats.metrics['train_runtime']/60, 2)} minutes used for training.")
print(f"Peak reserved memory = {used_memory} GB.")
print(f"Peak reserved memory for training = {used_memory_for_lora} GB.")
print(f"Peak reserved memory % of max memory = {used_percentage} %.")
print(f"Peak reserved memory for training % of max memory = {lora_percentage} %.")

477.878 seconds used for training.
7.96 minutes used for training.
Peak reserved memory = 8.922 GB.
Peak reserved memory for training = 3.317 GB.
Peak reserved memory % of max memory = 60.496 %.
Peak reserved memory for training % of max memory = 22.491 %.


<a name="Inference"></a>
### Inference
Let's run the model! You can change the instruction and input - leave the output blank!

In [None]:
# alpaca_prompt = Copied from above
FastLanguageModel.for_inference(model) # Enable native 2x faster inference
inputs = tokenizer(
[
    alpaca_prompt.format(
        "Continue the fibonnaci sequence.", # instruction
        "1, 1, 2, 3, 5, 8", # input
        "", # output - leave this blank for generation!
    )
], return_tensors = "pt").to("cuda")

outputs = model.generate(**inputs, max_new_tokens = 64, use_cache = True)
tokenizer.batch_decode(outputs)

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


['<|begin_of_text|>Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.\n\n### Instruction:\nContinue the fibonnaci sequence.\n\n### Input:\n1, 1, 2, 3, 5, 8\n\n### Response:\n13, 21, 34, 55, 89, 144, 233, 377, 610, 987, 1597, 2584, 4181, 6765, 10946, 17711, 28657, 46368, 75025']

 You can also use a `TextStreamer` for continuous inference - so you can see the generation token by token, instead of waiting the whole time!

In [None]:
# alpaca_prompt = Copied from above
FastLanguageModel.for_inference(model) # Enable native 2x faster inference
inputs = tokenizer(
[
    alpaca_prompt.format(
        "Continue the fibonnaci sequence.", # instruction
        "1, 1, 2, 3, 5, 8", # input
        "", # output - leave this blank for generation!
    )
], return_tensors = "pt").to("cuda")

from transformers import TextStreamer
text_streamer = TextStreamer(tokenizer)
_ = model.generate(**inputs, streamer = text_streamer, max_new_tokens = 128)

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


<|begin_of_text|>Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

### Instruction:
Continue the fibonnaci sequence.

### Input:
1, 1, 2, 3, 5, 8

### Response:
13, 21, 34, 55, 89, 144, 233, 377, 610, 987, 1597, 2584, 4181, 6765, 10946, 17711, 28657, 46368, 75025, 121393, 196418, 317811, 514229, 832040, 1346269, 2178309, 3524578, 5702887, 9227465, 14930352, 24157817, 39088169, 632459


<a name="Save"></a>
### Saving, loading finetuned models
To save the final model as LoRA adapters, either use Huggingface's `push_to_hub` for an online save or `save_pretrained` for a local save.

**[NOTE]** This ONLY saves the LoRA adapters, and not the full model. To save to 16bit or GGUF, scroll down!

In [10]:
# model.save_pretrained("lora_model") # Local saving
# tokenizer.save_pretrained("lora_model")
model.push_to_hub("zhe0/lama3_taide_sloth", token = HF_TOKEN) # Online saving
tokenizer.push_to_hub("zhe0/lama3_taide_sloth", token = HF_TOKEN) # Online saving

README.md:   0%|          | 0.00/589 [00:00<?, ?B/s]


Cannot access gated repo for url https://huggingface.co/taide/Llama3-TAIDE-LX-8B-Chat-Alpha1/resolve/main/config.json.
Access to model taide/Llama3-TAIDE-LX-8B-Chat-Alpha1 is restricted. You must be authenticated to access it. - silently ignoring the lookup for the file config.json in taide/Llama3-TAIDE-LX-8B-Chat-Alpha1.


adapter_model.safetensors:   0%|          | 0.00/168M [00:00<?, ?B/s]

Saved model to https://huggingface.co/zhe0/lama3_taide_sloth


Now if you want to load the LoRA adapters we just saved for inference, set `False` to `True`:

In [None]:
if False:
    from unsloth import FastLanguageModel
    model, tokenizer = FastLanguageModel.from_pretrained(
        model_name = "lora_model", # YOUR MODEL YOU USED FOR TRAINING
        max_seq_length = max_seq_length,
        dtype = dtype,
        load_in_4bit = load_in_4bit,
    )
    FastLanguageModel.for_inference(model) # Enable native 2x faster inference

# alpaca_prompt = You MUST copy from above!

inputs = tokenizer(
[
    alpaca_prompt.format(
        "What is a famous tall tower in Paris?", # instruction
        "", # input
        "", # output - leave this blank for generation!
    )
], return_tensors = "pt").to("cuda")

outputs = model.generate(**inputs, max_new_tokens = 64, use_cache = True)
tokenizer.batch_decode(outputs)

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


["<|begin_of_text|>Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.\n\n### Instruction:\nWhat is a famous tall tower in Paris?\n\n### Input:\n\n\n### Response:\nThe Eiffel Tower is a famous tall tower in Paris, France. It is 324 meters (1,063 feet) tall and was built in 1889 for the World's Fair. It is the most visited paid monument in the world, with over 7 million visitors annually. The tower is named after"]

You can also use Hugging Face's `AutoModelForPeftCausalLM`. Only use this if you do not have `unsloth` installed. It can be hopelessly slow, since `4bit` model downloading is not supported, and Unsloth's **inference is 2x faster**.

In [None]:
if False:
    # I highly do NOT suggest - use Unsloth if possible
    from peft import AutoPeftModelForCausalLM
    from transformers import AutoTokenizer
    model = AutoPeftModelForCausalLM.from_pretrained(
        "lora_model", # YOUR MODEL YOU USED FOR TRAINING
        load_in_4bit = load_in_4bit,
    )
    tokenizer = AutoTokenizer.from_pretrained("lora_model")

### Saving to float16 for VLLM

We also support saving to `float16` directly. Select `merged_16bit` for float16 or `merged_4bit` for int4. We also allow `lora` adapters as a fallback. Use `push_to_hub_merged` to upload to your Hugging Face account! You can go to https://huggingface.co/settings/tokens for your personal tokens.

In [None]:
# Merge to 16bit
if False: model.save_pretrained_merged("model", tokenizer, save_method = "merged_16bit",)
if False: model.push_to_hub_merged("hf/model", tokenizer, save_method = "merged_16bit", token = "")

# Merge to 4bit
if False: model.save_pretrained_merged("model", tokenizer, save_method = "merged_4bit",)
if False: model.push_to_hub_merged("hf/model", tokenizer, save_method = "merged_4bit", token = "")

# Just LoRA adapters
if False: model.save_pretrained_merged("model", tokenizer, save_method = "lora",)
if False: model.push_to_hub_merged("hf/model", tokenizer, save_method = "lora", token = "")

### GGUF / llama.cpp Conversion
To save to `GGUF` / `llama.cpp`, we support it natively now! We clone `llama.cpp` and we default save it to `q8_0`. We allow all methods like `q4_k_m`. Use `save_pretrained_gguf` for local saving and `push_to_hub_gguf` for uploading to HF.

Some supported quant methods (full list on our [Wiki page](https://github.com/unslothai/unsloth/wiki#gguf-quantization-options)):
* `q8_0` - Fast conversion. High resource use, but generally acceptable.
* `q4_k_m` - Recommended. Uses Q6_K for half of the attention.wv and feed_forward.w2 tensors, else Q4_K.
* `q5_k_m` - Recommended. Uses Q6_K for half of the attention.wv and feed_forward.w2 tensors, else Q5_K.

In [None]:
# Save to 8bit Q8_0
if False: model.save_pretrained_gguf("model", tokenizer,)
if False: model.push_to_hub_gguf("hf/model", tokenizer, token = "")

# Save to 16bit GGUF
if False: model.save_pretrained_gguf("model", tokenizer, quantization_method = "f16")
if False: model.push_to_hub_gguf("hf/model", tokenizer, quantization_method = "f16", token = "")

# Save to q4_k_m GGUF
if False: model.save_pretrained_gguf("model", tokenizer, quantization_method = "q4_k_m")
if False: model.push_to_hub_gguf("hf/model", tokenizer, quantization_method = "q4_k_m", token = "")

Now, use the `model-unsloth.gguf` file or `model-unsloth-Q4_K_M.gguf` file in `llama.cpp` or a UI based system like `GPT4All`. You can install GPT4All by going [here](https://gpt4all.io/index.html).

And we're done! If you have any questions on Unsloth, we have a [Discord](https://discord.gg/u54VK8m8tk) channel! If you find any bugs or want to keep updated with the latest LLM stuff, or need help, join projects etc, feel free to join our Discord!

Some other links:
1. Zephyr DPO 2x faster [free Colab](https://colab.research.google.com/drive/15vttTpzzVXv_tJwEk-hIcQ0S9FcEWvwP?usp=sharing)
2. Llama 7b 2x faster [free Colab](https://colab.research.google.com/drive/1lBzz5KeZJKXjvivbYvmGarix9Ao6Wxe5?usp=sharing)
3. TinyLlama 4x faster full Alpaca 52K in 1 hour [free Colab](https://colab.research.google.com/drive/1AZghoNBQaMDgWJpi4RbffGM1h6raLUj9?usp=sharing)
4. CodeLlama 34b 2x faster [A100 on Colab](https://colab.research.google.com/drive/1y7A0AxE3y8gdj4AVkl2aZX47Xu3P1wJT?usp=sharing)
5. Mistral 7b [free Kaggle version](https://www.kaggle.com/code/danielhanchen/kaggle-mistral-7b-unsloth-notebook)
6. We also did a [blog](https://huggingface.co/blog/unsloth-trl) with 🤗 HuggingFace, and we're in the TRL [docs](https://huggingface.co/docs/trl/main/en/sft_trainer#accelerate-fine-tuning-2x-using-unsloth)!
7. `ChatML` for ShareGPT datasets, [conversational notebook](https://colab.research.google.com/drive/1Aau3lgPzeZKQ-98h69CCu1UJcvIBLmy2?usp=sharing)
8. Text completions like novel writing [notebook](https://colab.research.google.com/drive/1ef-tab5bhkvWmBOObepl1WgJvfvSzn5Q?usp=sharing)

<div class="align-center">
  <a href="https://github.com/unslothai/unsloth"><img src="https://github.com/unslothai/unsloth/raw/main/images/unsloth%20new%20logo.png" width="115"></a>
  <a href="https://discord.gg/u54VK8m8tk"><img src="https://github.com/unslothai/unsloth/raw/main/images/Discord.png" width="145"></a>
  <a href="https://ko-fi.com/unsloth"><img src="https://github.com/unslothai/unsloth/raw/main/images/Kofi button.png" width="145"></a></a> Support our work if you can! Thanks!
</div>