In [None]:


# 安装 unsloth 包。unsloth 是一个用于微调大型语言模型（LLM）的工具，可以让模型运行更快、占用更少内存。
!pip install unsloth

# 卸载当前已安装的 unsloth 包（如果已安装），然后从 GitHub 的源代码安装最新版本。
# 这样可以确保我们使用的是最新功能和修复。
!pip uninstall unsloth -y && pip install --upgrade --no-cache-dir --no-deps git+https://github.com/unslothai/unsloth.git

# 安装 bitsandbytes 和 unsloth_zoo 包。
# bitsandbytes 是一个用于量化和优化模型的库，可以帮助减少模型占用的内存。
# unsloth_zoo 可能包含了一些预训练模型或其他工具，方便我们使用。
!pip install bitsandbytes unsloth_zoo

Collecting unsloth
  Downloading unsloth-2025.5.9-py3-none-any.whl.metadata (47 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/47.1 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m47.1/47.1 kB[0m [31m2.0 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting unsloth_zoo>=2025.5.11 (from unsloth)
  Downloading unsloth_zoo-2025.5.11-py3-none-any.whl.metadata (8.1 kB)
Collecting xformers>=0.0.27.post2 (from unsloth)
  Downloading xformers-0.0.30-cp311-cp311-manylinux_2_28_x86_64.whl.metadata (1.0 kB)
Collecting bitsandbytes (from unsloth)
  Downloading bitsandbytes-0.46.0-py3-none-manylinux_2_24_x86_64.whl.metadata (10 kB)
Collecting tyro (from unsloth)
  Downloading tyro-0.9.23-py3-none-any.whl.metadata (11 kB)
Collecting datasets>=3.4.1 (from unsloth)
  Downloading datasets-3.6.0-py3-none-any.whl.metadata (19 kB)
Collecting trl!=0.15.0,!=0.9.0,!=0.9.1,!=0.9.2,!=0.9.3,>=0.7.9 (from unsloth)
  Downloading trl-0.18

Found existing installation: unsloth 2025.5.9
Uninstalling unsloth-2025.5.9:
  Successfully uninstalled unsloth-2025.5.9
Collecting git+https://github.com/unslothai/unsloth.git
  Cloning https://github.com/unslothai/unsloth.git to /tmp/pip-req-build-i5n42xcr
  Running command git clone --filter=blob:none --quiet https://github.com/unslothai/unsloth.git /tmp/pip-req-build-i5n42xcr
  Resolved https://github.com/unslothai/unsloth.git to commit 3340eaa41ce58619daf79d2783e49a45f8553a61
  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Building wheels for collected packages: unsloth
  Building wheel for unsloth (pyproject.toml) ... [?25l[?25hdone
  Created wheel for unsloth: filename=unsloth-2025.5.10-py3-none-any.whl size=276844 sha256=01c8a089853f6d712fbd056b8b739adf3a7791bfa8f20437d76a1227dba262f5
  Stored in directory: /tmp/pip-ephem-wheel-cache-sku9sy_e/wheels/d1/17

In [None]:
from unsloth import FastLanguageModel  # 导入FastLanguageModel类，用来加载和使用模型
import torch  # 导入torch工具，用于处理模型的数学运算

max_seq_length = 2048  # 设置模型处理文本的最大长度，相当于给模型设置一个“最大容量”
dtype = None  # 设置数据类型，让模型自动选择最适合的精度
load_in_4bit = True  # 使用4位量化来节省内存，就像把大箱子压缩成小箱子

# 加载预训练模型，并获取tokenizer工具
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="unsloth/DeepSeek-R1-Distill-Llama-8B",  # 指定要加载的模型名称
    max_seq_length=max_seq_length,  # 使用前面设置的最大长度
    dtype=dtype,  # 使用前面设置的数据类型
    load_in_4bit=load_in_4bit,  # 使用4位量化
    # token="hf_...",  # 如果需要访问授权模型，可以在这里填入密钥
)

🦥 Unsloth: Will patch your computer to enable 2x faster free finetuning.
🦥 Unsloth Zoo will now patch everything to make training faster!
==((====))==  Unsloth 2025.5.10: Fast Llama patching. Transformers: 4.52.3.
   \\   /|    Tesla T4. Num GPUs = 1. Max memory: 14.741 GB. Platform: Linux.
O^O/ \_/ \    Torch: 2.7.0+cu126. CUDA: 7.5. CUDA Toolkit: 12.6. Triton: 3.3.0
\        /    Bfloat16 = FALSE. FA [Xformers = 0.0.30. FA2 = False]
 "-____-"     Free license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


model.safetensors:   0%|          | 0.00/5.96G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/236 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/53.0k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.2M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/483 [00:00<?, ?B/s]

In [None]:
prompt_style = """以下是描述任务的指令，以及提供进一步上下文的输入。
请写出一个适当完成请求的回答。
在回答之前，请仔细思考问题，并创建一个逻辑连贯的思考过程，以确保回答准确无误。

### 指令：
你是一位熟悉中国成语的成语大师。
请回答以下成语问题。

### 问题：
{}

### 回答：
<think>{}"""
# 定义提示风格的字符串模板，用于格式化问题

question = "暗度成仓"
# 定义具体问题

In [None]:
FastLanguageModel.for_inference(model)
# 准备模型以进行推理

inputs = tokenizer([prompt_style.format(question, "")], return_tensors="pt").to("cuda")
# 使用 tokenizer 对格式化后的问题进行编码，并移动到 GPU

outputs = model.generate(
    input_ids=inputs.input_ids,
    attention_mask=inputs.attention_mask,
    max_new_tokens=1200,
    use_cache=True,
)
# 使用模型生成回答

response = tokenizer.batch_decode(outputs)
# 解码模型生成的输出为可读文本

print(response[0])
# 打印生成的回答部分

<｜begin▁of▁sentence｜>以下是描述任务的指令，以及提供进一步上下文的输入。
请写出一个适当完成请求的回答。
在回答之前，请仔细思考问题，并创建一个逻辑连贯的思考过程，以确保回答准确无误。

### 指令：
你是一位熟悉中国成语的成语大师。
请回答以下成语问题。

### 问题：
暗度成仓

### 回答：
<think>
嗯，今天遇到了一个成语问题，用户问的是“暗度成仓”。首先，我得回忆一下这个成语的意思。成语通常是四个字，前半部分是动词或形容词，后半部分是名词或成语。所以，“暗度”应该是动词，后面“成仓”是后半部分。

“暗”在这里可能是指黑暗，暗中。然后，“度”可能是指程度或者动作，比如度过、度量。后面的“成仓”可能指的是仓库或者成果。结合起来，可能是指在暗中度量，或者暗中成就了什么。

接下来，我需要拆分成语的结构。“暗”是形容词，后面“度”可能是动词，所以“暗度”可能是指在暗中进行某种程度的度量或行动。后面“成仓”可能是指成果或结果，所以整个成语可能是指在暗中通过某种程度达到了某种成果。

然后，我要考虑这个成语的具体意思。可能是指在困难或黑暗的环境下，通过努力达到了某种目标或成果。比如，暗中度量，可能是指在困难中达到了某种程度的成功或成就。

再想想，有没有类似的成语或者说法。比如，“暗中经营”指的是在黑暗中进行的经营活动，暗中发展可能是指在困难中发展。所以“暗度成仓”可能是指在暗中度量，达到了某种成果，可能是指在困难中成就了某种目标。

总结一下，暗度成仓的意思可能是指在暗中度量，达到了某种成果，可能是指在困难中达到了目标，或者暗中成就了某种成就。所以，回答的时候要强调在困难或黑暗中通过努力达到了目标或成果的意思。
</think>

暗度成仓是一个汉语成语，意思是指在暗中度量、度过，或者暗中成就、成果。这个成语通常用来形容在困难或黑暗的环境下，通过努力和智慧，达到了某种目标或成果。

例如，可以用来形容在资源匮乏或环境恶劣的情况下，依然能够取得一定成就的过程。这个成语强调的是在逆境中克服困难，取得成功的过程。<｜end▁of▁sentence｜>


In [None]:
# 定义一个用于格式化提示的多行字符串模板
train_prompt_style = """以下是描述任务的指令，以及提供进一步上下文的输入。
请写出一个适当完成请求的回答。
在回答之前，请仔细思考问题，并创建一个逻辑连贯的思考过程，以确保回答准确无误。

### 指令：
你是一位精通中国成语，成语典故等方面的成语大师。
请回答以下成语问题。

### 问题：
{}

### 回答：
<思考>
{}"""


In [None]:
# 定义结束标记（EOS_TOKEN），用于指示文本的结束
EOS_TOKEN = tokenizer.eos_token  # 必须添加结束标记

# 导入数据集加载函数
from datasets import load_dataset
# 加载指定的数据集，选择中文语言和训练集的前500条记录
dataset = load_dataset("yunxiao11xie/chengyu_chinese", 'default', split = "train[0:200]", trust_remote_code=True)
# 打印数据集的列名，查看数据集中有哪些字段
print(dataset.column_names)

README.md:   0%|          | 0.00/123 [00:00<?, ?B/s]

Repo card metadata block was not found. Setting CardData to empty.


chengyu.jsonl:   0%|          | 0.00/82.5k [00:00<?, ?B/s]

Generating train split:   0%|          | 0/111 [00:00<?, ? examples/s]

['instruction', 'input', 'output', 'task_type', 'domain', 'metadata', 'answer_from', 'human_verified', 'copyright']


In [None]:
# 定义一个函数，用于格式化数据集中的每条记录
def formatting_prompts_func(examples):
    # 从数据集中提取问题、复杂思考过程和回答
    inputs = examples["Question"]
    cots = examples["Complex_CoT"]
    outputs = examples["Response"]
    texts = []  # 用于存储格式化后的文本
    # 遍历每个问题、思考过程和回答，进行格式化
    for input, cot, output in zip(inputs, cots, outputs):
        # 使用字符串模板插入数据，并加上结束标记
        text = train_prompt_style.format(input, cot, output) + EOS_TOKEN
        texts.append(text)  # 将格式化后的文本添加到列表中
    return {
        "text": texts,  # 返回包含所有格式化文本的字典
    }

dataset = dataset.map(formatting_prompts_func, batched = True)
dataset["text"][0]

Map:   0%|          | 0/111 [00:00<?, ? examples/s]

KeyError: 'Question'

In [None]:
# 定义提示格式模板
train_prompt_style = "### 问题:\n{instruction}\n\n### 回答:\n{output}"

# 结束标记
EOS_TOKEN = "</s>"

def formatting_prompts_func(examples):
    # 从数据集中提取字段
    instructions = examples["instruction"]
    inputs = examples["input"]
    outputs = examples["output"]

    texts = []

    # 处理每个样本
    for i in range(len(instructions)):
        # 创建完整的问题
        if inputs[i] and inputs[i].strip():
            full_instruction = f"{instructions[i]}\n{inputs[i]}"
        else:
            full_instruction = instructions[i]

        # 格式化文本
        text = train_prompt_style.format(
            instruction=full_instruction,
            output=outputs[i]
        ) + EOS_TOKEN

        texts.append(text)

    return {"text": texts}

# 应用格式化函数
dataset = dataset.map(formatting_prompts_func, batched=True)

# 打印第一条记录检查格式
print("Formatted sample:")
print(dataset["text"][0])

Map:   0%|          | 0/111 [00:00<?, ? examples/s]

Formatted sample:
### 问题:
暗度陈仓
成语释义：

### 回答:
指正面迷惑敌人，而从侧翼进行突然袭击。亦比喻暗中进行活动。陈仓，古县名，在今陕西省宝鸡市东，为通向汉中的交通孔道。
成语出处：《史记·高祖本纪》……项王使卒三万人从，楚与诸侯之慕从者数万人，从杜南入蚀中。去辄烧绝栈道，以备诸侯盗兵袭之，亦示项羽无东意……八月，汉王用韩信之计，从故道还，袭雍王章邯—迎击汉陈仓，雍兵败，…</s>


In [None]:
FastLanguageModel.for_training(model)
import os



model = FastLanguageModel.get_peft_model(
    model,  # 传入已经加载好的预训练模型
    r = 16,  # 设置 LoRA 的秩，决定添加的可训练参数数量
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",  # 指定模型中需要微调的关键模块
                      "gate_proj", "up_proj", "down_proj"],
    lora_alpha = 16,  # 设置 LoRA 的超参数，影响可训练参数的训练方式
    lora_dropout = 0,  # 设置防止过拟合的参数，这里设置为 0 表示不丢弃任何参数
    bias = "none",    # 设置是否添加偏置项，这里设置为 "none" 表示不添加
    use_gradient_checkpointing = "unsloth",  # 使用优化技术节省显存并支持更大的批量大小
    random_state = 3407,  # 设置随机种子，确保每次运行代码时模型的初始化方式相同
    use_rslora = False,  # 设置是否使用 Rank Stabilized LoRA 技术，这里设置为 False 表示不使用
    loftq_config = None,  # 设置是否使用 LoftQ 技术，这里设置为 None 表示不使用
)

Unsloth 2025.5.10 patched 32 layers with 32 QKV layers, 32 O layers and 32 MLP layers.


In [18]:
!pip install -U wandb

Collecting wandb
  Downloading wandb-0.20.0-py3-none-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (10 kB)
Downloading wandb-0.20.0-py3-none-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (23.2 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m23.2/23.2 MB[0m [31m30.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: wandb
  Attempting uninstall: wandb
    Found existing installation: wandb 0.19.11
    Uninstalling wandb-0.19.11:
      Successfully uninstalled wandb-0.19.11
Successfully installed wandb-0.20.0


In [21]:
!wandb login

[34m[1mwandb[0m: Logging into wandb.ai. (Learn how to deploy a W&B server locally: https://wandb.me/wandb-server)
[34m[1mwandb[0m: You can find your API key in your browser here: https://wandb.ai/authorize?ref=models
[34m[1mwandb[0m: Paste an API key from your profile and hit enter, or press ctrl+c to quit: 
[34m[1mwandb[0m: No netrc file found, creating one.
[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc
[34m[1mwandb[0m: Currently logged in as: [33mlxx1008611[0m ([33mlxx1008611-no[0m) to [32mhttps://api.wandb.ai[0m. Use [1m`wandb login --relogin`[0m to force relogin


In [27]:
import random

import wandb

# Start a new wandb run to track this script.
run = wandb.init(
    # Set the wandb entity where your project will be logged (generally your team name).
    entity="my-awesome-team-name",
    # Set the wandb project where this run will be logged.
    project="my-awesome-project",
    # Track hyperparameters and run metadata.
    config={
        "learning_rate": 0.02,
        "architecture": "CNN",
        "dataset": "CIFAR-100",
        "epochs": 10,
    },
)

# Simulate training.
epochs = 10
offset = random.random() / 5
for epoch in range(2, epochs):
    acc = 1 - 2**-epoch - random.random() / epoch - offset
    loss = 2**-epoch + random.random() / epoch + offset

    # Log metrics to wandb.
    run.log({"acc": acc, "loss": loss})

# Finish the run and upload any remaining data.
run.finish()

CommError: Error uploading run: returned error 403: {"data":{"upsertBucket":null},"errors":[{"message":"permission denied","path":["upsertBucket"],"extensions":{"code":"PERMISSION_ERROR"}}]}

In [None]:
import torch
import wandb
import os
from transformers import TrainingArguments
from trl import SFTTrainer

# 1. 初始化WandB
wandb.init(
    project="chinese_idiom_project",
    name="experiment_compatible",
    config={
        "model": "Qwen1.5",
        "lora_rank": 16,
        "batch_size": 2,
        "learning_rate": 2e-4,
    }
)

# 2. 创建兼容各版本TrainingArguments的函数
def get_training_args():
    # 尝试使用新版本API
    try:
        # 尝试新版本参数名
        return TrainingArguments(
            per_device_train_batch_size=2,
            gradient_accumulation_steps=4,
            warmup_steps=20,
            max_steps=500,
            learning_rate=2e-4,
            bf16=torch.cuda.is_bf16_supported(),
            fp16=not torch.cuda.is_bf16_supported(),
            logging_steps=10,
            optim="paged_adamw_8bit",
            weight_decay=0.01,
            lr_scheduler_type="cosine",
            seed=3407,
            output_dir="chinese_idiom_model",
            report_to="wandb",
            save_strategy="steps",
            save_steps=50,
            eval_strategy="no",  # 新版本参数名
            load_best_model_at_end=False
        )
    except TypeError:
        # 如果新版本参数失败，使用旧版本
        return TrainingArguments(
            per_device_train_batch_size=2,
            gradient_accumulation_steps=4,
            warmup_steps=20,
            max_steps=500,
            learning_rate=2e-4,
            bf16=torch.cuda.is_bf16_supported(),
            fp16=not torch.cuda.is_bf16_supported(),
            logging_steps=10,
            optim="paged_adamw_8bit",
            weight_decay=0.01,
            lr_scheduler_type="cosine",
            seed=3407,
            output_dir="chinese_idiom_model",
            report_to="wandb",
            save_strategy="steps",
            save_steps=50,
            evaluation_strategy="no",  # 旧版本参数名
            load_best_model_at_end=False
        )

# 3. 创建训练器
trainer = SFTTrainer(
    model=model,
    tokenizer=tokenizer,
    train_dataset=dataset,
    dataset_text_field="text",
    max_seq_length=2048,
    args=get_training_args()  # 使用兼容的TrainingArguments
)

# 4. 训练并保存
print("开始训练...")
trainer.train()
print("保存模型...")
trainer.save_model("final_idiom_model")

# 5. 结束WandB
wandb.finish()
print("训练成功完成!")

开始训练...


==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1
   \\   /|    Num examples = 111 | Num Epochs = 36 | Total steps = 500
O^O/ \_/ \    Batch size per device = 2 | Gradient accumulation steps = 4
\        /    Data Parallel GPUs = 1 | Total batch size (2 x 4 x 1) = 8
 "-____-"     Trainable parameters = 41,943,040/8,000,000,000 (0.52% trained)


Unsloth: Will smartly offload gradients to save VRAM!


Step,Training Loss
10,2.6753
20,2.7471
30,2.1378
40,1.5352
50,1.0101
60,0.5946
70,0.359
80,0.158
90,0.1247
100,0.1102


config.json:   0%|          | 0.00/1.56k [00:00<?, ?B/s]

In [None]:
from trl import SFTTrainer  # 导入 SFTTrainer，用于监督式微调
from transformers import TrainingArguments  # 导入 TrainingArguments，用于设置训练参数
from unsloth import is_bfloat16_supported  # 导入函数，检查是否支持 bfloat16 数据格式

trainer = SFTTrainer(  # 创建一个 SFTTrainer 实例
    model=model,  # 传入要微调的模型
    tokenizer=tokenizer,  # 传入 tokenizer，用于处理文本数据
    train_dataset=dataset,  # 传入训练数据集
    dataset_text_field="text",  # 指定数据集中文本字段的名称
    max_seq_length=max_seq_length,  # 设置最大序列长度
    dataset_num_proc=2,  # 设置数据处理的并行进程数
    packing=False,  # 是否启用打包功能（这里设置为 False，打包可以让训练更快，但可能影响效果）
    args=TrainingArguments(  # 定义训练参数
        per_device_train_batch_size=1,  # 每个设备（如 GPU）上的批量大小
        gradient_accumulation_steps=2,  # 梯度累积步数，用于模拟大批次训练
        warmup_steps=5,  # 预热步数，训练开始时学习率逐渐增加的步数
        max_steps=50,  # 最大训练步数
        learning_rate=2e-4,  # 学习率，模型学习新知识的速度


        bf16=is_bfloat16_supported(),  # 是否使用 bfloat16 格式加速训练（如果环境支持）
        logging_steps=1,  # 每隔多少步记录一次训练日志
        optim="adamw_8bit",  # 使用的优化器，用于调整模型参数
        weight_decay=0.01,  # 权重衰减，防止模型过拟合
        lr_scheduler_type="linear",  # 学习率调度器类型，控制学习率的变化方式
        seed=3407,  # 随机种子，确保训练结果可复现
        output_dir="outputs",  # 训练结果保存的目录
        report_to="none",  # 是否将训练结果报告到外部工具（如 WandB），这里设置为不报告
    ),
)


Unsloth: Tokenizing ["text"]:   0%|          | 0/111 [00:00<?, ? examples/s]

In [None]:

trainer_stats = trainer.train()

==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1
   \\   /|    Num examples = 111 | Num Epochs = 1 | Total steps = 50
O^O/ \_/ \    Batch size per device = 1 | Gradient accumulation steps = 2
\        /    Data Parallel GPUs = 1 | Total batch size (1 x 2 x 1) = 2
 "-____-"     Trainable parameters = 41,943,040/8,000,000,000 (0.52% trained)


Step,Training Loss
1,4.1826
2,4.1961
3,4.5001
4,4.0101
5,3.4385
6,4.1092
7,3.5885
8,3.5373
9,3.7078
10,3.805


In [None]:
print(question) # 打印前面的问题

暗度成仓


In [None]:
# 将模型切换到推理模式，准备回答问题
FastLanguageModel.for_inference(model)

# 将问题转换成模型能理解的格式，并发送到 GPU 上
inputs = tokenizer([prompt_style.format(question, "")], return_tensors="pt").to("cuda")

# 让模型根据问题生成回答，最多生成 4000 个新词
outputs = model.generate(
    input_ids=inputs.input_ids,  # 输入的数字序列
    attention_mask=inputs.attention_mask,  # 注意力遮罩，帮助模型理解哪些部分重要
    max_new_tokens=4000,  # 最多生成 4000 个新词
    use_cache=True,  # 使用缓存加速生成
)

# 将生成的回答从数字转换回文字
response = tokenizer.batch_decode(outputs)

# 打印回答
print(response[0])

<｜begin▁of▁sentence｜>以下是描述任务的指令，以及提供进一步上下文的输入。
请写出一个适当完成请求的回答。
在回答之前，请仔细思考问题，并创建一个逻辑连贯的思考过程，以确保回答准确无误。

### 指令：
你是一位熟悉中国成语的成语大师。
请回答以下成语问题。

### 问题：
暗度成仓

### 回答：
<think>
成语释义：暗度成仓。暗中（暗处）做事。成仓（成锈）指锈蚀的铁器。比喻暗中做事，事后无影无踪。成语出处：唐·王维《诗话》第六十四卷第九十二题·王维》‘王维之笔，若暗度成仓，语无踪迹。’</s>成语释义：暗度成仓。暗中做事。成仓指成锈，暗中做事，事后无影无踪。成语出处：唐·王维《诗话》第六十四卷第九十二题·王维》‘王维之笔，若暗度成仓，语无踪迹。’</s>成语释义：暗度成仓。暗中做事。成仓指成锈，暗中做事，事后无影无踪。成语出处：唐·王维《诗话》第六十四卷第九十二题·王维》‘王维之笔，若暗度成仓，语无踪迹。’</s>成语释义：暗度成仓。暗中做事。成仓指成锈，暗中做事，事后无影无踪。成语出处：唐·王维《诗话》第六十四卷第九十二题·王维》‘王维之笔，若暗度成仓，语无踪迹。’</s>成语释义：暗度成仓。暗中做事。成仓指成锈，暗中做事，事后无影无踪。成语出处：唐·王维《诗话》第六十四卷第九十二题·王维》‘王维之笔，若暗度成仓，语无踪迹。’</s>成语释义：暗度成仓。暗中做事。成仓指成锈，暗中做事，事后无影无踪。成语出处：唐·王维《诗话》第六十四卷第九十二题·王维》‘王维之笔，若暗度成仓，语无踪迹。’</s>成语释义：暗度成仓。暗中做事。成仓指成锈，暗中做事，事后无影无踪。成语出处：唐·王维《诗话》第六十四卷第九十二题·王维》‘王维之笔，若暗度成仓，语无踪迹。’</s>成语释义：暗度成仓。暗中做事。成仓指成锈，暗中做事，事后无影无踪。成语出处：唐·王维《诗话》第六十四卷第九十二题·王维》‘王维之笔，若暗度成仓，语无踪迹。’</s>成语释义：暗度成仓。暗中做事。成仓指成锈，暗中做事，事后无影无踪。成语出处：唐·王维《诗话》第六十四卷第九十二题·王维》‘王维之笔，若暗度成仓，语无踪迹。’</s>成语释义：暗度成仓。暗中做事。成仓指成锈，暗中做事，事后无影无踪。成语出处：唐·王维《诗话》第六十四卷第九十二题·王维》‘王维之笔，若暗度成仓，语无踪迹。’

In [None]:
# 导入 Google Colab 的 userdata 模块，用于访问用户数据
from google.colab import userdata

# 从 Google Colab 用户数据中获取 Hugging Face 的 API 令牌
HUGGINGFACE_TOKEN = userdata.get('HUGGINGFACE_TOKEN')

# 将模型保存为 8 位量化格式（Q8_0）
# 这种格式文件小且运行快，适合部署到资源受限的设备
if True: model.save_pretrained_gguf("model", tokenizer,)

# 将模型保存为 16 位量化格式（f16）
# 16 位量化精度更高，但文件稍大
if False: model.save_pretrained_gguf("model_f16", tokenizer, quantization_method = "f16")

# 将模型保存为 4 位量化格式（q4_k_m）
# 4 位量化文件最小，但精度可能稍低
if False: model.save_pretrained_gguf("model", tokenizer, quantization_method = "q4_k_m")

Unsloth: ##### The current model auto adds a BOS token.
Unsloth: ##### Your chat template has a BOS token. We shall remove it temporarily.
Unsloth: You have 1 CPUs. Using `safe_serialization` is 10x slower.
We shall switch to Pytorch saving, which might take 3 minutes and not 30 minutes.
To force `safe_serialization`, set it to `None` instead.
Unsloth: Kaggle/Colab has limited disk space. We need to delete the downloaded
model which will save 4-16GB of disk space, allowing you to save on Kaggle/Colab.
Unsloth: Will remove a cached repo with size 6.0G


Unsloth: Merging 4bit and LoRA weights to 16bit...
Unsloth: Will use up to 3.41 out of 12.67 RAM for saving.
Unsloth: Saving model... This might take 5 minutes ...


 41%|████      | 13/32 [00:01<00:01, 12.60it/s]
We will save to Disk and not RAM now.
100%|██████████| 32/32 [03:09<00:00,  5.91s/it]


Unsloth: Saving tokenizer... Done.
Unsloth: Saving model/pytorch_model-00001-of-00004.bin...
Unsloth: Saving model/pytorch_model-00002-of-00004.bin...
Unsloth: Saving model/pytorch_model-00003-of-00004.bin...
Unsloth: Saving model/pytorch_model-00004-of-00004.bin...
Done.


Unsloth: Converting llama model. Can use fast conversion = False.


==((====))==  Unsloth: Conversion from QLoRA to GGUF information
   \\   /|    [0] Installing llama.cpp might take 3 minutes.
O^O/ \_/ \    [1] Converting HF to GGUF 16bits might take 3 minutes.
\        /    [2] Converting GGUF 16bits to ['q8_0'] might take 10 minutes each.
 "-____-"     In total, you will have to wait at least 16 minutes.

Unsloth: Installing llama.cpp. This might take 3 minutes...
Unsloth: CMAKE detected. Finalizing some steps for installation.
Unsloth: [1] Converting model at model into q8_0 GGUF format.
The output location will be /content/model/unsloth.Q8_0.gguf
This might take 3 minutes...
INFO:hf-to-gguf:Loading model: model
INFO:hf-to-gguf:Model architecture: LlamaForCausalLM
INFO:gguf.gguf_writer:gguf: This GGUF file is for Little Endian only
INFO:hf-to-gguf:Exporting model...
INFO:hf-to-gguf:rope_freqs.weight,           torch.float32 --> F32, shape = {64}
INFO:hf-to-gguf:gguf: loading model weight map from 'pytorch_model.bin.index.json'
INFO:hf-to-gguf:gguf:

Unsloth: ##### The current model auto adds a BOS token.
Unsloth: ##### We removed it in GGUF's chat template for you.


Unsloth: Conversion completed! Output location: /content/model/unsloth.Q8_0.gguf


In [None]:
# 导入 Hugging Face Hub 的 create_repo 函数，用于创建一个新的模型仓库
from huggingface_hub import create_repo

# 在 Hugging Face Hub 上创建一个新的模型仓库
create_repo("yunxiao11xie/fortunetelling_chengyu", token=HUGGINGFACE_TOKEN, exist_ok=True)

# 将模型和分词器上传到 Hugging Face Hub 上的仓库
model.push_to_hub_gguf("yunxiao11xie/fortunetelling_chengyu", tokenizer, token=HUGGINGFACE_TOKEN)

Unsloth: ##### The current model auto adds a BOS token.
Unsloth: ##### Your chat template has a BOS token. We shall remove it temporarily.


Unsloth: Merging 4bit and LoRA weights to 16bit...
Unsloth: Will use up to 4.83 out of 12.67 RAM for saving.
Unsloth: Saving model... This might take 5 minutes ...


100%|██████████| 32/32 [02:17<00:00,  4.31s/it]


Unsloth: Saving tokenizer... Done.
Unsloth: Saving yunxiao11xie/fortunetelling_chengyu/pytorch_model-00001-of-00004.bin...
Unsloth: Saving yunxiao11xie/fortunetelling_chengyu/pytorch_model-00002-of-00004.bin...
Unsloth: Saving yunxiao11xie/fortunetelling_chengyu/pytorch_model-00003-of-00004.bin...
Unsloth: Saving yunxiao11xie/fortunetelling_chengyu/pytorch_model-00004-of-00004.bin...
Done.
==((====))==  Unsloth: Conversion from QLoRA to GGUF information
   \\   /|    [0] Installing llama.cpp might take 3 minutes.
O^O/ \_/ \    [1] Converting HF to GGUF 16bits might take 3 minutes.
\        /    [2] Converting GGUF 16bits to ['q8_0'] might take 10 minutes each.
 "-____-"     In total, you will have to wait at least 16 minutes.

Unsloth: Installing llama.cpp. This might take 3 minutes...
Unsloth: [1] Converting model at yunxiao11xie/fortunetelling_chengyu into q8_0 GGUF format.
The output location will be /content/yunxiao11xie/fortunetelling_chengyu/unsloth.Q8_0.gguf
This might take 3 mi

Uploading...:   0%|          | 0.00/8.54G [00:00<?, ?B/s]

Unsloth: ##### The current model auto adds a BOS token.
Unsloth: ##### We removed it in GGUF's chat template for you.


Saved GGUF to https://huggingface.co/yunxiao11xie/fortunetelling_chengyu


# 新段落

# 新段落