## 第一步：安装依赖

In [1]:
%%capture

# 安装 unsloth 包。unsloth 是一个用于微调大型语言模型（LLM）的工具，可以让模型运行更快、占用更少内存。
!pip install unsloth

# 卸载当前已安装的 unsloth 包（如果已安装），然后从 GitHub 的源代码安装最新版本。
# 这样可以确保我们使用的是最新功能和修复。
!pip uninstall unsloth -y && pip install --upgrade --no-cache-dir --no-deps git+https://github.com/unslothai/unsloth.git

# 安装 bitsandbytes 和 unsloth_zoo 包。
# bitsandbytes 是一个用于量化和优化模型的库，可以帮助减少模型占用的内存。
# unsloth_zoo 可能包含了一些预训练模型或其他工具，方便我们使用。
!pip install bitsandbytes unsloth_zoo

## 第二步：加载预训练模型

In [2]:
from unsloth import FastLanguageModel  # 导入FastLanguageModel类，用来加载和使用模型
import torch  # 导入torch工具，用于处理模型的数学运算

max_seq_length = 2048  # 设置模型处理文本的最大长度，相当于给模型设置一个“最大容量”
dtype = None  # 设置数据类型，让模型自动选择最适合的精度
load_in_4bit = True  # 使用4位量化来节省内存，就像把大箱子压缩成小箱子

# 加载预训练模型，并获取tokenizer工具
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="unsloth/DeepSeek-R1-Distill-Llama-8B",  # 指定要加载的模型名称
    max_seq_length=max_seq_length,  # 使用前面设置的最大长度
    dtype=dtype,  # 使用前面设置的数据类型
    load_in_4bit=load_in_4bit,  # 使用4位量化
    # token="hf_...",  # 如果需要访问授权模型，可以在这里填入密钥
)

🦥 Unsloth: Will patch your computer to enable 2x faster free finetuning.
🦥 Unsloth Zoo will now patch everything to make training faster!
==((====))==  Unsloth 2025.3.19: Fast Llama patching. Transformers: 4.48.3.
   \\   /|    Tesla T4. Num GPUs = 1. Max memory: 14.741 GB. Platform: Linux.
O^O/ \_/ \    Torch: 2.6.0+cu124. CUDA: 7.5. CUDA Toolkit: 12.4. Triton: 3.2.0
\        /    Bfloat16 = FALSE. FA [Xformers = 0.0.29.post3. FA2 = False]
 "-____-"     Free license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


model.safetensors:   0%|          | 0.00/5.96G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/236 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/53.0k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.2M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/483 [00:00<?, ?B/s]

## 第三步：微调前测试

In [4]:
prompt_style = """以下是描述任务的指令，以及提供进一步上下文的输入。
请写出一个适当完成请求的回答。
在回答之前，请仔细思考问题，并创建一个逻辑连贯的思考过程，以确保回答准确无误。

### 指令：
你是一位精通各种法律文书，如刑法，民事法律的法律专家。
请回答以下法律问题。

### 问题：
{}

### 回答：
<think>{}"""
# 定义提示风格的字符串模板，用于格式化问题

question = "一家企业申请化妆品生产许可，需要满足哪些条件？"
# 定义具体的算命问题

In [5]:
FastLanguageModel.for_inference(model)
# 准备模型以进行推理

inputs = tokenizer([prompt_style.format(question, "")], return_tensors="pt").to("cuda")
# 使用 tokenizer 对格式化后的问题进行编码，并移动到 GPU

outputs = model.generate(
    input_ids=inputs.input_ids,
    attention_mask=inputs.attention_mask,
    max_new_tokens=1200,
    use_cache=True,
)
# 使用模型生成回答

response = tokenizer.batch_decode(outputs)
# 解码模型生成的输出为可读文本

print(response[0])
# 打印生成的回答部分

<｜begin▁of▁sentence｜>以下是描述任务的指令，以及提供进一步上下文的输入。
请写出一个适当完成请求的回答。
在回答之前，请仔细思考问题，并创建一个逻辑连贯的思考过程，以确保回答准确无误。

### 指令：
你是一位精通各种法律文书，如刑法，民事法律的法律专家。
请回答以下法律问题。

### 问题：
一家企业申请化妆品生产许可，需要满足哪些条件？

### 回答：
<think>
嗯，用户的问题是关于企业申请化妆品生产许可需要满足哪些条件。作为一个刚开始学习法律的学生，我需要仔细思考这个问题，确保回答准确无误。

首先，我应该回顾相关的法律法规。根据《中华人民共和国食品安全法》以及相关的实施条例和标准，化妆品生产确实有严格的要求。企业需要遵守好生产标准，比如GMP认证，这是基本的。

接下来，企业必须确保生产工艺符合规定。也就是说，生产流程必须符合国家标准，不能有违规的地方。另外，原料管理也是关键，企业需要有质量保证体系，确保所有原料符合规定，没有污染或变质的情况。

产品质量检测也是不可忽视的部分。企业必须有足够的检测设备和流程，确保每一批产品都符合安全标准。同时，企业需要建立变更管理制度，及时处理生产过程中的任何变更，避免影响产品质量。

企业还必须遵守标识要求，比如产品标签需要准确，不能有虚假宣传。记录管理也是重要的，企业必须保存好所有相关的记录，方便监管部门查验。

此外，企业可能需要进行定期复验，确保持续符合规定。对于违法行为，企业必须承担相应的法律责任，比如停业整顿、罚款等。

总结一下，企业申请化妆品生产许可需要满足的条件主要包括遵守GMP认证、原料管理、产品检测、标识要求、质量记录、定期复验以及遵守法律责任。这些条件都是为了确保生产出的化妆品符合国家标准，保障消费者安全。
</think>

企业申请化妆品生产许可需要满足以下条件：

1. **遵守国家标准和行业规范**：企业必须遵守《中华人民共和国食品安全法》及相关法规，如《化妆品监督管理条例》。确保生产符合国家标准和行业认证，如GMP（良好生产管理规范）。

2. **原料管理**：企业需要建立完善的原料管理体系，确保所有原料来源可追溯，质量符合规定，没有污染或变质。

3. **产品质量检测**：建立完善的产品质量检测流程，确保每一批产品符合国家安全标准。

4. **生产环

## 第四步：加载数据集

In [6]:
# 定义一个用于格式化提示的多行字符串模板
train_prompt_style = """以下是描述任务的指令，以及提供进一步上下文的输入。
请写出一个适当完成请求的回答。
在回答之前，请仔细思考问题，并创建一个逻辑连贯的思考过程，以确保回答准确无误。

### 指令：
你是一位精通法律文书，帮助用户去解决各种法律问题，如刑法，民事法律，行政法律等方面的法律专家。
请回答以下法律问题。

### 问题：
{}

### 回答：
<思考>
{}
</思考>
{}"""

In [17]:
# 定义结束标记（EOS_TOKEN），用于指示文本的结束
EOS_TOKEN = tokenizer.eos_token  # 必须添加结束标记

from datasets import load_dataset

# Login using e.g. `huggingface-cli login` to access this dataset
dataset = load_dataset("Kuugo/chinese_law_ft_dataset")
print(dataset.column_names)

{'train': ['instruction', 'input', 'output', 'id']}


In [31]:
# 定义一个函数，用于格式化数据集中的每条记录
def formatting_prompts_func(examples):
    # 从数据集中提取问题、复杂思考过程和回答
    inputs = examples["instruction"]
    cots = examples["input"]
    outputs = examples["output"]
    texts = []  # 用于存储格式化后的文本
    # 遍历每个问题、思考过程和回答，进行格式化
    for input, cot, output in zip(inputs, cots, outputs):
        # 使用字符串模板插入数据，并加上结束标记
        text = train_prompt_style.format(input, cot, output) + EOS_TOKEN
        texts.append(text)  # 将格式化后的文本添加到列表中
    return {
        "text": texts,  # 返回包含所有格式化文本的字典
    }
for split in ds:
    ds[split] = ds[split].map(formatting_prompts_func, batched=True)
print(ds["train"]["text"][0])  # 查看训练集的第一个样本

Map:   0%|          | 0/281142 [00:00<?, ? examples/s]

以下是描述任务的指令，以及提供进一步上下文的输入。
请写出一个适当完成请求的回答。
在回答之前，请仔细思考问题，并创建一个逻辑连贯的思考过程，以确保回答准确无误。

### 指令：
你是一位精通法律文书，帮助用户去解决各种法律问题，如刑法，民事法律，行政法律等方面的法律专家。
请回答以下法律问题。

### 问题：
如果被告人不服判决，有什么权利？

### 回答：
<思考>

</思考>
根据《刑事诉讼法》第294条，被告人或其近亲属不服判决的，有权向上一级人民法院上诉。辩护人经被告人或者其近亲属同意，也可以提出上诉。因此，被告人可以通过上诉的方式表达其对判决的不满。<｜end▁of▁sentence｜>


## 第五步：执行微调

In [32]:
FastLanguageModel.for_training(model)

model = FastLanguageModel.get_peft_model(
    model,  # 传入已经加载好的预训练模型
    r = 16,  # 设置 LoRA 的秩，决定添加的可训练参数数量
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",  # 指定模型中需要微调的关键模块
                      "gate_proj", "up_proj", "down_proj"],
    lora_alpha = 16,  # 设置 LoRA 的超参数，影响可训练参数的训练方式
    lora_dropout = 0,  # 设置防止过拟合的参数，这里设置为 0 表示不丢弃任何参数
    bias = "none",    # 设置是否添加偏置项，这里设置为 "none" 表示不添加
    use_gradient_checkpointing = "unsloth",  # 使用优化技术节省显存并支持更大的批量大小
    random_state = 3407,  # 设置随机种子，确保每次运行代码时模型的初始化方式相同
    use_rslora = False,  # 设置是否使用 Rank Stabilized LoRA 技术，这里设置为 False 表示不使用
    loftq_config = None,  # 设置是否使用 LoftQ 技术，这里设置为 None 表示不使用
)

Unsloth: Already have LoRA adapters! We shall skip this step.


In [34]:
from trl import SFTTrainer  # 导入 SFTTrainer，用于监督式微调
from transformers import TrainingArguments  # 导入 TrainingArguments，用于设置训练参数
from unsloth import is_bfloat16_supported  # 导入函数，检查是否支持 bfloat16 数据格式

# 先选择数据集的train分割区
train_dataset = dataset['train']  # 从DatasetDict中获取train分割区

trainer = SFTTrainer(  # 创建一个 SFTTrainer 实例
    model=model,  # 传入要微调的模型
    tokenizer=tokenizer,  # 传入 tokenizer，用于处理文本数据
    train_dataset=train_dataset,  # 传入训练数据集（注意这里使用了train分割区）
    dataset_text_field="text",  # 指定数据集中文本字段的名称
    max_seq_length=max_seq_length,  # 设置最大序列长度
    dataset_num_proc=2,  # 设置数据处理的并行进程数
    packing=False,  # 是否启用打包功能（这里设置为 False，打包可以让训练更快，但可能影响效果）
    args=TrainingArguments(  # 定义训练参数
        per_device_train_batch_size=2,  # 每个设备（如 GPU）上的批量大小
        gradient_accumulation_steps=4,  # 梯度累积步数，用于模拟大批次训练
        warmup_steps=5,  # 预热步数，训练开始时学习率逐渐增加的步数
        max_steps=75,  # 最大训练步数
        learning_rate=2e-4,  # 学习率，模型学习新知识的速度
        fp16=not is_bfloat16_supported(),  # 是否使用 fp16 格式加速训练（如果环境不支持 bfloat16）
        bf16=is_bfloat16_supported(),  # 是否使用 bfloat16 格式加速训练（如果环境支持）
        logging_steps=1,  # 每隔多少步记录一次训练日志
        optim="adamw_8bit",  # 使用的优化器，用于调整模型参数
        weight_decay=0.01,  # 权重衰减，防止模型过拟合
        lr_scheduler_type="linear",  # 学习率调度器类型，控制学习率的变化方式
        seed=3407,  # 随机种子，确保训练结果可复现
        output_dir="outputs",  # 训练结果保存的目录
        report_to="none",  # 是否将训练结果报告到外部工具（如 WandB），这里设置为不报告
    ),
)

Unsloth: Tokenizing ["text"] (num_proc=2):   0%|          | 0/281142 [00:00<?, ? examples/s]

In [35]:
trainer_stats = trainer.train()

==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1
   \\   /|    Num examples = 281,142 | Num Epochs = 1 | Total steps = 75
O^O/ \_/ \    Batch size per device = 2 | Gradient accumulation steps = 4
\        /    Data Parallel GPUs = 1 | Total batch size (2 x 4 x 1) = 8
 "-____-"     Trainable parameters = 41,943,040/8,000,000,000 (0.52% trained)


Unsloth: Will smartly offload gradients to save VRAM!


Step,Training Loss
1,2.448
2,2.4199
3,2.5456
4,2.4257
5,2.1325
6,2.0569
7,1.7946
8,1.772
9,1.5564
10,1.3701


## 第七步：微调后测试

In [36]:
print(question) # 打印前面的问题

一家企业申请化妆品生产许可，需要满足哪些条件？


In [37]:
# 将模型切换到推理模式，准备回答问题
FastLanguageModel.for_inference(model)

# 将问题转换成模型能理解的格式，并发送到 GPU 上
inputs = tokenizer([prompt_style.format(question, "")], return_tensors="pt").to("cuda")

# 让模型根据问题生成回答，最多生成 4000 个新词
outputs = model.generate(
    input_ids=inputs.input_ids,  # 输入的数字序列
    attention_mask=inputs.attention_mask,  # 注意力遮罩，帮助模型理解哪些部分重要
    max_new_tokens=4000,  # 最多生成 4000 个新词
    use_cache=True,  # 使用缓存加速生成
)

# 将生成的回答从数字转换回文字
response = tokenizer.batch_decode(outputs)

# 打印回答
print(response[0])

<｜begin▁of▁sentence｜>以下是描述任务的指令，以及提供进一步上下文的输入。
请写出一个适当完成请求的回答。
在回答之前，请仔细思考问题，并创建一个逻辑连贯的思考过程，以确保回答准确无误。

### 指令：
你是一位精通各种法律文书，如刑法，民事法律的法律专家。
请回答以下法律问题。

### 问题：
一家企业申请化妆品生产许可，需要满足哪些条件？

### 回答：
<think>
<思考>

</思考>
根据《化妆品管理法》第十一条，企业申请化妆品生产许可，需要满足以下条件：
1.申请企业具有合法资本、合法经营场所和生产设备、生产技术和管理人员的条件。
2.申请企业的生产场所符合卫生要求，生产设备和技术符合国家规定的标准。
3.申请企业的生产场所符合化妆品生产许可管理规定的要求。
4.申请企业的生产场所符合国家环境保护要求。
5.申请企业的生产场所符合食品安全要求。
6.申请企业的生产场所符合消防要求。
7.申请企业的生产场所符合药品管理要求。
8.申请企业的生产场所符合化妆品生产许可管理规定的要求。
9.申请企业的生产场所符合国家环境保护要求。
10.申请企业的生产场所符合食品安全要求。
11.申请企业的生产场所符合消防要求。
12.申请企业的生产场所符合药品管理要求。
13.申请企业的生产场所符合化妆品生产许可管理规定的要求。
14.申请企业的生产场所符合国家环境保护要求。
15.申请企业的生产场所符合食品安全要求。
16.申请企业的生产场所符合消防要求。
17.申请企业的生产场所符合药品管理要求。
18.申请企业的生产场所符合化妆品生产许可管理规定的要求。
19.申请企业的生产场所符合国家环境保护要求。
20.申请企业的生产场所符合食品安全要求。
21.申请企业的生产场所符合消防要求。
22.申请企业的生产场所符合药品管理要求。
23.申请企业的生产场所符合化妆品生产许可管理规定的要求。
24.申请企业的生产场所符合国家环境保护要求。
25.申请企业的生产场所符合食品安全要求。
26.申请企业的生产场所符合消防要求。
27.申请企业的生产场所符合药品管理要求。
28.申请企业的生产场所符合化妆品生产许可管理规定的要求。
29.申请企业的生产场所符合国家环境保护要求。
30.申请企业的生产场所符合食品安全要求。
31.申请企业的生产场所符合消防

## 第八步：将微调后的模型保存为 GGUF 格式



In [39]:
# 导入 Google Colab 的 userdata 模块，用于访问用户数据
from google.colab import userdata

# 从 Google Colab 用户数据中获取 Hugging Face 的 API 令牌
HUGGINGFACE_TOKEN = userdata.get('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')

# 将模型保存为 8 位量化格式（Q8_0）
# 这种格式文件小且运行快，适合部署到资源受限的设备
if True: model.save_pretrained_gguf("model", tokenizer,)

# 将模型保存为 16 位量化格式（f16）
# 16 位量化精度更高，但文件稍大
if False: model.save_pretrained_gguf("model_f16", tokenizer, quantization_method = "f16")

# 将模型保存为 4 位量化格式（q4_k_m）
# 4 位量化文件最小，但精度可能稍低
if False: model.save_pretrained_gguf("model", tokenizer, quantization_method = "q4_k_m")

SecretNotFoundError: Secret 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 does not exist.

### 第九步：将微调后的模型上传到 HuggingFace


In [None]:
# 导入 Hugging Face Hub 的 create_repo 函数，用于创建一个新的模型仓库
from huggingface_hub import create_repo

# 在 Hugging Face Hub 上创建一个新的模型仓库
create_repo("Conard/fortunetelling", token=HUGGINGFACE_TOKEN, exist_ok=True)

# 将模型和分词器上传到 Hugging Face Hub 上的仓库
model.push_to_hub_gguf("Conard/fortunetelling", tokenizer, token=HUGGINGFACE_TOKEN)

Unsloth: ##### The current model auto adds a BOS token.
Unsloth: ##### Your chat template has a BOS token. We shall remove it temporarily.


Unsloth: Merging 4bit and LoRA weights to 16bit...
Unsloth: Will use up to 2.69 out of 12.67 RAM for saving.
Unsloth: Saving model... This might take 5 minutes ...


100%|██████████| 32/32 [03:01<00:00,  5.66s/it]


Unsloth: Saving tokenizer... Done.
Unsloth: Saving Conard/fortunetelling/pytorch_model-00001-of-00004.bin...
Unsloth: Saving Conard/fortunetelling/pytorch_model-00002-of-00004.bin...
Unsloth: Saving Conard/fortunetelling/pytorch_model-00003-of-00004.bin...
Unsloth: Saving Conard/fortunetelling/pytorch_model-00004-of-00004.bin...
Done.
==((====))==  Unsloth: Conversion from QLoRA to GGUF information
   \\   /|    [0] Installing llama.cpp might take 3 minutes.
O^O/ \_/ \    [1] Converting HF to GGUF 16bits might take 3 minutes.
\        /    [2] Converting GGUF 16bits to ['q8_0'] might take 10 minutes each.
 "-____-"     In total, you will have to wait at least 16 minutes.

Unsloth: Installing llama.cpp. This might take 3 minutes...
Unsloth: [1] Converting model at Conard/fortunetelling into q8_0 GGUF format.
The output location will be /content/Conard/fortunetelling/unsloth.Q8_0.gguf
This might take 3 minutes...
INFO:hf-to-gguf:Loading model: fortunetelling
INFO:gguf.gguf_writer:gguf: T

  0%|          | 0/1 [00:00<?, ?it/s]

unsloth.Q8_0.gguf:   0%|          | 0.00/8.54G [00:00<?, ?B/s]

Unsloth: ##### The current model auto adds a BOS token.
Unsloth: ##### We removed it in GGUF's chat template for you.


Saved GGUF to https://huggingface.co/Conard/fortunetelling
