In [1]:
!pip install -U bitsandbytes



In [2]:
import torch
from datasets import load_dataset
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    TrainingArguments,
    BitsAndBytesConfig
)
from peft import (
    LoraConfig,
    get_peft_model,
    prepare_model_for_kbit_training,
    TaskType
)
from trl import SFTTrainer
import os

In [3]:
# ================== НАСТРОЙКИ ==================
MODEL_NAME = "Qwen/Qwen3-14B"  # Ваша модель
DATASET_PATH = "./dataset.json"  # Путь к вашему датасету
OUTPUT_DIR = "./lora-qwen3-chat-style"  # Куда сохранять LoRA
SAVE_MODEL_PATH = "./MyModel"  # Куда сохранять полную модель

# Параметры LoRA
LORA_R = 16  # Rank
LORA_ALPHA = 32  # Alpha
LORA_DROPOUT = 0.05
TARGET_MODULES = ["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"]

# Параметры обучения
BATCH_SIZE = 1  # Уменьшите если не хватает памяти
GRAD_ACCUM_STEPS = 8  # Аккумулирование градиентов
LEARNING_RATE = 2e-4
NUM_EPOCHS = 3
MAX_SEQ_LENGTH = 2048  # Максимальная длина последовательности

# Квантование (обязательно для 14B на GPU с 24ГБ)
USE_QUANTIZATION = False
LOAD_IN_4BIT = True  # 4-битное квантование
LOAD_IN_8BIT = False  # Альтернатива: 8-битное

In [4]:
# ================== ЗАГРУЗКА МОДЕЛИ И ТОКЕНИЗАТОРА ==================
print("Загрузка модели и токенизатора...")

# Настройка квантования
bnb_config = None
if USE_QUANTIZATION:
    bnb_config = BitsAndBytesConfig(
        load_in_4bit=LOAD_IN_4BIT,
        load_in_8bit=LOAD_IN_8BIT,
        bnb_4bit_quant_type="nf4",
        bnb_4bit_compute_dtype=torch.bfloat16,
        bnb_4bit_use_double_quant=True
    )

# Загрузка токенизатора
tokenizer = AutoTokenizer.from_pretrained(
    MODEL_NAME,
    trust_remote_code=True,
    use_fast=True
)

# Установка padding token если отсутствует
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token
    tokenizer.pad_token_id = tokenizer.eos_token_id

# Загрузка модели
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    quantization_config=bnb_config,
    device_map="auto",  # Автоматическое распределение по устройствам
    trust_remote_code=True,
    torch_dtype=torch.bfloat16 if not USE_QUANTIZATION else None,
    attn_implementation="flash_attention_2" if torch.cuda.is_available() else None
)

Загрузка модели и токенизатора...


`torch_dtype` is deprecated! Use `dtype` instead!


Fetching 8 files:   0%|          | 0/8 [00:00<?, ?it/s]

model-00003-of-00008.safetensors:   0%|          | 0.00/3.96G [00:00<?, ?B/s]

model-00007-of-00008.safetensors:   0%|          | 0.00/3.96G [00:00<?, ?B/s]

model-00005-of-00008.safetensors:   0%|          | 0.00/3.96G [00:00<?, ?B/s]

model-00002-of-00008.safetensors:   0%|          | 0.00/3.96G [00:00<?, ?B/s]

model-00004-of-00008.safetensors:   0%|          | 0.00/3.96G [00:00<?, ?B/s]

model-00001-of-00008.safetensors:   0%|          | 0.00/3.84G [00:00<?, ?B/s]

model-00008-of-00008.safetensors:   0%|          | 0.00/1.91G [00:00<?, ?B/s]

model-00006-of-00008.safetensors:   0%|          | 0.00/3.96G [00:00<?, ?B/s]

ImportError: FlashAttention2 has been toggled on, but it cannot be used due to the following error: the package flash_attn seems to be not installed. Please refer to the documentation of https://huggingface.co/docs/transformers/perf_infer_gpu_one#flashattention-2 to install Flash Attention 2.

In [None]:
# ================== ПОДГОТОВКА МОДЕЛИ К ОБУЧЕНИЮ ==================
if USE_QUANTIZATION:
    model = prepare_model_for_kbit_training(model)

In [None]:
# ================== НАСТРОЙКА LoRA ==================
print("Настройка LoRA...")

peft_config = LoraConfig(
    task_type=TaskType.CAUSAL_LM,
    inference_mode=False,
    r=LORA_R,
    lora_alpha=LORA_ALPHA,
    lora_dropout=LORA_DROPOUT,
    target_modules=TARGET_MODULES,
    bias="none"
)

model = get_peft_model(model, peft_config)
model.print_trainable_parameters()  # Покажет сколько параметров обучается

In [None]:
# ================== ЗАГРУЗКА И ПОДГОТОВКА ДАТАСЕТА ==================
print("Загрузка датасета...")

def load_and_prepare_dataset(file_path):
    """Загрузка и подготовка датасета в зависимости от формата"""
    dataset = load_dataset('json', data_files=file_path, split='train')
    
    def format_conversation(example):
        """Форматирование примера в текст для обучения"""
        # Вариант 1: Если данные в формате ChatML
        if 'messages' in example:
            text = ""
            for msg in example['messages']:
                if msg['role'] == 'user':
                    text += f"<|im_start|>user\n{msg['content']}<|im_end|>\n"
                else:
                    text += f"<|im_start|>assistant\n{msg['content']}<|im_end|>\n"
            return {'text': text}
        
        # Вариант 2: Если данные в инструктивном формате
        elif 'instruction' in example and 'output' in example:
            instruction = example['instruction']
            input_text = example.get('input', '')
            output = example['output']
            
            text = f"<|im_start|>user\n{instruction}"
            if input_text:
                text += f"\n{input_text}"
            text += f"<|im_end|>\n<|im_start|>assistant\n{output}<|im_end|>"
            return {'text': text}
        
        # Вариант 3: Если данные в формате context-response (для вашей задачи)
        elif 'context' in example and 'response' in example:
            text = f"<|im_start|>user\n{example['context']}<|im_end|>\n"
            text += f"<|im_start|>assistant\n{example['response']}<|im_end|>"
            return {'text': text}
        
        # Вариант 4: Если просто текст
        else:
            return {'text': str(example)}
    
    # Применяем форматирование
    dataset = dataset.map(format_conversation, remove_columns=dataset.column_names)
    return dataset

dataset = load_and_prepare_dataset(DATASET_PATH)

# Разделение на тренировочную и валидационную выборки
dataset = dataset.train_test_split(test_size=0.1, seed=42)
train_dataset = dataset['train']
eval_dataset = dataset['test']

print(f"Размер тренировочного датасета: {len(train_dataset)}")
print(f"Размер валидационного датасета: {len(eval_dataset)}")

In [None]:
# ================== НАСТРОЙКА АРГУМЕНТОВ ОБУЧЕНИЯ ==================
training_args = TrainingArguments(
    output_dir=OUTPUT_DIR,
    num_train_epochs=NUM_EPOCHS,
    per_device_train_batch_size=BATCH_SIZE,
    per_device_eval_batch_size=BATCH_SIZE,
    gradient_accumulation_steps=GRAD_ACCUM_STEPS,
    evaluation_strategy="steps",
    eval_steps=100,
    save_steps=200,
    logging_steps=50,
    learning_rate=LEARNING_RATE,
    weight_decay=0.01,
    warmup_ratio=0.03,
    lr_scheduler_type="cosine",
    bf16=True if torch.cuda.is_available() and torch.cuda.is_bf16_supported() else False,
    fp16=False,
    gradient_checkpointing=True,
    gradient_checkpointing_kwargs={"use_reentrant": False},
    optim="paged_adamw_8bit",
    max_grad_norm=0.3,
    group_by_length=True,
    length_column_name="length",
    report_to="none",  # Можно изменить на "wandb" для отслеживания
    save_total_limit=3,
    load_best_model_at_end=True,
    metric_for_best_model="eval_loss",
    greater_is_better=False,
    push_to_hub=False,
)# ================== СОЗДАНИЕ ТРЕНЕРА ==================
print("Создание тренера...")

trainer = SFTTrainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
    tokenizer=tokenizer,
    max_seq_length=MAX_SEQ_LENGTH,
    dataset_text_field="text",
    packing=False,  # Не пакуем последовательности для лучшего качества
)

In [None]:
# ================== ОБУЧЕНИЕ ==================
print("Начало обучения...")
trainer.train()

In [None]:
# ================== СОХРАНЕНИЕ МОДЕЛИ ==================
print("Сохранение модели...")

# Способ 1: Сохранить только LoRA адаптеры (легковесный)
model.save_pretrained(OUTPUT_DIR)
tokenizer.save_pretrained(OUTPUT_DIR)
print(f"LoRA адаптеры сохранены в {OUTPUT_DIR}")

# Способ 2: Объединить LoRA с базовой моделью и сохранить полностью
print("Объединение LoRA с базовой моделью...")

# Загружаем базовую модель без квантования для слияния
base_model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    torch_dtype=torch.bfloat16,
    trust_remote_code=True
)

# Объединяем LoRA с базовой моделью
merged_model = get_peft_model(base_model, peft_config)
merged_model.load_state_dict(model.state_dict(), strict=False)
merged_model = merged_model.merge_and_unload()

# Сохраняем объединенную модель
merged_model.save_pretrained(SAVE_MODEL_PATH, safe_serialization=True)
tokenizer.save_pretrained(SAVE_MODEL_PATH)

# Также сохраняем в формате .pt (как вы просили)
torch.save(merged_model.state_dict(), "./MyModel.pt")
print(f"Полная модель сохранена в {SAVE_MODEL_PATH} и ./MyModel.pt")

In [None]:
# ================== ТЕСТИРОВАНИЕ ==================
print("\nТестирование обученной модели...")

# Переводим модель в режим оценки
merged_model.eval()

# Тестовый промпт
test_prompt = "<|im_start|>user\nПривет! Как дела?<|im_end|>\n<|im_start|>assistant\n"

inputs = tokenizer(test_prompt, return_tensors="pt").to(merged_model.device)

with torch.no_grad():
    outputs = merged_model.generate(
        **inputs,
        max_new_tokens=100,
        temperature=0.7,
        do_sample=True,
        top_p=0.9,
        repetition_penalty=1.1,
        pad_token_id=tokenizer.pad_token_id
    )

response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(f"Ответ модели: {response}")

print("Обучение завершено успешно!")