Этот проект представляет собой полный цикл работы с большой языковой моделью (LLM): от дообучения (fine-tuning) с использованием техники QLoRA до конвертации в формат GGUF и запуска оптимизированной модели через библиотеку llama.cpp для быстрого инференса на локальной машине (CPU или GPU).
Репозиторий содержит два основных компонента:
-
Ноутбук для обучения (
Обучение_Qwen2_5_7B_QLoRa.ipynb): Jupyter Notebook, предназначенный для запуска в среде с GPU (например, Google Colab). Он выполняет дообучение моделиQwen/Qwen2.5-7Bна пользовательском датасете в формате JSON. Используется техника QLoRA (4-битная квантизация + LoRA), что позволяет дообучать большие модели даже на GPU с ограниченной памятью (например, NVIDIA A100, T4). Результатом ноутбука являются адаптеры LoRA, а затем и объединенная (merged) модель в стандартном формате Hugging Face. -
Инструкция по сборке (
instruction.md): Набор команд для сборки инструментовllama.cppиз исходного кода в Linux-окружении. Эти инструменты необходимы для конвертации дообученной модели в высокооптимизированный формат GGUF и для её дальнейшего использования (запуск в чате или в качестве сервера).