# Лабораторная работа 5. Fine-tune LLM with LoRA


В рамках этой лабораторной работы вам предстоит дообучить LLM на [датасете Stanford Question Answering Dataset (SQuAD)](https://www.kaggle.com/datasets/stanfordu/stanford-question-answering-dataset/data) с использованием LoRA.

Загрузите модель `distilgpt2` или другую. Используйте библиотеку transformers для реализации дообучения.

Дообучите модель с использованием LoRA. Оцените влияние использования LoRA на качество дообучения. В качестве доп. задания, можете сравнить ресурсозатратность обучение без LoRA и с.

**Рекомендации**:
- Загрузите модель в **4 или 8 бит**, чтобы уменьшить потребление памяти.
- Используйте **fp16** (половинную точность) для ускорения вычислений.
- Не используйте модель размером больше 1b параметров.
- В примере подготовлена модель `distilgpt2`. Вы можете выбрать другую модель, которую позволяют ваши вычислительные ресурсы и время. 
- Рекомендуется работать на платформе **Kaggle**, так как она стабильнее.

**Вопросы**:
1. Что такое LoRA? Для чего применяется? В чем заключается основная идея?  
2. Что такое BERT и GPT? Опишите их основные характеристики. Какие задачи они решают? Чем отличаются подходы этих моделей? В чем разница между генеративными (GPT) и энкодерными (BERT) моделями?
3. Как вычисляются числа с использованием половинной точности (fp16)?  

## Импорты

In [None]:
!pip install transformers datasets peft -q

In [None]:
!pip install -U bitsandbytes -q

In [None]:
!pip uninstall wandb -q -y

In [None]:
import json
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
from datasets import Dataset
from peft import LoraConfig, get_peft_model
from transformers import TrainingArguments, Trainer

## Загрузка датасета

In [None]:
def load_data(file_path):
    return data

In [None]:
dataset = Dataset.from_dict({
    'input': ...
    'output': ...
})

In [None]:
dataset = dataset.train_test_split(test_size=0.1)

## Загрузка модели и токенизатора

In [None]:
model_name = "distilbert/distilgpt2"
tokenizer = AutoTokenizer.from_pretrained(model_name)

quantization_config = ...

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    quantization_config=quantization_config,
    device_map="auto",
)

In [None]:
model

In [None]:
peft_config = LoraConfig(
    ...
)

lora_model = get_peft_model(model, peft_config)
lora_model.print_trainable_parameters()

In [None]:
def tokenize_function(text):
    return tokenizer(
        ...
    )

In [None]:
tokenized_datasets = ...

train_dataset = ...
val_dataset = ...

## Обучение

In [None]:
training_args = TrainingArguments(
    ...
)

In [None]:
trainer = Trainer(
    model=lora_model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=val_dataset,
    tokenizer=tokenizer,
)

trainer.train()