In [2]:
!pip install -q -U transformers
!pip install -q -U accelerate
!pip install -q -U datasets
!pip install -q -U peft
!pip install -q -i https://pypi.org/simple/ bitsandbytes
!pip install -q -U trl
!pip install rouge-score



In [3]:
from huggingface_hub import login

hf_token = "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"

login(hf_token)

In [None]:
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0"
os.environ["TOKENIZERS_PARALLELISM"] = "false"

In [5]:
import warnings
warnings.filterwarnings("ignore")

In [83]:
import numpy as np
import pandas as pd
import os
from tqdm import tqdm

import torch
import torch.nn as nn

import transformers
from transformers import (AutoModelForCausalLM,
                          AutoTokenizer,
                          BitsAndBytesConfig,
                          TrainingArguments, # Note: SFTConfig from TRL is used later
                          pipeline,
                          logging)

# Explicitly import Gemma3ForCausalLM
from transformers.models.gemma3 import Gemma3ForCausalLM

from datasets import Dataset
from peft import LoraConfig, PeftConfig, PeftModel

import bitsandbytes as bnb

from sklearn.metrics import (accuracy_score,
                             classification_report,
                             confusion_matrix)

from sklearn.model_selection import train_test_split

# Check transformers version
print(f"transformers=={transformers.__version__}")

transformers==4.52.0


In [62]:
# Determine optimal computation dtype based on GPU capability
# Use bfloat16 if Compute Capability >= 8.0, otherwise float16
compute_dtype = torch.bfloat16 if torch.cuda.get_device_capability()[0] >= 8 else torch.float16
print(f"Using compute dtype {compute_dtype}")


Using compute dtype torch.float16


In [63]:
if torch.cuda.is_available():
    device = torch.device('cuda')
    print('CUDA is available. Using GPU.')
else:
    device = torch.device('cpu')
    print('CUDA is not available. Using CPU.')

CUDA is available. Using GPU.


In [64]:
GEMMA_PATH = "/kaggle/input/gemma-3/transformers/gemma-3-1b-it/1"

In [65]:
model = AutoModelForCausalLM.from_pretrained(
    GEMMA_PATH,
    torch_dtype=compute_dtype,
    attn_implementation="eager", # Specify attention implementation
    low_cpu_mem_usage=True,      # Reduces CPU RAM usage during loading
).to(device)

max_seq_length = 8192 # Gemma 3 supports long contexts


tokenizer = AutoTokenizer.from_pretrained(
    GEMMA_PATH,
    max_seq_length=max_seq_length,
    device_map=device # Map tokenizer operations if relevant (less common)
)

EOS_TOKEN = tokenizer.eos_token

In [47]:
# Check if all model parameters are on the CUDA device
is_on_gpu = all(param.device.type == 'cuda' for param in model.parameters())
print("Model is on GPU:", is_on_gpu)

Model is on GPU: True


In [48]:
def format_training_example(row) -> str:
    return f"""<|system|>
Ты — интеллектуальный текстовый помощник, преобразующий команды пользователя в корректные SQL-запросы на языке SQLite.

Ты всегда работаешь с таблицей `transactions`, имеющей следующую структуру:

- id (INTEGER, PRIMARY KEY)
- user_id (TEXT)
- type (TEXT: 'income' или 'expense')
- category (TEXT)
- amount (REAL)
- date (TIMESTAMP, по умолчанию date('now', 'localtime'))

Описание:
- `income` — это доход
- `expense` — это трата

Твоя задача — по команде пользователя с его ID сгенерировать корректный SQL-запрос к этой таблице.

Важно:
- Используй только SQLite-синтаксис, без пояснений.
- Не пиши комментарии.
- Не используй несуществующие поля (например, `note`).
- Поле `date` можно указывать через date('now', '-N day') или опустить (будет по умолчанию).

Пример:
---
Пользователь с ID user_1 дал команду:
"Добавь трату 500 рублей на еду вчера"

Ответ:
INSERT INTO transactions (user_id, type, category, amount, date)
VALUES ('user_1', 'expense', 'еда', 500, date('now', '-1 day'));
---
</s>
<|user|>
Пользователь с ID {row["user_id"]} дал команду:
"{row["user_command"]}"
</s>
<|assistant|>
{row["gold_sql"]}"""

In [19]:
def format_test_example(row) -> str:
    return f"""<|system|>
Ты — интеллектуальный текстовый помощник, преобразующий команды пользователя в корректные SQL-запросы на языке SQLite.

Ты всегда работаешь с таблицей `transactions`, имеющей следующую структуру:

- id (INTEGER, PRIMARY KEY)
- user_id (TEXT)
- type (TEXT: 'income' или 'expense')
- category (TEXT)
- amount (REAL)
- date (TIMESTAMP, по умолчанию date('now', 'localtime'))

Описание:
- `income` — это доход
- `expense` — это трата

Твоя задача — по команде пользователя с его ID сгенерировать корректный SQL-запрос к этой таблице.

Важно:
- Используй только SQLite-синтаксис, без пояснений.
- Не пиши комментарии.
- Не используй несуществующие поля (например, `note`).
- Поле `date` можно указывать через date('now', '-N day') или опустить (будет по умолчанию).

Пример:
---
Пользователь с ID user_1 дал команду:
"Добавь трату 500 рублей на еду вчера"

Ответ:
INSERT INTO transactions (user_id, type, category, amount, date)
VALUES ('user_1', 'expense', 'еда', 500, date('now', '-1 day'));
---
</s>
<|user|>
Пользователь с ID {row["user_id"]} дал команду:
"{row["user_command"]}"
</s>
<|assistant|>
"""

In [20]:
train_df = pd.read_csv("/kaggle/input/fin-ass-data/fin_ass_train.csv")
eval_df = pd.read_csv("/kaggle/input/fin-ass-data/fin_ass_eval.csv")
test_df = pd.read_csv("/kaggle/input/fin-ass-data/fin_ass_test.csv")

In [21]:
train_df.head()

Unnamed: 0,user_id,user_command,gold_sql
0,user_4,Удалите мои последние траты на развлечения,DELETE FROM transactions\nWHERE user_id = 'use...
1,user_4,Покажи мои траты на фриланс между '2024-02-01'...,SELECT * FROM transactions\nWHERE user_id = 'u...
2,user_1,Удалите мои последние траты на развлечения,DELETE FROM transactions\nWHERE user_id = 'use...
3,user_1,Покажи мои расходы по категориям за последние ...,"SELECT category, SUM(amount) FROM transactions..."
4,user_5,Добавь трату 20938 рублей на зарплата 7 дней н...,"INSERT INTO transactions (user_id, type, categ..."


In [22]:
print(f"Train df shape: {train_df.shape}")
print(f"Eval df shape: {eval_df.shape}")
print(f"Test df shape: {test_df.shape}")

Train df shape: (8000, 3)
Eval df shape: (1000, 3)
Test df shape: (1000, 3)


In [23]:
train_df["text"] = train_df.apply(format_training_example, axis=1)

In [24]:
eval_df["text"] = eval_df.apply(format_training_example, axis=1)

In [25]:
test_df["text"] = test_df.apply(format_test_example, axis=1)

In [26]:
# def predict_sql(df, model, tokenizer, device="cuda", max_new_tokens=128, temperature=0.0):
#     """Генерация SQL-запросов по текстовому промпту в формате ChatML."""
#     predicted_sql = []

#     model.eval()

#     for i in tqdm(range(len(df)), desc="Генерация SQL"):
#         prompt = df.iloc[i]["text"]

#         # Токенизация
#         input_ids = tokenizer(prompt, return_tensors="pt").to(device)

#         # Генерация
#         with torch.no_grad():
#             outputs = model.generate(
#                 **input_ids,
#                 max_new_tokens=max_new_tokens,
#                 temperature=temperature,
#                 pad_token_id=tokenizer.eos_token_id,
#                 eos_token_id=tokenizer.eos_token_id,
#                 do_sample=False
#             )

#         # Декодирование всего текста
#         decoded = tokenizer.decode(outputs[0], skip_special_tokens=True)

#         # Извлекаем только SQL часть (после <|assistant|>)
#         if "<|assistant|>" in decoded:
#             predicted = decoded.split("<|assistant|>")[-1].strip()
#         else:
#             predicted = decoded.strip()

#         predicted_sql.append(predicted)

#     return predicted_sql

In [27]:
# test_predicted = predict_sql(eval_df=test_df.head(10), model=model, tokenizer=tokenizer)
# test_predicted

In [28]:
# import re

# def clean_sql(text):
#     """
#     Удаляет обёртки ```sql ... ``` и обрезает по первой строке, если нужно.
#     """
#     if not isinstance(text, str):
#         return ""

#     # Убираем блоки ```sql и ```
#     cleaned = re.sub(r"```sql\s*", "", text, flags=re.IGNORECASE)
#     cleaned = re.sub(r"```", "", cleaned)
#     return cleaned.strip()

In [29]:
# clean_predicts = list(map(clean_sql, test_predicted))

In [30]:
# answers = test_df.head(10)["gold_sql"].tolist()

In [31]:
# from rouge_score import rouge_scorer
# import numpy as np

# def compute_rouge_scores(predictions, references, use_stemmer=True):
#     scorer = rouge_scorer.RougeScorer(["rouge1", "rouge2", "rougeL"], use_stemmer=use_stemmer)

#     scores = {"rouge1": [], "rouge2": [], "rougeL": []}

#     for pred, ref in zip(predictions, references):
#         result = scorer.score(ref, pred)
#         for key in scores:
#             scores[key].append(result[key].fmeasure)

#     return {
#         "ROUGE-1": round(np.mean(scores["rouge1"]), 4),
#         "ROUGE-2": round(np.mean(scores["rouge2"]), 4),
#         "ROUGE-L": round(np.mean(scores["rougeL"]), 4),
#     }

In [32]:
# compute_rouge_scores(clean_predicts, answers)

In [33]:
train_dataset = Dataset.from_pandas(train_df[["text"]])
eval_dataset = Dataset.from_pandas(eval_df[["text"]])

In [68]:
from transformers import TrainingArguments
from peft import LoraConfig, get_peft_model

# LoRA Configuration
peft_config = LoraConfig(
    lora_alpha=16,                           # Scaling factor for LoRA
    lora_dropout=0.05,                       # Add slight dropout for regularization
    r=64,                                    # Rank of the LoRA update matrices
    bias="none",                             # No bias reparameterization
    task_type="CAUSAL_LM",                   # Task type: Causal Language Modeling
    target_modules=[
        "q_proj",
        "k_proj",
        "v_proj",
        "o_proj",
        "gate_proj",
        "up_proj",
        "down_proj",
    ],  # Target modules for LoRA
)


In [69]:
model = get_peft_model(model, peft_config)

In [70]:
model.print_trainable_parameters()

trainable params: 52,183,040 || all params: 1,052,068,992 || trainable%: 4.9600


In [None]:
from transformers import DataCollatorForLanguageModeling

data_collator = DataCollatorForLanguageModeling(
    tokenizer=tokenizer,
    mlm=False
)

In [None]:
training_arguments = TrainingArguments(
    output_dir="output",
    per_device_train_batch_size=1,
    per_device_eval_batch_size=1,
    gradient_accumulation_steps=4,
    optim="adamw_torch",
    num_train_epochs=2,
    logging_steps=500,
    warmup_steps=10,
    logging_strategy="steps",
    eval_strategy="steps",
    eval_steps=1000,
    save_steps=200,
    save_total_limit=2,
    learning_rate=2e-4,
    fp16=False,
    bf16=False,
    max_grad_norm=0.3,
    group_by_length=True,
    report_to="none",
    remove_unused_columns=False,
    label_names=["labels"],
)

In [73]:
def tokenize(example):
    out = tokenizer(
        example["text"],
        padding="longest",
        truncation=True,
        max_length=1024,
    )
    out["labels"] = out["input_ids"].copy()
    return out

tokenized_train = train_dataset.map(tokenize, remove_columns=["text"])
tokenized_eval = eval_dataset.map(tokenize, remove_columns=["text"])

Map:   0%|          | 0/8000 [00:00<?, ? examples/s]

Map:   0%|          | 0/1000 [00:00<?, ? examples/s]

In [74]:
from transformers import TrainerCallback
import csv
import os

class LossLoggerCallback(TrainerCallback):
    def __init__(self, log_file="training_logs.csv"):
        self.log_file = log_file
        # создаем заголовок, если файл не существует
        if not os.path.exists(log_file):
            with open(log_file, "w", newline="") as f:
                writer = csv.writer(f)
                writer.writerow(["step", "train_loss", "eval_loss"])

    def on_log(self, args, state, control, logs=None, **kwargs):
        if logs is not None:
            with open(self.log_file, "a", newline="") as f:
                writer = csv.writer(f)
                writer.writerow([
                    state.global_step,
                    logs.get("loss", ""),
                    logs.get("eval_loss", "")
                ])

In [87]:
from transformers import Trainer
loss_logger = LossLoggerCallback(log_file="training_logs.csv")

trainer = Trainer(
    model=model,
    args=training_arguments,
    train_dataset=tokenized_train,
    eval_dataset=tokenized_eval,
    tokenizer=tokenizer,
    data_collator=data_collator,
    callbacks=[loss_logger],
)

In [88]:
trainer.train()

Step,Training Loss,Validation Loss
5,No log,0.027533
10,0.028800,0.029998
15,0.028800,0.034508


KeyboardInterrupt: 

In [None]:
model.save_pretrained("gemma3:1b-text2sql-lora")
tokenizer.save_pretrained("gemma3:1b-text2sql-lora")

In [None]:
# model.push_to_hub("Arsench1k/gemma3-1b-text2sql-lora")
# tokenizer.push_to_hub("Arsench1k/gemma3-1b-text2sql-lora")