In [1]:
import json
import time
from pathlib import Path

import mlx.core as mx
import mlx.nn as nn
import mlx.optimizers as optim
import numpy as np
import utils as lora_utils
from mlx.utils import tree_flatten
from models import LoRALinear
# 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
# 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

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
model = "Trendyol/Trendyol-LLM-7b-chat-v0.1"
data_folder = "../../veri/doktorsitesi/my-data-text"
lora_layers = 16
batch_size = 2
iters = 300
steps_per_report = 3
steps_per_eval = 20
val_batches = 2
learning_rate = 1e-4
seed = 0
save_every = 15

In [3]:
adapter_file = f"adapters/{time.strftime('%Y%m%d-%H%M%S')}-adapters-all.npz"
adapter_file

'adapters/20240616-202312-adapters-all.npz'

In [4]:
example_prompt = "Merhaba sol femur alt uç kırığı ve kalça kırığı çivisi takılmıştı fazlasıyla rahatsız ediyor aldiricam sonrasında ne zamana kadar normal yasantima dönerim?"

In [5]:
result = {
    "finetune_params": {
        "model": model,
        "data_folder": data_folder,
        "lora_layers": lora_layers,
        "batch_size": batch_size,
        "iters": iters,
        "steps_per_report": steps_per_report,
        "steps_per_eval": steps_per_eval,
        "val_batches": val_batches,
        "learning_rate": learning_rate,
        "seed": seed,
        "save_every": save_every,
        "adapter_file": adapter_file,
    },
    "prompt": example_prompt,
}

In [6]:
print("Loading pretrained model")
model, tokenizer, _ = lora_utils.load(model)

Loading pretrained model


Fetching 12 files: 100%|██████████| 12/12 [00:00<00:00, 240821.28it/s]


In [7]:
# {"text": "### Human: Merhaba sol femur alt uç kırığı ve kalça kırığı çivisi takılmıştı fazlasıyla rahatsız ediyor aldiricam sonrasında ne zamana kadar normal yasantima dönerim?### Assistant: Geçmiş olsun Bir ay sonra normal hayatınıza dönersiniz"}



In [7]:
def generate(model, prompt, tokenizer, temp, max_tokens):
    generated_text = ""
    print(prompt, end="", flush=True)

    prompt = mx.array(tokenizer.encode(prompt))

    tokens = []
    skip = 0
    for token, n in zip(
        lora_utils.generate(prompt, model, temp),
        range(max_tokens),
    ):
        if token == tokenizer.eos_token_id:
            break

        tokens.append(token.item())
        s = tokenizer.decode(tokens)
        if len(s) - skip > 1:
            print(s[skip:-1], end="", flush=True)
            skip = len(s) - 1
    print(tokenizer.decode(tokens)[skip:], flush=True)
    print("=" * 20)

    generated_text = tokenizer.decode(tokens)
    if len(tokens) == 0:
        print("No tokens generated for this prompt")
        return
    return generated_text

In [8]:
temp = 0.7
max_tokens = 200
generated_text = generate(model, example_prompt, tokenizer, temp, max_tokens)

Merhaba sol femur alt uç kırığı ve kalça kırığı çivisi takılmıştı fazlasıyla rahatsız ediyor aldiricam sonrasında ne zamana kadar normal yasantima dönerim?
Bazı günler ağrılı oluyor ama ben artık dayanamıyorum yardımcı olabilir misiniz?
Sayın Hasta, Kalça eklemi protezi sonrası süreçte, hastaların %75-90'ında hemen hemen hiç ağrı veya rahatsızlık olmaz. Ancak, kalça eklemi protezinin her zaman mükemmel olmadığı durumlarda, özellikle de protezin alt bölümünde yer alan vida ve çiviler bazı durumlarda ağrıya neden olabilir. Bu ağrılar, protezdeki kayma veya gevşeme gibi durumlardan kaynaklanabilir. Bu tür durumlarda, protezin değiştirilmesi veya ayarlanması gerekebilir. Ancak, protezi çıkartmak veya protezi değiştirmek, protez uygulamasının başarısını tehlikeye sokabilir. Bu nedenle, ağrıları azaltmak için hasta ve doktorun birlikte çalışması ve uygun tedavi yöntemlerini belirlemesi önemlidir. Ayrıca, protez altındaki kemiklerin iyileşmesi ve yeni kemik oluşumu için en az 6-8 ay kadar bek

In [9]:
result["generated_text_before_finetuning"] = generated_text

In [10]:
# Freeze all layers other than LORA linears
model.freeze()

Model(
  (model): LlamaModel(
    (embed_tokens): Embedding(44222, 4096)
    (layers.0): TransformerBlock(
      (self_attn): Attention(
        (q_proj): Linear(input_dims=4096, output_dims=4096, bias=False)
        (k_proj): Linear(input_dims=4096, output_dims=4096, bias=False)
        (v_proj): Linear(input_dims=4096, output_dims=4096, bias=False)
        (o_proj): Linear(input_dims=4096, output_dims=4096, bias=False)
        (rope): RoPE(128, traditional=False)
      )
      (mlp): MLP(
        (gate_proj): Linear(input_dims=4096, output_dims=11008, bias=False)
        (down_proj): Linear(input_dims=11008, output_dims=4096, bias=False)
        (up_proj): Linear(input_dims=4096, output_dims=11008, bias=False)
      )
      (input_layernorm): RMSNorm(4096, eps=1e-05)
      (post_attention_layernorm): RMSNorm(4096, eps=1e-05)
    )
    (layers.1): TransformerBlock(
      (self_attn): Attention(
        (q_proj): Linear(input_dims=4096, output_dims=4096, bias=False)
        (k_proj): L

In [11]:
for l in model.model.layers[len(model.model.layers) - lora_layers :]:
    l.self_attn.q_proj = LoRALinear.from_linear(l.self_attn.q_proj)
    l.self_attn.v_proj = LoRALinear.from_linear(l.self_attn.v_proj)
    if hasattr(l, "block_sparse_moe"):
        l.block_sparse_moe.gate = LoRALinear.from_linear(l.block_sparse_moe.gate)

p = sum(v.size for _, v in tree_flatten(model.parameters())) / 10**6
print(f"Total parameters {p:.3f}M")
p = sum(v.size for _, v in tree_flatten(model.trainable_parameters())) / 10**6
print(f"Trainable parameters {p:.3f}M")

Total parameters 6840.635M
Trainable parameters 2.097M


In [12]:
class Dataset:
    """
    Light-weight wrapper to hold lines from a jsonl file
    """

    def __init__(self, path: Path, key: str = "text"):
        if not path.exists():
            self._data = None
        else:
            with open(path, "r") as fid:
                self._data = [json.loads(l) for l in fid]
        self._key = key

    def __getitem__(self, idx: int):
        return self._data[idx][self._key]

    def __len__(self):
        return len(self._data)

In [13]:
def load(data_folder: str, training: bool = False, validation: bool = False, testing: bool = False):
    def load_and_check(name):
        dataset_path = Path(data_folder) / f"{name}.jsonl"
        try:
            return Dataset(dataset_path)
        except Exception as e:
            print(f"Unable to build dataset {dataset_path} ({e})")
            raise

    names = ("train-all-gcp", "valid-all-gcp", "test-all-gcp")
    train, valid, test = (load_and_check(n) for n in names)

    if training and len(train) == 0:
        raise ValueError(
            "Training set not found or empty. Must provide training set for fine-tuning."
        )
    if validation and len(valid) == 0:
        raise ValueError(
            "Validation set not found or empty. Must provide validation set for fine-tuning."
        )
    if testing and len(test) == 0:
        raise ValueError(
            "Test set not found or empty. Must provide test set for evaluation."
        )
    return train, valid, test

In [14]:
print("Loading datasets")
train_set, valid_set, test_set = load(data_folder, training=True)
print(f"Training set: {len(train_set)}, Validation set: {len(valid_set)}, Test set: {len(test_set)}")
train_set[0]

Loading datasets
Training set: 150958, Validation set: 8386, Test set: 8386


'### Human: Merhaba babam dışarıdan ot toplayip koyuna vermiş akşama doğru ayaklarda titreme ve hiç ayağa. Kalkamiyrdu serum filan verildi şuan iyi ama eskisi gibi otlamiyor hem durup durup yerlere bakıyor ne önerirsiniz### Assistant: Bir müddet sonra düzelir hekim arkadaşın tavsiylerine uymaya devam edin.'

In [15]:
def iterate_batches(dset, tokenizer, batch_size, train=False):
    # Shuffle indices
    while True:
        indices = np.arange(len(dset))
        if train:
            indices = np.random.permutation(indices)

        # Collect batches from dataset
        for i in range(0, len(indices) - batch_size + 1, batch_size):
            # Encode batch
            batch = [tokenizer.encode(dset[indices[i + j]]) for j in range(batch_size)]
            lengths = [len(x) for x in batch]

            # Check if any sequence is longer than 2048 tokens
            if max(lengths) > 2048:
                print(
                    "[WARNING] Some sequences are longer than 2048 tokens. "
                    "Consider pre-splitting your data to save memory."
                )

            # Pad to the max length
            batch_arr = np.zeros((batch_size, max(lengths)), np.int32)

            for j in range(batch_size):
                batch_arr[j, : lengths[j]] = batch[j]
            batch = mx.array(batch_arr)
            yield batch[:, :-1], batch[:, 1:], mx.array(lengths)

        if not train:
            break


In [16]:
def evaluate(model, dataset, loss, tokenizer, batch_size, num_batches):
    all_losses = []
    ntokens = 0
    for it, batch in zip(
        range(num_batches),
        iterate_batches(dataset, tokenizer, batch_size),
    ):
        losses, toks = loss(model, *batch)
        all_losses.append((losses * toks).item())
        ntokens += toks.item()

    return np.sum(all_losses) / ntokens

In [17]:
def train(model, train_set, val_set, optimizer, loss, tokenizer):
    # Create value and grad function for loss
    loss_value_and_grad = nn.value_and_grad(model, loss)

    losses = []
    n_tokens = 0

    # Main training loop
    start = time.perf_counter()
    for it, batch in zip(
        range(iters),
        iterate_batches(train_set, tokenizer, batch_size, train=True),
    ):
        # Forward and backward pass
        (lvalue, toks), grad = loss_value_and_grad(model, *batch)

        # Model update
        optimizer.update(model, grad)
        mx.eval(model.parameters(), optimizer.state, lvalue)

        # Record loss
        losses.append(lvalue.item())
        n_tokens += toks.item()

        # Report training loss if needed
        if (it + 1) % steps_per_report == 0:
            train_loss = np.mean(losses)

            stop = time.perf_counter()
            print(
                f"Iter {it + 1}: Train loss {train_loss:.3f}, "
                f"It/sec {steps_per_report / (stop - start):.3f}, "
                f"Tokens/sec {float(n_tokens) / (stop - start):.3f}"
            )
            losses = []
            n_tokens = 0
            start = time.perf_counter()

        # Report validation loss if needed
        if it == 0 or (it + 1) % steps_per_eval == 0:
            stop = time.perf_counter()
            val_loss = evaluate(
                model, val_set, loss, tokenizer, batch_size, val_batches
            )
            print(
                f"Iter {it + 1}: "
                f"Val loss {val_loss:.3f}, "
                f"Val took {(time.perf_counter() - stop):.3f}s"
            )

            start = time.perf_counter()

        # Save adapter weights if needed
        if (it + 1) % save_every == 0:
            mx.savez(
                adapter_file, **dict(tree_flatten(model.trainable_parameters()))
            )
            print(f"Iter {it + 1}: Saved adapter weights to {adapter_file}.")


In [18]:
def loss(model, inputs, targets, lengths):
    # Run model on inputs
    logits, _ = model(inputs)
    logits = logits.astype(mx.float32)

    # Mask padding tokens
    length_mask = mx.arange(inputs.shape[1])[None, :] < lengths[:, None]

    # Calculate the loss
    ce = nn.losses.cross_entropy(logits, targets) * length_mask
    ntoks = length_mask.sum()
    ce = ce.sum() / ntoks
    return ce, ntoks

In [19]:
print("Training")

np.random.seed(seed)

opt = optim.Adam(learning_rate=learning_rate)

# Train model
train(model, train_set, valid_set, opt, loss, tokenizer)

# Save adapter weights
mx.savez(adapter_file, **dict(tree_flatten(model.trainable_parameters())))

Training
Iter 1: Val loss 3.931, Val took 0.737s
Iter 3: Train loss 3.956, It/sec 1.804, Tokens/sec 330.783
Iter 6: Train loss 3.061, It/sec 0.707, Tokens/sec 258.210
Iter 9: Train loss 3.105, It/sec 0.712, Tokens/sec 281.286
Iter 12: Train loss 3.381, It/sec 1.013, Tokens/sec 341.839
Iter 15: Train loss 3.244, It/sec 0.728, Tokens/sec 285.949
Iter 15: Saved adapter weights to adapters/20240616-202312-adapters-all.npz.
Iter 18: Train loss 3.207, It/sec 0.777, Tokens/sec 278.354
Iter 20: Val loss 3.181, Val took 0.666s
Iter 21: Train loss 3.411, It/sec 2.156, Tokens/sec 572.834
Iter 24: Train loss 3.362, It/sec 0.749, Tokens/sec 291.953
Iter 27: Train loss 3.405, It/sec 0.539, Tokens/sec 279.775
Iter 30: Train loss 2.972, It/sec 0.683, Tokens/sec 266.683
Iter 30: Saved adapter weights to adapters/20240616-202312-adapters-all.npz.
Iter 33: Train loss 3.309, It/sec 0.892, Tokens/sec 292.851
Iter 36: Train loss 3.293, It/sec 0.624, Tokens/sec 279.756
Iter 39: Train loss 3.146, It/sec 1.048

In [22]:
generated_text = generate(model, example_prompt, tokenizer, temp, max_tokens)

Merhaba sol femur alt uç kırığı ve kalça kırığı çivisi takılmıştı fazlasıyla rahatsız ediyor aldiricam sonrasında ne zamana kadar normal yasantima dönerim?teşekkürler.### Assistant: Merhaba Ameliyatla kaynama şansı var. Bu durumda değişiklikler olur. Fakat ortopedi uzmanına muayene olmanız daha uygun olur. İyi günler.<unk> AKKOR İyi günler. Geçmiş olsun. Geçmiş olsun.,.<unk> AKKOR Geçmiş olsun. Dr. Ali Akben Akben ile ilgili bu sorununuzu inceleyeceğim. Dr Ali Akben Akben Uzm. Dr Ali Akben Akben ile iletişime geçmeniz daha uygun olur. İyi günler. Dr Ali Akben Akben www.draliakkben.com Not: Bu mesajın bir kopyasını saklı tutmaya hakkım vardır. Dr Ali Akben Akben www.draliakkben.com Not: Bu mesajın bir kopyasını saklı tutmaya hakkım vardır. Dr Ali Akben Akben www.draliakkben.com Not: Bu mesaj


In [23]:
result["generated_text_after_finetuning"] = generated_text
result["temp"] = temp
result["max_tokens"] = max_tokens

In [24]:
# save result to json file timestamped in utf-8
result_file = f"results/{time.strftime('%Y%m%d-%H%M%S')}-result.json"
with open(result_file, "w", encoding="utf-8") as f:
    json.dump(result, f, ensure_ascii=False, indent=2)