In [2]:
@torch.no_grad()
def generate(
    model,
    input_ids,
    max_new_tokens=50,
    temperature=1.0,
    top_p=0.9
):
    model.eval()

    for _ in range(max_new_tokens):
        # forward
        logits = model(input_ids)              # (B, S, V)
        logits = logits[:, -1, :] / temperature

        # ---- nucleus (top-p) sampling ----
        probs = torch.softmax(logits, dim=-1)
        sorted_probs, sorted_idx = torch.sort(probs, descending=True)

        cum_probs = torch.cumsum(sorted_probs, dim=-1)
        mask = cum_probs > top_p
        mask[:, 1:] = mask[:, :-1].clone()
        mask[:, 0] = False

        sorted_probs[mask] = 0.0
        sorted_probs /= sorted_probs.sum(dim=-1, keepdim=True)

        next_token = torch.multinomial(sorted_probs, 1)
        next_token = torch.gather(sorted_idx, -1, next_token)

        # append
        input_ids = torch.cat([input_ids, next_token], dim=1)

    return input_ids

In [3]:
# full_sft_final_attempt_with_tqdm_perplexity.py
import torch
import torch.nn.functional as F
from torch.utils.data import Dataset, DataLoader
from torch.optim import AdamW
from torch.optim.lr_scheduler import CosineAnnealingLR
import json
import sentencepiece as spm
from decoder_only_gpt import My_GPT_model
from tqdm import tqdm  # ← Yeh add kar diya
import math  # perplexity ke liye

DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Using device: {DEVICE}")

# Tokenizer
sp = spm.SentencePieceProcessor()
sp.load("hindi_tokenizer_new.model")
print("Tokenizer loaded. Vocab size:", sp.get_piece_size())

# Model + checkpoint
model = My_GPT_model(
    vocab_size=sp.get_piece_size(),
    num_layers=12,
    d_model=512,
    d_ff=2048,
    num_heads=8,
    seq_len=512
).to(DEVICE)

# ckpt_path = "checkpoints_HindiGPT-v1_step280000.pt
# print(f"Loading checkpoint: {ckpt_path}")

# ckpt = torch.load(ckpt_path, map_location=DEVICE)
# clean_state_dict = {k.replace("_orig_mod.", ""): v for k, v in ckpt["model"].items()}
# missing, unexpected = model.load_state_dict(clean_state_dict, strict=False)
# print("Missing keys:", len(missing), "Unexpected keys:", len(unexpected))

model.load_state_dict(torch.load("full_sft_final.pt", map_location=DEVICE))
model.train()

# Dataset class (tera improved wala)
class HindiSFTDataset(Dataset):
    def __init__(self, jsonl_file, tokenizer, max_len=512):
        self.tokenizer = tokenizer
        self.max_len = max_len
        self.data = []

        with open(jsonl_file, "r", encoding="utf-8") as f:
            for line_no, line in enumerate(f):
                line = line.strip()
                if not line:
                    continue

                try:
                    obj = json.loads(line)
                    text = obj["text"].strip()

                    # Sanity check: "### उत्तर:" जरूर हो
                    if "### उत्तर:" not in text:
                        continue

                    self.data.append(text)

                except Exception as e:
                    print(f"[ERROR line {line_no}] {e}")

        print(f"Loaded SFT samples: {len(self.data)}")

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        text = self.data[idx]

        # Tokenize full text
        full_ids = self.tokenizer.encode(text)
        if len(full_ids) > self.max_len:
            full_ids = full_ids[:self.max_len]

        input_ids = torch.tensor(full_ids, dtype=torch.long)

        # ANSWER-ONLY LOSS: labels में prompt tokens को -100 कर दो
        ans_pos = text.find("### उत्तर:")
        prompt_text = text[:ans_pos + len("### उत्तर:")]
        prompt_len = len(self.tokenizer.encode(prompt_text))

        labels = input_ids.clone()
        labels[:prompt_len] = -100  # prompt tokens mask कर दिए

        return {
            "input_ids": input_ids,
            "labels": labels
        }



def collate_fn(batch):
    max_len = max(len(x["input_ids"]) for x in batch)

    input_ids, labels, attn_masks = [], [], []

    for item in batch:
        ids = item["input_ids"]
        lbl = item["labels"]

        pad_len = max_len - len(ids)

        input_ids.append(
            torch.cat([ids, torch.zeros(pad_len, dtype=torch.long)])
        )
        labels.append(
            torch.cat([lbl, torch.full((pad_len,), -100)])
        )

        attn_masks.append(
            torch.cat([torch.ones(len(ids)), torch.zeros(pad_len)])
        )

    return {
        "input_ids": torch.stack(input_ids),
        "labels": torch.stack(labels),
        "attention_mask": torch.stack(attn_masks)
    }





# Load dataset
jsonl_file = "sft_qa_hindi.jsonl"
dataset = HindiSFTDataset(jsonl_file, sp)

print("DATASET SIZE =", len(dataset))
print("FIRST 2 RAW SAMPLES =", dataset.data[:2])

dataloader = DataLoader(dataset, batch_size=2, shuffle=True, collate_fn=collate_fn)

# Optimizer + Scheduler
optimizer = AdamW(model.parameters(), lr=8e-5, betas=(0.9, 0.98), eps=1e-6)
scheduler = CosineAnnealingLR(optimizer, T_max=len(dataloader) * 5, eta_min=1e-7)

model.train()
print("Training started!")

for epoch in range(5):
    total_loss = 0.0
    num_batches = 0
    global_step = 0

    # tqdm progress bar add kar diya (epoch ke andar)
    progress_bar = tqdm(dataloader, desc=f"Epoch {epoch+1}", leave=True)

    for batch_idx, batch in enumerate(progress_bar):
        input_ids = batch["input_ids"].to(DEVICE)
        labels = batch["labels"].to(DEVICE)
        # attention_mask = batch["attention_mask"].to(DEVICE)
        
        logits = model(input_ids)
        
        loss = F.cross_entropy(
            logits[:, :-1, :].contiguous().view(-1, logits.size(-1)),
            labels[:, 1:].contiguous().view(-1),
            ignore_index=-100
        )

        optimizer.zero_grad()
        loss.backward()
        torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=3.0)
        optimizer.step()
        scheduler.step()

        
        # ---- SANITY CHECK GENERATION ----
        if global_step % 2000 == 0:
            model.eval()
            with torch.no_grad():
                prompt = "प्रश्न: स्वस्थ रहने के उपाय बताइए।\n\nउत्तर:"
                prompt_ids = torch.tensor([sp.encode(prompt)], device=DEVICE)
                
                generated_ids = generate(
                    model,
                    prompt_ids,
                    max_new_tokens=80,
                    temperature=0.8,
                    top_p=0.9
                )
                
                # print(sp.decode(generated_ids[0].tolist()))
        
                print("\n" + "=" * 60)
                print("GENERATION @ step", global_step)
                print(sp.decode(generated_ids[0].tolist()))
                print("=" * 60 + "\n")
                
                global_step += 1
            model.train()
# --------------------------------

        total_loss += loss.item()
        num_batches += 1

        # tqdm mein live loss aur LR update karte hain
        current_lr = scheduler.get_last_lr()[0]
        progress_bar.set_postfix({
            'loss': f'{loss.item():.4f}',
            'lr': f'{current_lr:.2e}'
        })
        
        if batch_idx % 500 == 0:
            print(f"Step {batch_idx} | Loss {loss.item():.3f}")

        if batch_idx % 10000 == 0 and batch_idx > 0:
            save_path = f"full_sft_epoch_new{epoch+1}_step{batch_idx}.pt"
            torch.save(model.state_dict(), save_path)
            print(f"Saved checkpoint: {save_path}")

    avg_loss = total_loss / num_batches if num_batches > 0 else 0

    # Perplexity calculate kar (bahut meaningful metric LM ke liye)
    perplexity = math.exp(avg_loss)
    print(f"Epoch {epoch+1} completed | Avg Loss: {avg_loss:.4f} | Perplexity: {perplexity:.2f}")

# Final save
final_path = "full_sft_new_model.pt"
torch.save(model.state_dict(), final_path)
print(f"Full SFT complete! Final model saved as: {final_path}")

Using device: cuda
Tokenizer loaded. Vocab size: 32768
Loaded SFT samples: 301
DATASET SIZE = 301
FIRST 2 RAW SAMPLES = ['### प्रश्न:\nनीचे दिए गए अनुच्छेद में जीवन को किस रूप में प्रस्तुत किया गया है?\n\n### अनुच्छेद:\nजीवन एक लंबी यात्रा है जिसमें हर पड़ाव कुछ नया सिखाता है।\n\n### उत्तर:\nजीवन को यात्रा के रूप में प्रस्तुत किया गया है।', '### प्रश्न:\nलेखक ने यात्रा के माध्यम से किस बात पर ज़ोर दिया है?\n\n### अनुच्छेद:\nजीवन एक यात्रा है जहाँ रुकना भी आगे बढ़ने का हिस्सा होता है।\n\n### उत्तर:\nलेखक ने यह बताया है कि रुकना भी जीवन की यात्रा का हिस्सा है।']
Training started!


Epoch 1:   1%|▌                                              | 2/151 [00:01<01:56,  1.27it/s, loss=3.7065, lr=8.00e-05]


GENERATION @ step 0
प्रश्न: स्वस्थ रहने के उपाय बताइए। ⁇ उत्तर:ंक की गणना इसके आकार को निर्धारित करने वाले तापमान को मापकर की जाती है। दिए गए प्रशिक्षण के आधार पर, एक स्वस्थ स्वस्थ स्वस्थ जीवन शैली बनाए रखने के लिए स्वस्थ भोजन, नियमित रूप से व्यायाम या स्वस्थ भोजन जैसे स्वस्थ विकल्प चुनने की सिफारिश की जाती है। एक स्वस्थ स्वस्थ जीवन शैली बनाए रखने के लिए स्वस्थ भोजन, नियमित रूप से व्यायाम या स्वस्थ भोजन जैसे स्वस्थ विकल्प चुनने की सलाह दी

Step 0 | Loss 4.000


Epoch 1: 100%|█████████████████████████████████████████████| 151/151 [00:18<00:00,  7.97it/s, loss=2.3425, lr=7.24e-05]


Epoch 1 completed | Avg Loss: 2.5572 | Perplexity: 12.90


Epoch 2:   1%|▌                                              | 2/151 [00:01<01:48,  1.37it/s, loss=1.3076, lr=7.22e-05]


GENERATION @ step 0
प्रश्न: स्वस्थ रहने के उपाय बताइए। ⁇ उत्तर: शिक्षा और जागरूकता का आधार माना गया है। रॉय को शिक्षा और जागरूकता का आधार बताया गया है। शिक्षा को शिक्षा और जागरूकता का आधार बताया गया है। शिक्षा को शिक्षा और जागरूकता का आधार बताया गया है। शिक्षा को शिक्षा और जागरूकता का आधार बताया गया है। शिक्षा को शिक्षा और जागरूकता का आधार बताया गया है। शिक्षा को शिक्षा और जागरूकता का आधार बताया गया है। शिक्षा को शिक्षा और जागरूकता

Step 0 | Loss 1.392


Epoch 2: 100%|█████████████████████████████████████████████| 151/151 [00:18<00:00,  8.07it/s, loss=0.4853, lr=5.24e-05]


Epoch 2 completed | Avg Loss: 1.2836 | Perplexity: 3.61


Epoch 3:   1%|▌                                              | 2/151 [00:01<01:54,  1.30it/s, loss=0.3895, lr=5.21e-05]


GENERATION @ step 0
प्रश्न: स्वस्थ रहने के उपाय बताइए। ⁇ उत्तर: ⁇ कठ जीवन का आधार है। ⁇ कठ को जीवन का आधार माना गया है। ⁇ कठ को जीवन का आधार माना गया है। ⁇ कठ को जीवन का आधार माना गया है। ⁇ कठ को जीवन का आधार बताया गया है। ⁇ कठ को जीवन का आधार बताया गया है। ⁇ कठ को जीवन का आधार बताया गया है। ⁇ कठ को जीवन का

Step 0 | Loss 0.686


Epoch 3: 100%|█████████████████████████████████████████████| 151/151 [00:18<00:00,  8.08it/s, loss=0.0082, lr=2.77e-05]


Epoch 3 completed | Avg Loss: 0.7069 | Perplexity: 2.03


Epoch 4:   1%|▌                                              | 2/151 [00:01<01:45,  1.41it/s, loss=0.0896, lr=2.74e-05]


GENERATION @ step 0
प्रश्न: स्वस्थ रहने के उपाय बताइए। ⁇ उत्तर: ⁇ - सफलता का साधन बताया गया है। ⁇ - लगातार सीखता और सुधार का साधन बताया गया है। ⁇ - निरंतर सीखता और सुधार का साधन बताया गया है। ⁇ - निरंतर सीखता और सुधार का साधन बताया गया है। ⁇ - निरंतर सीखता और सुधार का साधन बताया गया है। ⁇ - निरंतर सीखता और सुधार का साधन बताया गया है। ⁇ - निरंतर सीखता और

Step 0 | Loss 0.278


Epoch 4: 100%|█████████████████████████████████████████████| 151/151 [00:18<00:00,  8.07it/s, loss=0.0174, lr=7.73e-06]


Epoch 4 completed | Avg Loss: 0.4310 | Perplexity: 1.54


Epoch 5:   1%|▌                                              | 2/151 [00:01<01:42,  1.46it/s, loss=0.0755, lr=7.54e-06]


GENERATION @ step 0
प्रश्न: स्वस्थ रहने के उपाय बताइए। ⁇ उत्तर: ⁇  ⁇ - मानसिक शांति शांति। ⁇ - मानसिक शांति। ⁇ - मानसिक शांति। ⁇ - मानसिक शांति। ⁇ - मानसिक शांति। ⁇ - मानसिक शांति। ⁇ - मानसिक शांति। ⁇ - मानसिक शांति। ⁇ - मानसिक शांति। ⁇ - मानसिक शांति। ⁇ - मानसिक शांति। ⁇ - मानसिक शांति। ⁇ - मानसिक शांति। ⁇ - मानसिक शांति। ⁇ - मानसिक शांति। ⁇ - मानसिक

Step 0 | Loss 0.201


Epoch 5: 100%|█████████████████████████████████████████████| 151/151 [00:18<00:00,  7.96it/s, loss=0.0685, lr=1.00e-07]


Epoch 5 completed | Avg Loss: 0.3223 | Perplexity: 1.38
Full SFT complete! Final model saved as: full_sft_new_model.pt
