# Continual Pretraining of Llama 3.2 1B

In [1]:
from pprint import pprint
import math
import wandb

import datasets
from datasets import load_dataset, load_from_disk
from transformers import AutoTokenizer, AutoModelForCausalLM
from transformers import DataCollatorForLanguageModeling
from transformers import TrainingArguments, Trainer

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
wandb.init(
  project='DLP-W4-CPT-Node-1',
  config={
    "batch_size":4,
    "dataset": "Sangraha",
  },
)

[34m[1mwandb[0m: Currently logged in as: [33m21f2000143[0m ([33m21f2000143-indian-institute-of-technology-madras[0m) to [32mhttps://api.wandb.ai[0m. Use [1m`wandb login --relogin`[0m to force relogin


In [3]:
ds = load_dataset('ai4bharat/sangraha', data_files='https://huggingface.co/datasets/ai4bharat/sangraha/resolve/main/verified/tam/data-0.parquet')['train']

In [4]:
ds

Dataset({
    features: ['doc_id', 'text', 'type'],
    num_rows: 149796
})

In [5]:
ds[0]

{'doc_id': 'd8467560df293124156db767026a1e930b96341d',
 'text': 'புதுச்சேரி-நேருக்கு நேர் விவாதம் செய்தால் மீசை அல்ல, மொட்டையே அடித்துக் கொள்ள நேரிடும் என முன்னாள் அமைச்சருக்கு, கல்யாணசுந்தரம் எம். எல். ஏ. , சவால் விடுத்துள்ளார்.\n அவரது அறிக்கைஃ\nகாலாப்பட்டில் கடந்த 9ம் தேதி நடந்த காங். , நிர்வாகிகள் ஆலோசனைக் கூட்டத்தில் பேசிய முன்னாள் அமைச்சர் ஷாஜகான், அவர் கொண்டு வந்த திட்டங்களை நான் கொண்டு வந்ததாக கூறி மக்களை ஏமாற்றி வருவதாக தெரிவித்துள்ளார்.\n மேலும், என்னுடன் நேருக்கு நேர் விவாதிக்க போவதாகவும், அவ்வாறு இல்லை என நிருபித்தால், ஒருபக்க மீசையை எடுத்துக் கொள்வதாக சவால் விட்டுள்ளார்.\n அவரது சவால், எனது மக்கள் நலத்திட்ட பணிகளை மேலும் மேம்படுத்திக் கொள்ள வாய்ப்பாக கருதுகிறேன்.\n எந்த திட்டத்தை யார் கொண்டு வந்தது என்பது காலாப்பட்டு தொகுதி மக்களுக்கு நன்றாகவே தெரியும், நான், அவருடன் நேருக்கு நேர் விவாதம் செய்தால் அவ் மீசையை மட்டும் அல்ல மொட்டை அடித்துக் கொள்ள நேரிடும்.\n பிள்ளைச்சாவடி கடல் அரிப்பு சம்பந்தமாக அவர் பேசியதற்கு, நான் கடந்த டிசம்பர் 13ம் தேதி நேருக்கு நேர் பொது மேடையில் விவாதி

# Login to Hugging Face in Your Script/Notebook

In [6]:
from transformers import AutoTokenizer

In [7]:
from dotenv import load_dotenv
import os

load_dotenv()  # Automatically loads .env file from current directory

True

In [8]:
from huggingface_hub import login

login(token=os.getenv("HUGGINGFACE_HUB_TOKEN"))

# Set the token as environment variable

In [9]:
model_id = "google/gemma-3-1b-it"
tokenizer = AutoTokenizer.from_pretrained(model_id)
print(f'Vocab size: {tokenizer.vocab_size}')
print(f'Context length: {tokenizer.model_max_length}')

Vocab size: 262144
Context length: 1000000000000000019884624838656


In [10]:
tokenizer.model_max_length = 1024
tokenizer.pad_token = tokenizer.eos_token

## Finding the Fertility score of the tokenizer

In [12]:
example = ds[1]
num_words = len(example['text'].split())
num_words

47

In [13]:
input_ids = tokenizer.encode(example['text'])
len(input_ids)

122

In [14]:
print(f'Fertility score of the model is: {len(input_ids)/num_words}')

Fertility score of the model is: 2.595744680851064


In [15]:
def tokenize(example):
  return tokenizer(example['text'], padding=False, truncation=True)

In [16]:
import multiprocess

num_cores = multiprocess.cpu_count()
print(f"Available CPU cores for multiprocessing: {num_cores}")

Available CPU cores for multiprocessing: 8


In [None]:
# Using num_proc=1 to avoid multiprocessing issues with the tokenizer
tokenized_ds = ds.map(tokenize, batched=True, num_proc=1, remove_columns=['doc_id', 'text', 'type'])
print(tokenized_ds)

In [18]:
tokenized_ds.save_to_disk('tamil_ds')

NameError: name 'tokenized_ds' is not defined

# Using all cores of CPU

In [None]:
# Save the tokenizer to disk first (add this cell before your tokenize function)
tokenizer_save_path = "./saved_tokenizer"
tokenizer.save_pretrained(tokenizer_save_path)

('./saved_tokenizer\\tokenizer_config.json',
 './saved_tokenizer\\special_tokens_map.json',
 './saved_tokenizer\\tokenizer.json')

In [19]:
ds_chunked = load_from_disk('tamil_ds')
ds_chunked

Dataset({
    features: ['input_ids', 'attention_mask'],
    num_rows: 149796
})

In [20]:
ds_split = ds_chunked.train_test_split(test_size=0.001, seed=42)
print(ds_split)

DatasetDict({
    train: Dataset({
        features: ['input_ids', 'attention_mask'],
        num_rows: 149646
    })
    test: Dataset({
        features: ['input_ids', 'attention_mask'],
        num_rows: 150
    })
})


In [21]:
from transformers import DataCollatorForLanguageModeling

In [22]:
data_collator = DataCollatorForLanguageModeling(tokenizer, mlm=False)

# Loading the model

In [23]:
from transformers import AutoModelForCausalLM

In [24]:
model = AutoModelForCausalLM.from_pretrained(model_id, pad_token_id=tokenizer.eos_token_id)

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`
To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


In [25]:
configuration = model.config
configuration

Gemma3TextConfig {
  "architectures": [
    "Gemma3ForCausalLM"
  ],
  "attention_bias": false,
  "attention_dropout": 0.0,
  "attn_logit_softcapping": null,
  "bos_token_id": 2,
  "cache_implementation": "hybrid",
  "eos_token_id": [
    1,
    106
  ],
  "final_logit_softcapping": null,
  "head_dim": 256,
  "hidden_activation": "gelu_pytorch_tanh",
  "hidden_size": 1152,
  "initializer_range": 0.02,
  "intermediate_size": 6912,
  "max_position_embeddings": 32768,
  "model_type": "gemma3_text",
  "num_attention_heads": 4,
  "num_hidden_layers": 26,
  "num_key_value_heads": 1,
  "pad_token_id": 1,
  "query_pre_attn_scalar": 256,
  "rms_norm_eps": 1e-06,
  "rope_local_base_freq": 10000,
  "rope_scaling": null,
  "rope_theta": 1000000,
  "sliding_window": 512,
  "sliding_window_pattern": 6,
  "torch_dtype": "float32",
  "transformers_version": "4.52.4",
  "use_cache": true,
  "vocab_size": 262144
}

In [26]:
print(model.dtype)

torch.float32


In [27]:
num_parameters=model.num_parameters()

In [28]:
mem_in_gb = num_parameters*4/1e9
print(mem_in_gb)

3.999543808


In [29]:
print(model.get_memory_footprint()/1e9)

3.999544836


## Estimate of Memory size required

In [30]:
param_model = num_parameters*4/1e9
adam_opt = 3*param_model # for storing moments
kernel = 1
bs = 1 # batch size
print(f'Total Memory requirement per sample: {(param_model+adam_opt+kernel)*bs} GB')

Total Memory requirement per sample: 16.998175232 GB


In [31]:
prompt = "I was reading Feynman's lecture on physics. He talks about "
inputs = tokenizer(prompt, return_tensors='pt', padding=True)
outputs = model.generate(**inputs, max_new_tokens=50, do_sample=True, top_k=10, top_p=0.95)
tokenizer.batch_decode(outputs, skip_special_tokens=True)

['I was reading Feynman\'s lecture on physics. He talks about 3 ways to think about things.\n\n1.  **The "What"**\n2.  **The "How"**\n3.  **The "Why"**\n\nHe emphasizes that you need to be able to describe a process']

In [32]:
prompt = "நான் ஃபைன்மானின் இயற்பியல் சொற்பொழிவை படித்தேன். அவர் பற்றி பேசுகிறார் "
inputs = tokenizer(prompt, return_tensors='pt', padding=True)
outputs = model.generate(**inputs, max_new_tokens=50, do_sample=True, top_k=10, top_p=0.95)
tokenizer.batch_decode(outputs, skip_special_tokens=True)

['நான் ஃபைன்மானின் இயற்பியல் சொற்பொழிவை படித்தேன். அவர் பற்றி பேசுகிறார் \n“நான் ஒரு தந்திரமான, பயங்கரமான, மோசமான மனிதன், நான் எப்போதும் ஒரு மோசமான ஆளுமையாக இருக்க வேண்டும்.”\n\nஅதற்கு நான் பதிலளித்தேன், “நீங்கள் ஒரு மோசமான மனிதன் என்று சொல்லுவதற்கு,']

In [33]:
from peft import LoraConfig, TaskType, LoraModel

In [34]:
lora_config = LoraConfig(
  r=16,
  target_modules=['q_proj', 'v_proj'],
  task_type=TaskType.CAUSAL_LM,
  inference_mode=False,
  lora_alpha=32,
  lora_dropout=0.05
)

In [35]:
from peft import get_peft_model
lora_model = get_peft_model(model, lora_config)
lora_model.print_trainable_parameters()

The installed version of bitsandbytes was compiled without GPU support. 8-bit optimizers and GPU quantization are unavailable.


trainable params: 1,490,944 || all params: 1,001,376,896 || trainable%: 0.1489


In [None]:
lora_model

PeftModelForCausalLM(
  (base_model): LoraModel(
    (model): LlamaForCausalLM(
      (model): LlamaModel(
        (embed_tokens): Embedding(128256, 2048, padding_idx=128001)
        (layers): ModuleList(
          (0-15): 16 x LlamaDecoderLayer(
            (self_attn): LlamaAttention(
              (q_proj): lora.Linear(
                (base_layer): Linear(in_features=2048, out_features=2048, bias=False)
                (lora_dropout): ModuleDict(
                  (default): Dropout(p=0.05, inplace=False)
                )
                (lora_A): ModuleDict(
                  (default): Linear(in_features=2048, out_features=16, bias=False)
                )
                (lora_B): ModuleDict(
                  (default): Linear(in_features=16, out_features=2048, bias=False)
                )
                (lora_embedding_A): ParameterDict()
                (lora_embedding_B): ParameterDict()
                (lora_magnitude_vector): ModuleDict()
              )
              (

In [None]:
pprint(lora_model.peft_config)

{'default': LoraConfig(task_type=<TaskType.CAUSAL_LM: 'CAUSAL_LM'>,
                       peft_type=<PeftType.LORA: 'LORA'>,
                       auto_mapping=None,
                       base_model_name_or_path='meta-llama/Llama-3.2-1B',
                       revision=None,
                       inference_mode=False,
                       r=16,
                       target_modules={'v_proj', 'q_proj'},
                       exclude_modules=None,
                       lora_alpha=32,
                       lora_dropout=0.05,
                       fan_in_fan_out=False,
                       bias='none',
                       use_rslora=False,
                       modules_to_save=None,
                       init_lora_weights=True,
                       layers_to_transform=None,
                       layers_pattern=None,
                       rank_pattern={},
                       alpha_pattern={},
                       megatron_config=None,
                       megat

In [36]:
training_args = TrainingArguments(
  output_dir="lora_llma_1b_ct",
  eval_strategy="steps",
  eval_steps=100,
  num_train_epochs=1,
  per_device_train_batch_size=2,
  per_device_eval_batch_size=2,
  bf16=False,
  fp16=True,
  tf32=False,
  gradient_accumulation_steps=1,
  adam_beta1=0.9,
  adam_beta2=0.999,
  learning_rate=2e-5,
  weight_decay=0.01,
  logging_dir='logs',
  logging_strategy='steps',
  logging_steps=100,
  save_steps=100,
  save_total_limit=20,
  report_to="none",
)

In [37]:
trainer = Trainer(model=lora_model,
args = training_args,
train_dataset=ds_split['train'],
eval_dataset=ds_split['test'],
data_collator=data_collator)

No label_names provided for model class `PeftModelForCausalLM`. Since `PeftModel` hides base models input arguments, if label_names is not given, label_names can't be set automatically within `Trainer`. Note that empty label_names list will be used instead.


In [38]:
results = trainer.train()

It is strongly recommended to train Gemma3 models with the `eager` attention implementation instead of `sdpa`. Use `eager` with `AutoModelForCausalLM.from_pretrained('<path-to-checkpoint>', attn_implementation='eager')`.


KeyboardInterrupt: 