# Selective Freezing

In [1]:
import os
from transformers import AutoModelForCausalLM

from src.param_freeze import selective_grad_freeze

os.environ['CUDA_VISIBLE_DEVICES'] = '4'

In [2]:
model_name = 'meta-llama/Meta-Llama-3.1-8B'
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="cuda")

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

## Inspect Trainable Parameters in Model Layers

In [3]:
for layer_id in range(0,10):
    for param in model.model.layers[layer_id].parameters():
        print('Layer', layer_id, param.requires_grad)

for param in model.model.embed_tokens.parameters():
    print('Embed', param.requires_grad)

for param in model.model.norm.parameters():
    print('Norm', param.requires_grad)

for param in model.lm_head.parameters():
    print('LM head', param.requires_grad)

Layer 0 True
Layer 0 True
Layer 0 True
Layer 0 True
Layer 0 True
Layer 0 True
Layer 0 True
Layer 0 True
Layer 0 True
Layer 1 True
Layer 1 True
Layer 1 True
Layer 1 True
Layer 1 True
Layer 1 True
Layer 1 True
Layer 1 True
Layer 1 True
Layer 2 True
Layer 2 True
Layer 2 True
Layer 2 True
Layer 2 True
Layer 2 True
Layer 2 True
Layer 2 True
Layer 2 True
Layer 3 True
Layer 3 True
Layer 3 True
Layer 3 True
Layer 3 True
Layer 3 True
Layer 3 True
Layer 3 True
Layer 3 True
Layer 4 True
Layer 4 True
Layer 4 True
Layer 4 True
Layer 4 True
Layer 4 True
Layer 4 True
Layer 4 True
Layer 4 True
Layer 5 True
Layer 5 True
Layer 5 True
Layer 5 True
Layer 5 True
Layer 5 True
Layer 5 True
Layer 5 True
Layer 5 True
Layer 6 True
Layer 6 True
Layer 6 True
Layer 6 True
Layer 6 True
Layer 6 True
Layer 6 True
Layer 6 True
Layer 6 True
Layer 7 True
Layer 7 True
Layer 7 True
Layer 7 True
Layer 7 True
Layer 7 True
Layer 7 True
Layer 7 True
Layer 7 True
Layer 8 True
Layer 8 True
Layer 8 True
Layer 8 True
Layer 8 True

## Freezing

The ```selective_grad_freeze``` function is set to default of freezing the first 8 layers, the token embedding, final layer normalization, and the language modeling head (output projection layer).

In [4]:
selective_grad_freeze?

[0;31mSignature:[0m [0mselective_grad_freeze[0m[0;34m([0m[0mmodel[0m[0;34m,[0m [0mn_first[0m[0;34m=[0m[0;36m8[0m[0;34m,[0m [0membed[0m[0;34m=[0m[0;32mTrue[0m[0;34m,[0m [0mfinal[0m[0;34m=[0m[0;32mTrue[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Selectively freezing trainable parameters.
Default is to freeze the first 8 layers, the token embedding, final layer normalization, 
and the language modeling head (output projection layer).
[0;31mFile:[0m      ~/interlingua_pub/src/param_freeze.py
[0;31mType:[0m      function


In [5]:
selective_grad_freeze(model)

Freezing
Done


## Inspect Trainable Parameters in Model Layers After Selective Freezing

In [6]:
for layer_id in range(0,10):
    for param in model.model.layers[layer_id].parameters():
        print('Layer', layer_id, param.requires_grad)

for param in model.model.embed_tokens.parameters():
    print('Embed', param.requires_grad)

for param in model.model.norm.parameters():
    print('Norm', param.requires_grad)

for param in model.lm_head.parameters():
    print('LM head', param.requires_grad)

Layer 0 False
Layer 0 False
Layer 0 False
Layer 0 False
Layer 0 False
Layer 0 False
Layer 0 False
Layer 0 False
Layer 0 False
Layer 1 False
Layer 1 False
Layer 1 False
Layer 1 False
Layer 1 False
Layer 1 False
Layer 1 False
Layer 1 False
Layer 1 False
Layer 2 False
Layer 2 False
Layer 2 False
Layer 2 False
Layer 2 False
Layer 2 False
Layer 2 False
Layer 2 False
Layer 2 False
Layer 3 False
Layer 3 False
Layer 3 False
Layer 3 False
Layer 3 False
Layer 3 False
Layer 3 False
Layer 3 False
Layer 3 False
Layer 4 False
Layer 4 False
Layer 4 False
Layer 4 False
Layer 4 False
Layer 4 False
Layer 4 False
Layer 4 False
Layer 4 False
Layer 5 False
Layer 5 False
Layer 5 False
Layer 5 False
Layer 5 False
Layer 5 False
Layer 5 False
Layer 5 False
Layer 5 False
Layer 6 False
Layer 6 False
Layer 6 False
Layer 6 False
Layer 6 False
Layer 6 False
Layer 6 False
Layer 6 False
Layer 6 False
Layer 7 False
Layer 7 False
Layer 7 False
Layer 7 False
Layer 7 False
Layer 7 False
Layer 7 False
Layer 7 False
Layer 