In [2]:
import numpy as np
import os
dtype = np.float32

import torch
import torch.nn as nn
import torchvision
from tqdm import tqdm
import os

from transformers import CLIPVisionModelWithProjection, AutoModelForCausalLM, LlamaForCausalLM
from transformers import AutoModel, AutoTokenizer, OPTForCausalLM, BloomForCausalLM
import numpy

from huggingface_hub import try_to_load_from_cache, _CACHED_NO_EXIST
from huggingface_hub import scan_cache_dir

import glob
import random
import json
import os

from datasets import load_dataset

import functools
import gc
from collections import defaultdict
from typing import List

import torch
import torch.nn as nn
# from tinychat.models import LlavaLlamaForCausalLM
from transformers.models.bloom.modeling_bloom import BloomForCausalLM
from transformers.models.llama.modeling_llama import LlamaForCausalLM
from transformers.models.opt.modeling_opt import OPTForCausalLM

import numpy as np
from scipy.linalg import eigh

import torch

device = torch.device("cuda:3" if torch.cuda.is_available() else "cpu")

def topk_eigenvectors(A, device):
    A = A.to(device)
    eigenvalues, eigenvectors = torch.linalg.eigh(A)
    eigenvalues = eigenvalues
    eigenvectors = eigenvectors

    # 고유값 행렬 (대각행렬)
    Lambda = torch.diag(eigenvalues)

    # 원래 행렬 복원 검증: A @ V ≈ V @ Lambda
    A_reconstructed = eigenvectors @ Lambda @ eigenvectors.T
    error = torch.norm(A - A_reconstructed)
    
    # assert error < 1e-4, f"Error: {error.item()}"
    print(f"재구성 오차 (||A - VΛV^T||): {error.item()}")
    return eigenvalues.cpu(), eigenvectors.cpu()

def get_named_linears(module):
    return {name: m for name, m in module.named_modules() if isinstance(m, nn.Linear)}

def get_blocks(model):
    if model.__class__.__name__ in ("LlamaForCausalLM", "Qwen2ForCausalLM"):
        layers = model.model.layers
    elif model.__class__.__name__ == "LlavaLlamaForCausalLM":
        # layers = [model.model.layers, model.model.vision_tower.vision_tower.vision_model.encoder.layers]
        layers = model.model.layers
    elif isinstance(model, OPTForCausalLM):
        layers = model.model.decoder.layers
    elif isinstance(model, BloomForCausalLM):
        layers = model.transformer.h
    elif "mpt" in str(model.__class__).lower():
        layers = model.transformer.blocks
    elif "falcon" in str(model.__class__).lower():
        layers = model.transformer.h
    elif "bigcode" in str(model.__class__).lower():
        layers = model.transformer.h
    elif "neox" in str(model.__class__).lower():
        layers = model.gpt_neox.layers
    elif model.__class__.__name__ == "LlavaLlamaModel":
        layers = model.llm.model.layers
    else:
        raise NotImplementedError(type(model))
    return layers

  from .autonotebook import tqdm as notebook_tqdm


In [3]:
def flat_to_sym(V, N):
    A = torch.zeros(N, N, dtype=V.dtype, device=V.device)
    idxs = torch.tril_indices(N, N, device=V.device)
    A[idxs.unbind()] = V
    A[idxs[1, :], idxs[0, :]] = V
    return A

def regularize_H(H, n, sigma_reg):
    H.div_(torch.diag(H).mean())
    idx = torch.arange(n)
    H[idx, idx] += sigma_reg
    return H

In [4]:
quip_hess_base_path = '/home/jgryu/Weight_compression/Wparam_dataset/quip_hess'

model_list = os.listdir(quip_hess_base_path)
quip_hess_path = [os.path.join(quip_hess_base_path, model_name) for model_name in model_list]

sigma_reg = 1e-4

In [5]:
quip_hess_path

['/home/jgryu/Weight_compression/Wparam_dataset/quip_hess/llama3_8b_6144',
 '/home/jgryu/Weight_compression/Wparam_dataset/quip_hess/Hessians-Llama-2-13b-6144',
 '/home/jgryu/Weight_compression/Wparam_dataset/quip_hess/Hessians-Llama-2-7b-6144',
 '/home/jgryu/Weight_compression/Wparam_dataset/quip_hess/llama3.1_8b_6144']

In [6]:
# for quip_hess in quip_hess_path:
#     save_path = quip_hess.replace('quip_hess', f'quip_hess_eig_reg{sigma_reg}')
#     os.makedirs(save_path, exist_ok=True)
#     print(f'##### {quip_hess.split("/")[-1]} #####')
#     for i in tqdm(range(40)):
#         try:
#             hess_dict = {}
#             hess_dict['qkv'] = torch.load(f'{quip_hess}/{i}_qkv.pt', weights_only=False)
#             hess_dict['o'] = torch.load(f'{quip_hess}/{i}_o.pt', weights_only=False)
#             hess_dict['up'] = torch.load(f'{quip_hess}/{i}_up.pt', weights_only=False)
#             hess_dict['down'] = torch.load(f'{quip_hess}/{i}_down.pt', weights_only=False)
#         except:
#             continue

#         for k, h in hess_dict.items():
#             print(f'## layer{i}, {k} ##')
            
#             H = flat_to_sym(h['flatH'], h['n']).to(device)
#             mu = h['mu'].to(device)
#             H.add_(mu[None, :] * mu[:, None])
#             n_h = h['n']
#             H = regularize_H(H, n_h, sigma_reg)

#             eig = {}
#             s, q = topk_eigenvectors(H, device)
#             eig['eigenvalues'], eig['eigenvectors'] = s, q
#             torch.save(eig, f'{save_path}/{i}_{k}_eig.pt')
#             print(f"{(s[0]/s.sum()).item():.3f}, {(s[-1]/s.sum()).item():.3f}")
#             print(f"{q[-1].max().item():.3f}, {q[-1].min().item():.3f}")



In [10]:
for quip_hess in quip_hess_path:
    if '2-7b' not in quip_hess: continue
    save_path = quip_hess.replace('quip_hess', f'quip_hess_eig_reg{sigma_reg}')
    # os.makedirs(save_path, exist_ok=True)
    print(f'##### {quip_hess.split("/")[-1]} #####')
    for i in tqdm(range(40)):
        try:
            hess_dict = {}
            hess_dict['qkv'] = torch.load(f'{save_path}/{i}_qkv_eig.pt', weights_only=False)
            hess_dict['o'] = torch.load(f'{save_path}/{i}_o_eig.pt', weights_only=False)
            hess_dict['up'] = torch.load(f'{save_path}/{i}_up_eig.pt', weights_only=False)
            hess_dict['down'] = torch.load(f'{save_path}/{i}_down_eig.pt', weights_only=False)
        except:
            continue

        for k, h in hess_dict.items():
            print(f'## layer{i}, {k} ##')
            s, q = h['eigenvalues'], h['eigenvectors']
            # print(f"{(s[0]/s.sum()).item():.3f}, {(s[-1]/s.sum()).item():.3f}")
            
            sorted_s = torch.sort(s, descending=True).values  # 내림차순 정렬
            cumsum_s = torch.cumsum(sorted_s, dim=0)  # 누적 합
            
            total_sum = sorted_s.sum()
            k = int(0.025 * len(s))
            topk_sum = sorted_s[:k].sum()
            percentage = (topk_sum / total_sum) * 100
            
            print(f"상위 10개의 고유값이 차지하는 비율: {percentage:.2f}%")
            
            # threshold = 0.5 * sorted_s.sum()  # 전체 합의 90%

            # count = torch.searchsorted(cumsum_s, threshold, right=True).item() + 1  # 개수 찾기
            # print(f"90%를 차지하는 eigenvalue 개수: {count}/{len(s)}")



##### Hessians-Llama-2-7b-6144 #####


  2%|▎         | 1/40 [00:00<00:14,  2.61it/s]

## layer0, qkv ##
상위 10개의 고유값이 차지하는 비율: 97.85%
## layer0, o ##
상위 10개의 고유값이 차지하는 비율: 95.16%
## layer0, up ##
상위 10개의 고유값이 차지하는 비율: 50.61%
## layer0, down ##
상위 10개의 고유값이 차지하는 비율: 53.66%


  5%|▌         | 2/40 [00:00<00:16,  2.29it/s]

## layer1, qkv ##
상위 10개의 고유값이 차지하는 비율: 90.70%
## layer1, o ##
상위 10개의 고유값이 차지하는 비율: 62.09%
## layer1, up ##
상위 10개의 고유값이 차지하는 비율: 30.62%
## layer1, down ##
상위 10개의 고유값이 차지하는 비율: 99.87%


  8%|▊         | 3/40 [00:01<00:14,  2.55it/s]

## layer2, qkv ##
상위 10개의 고유값이 차지하는 비율: 74.62%
## layer2, o ##
상위 10개의 고유값이 차지하는 비율: 28.79%
## layer2, up ##
상위 10개의 고유값이 차지하는 비율: 22.78%
## layer2, down ##
상위 10개의 고유값이 차지하는 비율: 19.42%


 10%|█         | 4/40 [00:01<00:13,  2.65it/s]

## layer3, qkv ##
상위 10개의 고유값이 차지하는 비율: 57.17%
## layer3, o ##
상위 10개의 고유값이 차지하는 비율: 40.79%
## layer3, up ##
상위 10개의 고유값이 차지하는 비율: 21.36%
## layer3, down ##
상위 10개의 고유값이 차지하는 비율: 19.30%


 12%|█▎        | 5/40 [00:01<00:12,  2.70it/s]

## layer4, qkv ##
상위 10개의 고유값이 차지하는 비율: 58.83%
## layer4, o ##
상위 10개의 고유값이 차지하는 비율: 28.86%
## layer4, up ##
상위 10개의 고유값이 차지하는 비율: 22.66%
## layer4, down ##
상위 10개의 고유값이 차지하는 비율: 20.24%


 15%|█▌        | 6/40 [00:02<00:13,  2.57it/s]

## layer5, qkv ##
상위 10개의 고유값이 차지하는 비율: 55.73%
## layer5, o ##
상위 10개의 고유값이 차지하는 비율: 46.84%
## layer5, up ##
상위 10개의 고유값이 차지하는 비율: 22.65%
## layer5, down ##
상위 10개의 고유값이 차지하는 비율: 17.95%


 18%|█▊        | 7/40 [00:02<00:11,  2.79it/s]

## layer6, qkv ##
상위 10개의 고유값이 차지하는 비율: 50.91%
## layer6, o ##
상위 10개의 고유값이 차지하는 비율: 34.25%
## layer6, up ##
상위 10개의 고유값이 차지하는 비율: 22.67%
## layer6, down ##
상위 10개의 고유값이 차지하는 비율: 19.63%


 20%|██        | 8/40 [00:02<00:10,  2.92it/s]

## layer7, qkv ##
상위 10개의 고유값이 차지하는 비율: 50.20%
## layer7, o ##
상위 10개의 고유값이 차지하는 비율: 38.32%
## layer7, up ##
상위 10개의 고유값이 차지하는 비율: 24.26%
## layer7, down ##
상위 10개의 고유값이 차지하는 비율: 20.73%


 22%|██▎       | 9/40 [00:03<00:10,  3.06it/s]

## layer8, qkv ##
상위 10개의 고유값이 차지하는 비율: 52.32%
## layer8, o ##
상위 10개의 고유값이 차지하는 비율: 39.14%
## layer8, up ##
상위 10개의 고유값이 차지하는 비율: 24.82%
## layer8, down ##
상위 10개의 고유값이 차지하는 비율: 21.02%


 25%|██▌       | 10/40 [00:03<00:09,  3.12it/s]

## layer9, qkv ##
상위 10개의 고유값이 차지하는 비율: 49.64%
## layer9, o ##
상위 10개의 고유값이 차지하는 비율: 36.55%
## layer9, up ##
상위 10개의 고유값이 차지하는 비율: 24.96%
## layer9, down ##
상위 10개의 고유값이 차지하는 비율: 20.32%


 28%|██▊       | 11/40 [00:03<00:09,  3.06it/s]

## layer10, qkv ##
상위 10개의 고유값이 차지하는 비율: 49.39%
## layer10, o ##
상위 10개의 고유값이 차지하는 비율: 37.12%
## layer10, up ##
상위 10개의 고유값이 차지하는 비율: 25.01%
## layer10, down ##
상위 10개의 고유값이 차지하는 비율: 21.31%


 30%|███       | 12/40 [00:04<00:09,  3.05it/s]

## layer11, qkv ##
상위 10개의 고유값이 차지하는 비율: 46.24%
## layer11, o ##
상위 10개의 고유값이 차지하는 비율: 38.68%
## layer11, up ##
상위 10개의 고유값이 차지하는 비율: 23.75%
## layer11, down ##
상위 10개의 고유값이 차지하는 비율: 20.12%


 32%|███▎      | 13/40 [00:04<00:09,  2.99it/s]

## layer12, qkv ##
상위 10개의 고유값이 차지하는 비율: 45.20%
## layer12, o ##
상위 10개의 고유값이 차지하는 비율: 36.44%
## layer12, up ##
상위 10개의 고유값이 차지하는 비율: 23.21%
## layer12, down ##
상위 10개의 고유값이 차지하는 비율: 19.99%


 35%|███▌      | 14/40 [00:05<00:09,  2.71it/s]

## layer13, qkv ##
상위 10개의 고유값이 차지하는 비율: 42.17%
## layer13, o ##
상위 10개의 고유값이 차지하는 비율: 35.70%
## layer13, up ##
상위 10개의 고유값이 차지하는 비율: 23.92%
## layer13, down ##
상위 10개의 고유값이 차지하는 비율: 21.42%


 38%|███▊      | 15/40 [00:05<00:08,  2.89it/s]

## layer14, qkv ##
상위 10개의 고유값이 차지하는 비율: 42.88%
## layer14, o ##
상위 10개의 고유값이 차지하는 비율: 34.01%
## layer14, up ##
상위 10개의 고유값이 차지하는 비율: 22.33%
## layer14, down ##
상위 10개의 고유값이 차지하는 비율: 20.84%


 40%|████      | 16/40 [00:05<00:07,  3.01it/s]

## layer15, qkv ##
상위 10개의 고유값이 차지하는 비율: 43.79%
## layer15, o ##
상위 10개의 고유값이 차지하는 비율: 34.26%
## layer15, up ##
상위 10개의 고유값이 차지하는 비율: 23.38%
## layer15, down ##
상위 10개의 고유값이 차지하는 비율: 22.08%


 42%|████▎     | 17/40 [00:05<00:07,  2.96it/s]

## layer16, qkv ##
상위 10개의 고유값이 차지하는 비율: 41.76%
## layer16, o ##
상위 10개의 고유값이 차지하는 비율: 28.59%
## layer16, up ##
상위 10개의 고유값이 차지하는 비율: 21.89%
## layer16, down ##
상위 10개의 고유값이 차지하는 비율: 21.73%


 45%|████▌     | 18/40 [00:06<00:07,  3.08it/s]

## layer17, qkv ##
상위 10개의 고유값이 차지하는 비율: 37.80%
## layer17, o ##
상위 10개의 고유값이 차지하는 비율: 25.79%
## layer17, up ##
상위 10개의 고유값이 차지하는 비율: 19.59%
## layer17, down ##
상위 10개의 고유값이 차지하는 비율: 18.65%


 48%|████▊     | 19/40 [00:06<00:07,  2.80it/s]

## layer18, qkv ##
상위 10개의 고유값이 차지하는 비율: 34.71%
## layer18, o ##
상위 10개의 고유값이 차지하는 비율: 25.50%
## layer18, up ##
상위 10개의 고유값이 차지하는 비율: 18.97%
## layer18, down ##
상위 10개의 고유값이 차지하는 비율: 20.92%


 50%|█████     | 20/40 [00:07<00:08,  2.43it/s]

## layer19, qkv ##
상위 10개의 고유값이 차지하는 비율: 34.16%
## layer19, o ##
상위 10개의 고유값이 차지하는 비율: 24.47%
## layer19, up ##
상위 10개의 고유값이 차지하는 비율: 18.67%
## layer19, down ##
상위 10개의 고유값이 차지하는 비율: 19.97%


 52%|█████▎    | 21/40 [00:07<00:07,  2.70it/s]

## layer20, qkv ##
상위 10개의 고유값이 차지하는 비율: 32.99%
## layer20, o ##
상위 10개의 고유값이 차지하는 비율: 26.21%
## layer20, up ##
상위 10개의 고유값이 차지하는 비율: 18.56%
## layer20, down ##
상위 10개의 고유값이 차지하는 비율: 20.97%


 55%|█████▌    | 22/40 [00:07<00:07,  2.52it/s]

## layer21, qkv ##
상위 10개의 고유값이 차지하는 비율: 31.55%
## layer21, o ##
상위 10개의 고유값이 차지하는 비율: 18.36%
## layer21, up ##
상위 10개의 고유값이 차지하는 비율: 17.76%
## layer21, down ##
상위 10개의 고유값이 차지하는 비율: 18.43%


 57%|█████▊    | 23/40 [00:08<00:07,  2.29it/s]

## layer22, qkv ##
상위 10개의 고유값이 차지하는 비율: 31.90%
## layer22, o ##
상위 10개의 고유값이 차지하는 비율: 22.24%
## layer22, up ##
상위 10개의 고유값이 차지하는 비율: 17.46%
## layer22, down ##
상위 10개의 고유값이 차지하는 비율: 17.43%


 60%|██████    | 24/40 [00:09<00:07,  2.10it/s]

## layer23, qkv ##
상위 10개의 고유값이 차지하는 비율: 28.71%
## layer23, o ##
상위 10개의 고유값이 차지하는 비율: 20.48%
## layer23, up ##
상위 10개의 고유값이 차지하는 비율: 17.05%
## layer23, down ##
상위 10개의 고유값이 차지하는 비율: 16.94%


 62%|██████▎   | 25/40 [00:09<00:07,  1.97it/s]

## layer24, qkv ##
상위 10개의 고유값이 차지하는 비율: 30.92%
## layer24, o ##
상위 10개의 고유값이 차지하는 비율: 24.36%
## layer24, up ##
상위 10개의 고유값이 차지하는 비율: 16.80%
## layer24, down ##
상위 10개의 고유값이 차지하는 비율: 17.64%


 65%|██████▌   | 26/40 [00:10<00:07,  1.89it/s]

## layer25, qkv ##
상위 10개의 고유값이 차지하는 비율: 26.88%
## layer25, o ##
상위 10개의 고유값이 차지하는 비율: 18.47%
## layer25, up ##
상위 10개의 고유값이 차지하는 비율: 17.02%
## layer25, down ##
상위 10개의 고유값이 차지하는 비율: 20.87%


 68%|██████▊   | 27/40 [00:10<00:06,  1.86it/s]

## layer26, qkv ##
상위 10개의 고유값이 차지하는 비율: 28.90%
## layer26, o ##
상위 10개의 고유값이 차지하는 비율: 25.61%
## layer26, up ##
상위 10개의 고유값이 차지하는 비율: 17.46%
## layer26, down ##
상위 10개의 고유값이 차지하는 비율: 21.71%


 70%|███████   | 28/40 [00:11<00:06,  1.89it/s]

## layer27, qkv ##
상위 10개의 고유값이 차지하는 비율: 24.72%
## layer27, o ##
상위 10개의 고유값이 차지하는 비율: 27.26%
## layer27, up ##
상위 10개의 고유값이 차지하는 비율: 18.32%
## layer27, down ##
상위 10개의 고유값이 차지하는 비율: 26.37%


 72%|███████▎  | 29/40 [00:11<00:05,  2.02it/s]

## layer28, qkv ##
상위 10개의 고유값이 차지하는 비율: 25.33%
## layer28, o ##
상위 10개의 고유값이 차지하는 비율: 26.14%
## layer28, up ##
상위 10개의 고유값이 차지하는 비율: 19.31%
## layer28, down ##
상위 10개의 고유값이 차지하는 비율: 33.49%


 75%|███████▌  | 30/40 [00:12<00:05,  1.93it/s]

## layer29, qkv ##
상위 10개의 고유값이 차지하는 비율: 26.84%
## layer29, o ##
상위 10개의 고유값이 차지하는 비율: 21.09%
## layer29, up ##
상위 10개의 고유값이 차지하는 비율: 20.43%
## layer29, down ##
상위 10개의 고유값이 차지하는 비율: 40.56%


 78%|███████▊  | 31/40 [00:12<00:04,  1.93it/s]

## layer30, qkv ##
상위 10개의 고유값이 차지하는 비율: 24.46%
## layer30, o ##
상위 10개의 고유값이 차지하는 비율: 31.86%
## layer30, up ##
상위 10개의 고유값이 차지하는 비율: 22.73%
## layer30, down ##
상위 10개의 고유값이 차지하는 비율: 69.85%


100%|██████████| 40/40 [00:13<00:00,  3.03it/s]

## layer31, qkv ##
상위 10개의 고유값이 차지하는 비율: 26.98%
## layer31, o ##
상위 10개의 고유값이 차지하는 비율: 43.09%
## layer31, up ##
상위 10개의 고유값이 차지하는 비율: 26.78%
## layer31, down ##
상위 10개의 고유값이 차지하는 비율: 85.07%





In [11]:
import torch

# 값의 편차가 큰 대칭 행렬 생성
A = torch.tensor([[1000.0, 2.0, 3.0], 
                  [2.0, 0.01, 4.0], 
                  [3.0, 4.0, 0.0001]])

# LDL 분해 수행
L, D, _ = torch.linalg.ldl(A)

print("L 행렬:\n", L)
print("D 행렬:\n", D)


AttributeError: module 'torch.linalg' has no attribute 'ldl'

In [12]:
import numpy as np
import scipy.linalg

# 값의 편차가 큰 대칭 행렬 생성
A = np.array([[1000.0, 2.0, 3.0], 
              [2.0, 0.01, 4.0], 
              [3.0, 4.0, 0.0001]])

# LDL 분해 수행
L, D, perm = scipy.linalg.ldl(A, lower=True)

# 결과 출력
print("L 행렬:\n", L)
print("D 행렬:\n", D)


L 행렬:
 [[1.    0.    0.   ]
 [0.002 1.    0.   ]
 [0.003 0.    1.   ]]
D 행렬:
 [[ 1.000e+03  0.000e+00  0.000e+00]
 [ 0.000e+00  6.000e-03  3.994e+00]
 [ 0.000e+00  3.994e+00 -8.900e-03]]


In [15]:
import torch

def ldl_decomposition(A):
    # Cholesky 분해 수행 (A = L L^T)
    L_cholesky = torch.linalg.cholesky(A)

    # D 행렬: Cholesky 분해에서 얻은 L의 대각 원소의 제곱
    D = torch.diag(torch.diag(L_cholesky)**2)

    # L 행렬: Cholesky 행렬을 정규화하여 얻음
    L = L_cholesky / torch.diag(L_cholesky).reshape(-1, 1)

    return L, D

# 대칭 행렬 (값의 편차가 큰 경우)
A = torch.tensor([[1.0, 2.0, 3.0], 
                  [2.0, 1000, 4.0], 
                  [3.0, 4.0, 0.0001]])

# LDL 분해 수행
L, D = ldl_decomposition(A@A.T)

# 결과 출력
print("L 행렬:\n", L)
print("D 행렬:\n", D)


L 행렬:
 tensor([[1.0000, 0.0000, 0.0000],
        [0.6387, 1.0000, 0.0000],
        [1.0338, 1.0112, 1.0000]])
D 행렬:
 tensor([[1.4000e+01, 0.0000e+00, 0.0000e+00],
        [0.0000e+00, 7.1029e+05, 0.0000e+00],
        [0.0000e+00, 0.0000e+00, 8.0875e+00]])
