<a href="https://colab.research.google.com/github/mhtabkrklt/ML_Tasks/blob/main/product_quantization.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

ДЗ: Реализовать product quantization самостоятельно и посчитать ошибку представления на 2 датасетах:
- сгенерированом так, чтобы в каждом под-пространстве вектора хорошо кластеризовались (центр + белый шум)
- эмбеддингах любого датасета от любой нейронки

In [9]:
import numpy as np
import tqdm
import matplotlib.pyplot as plt
import torch
import torchvision
import torchvision.transforms as transforms
from sklearn.metrics import mean_squared_error


In [10]:
np.random.seed(42)
torch.manual_seed(42)

DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Working on device: {DEVICE}")

Working on device: cuda


K-Means on PyTorch for GPU

In [11]:
def kmeans_pytorch(X, num_clusters, device, max_iter=50, tol=1e-4):
    N, D = X.shape
    indices = torch.randperm(N, device=device)[:num_clusters]
    centroids = X[indices].clone()

    for i in range(max_iter):
        # Считаем расстояния: (N, 1, D) - (1, K, D) -> (N, K)
        dists = torch.cdist(X, centroids)

        # Находим ближайшие центроиды
        labels = torch.argmin(dists, dim=1)

        # Пересчитываем центроиды
        new_centroids = torch.zeros_like(centroids)
        new_centroids.index_add_(0, labels, X)

        # Считаем количество точек в каждом кластере
        counts = torch.bincount(labels, minlength=num_clusters).float().unsqueeze(1)

        # Избегаем деления на ноль
        mask = counts > 0
        new_centroids[mask.squeeze()] /= counts[mask.squeeze()]
        new_centroids[~mask.squeeze()] = centroids[~mask.squeeze()]

        # Проверка на сходимость
        shift = torch.norm(new_centroids - centroids)
        if shift < tol:
            break
        centroids = new_centroids

    return centroids

Реализация Product Quantizer

In [12]:
class ProductQuantizer:
    def __init__(self, m: int, nbits: int = 8, device=DEVICE):
        """
        m: количество подпространств (сегментов)
        nbits: количество бит на сегмент.
               Примечание: Обычно берется 8, чтобы индекс кластера влезал в uint8 (1 байт).
               Выбор K - это баланс. Больше K -> меньше ошибка, но медленнее поиск и больше словарь.
               Меньше K -> быстрее, но грубее приближение.
        device: 'cpu' или 'cuda'
        """
        self.m = m
        self.k = 2 ** nbits
        self.d_s = None
        self.codebooks = None
        self.device = device

    def fit(self, x: torch.Tensor):

        x = x.to(self.device)
        n_samples, d = x.shape
        assert d % self.m == 0, f"Размерность {d} должна делиться на m={self.m}"
        self.d_s = d // self.m

        # codebooks: (m, k, d_s)
        self.codebooks = torch.empty((self.m, self.k, self.d_s), device=self.device)

        print(f"Обучение PQ на {self.device}: Вектор {d} dim -> {self.m} сегментов по {self.d_s} dim.")

        for i in tqdm.tqdm(range(self.m), desc="Обучение подпространств"):
            x_sub = x[:, i * self.d_s : (i + 1) * self.d_s]

            centroids = kmeans_pytorch(x_sub, self.k, device=self.device)
            self.codebooks[i] = centroids

    def encode(self, x: torch.Tensor) -> torch.Tensor:
        """
        Кодирование векторов. Возвращает индексы (коды).
        """
        x = x.to(self.device)
        n_samples, d = x.shape
        codes = torch.empty((n_samples, self.m), dtype=torch.long, device=self.device)

        for i in range(self.m):
            x_sub = x[:, i * self.d_s : (i + 1) * self.d_s]
            codebook = self.codebooks[i]

            # Расстояния ||x - c||
            dists = torch.cdist(x_sub, codebook) # (N, K)

            codes[:, i] = torch.argmin(dists, dim=1)

        return codes

    def decode(self, codes: torch.Tensor) -> torch.Tensor:
        """
        Восстановление векторов по кодам.
        """
        codes = codes.to(self.device)
        n_samples, m = codes.shape
        d = self.m * self.d_s
        x_reconstructed = torch.empty((n_samples, d), device=self.device)

        for i in range(self.m):
            # codes[:, i] - это индексы центроидов для i-го сегмента
            x_reconstructed[:, i * self.d_s : (i + 1) * self.d_s] = self.codebooks[i][codes[:, i]]

        return x_reconstructed

**Часть 1:** **Эксперимент на синтетических данных**

На этом этапе мы проверяем корректность нашей реализации Product Quantization на PyTorch. Мы генерируем искусственный набор данных с заранее известной структурой, чтобы убедиться, что алгоритм работает верно.

Суть эксперимента:

Унификация: Мы используем размерность вектора D=512 (как у ResNet в следующем эксперименте), чтобы проверить работу на реалистичных объемах.

Генерация: Данные создаются из идеальных центроидов, к которым добавляется Гауссовский шум.

Технологии: Вычисления производятся на GPU (CUDA) для проверки скорости и корректности тензорных операций.

Ожидаемый результат:

MSE восстановления должна быть очень близка к дисперсии добавленного шума (PQ находит "истинные" центры, игнорируя шум).

Cosine Similarity должна стремиться к 1 (показывая, что направление векторов сохранено).

Синтетические данные

In [13]:
def generate_clustered_data(n_samples, d, m, n_clusters_per_subspace, noise_level=0.1):
    d_s = d // m
    true_centroids = torch.randn(m, n_clusters_per_subspace, d_s)

    data = torch.empty((n_samples, d))
    perfect_data = torch.empty((n_samples, d))

    for i in range(m):
        cluster_indices = torch.randint(0, n_clusters_per_subspace, (n_samples,))
        sub_data = true_centroids[i][cluster_indices]
        perfect_data[:, i*d_s : (i+1)*d_s] = sub_data

        noise = torch.randn(n_samples, d_s) * noise_level
        data[:, i*d_s : (i+1)*d_s] = sub_data + noise

    return data, perfect_data

In [14]:
def evaluate_compression(X_orig, X_rec, codes, name="Experiment"):
    X_orig = X_orig.to(DEVICE)
    X_rec = X_rec.to(DEVICE)

    # 1. MSE
    mse = torch.nn.functional.mse_loss(X_orig, X_rec).item()

    # 2. Cosine Similarity
    cos_sim = torch.nn.functional.cosine_similarity(X_orig, X_rec).mean().item()

    # 3. Коэффициент сжатия
    orig_bytes = X_orig.element_size() * X_orig.nelement()
    comp_bytes = codes.element_size() * codes.nelement()
    ratio = orig_bytes / comp_bytes

    print(f"\nРЕЗУЛЬТАТЫ: {name}")
    print(f"{'-'*40}")
    print(f"MSE :      {mse:.6f}")
    print(f"Cosine Similarity (Качество):  {cos_sim:.4f} (1.0 = идеал)")
    print(f"Сжатие (Эффективность):        {orig_bytes/1024:.1f} KB -> {comp_bytes/1024:.1f} KB (в {ratio:.1f} раз)")
    print(f"{'-'*40}")

    return mse, cos_sim

In [15]:
print("\nЭКСПЕРИМЕНТ 1: Синтетические данные")
D_COMMON = 512
M_COMMON = 16
NBITS = 8

X_synth, X_perfect = generate_clustered_data(n_samples=5000, d=D_COMMON, m=M_COMMON, n_clusters_per_subspace=256)

pq_synth = ProductQuantizer(m=M_COMMON, nbits=NBITS, device=DEVICE)
pq_synth.fit(X_synth)

codes_synth = pq_synth.encode(X_synth)
X_rec_synth = pq_synth.decode(codes_synth)

evaluate_compression(X_synth, X_rec_synth, codes_synth, name="Синтетика (Шумные данные)")
evaluate_compression(X_perfect, X_rec_synth, codes_synth, name="Синтетика (Проверка против Идеала)")


ЭКСПЕРИМЕНТ 1: Синтетические данные
Обучение PQ на cuda: Вектор 512 dim -> 16 сегментов по 32 dim.


Обучение подпространств: 100%|██████████| 16/16 [00:00<00:00, 171.07it/s]


РЕЗУЛЬТАТЫ: Синтетика (Шумные данные)
----------------------------------------
MSE :      0.148720
Cosine Similarity (Качество):  0.9235 (1.0 = идеал)
Сжатие (Эффективность):        10000.0 KB -> 625.0 KB (в 16.0 раз)
----------------------------------------

РЕЗУЛЬТАТЫ: Синтетика (Проверка против Идеала)
----------------------------------------
MSE :      0.139925
Cosine Similarity (Качество):  0.9274 (1.0 = идеал)
Сжатие (Эффективность):        10000.0 KB -> 625.0 KB (в 16.0 раз)
----------------------------------------





(0.13992474973201752, 0.9274211525917053)

Высокое качество восстановления: Косинусная близость ~0.92-0.93 говорит о том, что алгоритм успешно нашел структуру данных и сохранил направление векторов практически без искажений.

Эффективность: Достигнуто сжатие в 16 раз (с 10 МБ до 625 КБ) при сохранении высокой точности.

Корректность работы: Низкая ошибка MSE (~0.14) и высокая схожесть с идеальными центроидами подтверждают, что ваша реализация Product Quantization работает верно и устойчива к шуму

**Часть 2: Реальные данные (Эмбеддинги ResNet-18)**

В этом эксперименте мы тестируем алгоритм на реальной задаче сжатия семантических векторов изображений из датасета CIFAR-10. Мы используем эмбеддинги размерностью 512, полученные с выхода нейросети ResNet-18.

Параметры эксперимента:

Входные данные: Векторы размерностью 512 (float32), занимающие 2048 байт.

Настройки PQ: Вектор разбивается на 16 подпространств (M=16), каждое кодируется 8 битами (nbits=8).

Сжатие: Итоговый код занимает всего 16 байт (против исходных 2048). Коэффициент сжатия — 128x.

In [16]:
print("\nЭКСПЕРИМЕНТ 2: Эмбеддинги (ResNet18)")
def get_resnet_embeddings(n_images=2000):
    model = torchvision.models.resnet18(weights='DEFAULT')
    model.fc = torch.nn.Identity()
    model.eval()
    model.to(DEVICE)

    preprocess = transforms.Compose([
        transforms.Resize(224),
        transforms.ToTensor(),
        transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
    ])

    dataset = torchvision.datasets.CIFAR10(root='./data', train=True, download=True, transform=preprocess)
    loader = torch.utils.data.DataLoader(dataset, batch_size=100, shuffle=True)

    embeddings_list = []
    print("Генерация эмбеддингов...")
    with torch.no_grad():
        for i, (images, labels) in enumerate(loader):
            if i * 100 >= n_images: break
            images = images.to(DEVICE)
            emb = model(images)
            embeddings_list.append(emb.cpu())

    return torch.vstack(embeddings_list)

X_emb = get_resnet_embeddings(n_images=2000)

pq_emb = ProductQuantizer(m=M_COMMON, nbits=NBITS, device=DEVICE)
pq_emb.fit(X_emb)

codes_emb = pq_emb.encode(X_emb)
X_rec_emb = pq_emb.decode(codes_emb)

evaluate_compression(X_emb, X_rec_emb, codes_emb, name="Эмбеддинги ResNet18")


ЭКСПЕРИМЕНТ 2: Эмбеддинги (ResNet18)
Генерация эмбеддингов...
Обучение PQ на cuda: Вектор 512 dim -> 16 сегментов по 32 dim.


Обучение подпространств: 100%|██████████| 16/16 [00:00<00:00, 112.35it/s]


РЕЗУЛЬТАТЫ: Эмбеддинги ResNet18
----------------------------------------
MSE :      0.197093
Cosine Similarity (Качество):  0.9329 (1.0 = идеал)
Сжатие (Эффективность):        4000.0 KB -> 250.0 KB (в 16.0 раз)
----------------------------------------





(0.19709299504756927, 0.932908296585083)

Высокое качество: Косинусная близость 0.9329 означает, что сжатые векторы сохранили более 93% семантического смысла. Это отличный результат для задач поиска (Retrieval) и рекомендаций.

Эффективность сжатия: Объем данных уменьшен в 16 раз (с 4 МБ до 250 КБ), что существенно экономит память.

Производительность: Использование GPU (CUDA) обеспечило высокую скорость обучения.