# CB. Контентные рекомендации. Получение векторов товаров

In [None]:
import pandas as pd
import numpy as np
import glob
from pathlib import Path
from collections import defaultdict
import json
import matplotlib.pyplot as plt
import seaborn as sns
from tqdm import tqdm

import polars as pl
import dask.dataframe as dd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import PCA, TruncatedSVD
from sklearn.preprocessing import OneHotEncoder, StandardScaler

from sklearn.metrics.pairwise import cosine_similarity
from sklearn.neighbors import NearestNeighbors

import pyarrow.parquet as pq
import os

plt.style.use('seaborn-v0_8')
sns.set_palette("husl")

### Категории

#### Проход по всем parquet ver 2.0

In [3]:
# Получаем полный список файлов
items_files = glob.glob('data/ml_ozon_recsys_train_final_apparel_items_data/*.parquet')

# Читаем все файлы явно указывая список
ddf = dd.read_parquet(items_files, columns=['catalogid'])

# Проверяем количество файлов
print(f"Загружено файлов: {len(items_files)}")
print(f"Размер DataFrame: {len(ddf):,} строк")

# Считаем уникальные catalogid
catalogid_counter = (
    ddf['catalogid']
    .value_counts()
    .compute()
    .reset_index(name='count')
    .rename(columns={'index': 'catalogid'})
)

Загружено файлов: 100
Размер DataFrame: 6,439,422 строк


In [5]:
catalogid_counter.sort_values(by='count')

Unnamed: 0,catalogid,count
48,35119,1
101,32132,1
366,9020,1
244,11237,1
23,7646000,1
...,...,...
87,7502,199919
330,7660,219858
128,36484,225336
129,7508,267444


##### Функции

In [30]:
# Конфигурация
KNOWN_CATALOG_IDS = catalogid_counter['catalogid'].sort_values().tolist()  # Заполните известными catalogid
INPUT_FILES = glob.glob('data/ml_ozon_recsys_train_final_apparel_items_data/*.parquet')
TEMP_DIR = './catalog_tmp'
OUTPUT_DIR = './result_vectors'
BATCH_SIZE = 5000  # Размер батча для обработки
TEXT_DIM_REDUCTION = 50  # Размерность после уменьшения для текстов
EMBED_DIM_REDUCTION = 50  # Размерность после уменьшения для эмбеддингов
LARGE_CATALOG_THRESHOLD = 50000  # Порог для определения больших catalogid

In [None]:
# Создаем директории для временных файлов по каждому catalogid
os.makedirs(TEMP_DIR, exist_ok=True)
os.makedirs(OUTPUT_DIR, exist_ok=True)

# 1. Функция для обработки атрибутов
def process_attributes(df):
    """Разворачиваем attributes в отдельные столбцы"""
    attrs_list = []
    for attr_list in df['attributes']:
        attrs = {}
        for d in attr_list:
            name = d.get('attribute_name')
            value = d.get('attribute_value')
            if name in ['Annotation', 'Type', 'Brand', 'ColorBase', 'Material']:
                attrs[name] = value
        attrs_list.append(attrs)
    
    attrs_df = pd.DataFrame(attrs_list)
    attrs_df = attrs_df.rename(columns={'Annotation': 'annotation'})
    return pd.concat([df[['item_id', 'itemname', 'fclip_embed', 'catalogid']], attrs_df], axis=1)

# 2. Предварительная обработка и распределение по catalogid
def preprocess_and_distribute():
    """Обрабатываем файлы и распределяем данные по catalogid"""
    for file_path in tqdm(INPUT_FILES, desc="Обработка файлов"):
        print(f"Обрабатываем файл: {file_path}")
        
        # Читаем файл по частям
        parquet_file = pq.ParquetFile(file_path)
        
        for i in range(parquet_file.num_row_groups):
            # Читаем одну группу строк
            table = parquet_file.read_row_group(i)
            df = table.to_pandas()
            
            # Обрабатываем атрибуты
            df_processed = process_attributes(df)
            
            # Сохраняем по catalogid
            for catalog_id in KNOWN_CATALOG_IDS:
                catalog_data = df_processed[df_processed['catalogid'] == catalog_id]
                if not catalog_data.empty:
                    output_path = f"{TEMP_DIR}/{catalog_id}.parquet"
                    
                    # Если файл уже существует, добавляем к нему
                    if os.path.exists(output_path):
                        existing_data = pd.read_parquet(output_path)
                        combined = pd.concat([existing_data, catalog_data], ignore_index=True)
                        combined.to_parquet(output_path, index=False)
                    else:
                        catalog_data.to_parquet(output_path, index=False)


In [None]:
# 1. Обработка небольших catalogid с проверкой размерности
def process_small_catalog(catalog_id, df):
    """Обрабатываем небольшие catalogid целиком с проверкой размерности"""
    print(f"Обрабатываем небольшой catalogid: {catalog_id} (размер: {len(df)})")
    
    # Инициализируем преобразователи
    text_vectorizer = TfidfVectorizer(max_features=5000)
    scaler = StandardScaler()
    
    # Подготавливаем категориальные признаки (без Size)
    cat_columns = ['Type', 'Brand', 'ColorBase', 'Material']  # Убрали 'Size'
    ohe = OneHotEncoder(handle_unknown='ignore', sparse_output=False)
    ohe.fit(df[cat_columns].fillna('UNK'))
    
    # Текстовые признаки
    name_vec = text_vectorizer.fit_transform(df['itemname'].fillna(''))
    desc_vec = text_vectorizer.fit_transform(df['annotation'].fillna(''))
    
    # Уменьшение размерности текстов с проверкой
    # Для name_vec
    n_components_name = min(TEXT_DIM_REDUCTION, name_vec.shape[1], name_vec.shape[0]-1)
    if n_components_name > 0:
        svd_name = TruncatedSVD(n_components=n_components_name)
        name_reduced = svd_name.fit_transform(name_vec)
    else:
        name_reduced = np.zeros((name_vec.shape[0], 1))
        print(f"Предупреждение: name_vec имеет недостаточно признаков для SVD")
    
    # Для desc_vec
    n_components_desc = min(TEXT_DIM_REDUCTION, desc_vec.shape[1], desc_vec.shape[0]-1)
    if n_components_desc > 0:
        svd_desc = TruncatedSVD(n_components=n_components_desc)
        desc_reduced = svd_desc.fit_transform(desc_vec)
    else:
        desc_reduced = np.zeros((desc_vec.shape[0], 1))
        print(f"Предупреждение: desc_vec имеет недостаточно признаков для SVD")
    
    # Кодирование категориальных признаков
    cat_encoded = ohe.transform(df[cat_columns].fillna('UNK'))
    
    # Обработка эмбеддингов с проверкой размерности
    all_embeddings = np.vstack(df['fclip_embed'].values)
    
    # Для PCA нужно: n_components <= min(n_samples, n_features)
    n_components_embed = min(
        EMBED_DIM_REDUCTION, 
        all_embeddings.shape[0]-1,  # n_samples-1
        all_embeddings.shape[1]     # n_features
    )
    
    if n_components_embed > 0:
        pca = PCA(n_components=n_components_embed)
        embed_reduced = pca.fit_transform(all_embeddings)
    else:
        embed_reduced = np.zeros((all_embeddings.shape[0], 1))
        print(f"Предупреждение: эмбеддинги имеют недостаточно признаков для PCA")
    
    # Объединение всех признаков
    final_vectors = np.hstack([
        cat_encoded,
        name_reduced * 0.5,  # Веса для текстовых features
        desc_reduced * 0.3,
        embed_reduced
    ])
    
    # Нормализация
    final_vectors_normalized = scaler.fit_transform(final_vectors)
    
    # Сохранение результатов
    result_df = pd.DataFrame({
        'item_id': df['item_id'].values,
        'vector': list(final_vectors_normalized)
    })
    result_df.to_parquet(f"{OUTPUT_DIR}/{catalog_id}_vectors.parquet", index=False)
    
    # Сохраняем scaler для последующего использования
    np.save(f"{OUTPUT_DIR}/{catalog_id}_scaler_mean.npy", scaler.mean_)
    np.save(f"{OUTPUT_DIR}/{catalog_id}_scaler_scale.npy", scaler.scale_)

# 2. Обработка больших catalogid с проверкой размерности
def process_large_catalog(catalog_id, df):
    """Обрабатываем большие catalogid батчами с проверкой размерности"""
    print(f"Обрабатываем большой catalogid: {catalog_id} (размер: {len(df)})")
    
    # Сначала соберем всю статистику для обучения преобразователей
    print("Сбор статистики для обучения преобразователей...")
    
    # Для текстовых признаков - соберем все тексты для обучения TF-IDF
    all_texts = pd.concat([
        df['itemname'].fillna(''),
        df['annotation'].fillna('')
    ])
    
    # Для категориальных признаков (без Size)
    cat_columns = ['Type', 'Brand', 'ColorBase', 'Material']  # Убрали 'Size'
    ohe = OneHotEncoder(handle_unknown='ignore', sparse_output=False)
    ohe.fit(df[cat_columns].fillna('UNK'))
    
    # Для эмбеддингов - соберем все эмбеддинги для обучения PCA
    all_embeddings = np.vstack(df['fclip_embed'].values)
    
    # Обучаем преобразователи на всех данных
    print("Обучение преобразователей...")
    text_vectorizer = TfidfVectorizer(max_features=5000)
    text_vectorizer.fit(all_texts)
    
    # Проверяем размерность для SVD
    sample_size = min(10000, len(df))
    sample_texts = all_texts.sample(sample_size, random_state=42)
    sample_text_vectors = text_vectorizer.transform(sample_texts)
    
    n_components_svd = min(
        TEXT_DIM_REDUCTION, 
        sample_text_vectors.shape[1], 
        sample_text_vectors.shape[0]-1
    )
    if n_components_svd > 0:
        svd = TruncatedSVD(n_components=n_components_svd)
        svd.fit(sample_text_vectors)
    else:
        svd = None
        print(f"Предупреждение: недостаточно признаков для SVD (n_features={sample_text_vectors.shape[1]})")
    
    # Проверяем размерность для PCA
    n_components_pca = min(
        EMBED_DIM_REDUCTION, 
        all_embeddings.shape[0]-1,  # n_samples-1
        all_embeddings.shape[1]     # n_features
    )
    if n_components_pca > 0:
        pca = PCA(n_components=n_components_pca)
        pca.fit(all_embeddings)
    else:
        pca = None
        print(f"Предупреждение: недостаточно признаков для PCA (n_features={all_embeddings.shape[1]})")
    
    # Определяем размерность финальных векторов
    print("Определение размерности финальных векторов...")
    test_sample = df.iloc[:1].copy()
    
    # Обрабатываем тестовый sample для определения размерности
    name_vec_test = text_vectorizer.transform(test_sample['itemname'].fillna(''))
    desc_vec_test = text_vectorizer.transform(test_sample['annotation'].fillna(''))
    
    # Применяем SVD если доступен
    if svd is not None:
        name_reduced_test = svd.transform(name_vec_test)
        desc_reduced_test = svd.transform(desc_vec_test)
    else:
        name_reduced_test = np.zeros((name_vec_test.shape[0], 1))
        desc_reduced_test = np.zeros((desc_vec_test.shape[0], 1))
    
    cat_encoded_test = ohe.transform(test_sample[cat_columns].fillna('UNK'))
    
    # Применяем PCA если доступен
    if pca is not None:
        embed_reduced_test = pca.transform(np.vstack(test_sample['fclip_embed'].values))
    else:
        embed_reduced_test = np.zeros((len(test_sample), 1))
    
    final_vector_test = np.hstack([
        cat_encoded_test,
        name_reduced_test * 0.5,  # Веса для текстовых features
        desc_reduced_test * 0.3,
        embed_reduced_test
    ])
    
    n_features = final_vector_test.shape[1]
    n_samples = len(df)
    
    print(f"Размерность финальных векторов: {n_features}")
    
    # ПЕРВЫЙ ПРОХОД: вычисляем среднее и std для нормализации
    print("Первый проход: вычисление статистики для нормализации...")
    sum_vectors = np.zeros(n_features, dtype='float64')
    sum_sq_vectors = np.zeros(n_features, dtype='float64')
    count = 0
    
    for i in tqdm(range(0, len(df), BATCH_SIZE), desc="Сбор статистики"):
        batch = df.iloc[i:i+BATCH_SIZE].copy()
        
        # Текстовые признаки
        name_vec = text_vectorizer.transform(batch['itemname'].fillna(''))
        desc_vec = text_vectorizer.transform(batch['annotation'].fillna(''))
        
        # Уменьшение размерности текстов
        if svd is not None:
            name_reduced = svd.transform(name_vec)
            desc_reduced = svd.transform(desc_vec)
        else:
            name_reduced = np.zeros((name_vec.shape[0], 1))
            desc_reduced = np.zeros((desc_vec.shape[0], 1))
        
        # Кодирование категориальных признаков
        cat_encoded = ohe.transform(batch[cat_columns].fillna('UNK'))
        
        # Обработка эмбеддингов
        if pca is not None:
            embed_reduced = pca.transform(np.vstack(batch['fclip_embed'].values))
        else:
            embed_reduced = np.zeros((len(batch), 1))
        
        # Объединение всех признаков
        final_vectors = np.hstack([
            cat_encoded,
            name_reduced * 0.5,  # Веса для текстовых features
            desc_reduced * 0.3,
            embed_reduced
        ]).astype('float32')
        
        # Аккумулируем статистику
        batch_sum = np.sum(final_vectors, axis=0)
        batch_sum_sq = np.sum(final_vectors ** 2, axis=0)
        
        # Обновляем общую статистику
        sum_vectors += batch_sum
        sum_sq_vectors += batch_sum_sq
        count += len(final_vectors)
    
    # Вычисляем среднее и стандартное отклонение
    mean = sum_vectors / count
    std = np.sqrt((sum_sq_vectors / count) - (mean ** 2))
    std = np.where(std < 1e-8, 1.0, std)  # Избегаем деления на ноль
    
    # Сохраняем параметры нормализации
    np.save(f"{OUTPUT_DIR}/{catalog_id}_normalization_mean.npy", mean.astype('float32'))
    np.save(f"{OUTPUT_DIR}/{catalog_id}_normalization_std.npy", std.astype('float32'))
    
    # ВТОРОЙ ПРОХОД: нормализация и сохранение
    print("Второй проход: нормализация и сохранение...")
    
    # Создаем memory-mapped файлы для финальных векторов и идентификаторов
    vectors_path = f"{OUTPUT_DIR}/{catalog_id}_vectors.npy"
    item_ids_path = f"{OUTPUT_DIR}/{catalog_id}_item_ids.npy"
    metadata_path = f"{OUTPUT_DIR}/{catalog_id}_metadata.json"
    
    vectors_mmap = np.memmap(vectors_path, dtype='float32', mode='w+', 
                            shape=(n_samples, n_features))
    item_ids_mmap = np.memmap(item_ids_path, dtype='int64', mode='w+', 
                             shape=(n_samples,))
    
    # Сохраняем метаданные
    metadata = {
        'n_samples': n_samples,
        'n_features': n_features,
        'catalog_id': catalog_id,
        'dtype': 'float32',
        'normalized': True,
        'mean_path': f"{catalog_id}_normalization_mean.npy",
        'std_path': f"{catalog_id}_normalization_std.npy"
    }
    
    with open(metadata_path, 'w') as f:
        json.dump(metadata, f)
    
    # Обрабатываем данные батчами, нормализуем и сохраняем
    for i in tqdm(range(0, len(df), BATCH_SIZE), desc="Нормализация и сохранение"):
        batch = df.iloc[i:i+BATCH_SIZE].copy()
        end_idx = min(i + BATCH_SIZE, len(df))
        
        # Текстовые признаки
        name_vec = text_vectorizer.transform(batch['itemname'].fillna(''))
        desc_vec = text_vectorizer.transform(batch['annotation'].fillna(''))
        
        # Уменьшение размерности текстов
        if svd is not None:
            name_reduced = svd.transform(name_vec)
            desc_reduced = svd.transform(desc_vec)
        else:
            name_reduced = np.zeros((name_vec.shape[0], 1))
            desc_reduced = np.zeros((desc_vec.shape[0], 1))
        
        # Кодирование категориальных признаков
        cat_encoded = ohe.transform(batch[cat_columns].fillna('UNK'))
        
        # Обработка эмбеддингов
        if pca is not None:
            embed_reduced = pca.transform(np.vstack(batch['fclip_embed'].values))
        else:
            embed_reduced = np.zeros((len(batch), 1))
        
        # Объединение всех признаков
        final_vectors = np.hstack([
            cat_encoded,
            name_reduced * 0.5,  # Веса для текстовых features
            desc_reduced * 0.3,
            embed_reduced
        ]).astype('float32')
        
        # НОРМАЛИЗАЦИЯ: (x - mean) / std
        final_vectors_normalized = (final_vectors - mean) / std
        
        # Записываем в memory-mapped arrays
        vectors_mmap[i:end_idx] = final_vectors_normalized
        item_ids_mmap[i:end_idx] = batch['item_id'].values
        
        # Принудительно записываем изменения на диск
        vectors_mmap.flush()
        item_ids_mmap.flush()
    
    # Закрываем memory-mapped arrays
    del vectors_mmap
    del item_ids_mmap
    
    print(f"Обработка с нормализацией завершена. Векторы сохранены в: {vectors_path}")

# 3. Основной пайплайн обработки
def process_catalog(catalog_id):
    """Обрабатываем данные для конкретного catalogid с проверкой размерности"""
    print(f"Обрабатываем catalogid: {catalog_id}")
    
    input_path = f"{TEMP_DIR}/{catalog_id}.parquet"
    if not os.path.exists(input_path):
        print(f"Нет данных для catalogid: {catalog_id}")
        return
    
    # Читаем данные
    df = pd.read_parquet(input_path)
    
    if len(df) > LARGE_CATALOG_THRESHOLD:
        process_large_catalog(catalog_id, df)
    else:
        process_small_catalog(catalog_id, df)

##### проход

In [32]:
# Этап 1: Предобработка и распределение по catalogid
print("Начинаем предобработку и распределение данных...")
# preprocess_and_distribute()

# Этап 2: Обработка каждого catalogid
print("Начинаем обработку каждого catalogid...")
for catalog_id in tqdm(KNOWN_CATALOG_IDS, desc="Обработка catalogid"):
    process_catalog(catalog_id)

print("Обработка завершена!")

Начинаем предобработку и распределение данных...
Начинаем обработку каждого catalogid...


Обработка catalogid:   0%|          | 0/478 [00:00<?, ?it/s]

Обрабатываем catalogid: 1652
Обрабатываем небольшой catalogid: 1652 (размер: 850)


Обработка catalogid:   0%|          | 1/478 [00:00<02:54,  2.73it/s]

Обрабатываем catalogid: 1657
Обрабатываем небольшой catalogid: 1657 (размер: 10603)


Обработка catalogid:   0%|          | 2/478 [00:02<11:49,  1.49s/it]

Обрабатываем catalogid: 1658
Обрабатываем небольшой catalogid: 1658 (размер: 3086)


Обработка catalogid:   1%|          | 3/478 [00:03<09:38,  1.22s/it]

Обрабатываем catalogid: 1770
Обрабатываем небольшой catalogid: 1770 (размер: 9195)


Обработка catalogid:   1%|          | 4/478 [00:05<11:14,  1.42s/it]

Обрабатываем catalogid: 6302
Обрабатываем небольшой catalogid: 6302 (размер: 1002)


Обработка catalogid:   1%|          | 5/478 [00:05<07:53,  1.00s/it]

Обрабатываем catalogid: 7063
Обрабатываем небольшой catalogid: 7063 (размер: 819)


Обработка catalogid:   2%|▏         | 8/478 [00:05<03:18,  2.37it/s]

Обрабатываем catalogid: 7076
Обрабатываем небольшой catalogid: 7076 (размер: 7)
Обрабатываем catalogid: 7083
Обрабатываем небольшой catalogid: 7083 (размер: 261)
Обрабатываем catalogid: 7203
Обрабатываем небольшой catalogid: 7203 (размер: 1)
Предупреждение: name_vec имеет недостаточно признаков для SVD
Предупреждение: desc_vec имеет недостаточно признаков для SVD
Предупреждение: эмбеддинги имеют недостаточно признаков для PCA
Обрабатываем catalogid: 7502
Обрабатываем большой catalogid: 7502 (размер: 199919)
Сбор статистики для обучения преобразователей...
Обучение преобразователей...
Определение размерности финальных векторов...
Размерность финальных векторов: 5383
Первый проход: вычисление статистики для нормализации...


Сбор статистики: 100%|██████████| 40/40 [00:27<00:00,  1.47it/s]


Второй проход: нормализация и сохранение...


Нормализация и сохранение: 100%|██████████| 40/40 [00:34<00:00,  1.16it/s]
Обработка catalogid:   2%|▏         | 10/478 [01:24<2:08:01, 16.41s/it]

Обработка с нормализацией завершена. Векторы сохранены в: ./result_vectors/7502_vectors.npy
Обрабатываем catalogid: 7503
Обрабатываем большой catalogid: 7503 (размер: 73755)
Сбор статистики для обучения преобразователей...
Обучение преобразователей...
Определение размерности финальных векторов...
Размерность финальных векторов: 2039
Первый проход: вычисление статистики для нормализации...


Сбор статистики: 100%|██████████| 15/15 [00:06<00:00,  2.44it/s]


Второй проход: нормализация и сохранение...


Нормализация и сохранение: 100%|██████████| 15/15 [00:07<00:00,  2.06it/s]
Обработка catalogid:   2%|▏         | 11/478 [01:43<2:13:02, 17.09s/it]

Обработка с нормализацией завершена. Векторы сохранены в: ./result_vectors/7503_vectors.npy
Обрабатываем catalogid: 7504
Обрабатываем большой catalogid: 7504 (размер: 62463)
Сбор статистики для обучения преобразователей...
Обучение преобразователей...
Определение размерности финальных векторов...
Размерность финальных векторов: 3259
Первый проход: вычисление статистики для нормализации...


Сбор статистики: 100%|██████████| 13/13 [00:05<00:00,  2.19it/s]


Второй проход: нормализация и сохранение...


Нормализация и сохранение: 100%|██████████| 13/13 [00:07<00:00,  1.71it/s]
Обработка catalogid:   3%|▎         | 12/478 [02:02<2:16:01, 17.51s/it]

Обработка с нормализацией завершена. Векторы сохранены в: ./result_vectors/7504_vectors.npy
Обрабатываем catalogid: 7506
Обрабатываем большой catalogid: 7506 (размер: 72422)
Сбор статистики для обучения преобразователей...
Обучение преобразователей...
Определение размерности финальных векторов...
Размерность финальных векторов: 3134
Первый проход: вычисление статистики для нормализации...


Сбор статистики: 100%|██████████| 15/15 [00:06<00:00,  2.31it/s]


Второй проход: нормализация и сохранение...


Нормализация и сохранение: 100%|██████████| 15/15 [00:08<00:00,  1.76it/s]
Обработка catalogid:   3%|▎         | 13/478 [02:23<2:22:20, 18.37s/it]

Обработка с нормализацией завершена. Векторы сохранены в: ./result_vectors/7506_vectors.npy
Обрабатываем catalogid: 7507
Обрабатываем небольшой catalogid: 7507 (размер: 12131)


Обработка catalogid:   3%|▎         | 14/478 [02:25<1:48:56, 14.09s/it]

Обрабатываем catalogid: 7508
Обрабатываем большой catalogid: 7508 (размер: 267444)
Сбор статистики для обучения преобразователей...
Обучение преобразователей...
Определение размерности финальных векторов...
Размерность финальных векторов: 4660
Первый проход: вычисление статистики для нормализации...


Сбор статистики: 100%|██████████| 54/54 [00:29<00:00,  1.84it/s]


Второй проход: нормализация и сохранение...


Нормализация и сохранение: 100%|██████████| 54/54 [00:44<00:00,  1.22it/s]
Обработка catalogid:   3%|▎         | 15/478 [04:02<4:46:46, 37.16s/it]

Обработка с нормализацией завершена. Векторы сохранены в: ./result_vectors/7508_vectors.npy
Обрабатываем catalogid: 7511
Обрабатываем большой catalogid: 7511 (размер: 108535)
Сбор статистики для обучения преобразователей...
Обучение преобразователей...
Определение размерности финальных векторов...
Размерность финальных векторов: 3370
Первый проход: вычисление статистики для нормализации...


Сбор статистики: 100%|██████████| 22/22 [00:09<00:00,  2.40it/s]


Второй проход: нормализация и сохранение...


Нормализация и сохранение: 100%|██████████| 22/22 [00:11<00:00,  1.84it/s]
Обработка catalogid:   3%|▎         | 16/478 [04:31<4:27:17, 34.71s/it]

Обработка с нормализацией завершена. Векторы сохранены в: ./result_vectors/7511_vectors.npy
Обрабатываем catalogid: 7512
Обрабатываем большой catalogid: 7512 (размер: 120846)
Сбор статистики для обучения преобразователей...
Обучение преобразователей...
Определение размерности финальных векторов...
Размерность финальных векторов: 4882
Первый проход: вычисление статистики для нормализации...


Сбор статистики: 100%|██████████| 25/25 [00:12<00:00,  1.97it/s]


Второй проход: нормализация и сохранение...


Нормализация и сохранение: 100%|██████████| 25/25 [00:17<00:00,  1.44it/s]
Обработка catalogid:   4%|▎         | 17/478 [05:10<4:37:23, 36.10s/it]

Обработка с нормализацией завершена. Векторы сохранены в: ./result_vectors/7512_vectors.npy
Обрабатываем catalogid: 7513
Обрабатываем небольшой catalogid: 7513 (размер: 13272)


Обработка catalogid:   4%|▍         | 18/478 [05:13<3:21:21, 26.26s/it]

Обрабатываем catalogid: 7514
Обрабатываем небольшой catalogid: 7514 (размер: 22737)


Обработка catalogid:   4%|▍         | 19/478 [05:21<2:40:30, 20.98s/it]

Обрабатываем catalogid: 7516
Обрабатываем небольшой catalogid: 7516 (размер: 39233)


Обработка catalogid:   4%|▍         | 20/478 [05:31<2:14:46, 17.66s/it]

Обрабатываем catalogid: 7517
Обрабатываем небольшой catalogid: 7517 (размер: 10941)


Обработка catalogid:   4%|▍         | 21/478 [05:33<1:39:36, 13.08s/it]

Обрабатываем catalogid: 7518
Обрабатываем небольшой catalogid: 7518 (размер: 4094)


Обработка catalogid:   5%|▍         | 22/478 [05:34<1:12:11,  9.50s/it]

Обрабатываем catalogid: 7519
Обрабатываем небольшой catalogid: 7519 (размер: 6662)


Обработка catalogid:   5%|▍         | 23/478 [05:36<53:44,  7.09s/it]  

Обрабатываем catalogid: 7520
Обрабатываем небольшой catalogid: 7520 (размер: 11204)


Обработка catalogid:   5%|▌         | 24/478 [05:38<42:43,  5.65s/it]

Обрабатываем catalogid: 7521
Обрабатываем небольшой catalogid: 7521 (размер: 1405)


Обработка catalogid:   5%|▌         | 25/478 [05:38<30:53,  4.09s/it]

Обрабатываем catalogid: 7527
Обрабатываем небольшой catalogid: 7527 (размер: 2)
Обрабатываем catalogid: 7529
Обрабатываем небольшой catalogid: 7529 (размер: 9637)


Обработка catalogid:   6%|▌         | 27/478 [05:40<19:55,  2.65s/it]

Обрабатываем catalogid: 7530
Обрабатываем большой catalogid: 7530 (размер: 106773)
Сбор статистики для обучения преобразователей...
Обучение преобразователей...
Определение размерности финальных векторов...
Размерность финальных векторов: 3617
Первый проход: вычисление статистики для нормализации...


Сбор статистики: 100%|██████████| 22/22 [00:10<00:00,  2.11it/s]


Второй проход: нормализация и сохранение...


Нормализация и сохранение: 100%|██████████| 22/22 [00:12<00:00,  1.72it/s]
Обработка catalogid:   6%|▌         | 28/478 [06:12<1:14:44,  9.96s/it]

Обработка с нормализацией завершена. Векторы сохранены в: ./result_vectors/7530_vectors.npy
Обрабатываем catalogid: 7531
Обрабатываем небольшой catalogid: 7531 (размер: 17304)


Обработка catalogid:   6%|▌         | 29/478 [06:17<1:04:15,  8.59s/it]

Обрабатываем catalogid: 7532
Обрабатываем небольшой catalogid: 7532 (размер: 8139)


Обработка catalogid:   6%|▋         | 30/478 [06:19<50:05,  6.71s/it]  

Обрабатываем catalogid: 7534
Обрабатываем небольшой catalogid: 7534 (размер: 8720)


Обработка catalogid:   6%|▋         | 31/478 [06:20<39:43,  5.33s/it]

Обрабатываем catalogid: 7535
Обрабатываем небольшой catalogid: 7535 (размер: 38954)


Обработка catalogid:   7%|▋         | 32/478 [06:30<47:57,  6.45s/it]

Обрабатываем catalogid: 7536
Обрабатываем большой catalogid: 7536 (размер: 66111)
Сбор статистики для обучения преобразователей...
Обучение преобразователей...
Определение размерности финальных векторов...
Размерность финальных векторов: 3069
Первый проход: вычисление статистики для нормализации...


Сбор статистики: 100%|██████████| 14/14 [00:06<00:00,  2.26it/s]


Второй проход: нормализация и сохранение...


Нормализация и сохранение: 100%|██████████| 14/14 [00:07<00:00,  1.78it/s]
Обработка catalogid:   7%|▋         | 33/478 [06:50<1:16:34, 10.32s/it]

Обработка с нормализацией завершена. Векторы сохранены в: ./result_vectors/7536_vectors.npy
Обрабатываем catalogid: 7537
Обрабатываем большой catalogid: 7537 (размер: 73868)
Сбор статистики для обучения преобразователей...
Обучение преобразователей...
Определение размерности финальных векторов...
Размерность финальных векторов: 3224
Первый проход: вычисление статистики для нормализации...


Сбор статистики: 100%|██████████| 15/15 [00:06<00:00,  2.34it/s]


Второй проход: нормализация и сохранение...


Нормализация и сохранение: 100%|██████████| 15/15 [00:07<00:00,  1.90it/s]
Обработка catalogid:   7%|▋         | 34/478 [07:10<1:37:16, 13.15s/it]

Обработка с нормализацией завершена. Векторы сохранены в: ./result_vectors/7537_vectors.npy
Обрабатываем catalogid: 7540
Обрабатываем большой catalogid: 7540 (размер: 66790)
Сбор статистики для обучения преобразователей...
Обучение преобразователей...
Определение размерности финальных векторов...
Размерность финальных векторов: 2044
Первый проход: вычисление статистики для нормализации...


Сбор статистики: 100%|██████████| 14/14 [00:05<00:00,  2.71it/s]


Второй проход: нормализация и сохранение...


Нормализация и сохранение: 100%|██████████| 14/14 [00:06<00:00,  2.29it/s]
Обработка catalogid:   7%|▋         | 35/478 [07:26<1:43:59, 14.08s/it]

Обработка с нормализацией завершена. Векторы сохранены в: ./result_vectors/7540_vectors.npy
Обрабатываем catalogid: 7544
Обрабатываем небольшой catalogid: 7544 (размер: 5078)


Обработка catalogid:   8%|▊         | 36/478 [07:27<1:15:19, 10.23s/it]

Обрабатываем catalogid: 7545
Обрабатываем большой catalogid: 7545 (размер: 60588)
Сбор статистики для обучения преобразователей...
Обучение преобразователей...
Определение размерности финальных векторов...
Размерность финальных векторов: 2610
Первый проход: вычисление статистики для нормализации...


Сбор статистики: 100%|██████████| 13/13 [00:04<00:00,  2.64it/s]


Второй проход: нормализация и сохранение...


Нормализация и сохранение: 100%|██████████| 13/13 [00:06<00:00,  2.01it/s]
Обработка catalogid:   8%|▊         | 37/478 [07:43<1:28:41, 12.07s/it]

Обработка с нормализацией завершена. Векторы сохранены в: ./result_vectors/7545_vectors.npy
Обрабатываем catalogid: 7546
Обрабатываем небольшой catalogid: 7546 (размер: 2679)


Обработка catalogid:   8%|▊         | 39/478 [07:44<44:51,  6.13s/it]  

Обрабатываем catalogid: 7549
Обрабатываем небольшой catalogid: 7549 (размер: 626)
Обрабатываем catalogid: 7550
Обрабатываем небольшой catalogid: 7550 (размер: 9940)


Обработка catalogid:   8%|▊         | 40/478 [07:46<35:34,  4.87s/it]

Обрабатываем catalogid: 7552
Обрабатываем большой catalogid: 7552 (размер: 51928)
Сбор статистики для обучения преобразователей...
Обучение преобразователей...
Определение размерности финальных векторов...
Размерность финальных векторов: 2273
Первый проход: вычисление статистики для нормализации...


Сбор статистики: 100%|██████████| 11/11 [00:04<00:00,  2.45it/s]


Второй проход: нормализация и сохранение...


Нормализация и сохранение: 100%|██████████| 11/11 [00:05<00:00,  2.01it/s]
Обработка catalogid:   9%|▊         | 41/478 [08:01<56:22,  7.74s/it]

Обработка с нормализацией завершена. Векторы сохранены в: ./result_vectors/7552_vectors.npy
Обрабатываем catalogid: 7553
Обрабатываем большой catalogid: 7553 (размер: 50728)
Сбор статистики для обучения преобразователей...
Обучение преобразователей...
Определение размерности финальных векторов...
Размерность финальных векторов: 1920
Первый проход: вычисление статистики для нормализации...


Сбор статистики: 100%|██████████| 11/11 [00:03<00:00,  2.93it/s]


Второй проход: нормализация и сохранение...


Нормализация и сохранение: 100%|██████████| 11/11 [00:04<00:00,  2.37it/s]
Обработка catalogid:   9%|▉         | 42/478 [08:14<1:08:19,  9.40s/it]

Обработка с нормализацией завершена. Векторы сохранены в: ./result_vectors/7553_vectors.npy
Обрабатываем catalogid: 7554
Обрабатываем небольшой catalogid: 7554 (размер: 24213)


Обработка catalogid:   9%|▉         | 43/478 [08:19<57:52,  7.98s/it]  

Обрабатываем catalogid: 7555
Обрабатываем небольшой catalogid: 7555 (размер: 44700)


Обработка catalogid:   9%|▉         | 44/478 [08:29<1:02:38,  8.66s/it]

Обрабатываем catalogid: 7556
Обрабатываем небольшой catalogid: 7556 (размер: 37503)


Обработка catalogid:   9%|▉         | 45/478 [08:36<58:41,  8.13s/it]  

Обрабатываем catalogid: 7557
Обрабатываем небольшой catalogid: 7557 (размер: 22128)


Обработка catalogid:  10%|▉         | 46/478 [08:40<50:46,  7.05s/it]

Обрабатываем catalogid: 7559
Обрабатываем большой catalogid: 7559 (размер: 413637)
Сбор статистики для обучения преобразователей...
Обучение преобразователей...
Определение размерности финальных векторов...
Размерность финальных векторов: 4750
Первый проход: вычисление статистики для нормализации...


Сбор статистики: 100%|██████████| 83/83 [00:41<00:00,  2.02it/s]


Второй проход: нормализация и сохранение...


Нормализация и сохранение: 100%|██████████| 83/83 [01:02<00:00,  1.32it/s]
Обработка catalogid:  10%|▉         | 47/478 [10:54<5:24:48, 45.22s/it]

Обработка с нормализацией завершена. Векторы сохранены в: ./result_vectors/7559_vectors.npy
Обрабатываем catalogid: 7562
Обрабатываем небольшой catalogid: 7562 (размер: 10063)


Обработка catalogid:  10%|█         | 48/478 [10:57<3:51:25, 32.29s/it]

Обрабатываем catalogid: 7564
Обрабатываем небольшой catalogid: 7564 (размер: 30430)


Обработка catalogid:  10%|█         | 49/478 [11:02<2:53:55, 24.33s/it]

Обрабатываем catalogid: 7565
Обрабатываем небольшой catalogid: 7565 (размер: 20756)


Обработка catalogid:  10%|█         | 50/478 [11:06<2:09:43, 18.19s/it]

Обрабатываем catalogid: 7566
Обрабатываем небольшой catalogid: 7566 (размер: 5725)


Обработка catalogid:  11%|█         | 51/478 [11:07<1:33:11, 13.09s/it]

Обрабатываем catalogid: 7567
Обрабатываем небольшой catalogid: 7567 (размер: 8090)


Обработка catalogid:  11%|█         | 52/478 [11:09<1:08:28,  9.64s/it]

Обрабатываем catalogid: 7568
Обрабатываем небольшой catalogid: 7568 (размер: 32578)


Обработка catalogid:  11%|█         | 53/478 [11:15<1:00:50,  8.59s/it]

Обрабатываем catalogid: 7569
Обрабатываем небольшой catalogid: 7569 (размер: 2069)


Обработка catalogid:  11%|█▏        | 54/478 [11:16<44:05,  6.24s/it]  

Обрабатываем catalogid: 7570
Обрабатываем небольшой catalogid: 7570 (размер: 7976)


Обработка catalogid:  12%|█▏        | 55/478 [11:19<36:22,  5.16s/it]

Обрабатываем catalogid: 7582
Обрабатываем небольшой catalogid: 7582 (размер: 13991)


Обработка catalogid:  12%|█▏        | 56/478 [11:22<31:49,  4.53s/it]

Обрабатываем catalogid: 7583
Обрабатываем небольшой catalogid: 7583 (размер: 9380)


Обработка catalogid:  12%|█▏        | 57/478 [11:23<25:57,  3.70s/it]

Обрабатываем catalogid: 7585
Обрабатываем небольшой catalogid: 7585 (размер: 31744)


Обработка catalogid:  12%|█▏        | 58/478 [11:30<32:19,  4.62s/it]

Обрабатываем catalogid: 7593
Обрабатываем небольшой catalogid: 7593 (размер: 31609)


Обработка catalogid:  12%|█▏        | 59/478 [11:36<35:09,  5.04s/it]

Обрабатываем catalogid: 7594
Обрабатываем небольшой catalogid: 7594 (размер: 377)


Обработка catalogid:  13%|█▎        | 60/478 [11:37<25:37,  3.68s/it]

Обрабатываем catalogid: 7595
Обрабатываем небольшой catalogid: 7595 (размер: 9720)


Обработка catalogid:  13%|█▎        | 61/478 [11:38<21:24,  3.08s/it]

Обрабатываем catalogid: 7596
Обрабатываем небольшой catalogid: 7596 (размер: 7855)


Обработка catalogid:  13%|█▎        | 62/478 [11:40<17:56,  2.59s/it]

Обрабатываем catalogid: 7597
Обрабатываем небольшой catalogid: 7597 (размер: 18886)


Обработка catalogid:  13%|█▎        | 63/478 [11:43<19:57,  2.88s/it]

Обрабатываем catalogid: 7598
Обрабатываем небольшой catalogid: 7598 (размер: 3079)


Обработка catalogid:  13%|█▎        | 64/478 [11:44<15:18,  2.22s/it]

Обрабатываем catalogid: 7599
Обрабатываем небольшой catalogid: 7599 (размер: 41941)


Обработка catalogid:  14%|█▎        | 65/478 [11:53<28:49,  4.19s/it]

Обрабатываем catalogid: 7601
Обрабатываем небольшой catalogid: 7601 (размер: 13440)


Обработка catalogid:  14%|█▍        | 66/478 [11:55<24:55,  3.63s/it]

Обрабатываем catalogid: 7603
Обрабатываем небольшой catalogid: 7603 (размер: 13392)


Обработка catalogid:  14%|█▍        | 67/478 [11:57<22:01,  3.22s/it]

Обрабатываем catalogid: 7604
Обрабатываем небольшой catalogid: 7604 (размер: 7671)


Обработка catalogid:  14%|█▍        | 68/478 [11:59<18:55,  2.77s/it]

Обрабатываем catalogid: 7606
Обрабатываем небольшой catalogid: 7606 (размер: 9668)


Обработка catalogid:  14%|█▍        | 69/478 [12:01<18:05,  2.65s/it]

Обрабатываем catalogid: 7608
Обрабатываем небольшой catalogid: 7608 (размер: 28219)


Обработка catalogid:  15%|█▍        | 70/478 [12:07<24:39,  3.63s/it]

Обрабатываем catalogid: 7616
Обрабатываем небольшой catalogid: 7616 (размер: 25780)


Обработка catalogid:  15%|█▍        | 71/478 [12:12<26:52,  3.96s/it]

Обрабатываем catalogid: 7618
Обрабатываем небольшой catalogid: 7618 (размер: 2092)


Обработка catalogid:  15%|█▌        | 72/478 [12:13<19:51,  2.93s/it]

Обрабатываем catalogid: 7619
Обрабатываем небольшой catalogid: 7619 (размер: 8913)


Обработка catalogid:  15%|█▌        | 73/478 [12:15<17:37,  2.61s/it]

Обрабатываем catalogid: 7621
Обрабатываем небольшой catalogid: 7621 (размер: 5105)


Обработка catalogid:  15%|█▌        | 74/478 [12:16<14:18,  2.13s/it]

Обрабатываем catalogid: 7622
Обрабатываем небольшой catalogid: 7622 (размер: 9201)


Обработка catalogid:  16%|█▌        | 75/478 [12:17<13:25,  2.00s/it]

Обрабатываем catalogid: 7624
Обрабатываем небольшой catalogid: 7624 (размер: 12930)


Обработка catalogid:  16%|█▌        | 76/478 [12:19<13:56,  2.08s/it]

Обрабатываем catalogid: 7628
Обрабатываем небольшой catalogid: 7628 (размер: 8661)


Обработка catalogid:  16%|█▌        | 77/478 [12:21<13:04,  1.96s/it]

Обрабатываем catalogid: 7630
Обрабатываем небольшой catalogid: 7630 (размер: 2208)


Обработка catalogid:  16%|█▋        | 78/478 [12:22<10:19,  1.55s/it]

Обрабатываем catalogid: 7631
Обрабатываем небольшой catalogid: 7631 (размер: 2042)


Обработка catalogid:  17%|█▋        | 79/478 [12:22<08:21,  1.26s/it]

Обрабатываем catalogid: 7632
Обрабатываем небольшой catalogid: 7632 (размер: 7076)


Обработка catalogid:  17%|█▋        | 80/478 [12:24<08:56,  1.35s/it]

Обрабатываем catalogid: 7633
Обрабатываем небольшой catalogid: 7633 (размер: 15629)


Обработка catalogid:  17%|█▋        | 81/478 [12:27<11:58,  1.81s/it]

Обрабатываем catalogid: 7634
Обрабатываем небольшой catalogid: 7634 (размер: 5810)


Обработка catalogid:  17%|█▋        | 82/478 [12:28<10:51,  1.65s/it]

Обрабатываем catalogid: 7635
Обрабатываем небольшой catalogid: 7635 (размер: 5684)


Обработка catalogid:  17%|█▋        | 83/478 [12:29<10:10,  1.55s/it]

Обрабатываем catalogid: 7636
Обрабатываем небольшой catalogid: 7636 (размер: 6763)


Обработка catalogid:  18%|█▊        | 84/478 [12:31<09:41,  1.48s/it]

Обрабатываем catalogid: 7638
Обрабатываем небольшой catalogid: 7638 (размер: 1305)


Обработка catalogid:  18%|█▊        | 85/478 [12:31<07:37,  1.16s/it]

Обрабатываем catalogid: 7644
Обрабатываем большой catalogid: 7644 (размер: 101622)
Сбор статистики для обучения преобразователей...
Обучение преобразователей...
Определение размерности финальных векторов...
Размерность финальных векторов: 1963
Первый проход: вычисление статистики для нормализации...


Сбор статистики: 100%|██████████| 21/21 [00:07<00:00,  2.73it/s]


Второй проход: нормализация и сохранение...


Нормализация и сохранение: 100%|██████████| 21/21 [00:09<00:00,  2.33it/s]
Обработка catalogid:  18%|█▊        | 86/478 [12:55<52:12,  7.99s/it]

Обработка с нормализацией завершена. Векторы сохранены в: ./result_vectors/7644_vectors.npy
Обрабатываем catalogid: 7645
Обрабатываем большой catalogid: 7645 (размер: 92535)
Сбор статистики для обучения преобразователей...
Обучение преобразователей...
Определение размерности финальных векторов...
Размерность финальных векторов: 2078
Первый проход: вычисление статистики для нормализации...


Сбор статистики: 100%|██████████| 19/19 [00:06<00:00,  2.97it/s]


Второй проход: нормализация и сохранение...


Нормализация и сохранение: 100%|██████████| 19/19 [00:07<00:00,  2.42it/s]
Обработка catalogid:  18%|█▊        | 87/478 [13:15<1:15:36, 11.60s/it]

Обработка с нормализацией завершена. Векторы сохранены в: ./result_vectors/7645_vectors.npy
Обрабатываем catalogid: 7646
Обрабатываем небольшой catalogid: 7646 (размер: 29525)


Обработка catalogid:  18%|█▊        | 88/478 [13:20<1:03:10,  9.72s/it]

Обрабатываем catalogid: 7648
Обрабатываем небольшой catalogid: 7648 (размер: 10394)


Обработка catalogid:  19%|█▊        | 89/478 [13:22<47:14,  7.29s/it]  

Обрабатываем catalogid: 7649
Обрабатываем небольшой catalogid: 7649 (размер: 2328)


Обработка catalogid:  19%|█▉        | 90/478 [13:22<33:55,  5.25s/it]

Обрабатываем catalogid: 7651
Обрабатываем большой catalogid: 7651 (размер: 76747)
Сбор статистики для обучения преобразователей...
Обучение преобразователей...
Определение размерности финальных векторов...
Размерность финальных векторов: 1969
Первый проход: вычисление статистики для нормализации...


Сбор статистики: 100%|██████████| 16/16 [00:05<00:00,  2.86it/s]


Второй проход: нормализация и сохранение...


Нормализация и сохранение: 100%|██████████| 16/16 [00:06<00:00,  2.42it/s]
Обработка catalogid:  19%|█▉        | 91/478 [13:40<57:52,  8.97s/it]

Обработка с нормализацией завершена. Векторы сохранены в: ./result_vectors/7651_vectors.npy
Обрабатываем catalogid: 7652
Обрабатываем небольшой catalogid: 7652 (размер: 29083)


Обработка catalogid:  19%|█▉        | 92/478 [13:45<49:50,  7.75s/it]

Обрабатываем catalogid: 7653
Обрабатываем небольшой catalogid: 7653 (размер: 20493)


Обработка catalogid:  19%|█▉        | 93/478 [13:49<41:34,  6.48s/it]

Обрабатываем catalogid: 7655
Обрабатываем небольшой catalogid: 7655 (размер: 32276)


Обработка catalogid:  20%|█▉        | 94/478 [13:55<41:08,  6.43s/it]

Обрабатываем catalogid: 7657
Обрабатываем небольшой catalogid: 7657 (размер: 36126)


Обработка catalogid:  20%|█▉        | 95/478 [14:01<40:26,  6.34s/it]

Обрабатываем catalogid: 7660
Обрабатываем большой catalogid: 7660 (размер: 219858)
Сбор статистики для обучения преобразователей...
Обучение преобразователей...
Определение размерности финальных векторов...
Размерность финальных векторов: 2781
Первый проход: вычисление статистики для нормализации...


Сбор статистики: 100%|██████████| 44/44 [00:16<00:00,  2.61it/s]


Второй проход: нормализация и сохранение...


Нормализация и сохранение: 100%|██████████| 44/44 [00:21<00:00,  2.02it/s]
Обработка catalogid:  20%|██        | 96/478 [14:54<2:08:45, 20.22s/it]

Обработка с нормализацией завершена. Векторы сохранены в: ./result_vectors/7660_vectors.npy
Обрабатываем catalogid: 7661
Обрабатываем небольшой catalogid: 7661 (размер: 936)


Обработка catalogid:  20%|██        | 97/478 [14:54<1:30:25, 14.24s/it]

Обрабатываем catalogid: 7662
Обрабатываем небольшой catalogid: 7662 (размер: 12059)


Обработка catalogid:  21%|██        | 98/478 [14:56<1:06:28, 10.50s/it]

Обрабатываем catalogid: 7663
Обрабатываем небольшой catalogid: 7663 (размер: 21721)


Обработка catalogid:  21%|██        | 99/478 [14:59<53:05,  8.41s/it]  

Обрабатываем catalogid: 7664
Обрабатываем небольшой catalogid: 7664 (размер: 10268)


Обработка catalogid:  21%|██        | 100/478 [15:01<40:05,  6.36s/it]

Обрабатываем catalogid: 7665
Обрабатываем небольшой catalogid: 7665 (размер: 37756)


Обработка catalogid:  21%|██        | 101/478 [15:08<41:18,  6.57s/it]

Обрабатываем catalogid: 7666
Обрабатываем небольшой catalogid: 7666 (размер: 20833)


Обработка catalogid:  21%|██▏       | 102/478 [15:12<36:45,  5.86s/it]

Обрабатываем catalogid: 7667
Обрабатываем небольшой catalogid: 7667 (размер: 2653)


Обработка catalogid:  22%|██▏       | 103/478 [15:13<26:53,  4.30s/it]

Обрабатываем catalogid: 7670
Обрабатываем небольшой catalogid: 7670 (размер: 4364)


Обработка catalogid:  22%|██▏       | 104/478 [15:14<20:33,  3.30s/it]

Обрабатываем catalogid: 7671
Обрабатываем небольшой catalogid: 7671 (размер: 17314)


Обработка catalogid:  22%|██▏       | 105/478 [15:17<20:28,  3.29s/it]

Обрабатываем catalogid: 7674
Обрабатываем небольшой catalogid: 7674 (размер: 25680)


Обработка catalogid:  22%|██▏       | 106/478 [15:21<21:39,  3.49s/it]

Обрабатываем catalogid: 7675
Обрабатываем небольшой catalogid: 7675 (размер: 11609)


Обработка catalogid:  22%|██▏       | 107/478 [15:23<18:52,  3.05s/it]

Обрабатываем catalogid: 7676
Обрабатываем небольшой catalogid: 7676 (размер: 4605)


Обработка catalogid:  23%|██▎       | 108/478 [15:24<15:02,  2.44s/it]

Обрабатываем catalogid: 7677
Обрабатываем небольшой catalogid: 7677 (размер: 41956)


Обработка catalogid:  23%|██▎       | 109/478 [15:31<24:00,  3.90s/it]

Обрабатываем catalogid: 7679
Обрабатываем небольшой catalogid: 7679 (размер: 3874)


Обработка catalogid:  23%|██▎       | 110/478 [15:32<18:34,  3.03s/it]

Обрабатываем catalogid: 7680
Обрабатываем небольшой catalogid: 7680 (размер: 2776)


Обработка catalogid:  23%|██▎       | 111/478 [15:33<14:23,  2.35s/it]

Обрабатываем catalogid: 7683
Обрабатываем небольшой catalogid: 7683 (размер: 4387)


Обработка catalogid:  23%|██▎       | 112/478 [15:34<11:53,  1.95s/it]

Обрабатываем catalogid: 7684
Обрабатываем небольшой catalogid: 7684 (размер: 8285)


Обработка catalogid:  24%|██▎       | 113/478 [15:35<10:58,  1.80s/it]

Обрабатываем catalogid: 7686
Обрабатываем небольшой catalogid: 7686 (размер: 10782)


Обработка catalogid:  24%|██▍       | 114/478 [15:37<11:02,  1.82s/it]

Обрабатываем catalogid: 7687
Обрабатываем небольшой catalogid: 7687 (размер: 2952)


Обработка catalogid:  24%|██▍       | 115/478 [15:38<09:06,  1.51s/it]

Обрабатываем catalogid: 7688
Обрабатываем небольшой catalogid: 7688 (размер: 46626)


Обработка catalogid:  24%|██▍       | 116/478 [15:46<21:15,  3.52s/it]

Обрабатываем catalogid: 7690
Обрабатываем небольшой catalogid: 7690 (размер: 2886)


Обработка catalogid:  24%|██▍       | 117/478 [15:47<16:28,  2.74s/it]

Обрабатываем catalogid: 7691
Обрабатываем небольшой catalogid: 7691 (размер: 18999)


Обработка catalogid:  25%|██▍       | 118/478 [15:50<17:04,  2.85s/it]

Обрабатываем catalogid: 7692
Обрабатываем небольшой catalogid: 7692 (размер: 1205)


Обработка catalogid:  25%|██▍       | 119/478 [15:51<12:38,  2.11s/it]

Обрабатываем catalogid: 7694
Обрабатываем небольшой catalogid: 7694 (размер: 2328)


Обработка catalogid:  25%|██▌       | 120/478 [15:51<09:50,  1.65s/it]

Обрабатываем catalogid: 7696
Обрабатываем небольшой catalogid: 7696 (размер: 5226)


Обработка catalogid:  25%|██▌       | 121/478 [15:52<08:44,  1.47s/it]

Обрабатываем catalogid: 7706
Обрабатываем небольшой catalogid: 7706 (размер: 13764)


Обработка catalogid:  26%|██▌       | 122/478 [15:55<11:00,  1.86s/it]

Обрабатываем catalogid: 7751
Обрабатываем небольшой catalogid: 7751 (размер: 4226)


Обработка catalogid:  26%|██▌       | 123/478 [15:56<09:12,  1.56s/it]

Обрабатываем catalogid: 7762
Обрабатываем небольшой catalogid: 7762 (размер: 750)


Обработка catalogid:  26%|██▌       | 125/478 [15:56<05:08,  1.15it/s]

Обрабатываем catalogid: 7768
Обрабатываем небольшой catalogid: 7768 (размер: 79)
Обрабатываем catalogid: 7771
Обрабатываем небольшой catalogid: 7771 (размер: 1036)


Обработка catalogid:  26%|██▋       | 126/478 [15:57<04:14,  1.38it/s]

Обрабатываем catalogid: 7773
Обрабатываем небольшой catalogid: 7773 (размер: 9129)


Обработка catalogid:  27%|██▋       | 127/478 [15:58<05:48,  1.01it/s]

Обрабатываем catalogid: 7774
Обрабатываем небольшой catalogid: 7774 (размер: 7856)


Обработка catalogid:  27%|██▋       | 129/478 [16:00<05:13,  1.11it/s]

Обрабатываем catalogid: 7777
Обрабатываем небольшой catalogid: 7777 (размер: 333)
Обрабатываем catalogid: 7779
Обрабатываем небольшой catalogid: 7779 (размер: 1554)


Обработка catalogid:  27%|██▋       | 130/478 [16:01<04:37,  1.25it/s]

Обрабатываем catalogid: 7781
Обрабатываем небольшой catalogid: 7781 (размер: 1849)


Обработка catalogid:  27%|██▋       | 131/478 [16:02<04:28,  1.29it/s]

Обрабатываем catalogid: 7783
Обрабатываем небольшой catalogid: 7783 (размер: 3479)


Обработка catalogid:  28%|██▊       | 132/478 [16:03<04:40,  1.23it/s]

Обрабатываем catalogid: 7786
Обрабатываем небольшой catalogid: 7786 (размер: 1037)


Обработка catalogid:  28%|██▊       | 133/478 [16:03<03:58,  1.45it/s]

Обрабатываем catalogid: 7787
Обрабатываем небольшой catalogid: 7787 (размер: 10634)


Обработка catalogid:  28%|██▊       | 134/478 [16:05<06:27,  1.13s/it]

Обрабатываем catalogid: 7788
Обрабатываем небольшой catalogid: 7788 (размер: 44603)


Обработка catalogid:  28%|██▊       | 135/478 [16:17<25:29,  4.46s/it]

Обрабатываем catalogid: 7789
Обрабатываем небольшой catalogid: 7789 (размер: 4251)


Обработка catalogid:  28%|██▊       | 136/478 [16:19<19:58,  3.50s/it]

Обрабатываем catalogid: 7793
Обрабатываем небольшой catalogid: 7793 (размер: 2151)


Обработка catalogid:  29%|██▊       | 137/478 [16:19<15:11,  2.67s/it]

Обрабатываем catalogid: 7798
Обрабатываем небольшой catalogid: 7798 (размер: 1265)


Обработка catalogid:  29%|██▉       | 138/478 [16:20<11:18,  2.00s/it]

Обрабатываем catalogid: 7801
Обрабатываем небольшой catalogid: 7801 (размер: 1472)


Обработка catalogid:  29%|██▉       | 139/478 [16:20<08:42,  1.54s/it]

Обрабатываем catalogid: 7805
Обрабатываем небольшой catalogid: 7805 (размер: 1297)


Обработка catalogid:  29%|██▉       | 140/478 [16:21<06:56,  1.23s/it]

Обрабатываем catalogid: 7806
Обрабатываем небольшой catalogid: 7806 (размер: 5953)


Обработка catalogid:  29%|██▉       | 141/478 [16:22<07:08,  1.27s/it]

Обрабатываем catalogid: 7808
Обрабатываем небольшой catalogid: 7808 (размер: 4847)


Обработка catalogid:  30%|██▉       | 142/478 [16:23<06:54,  1.23s/it]

Обрабатываем catalogid: 7813
Обрабатываем небольшой catalogid: 7813 (размер: 1019)


Обработка catalogid:  30%|██▉       | 143/478 [16:24<05:32,  1.01it/s]

Обрабатываем catalogid: 7822
Обрабатываем небольшой catalogid: 7822 (размер: 5)
Обрабатываем catalogid: 9020
Обрабатываем небольшой catalogid: 9020 (размер: 1)
Предупреждение: name_vec имеет недостаточно признаков для SVD
Предупреждение: desc_vec имеет недостаточно признаков для SVD
Предупреждение: эмбеддинги имеют недостаточно признаков для PCA
Обрабатываем catalogid: 10190
Обрабатываем небольшой catalogid: 10190 (размер: 34668)


Обработка catalogid:  31%|███       | 148/478 [16:31<06:28,  1.18s/it]

Обрабатываем catalogid: 11104
Обрабатываем небольшой catalogid: 11104 (размер: 10)
Обрабатываем catalogid: 11144
Обрабатываем небольшой catalogid: 11144 (размер: 28)
Обрабатываем catalogid: 11237
Обрабатываем небольшой catalogid: 11237 (размер: 1)
Предупреждение: name_vec имеет недостаточно признаков для SVD
Предупреждение: desc_vec имеет недостаточно признаков для SVD
Предупреждение: эмбеддинги имеют недостаточно признаков для PCA
Обрабатываем catalogid: 11280
Обрабатываем небольшой catalogid: 11280 (размер: 909)


Обработка catalogid:  31%|███▏      | 150/478 [16:32<04:53,  1.12it/s]

Обрабатываем catalogid: 11536
Обрабатываем небольшой catalogid: 11536 (размер: 1)
Предупреждение: name_vec имеет недостаточно признаков для SVD
Предупреждение: desc_vec имеет недостаточно признаков для SVD
Предупреждение: эмбеддинги имеют недостаточно признаков для PCA
Обрабатываем catalogid: 11601
Обрабатываем небольшой catalogid: 11601 (размер: 867)


Обработка catalogid:  32%|███▏      | 152/478 [16:32<03:39,  1.48it/s]

Обрабатываем catalogid: 11606
Обрабатываем небольшой catalogid: 11606 (размер: 749)


Обработка catalogid:  32%|███▏      | 154/478 [16:33<02:49,  1.91it/s]

Обрабатываем catalogid: 11608
Обрабатываем небольшой catalogid: 11608 (размер: 407)
Обрабатываем catalogid: 11628
Обрабатываем небольшой catalogid: 11628 (размер: 3)
Обрабатываем catalogid: 11856
Обрабатываем небольшой catalogid: 11856 (размер: 1959)


Обработка catalogid:  33%|███▎      | 157/478 [16:33<02:06,  2.53it/s]

Обрабатываем catalogid: 11866
Обрабатываем небольшой catalogid: 11866 (размер: 260)
Обрабатываем catalogid: 13606
Обрабатываем небольшой catalogid: 13606 (размер: 2)
Обрабатываем catalogid: 14624
Обрабатываем небольшой catalogid: 14624 (размер: 827)


Обработка catalogid:  33%|███▎      | 160/478 [16:34<01:32,  3.43it/s]

Обрабатываем catalogid: 14626
Обрабатываем небольшой catalogid: 14626 (размер: 239)
Обрабатываем catalogid: 14629
Обрабатываем небольшой catalogid: 14629 (размер: 3691)


Обработка catalogid:  34%|███▎      | 161/478 [16:35<02:20,  2.25it/s]

Обрабатываем catalogid: 14631
Обрабатываем небольшой catalogid: 14631 (размер: 800)


Обработка catalogid:  34%|███▍      | 162/478 [16:35<02:14,  2.34it/s]

Обрабатываем catalogid: 14701
Обрабатываем небольшой catalogid: 14701 (размер: 1)
Предупреждение: name_vec имеет недостаточно признаков для SVD
Предупреждение: desc_vec имеет недостаточно признаков для SVD
Предупреждение: эмбеддинги имеют недостаточно признаков для PCA
Обрабатываем catalogid: 14765
Обрабатываем небольшой catalogid: 14765 (размер: 758)


Обработка catalogid:  34%|███▍      | 164/478 [16:36<01:46,  2.94it/s]

Обрабатываем catalogid: 17002
Обрабатываем большой catalogid: 17002 (размер: 105158)
Сбор статистики для обучения преобразователей...
Обучение преобразователей...
Определение размерности финальных векторов...
Размерность финальных векторов: 4694
Первый проход: вычисление статистики для нормализации...


Сбор статистики: 100%|██████████| 22/22 [00:10<00:00,  2.06it/s]


Второй проход: нормализация и сохранение...


Нормализация и сохранение: 100%|██████████| 22/22 [00:16<00:00,  1.31it/s]
Обработка catalogid:  35%|███▍      | 165/478 [17:12<44:33,  8.54s/it]

Обработка с нормализацией завершена. Векторы сохранены в: ./result_vectors/17002_vectors.npy
Обрабатываем catalogid: 17007
Обрабатываем небольшой catalogid: 17007 (размер: 3662)


Обработка catalogid:  35%|███▍      | 166/478 [17:13<34:36,  6.65s/it]

Обрабатываем catalogid: 17008
Обрабатываем небольшой catalogid: 17008 (размер: 9444)


Обработка catalogid:  35%|███▍      | 167/478 [17:15<28:11,  5.44s/it]

Обрабатываем catalogid: 17010
Обрабатываем небольшой catalogid: 17010 (размер: 21671)


Обработка catalogid:  35%|███▌      | 168/478 [17:20<27:31,  5.33s/it]

Обрабатываем catalogid: 17012
Обрабатываем небольшой catalogid: 17012 (размер: 5165)


Обработка catalogid:  35%|███▌      | 169/478 [17:21<21:46,  4.23s/it]

Обрабатываем catalogid: 17016
Обрабатываем небольшой catalogid: 17016 (размер: 1741)


Обработка catalogid:  36%|███▌      | 170/478 [17:22<16:36,  3.24s/it]

Обрабатываем catalogid: 17019
Обрабатываем небольшой catalogid: 17019 (размер: 25900)


Обработка catalogid:  36%|███▌      | 171/478 [17:28<20:13,  3.95s/it]

Обрабатываем catalogid: 17020
Обрабатываем небольшой catalogid: 17020 (размер: 1582)


Обработка catalogid:  36%|███▌      | 172/478 [17:28<15:07,  2.97s/it]

Обрабатываем catalogid: 17021
Обрабатываем небольшой catalogid: 17021 (размер: 1110)


Обработка catalogid:  36%|███▌      | 173/478 [17:29<11:16,  2.22s/it]

Обрабатываем catalogid: 17023
Обрабатываем небольшой catalogid: 17023 (размер: 16067)


Обработка catalogid:  36%|███▋      | 174/478 [17:32<12:36,  2.49s/it]

Обрабатываем catalogid: 17024
Обрабатываем небольшой catalogid: 17024 (размер: 33434)


Обработка catalogid:  37%|███▋      | 175/478 [17:39<20:03,  3.97s/it]

Обрабатываем catalogid: 17027
Обрабатываем небольшой catalogid: 17027 (размер: 25412)


Обработка catalogid:  37%|███▋      | 176/478 [17:45<22:08,  4.40s/it]

Обрабатываем catalogid: 17029
Обрабатываем небольшой catalogid: 17029 (размер: 11152)


Обработка catalogid:  37%|███▋      | 177/478 [17:47<19:09,  3.82s/it]

Обрабатываем catalogid: 17030
Обрабатываем небольшой catalogid: 17030 (размер: 3714)


Обработка catalogid:  37%|███▋      | 178/478 [17:48<14:44,  2.95s/it]

Обрабатываем catalogid: 17031
Обрабатываем небольшой catalogid: 17031 (размер: 25371)


Обработка catalogid:  37%|███▋      | 179/478 [17:54<18:51,  3.78s/it]

Обрабатываем catalogid: 17032
Обрабатываем небольшой catalogid: 17032 (размер: 3369)


Обработка catalogid:  38%|███▊      | 180/478 [17:55<14:34,  2.93s/it]

Обрабатываем catalogid: 17033
Обрабатываем небольшой catalogid: 17033 (размер: 17595)


Обработка catalogid:  38%|███▊      | 181/478 [17:59<16:08,  3.26s/it]

Обрабатываем catalogid: 17034
Обрабатываем небольшой catalogid: 17034 (размер: 20756)


Обработка catalogid:  38%|███▊      | 182/478 [18:03<17:14,  3.50s/it]

Обрабатываем catalogid: 17037
Обрабатываем небольшой catalogid: 17037 (размер: 14607)


Обработка catalogid:  38%|███▊      | 183/478 [18:05<15:52,  3.23s/it]

Обрабатываем catalogid: 17041
Обрабатываем небольшой catalogid: 17041 (размер: 14803)


Обработка catalogid:  38%|███▊      | 184/478 [18:08<15:28,  3.16s/it]

Обрабатываем catalogid: 17048
Обрабатываем небольшой catalogid: 17048 (размер: 16873)


Обработка catalogid:  39%|███▊      | 185/478 [18:12<15:49,  3.24s/it]

Обрабатываем catalogid: 17050
Обрабатываем небольшой catalogid: 17050 (размер: 6769)


Обработка catalogid:  39%|███▉      | 186/478 [18:13<13:11,  2.71s/it]

Обрабатываем catalogid: 17052
Обрабатываем небольшой catalogid: 17052 (размер: 1179)


Обработка catalogid:  39%|███▉      | 187/478 [18:14<09:52,  2.04s/it]

Обрабатываем catalogid: 17055
Обрабатываем небольшой catalogid: 17055 (размер: 16087)


Обработка catalogid:  39%|███▉      | 188/478 [18:17<11:40,  2.42s/it]

Обрабатываем catalogid: 17056
Обрабатываем небольшой catalogid: 17056 (размер: 1165)


Обработка catalogid:  40%|███▉      | 189/478 [18:18<08:52,  1.84s/it]

Обрабатываем catalogid: 17057
Обрабатываем небольшой catalogid: 17057 (размер: 8752)


Обработка catalogid:  40%|███▉      | 190/478 [18:19<08:50,  1.84s/it]

Обрабатываем catalogid: 17058
Обрабатываем небольшой catalogid: 17058 (размер: 6457)


Обработка catalogid:  40%|████      | 192/478 [18:21<06:04,  1.27s/it]

Обрабатываем catalogid: 17059
Обрабатываем небольшой catalogid: 17059 (размер: 309)
Обрабатываем catalogid: 17060
Обрабатываем небольшой catalogid: 17060 (размер: 13166)


Обработка catalogid:  40%|████      | 193/478 [18:24<08:13,  1.73s/it]

Обрабатываем catalogid: 17065
Обрабатываем небольшой catalogid: 17065 (размер: 18938)


Обработка catalogid:  41%|████      | 194/478 [18:29<13:13,  2.79s/it]

Обрабатываем catalogid: 17069
Обрабатываем небольшой catalogid: 17069 (размер: 1244)


Обработка catalogid:  41%|████      | 195/478 [18:30<09:55,  2.11s/it]

Обрабатываем catalogid: 17070
Обрабатываем небольшой catalogid: 17070 (размер: 1740)


Обработка catalogid:  41%|████      | 196/478 [18:30<07:49,  1.67s/it]

Обрабатываем catalogid: 17072
Обрабатываем небольшой catalogid: 17072 (размер: 16010)


Обработка catalogid:  41%|████      | 197/478 [18:34<10:52,  2.32s/it]

Обрабатываем catalogid: 17074
Обрабатываем небольшой catalogid: 17074 (размер: 1754)


Обработка catalogid:  41%|████▏     | 198/478 [18:35<08:25,  1.80s/it]

Обрабатываем catalogid: 17076
Обрабатываем небольшой catalogid: 17076 (размер: 18342)


Обработка catalogid:  42%|████▏     | 199/478 [18:39<11:39,  2.51s/it]

Обрабатываем catalogid: 17077
Обрабатываем небольшой catalogid: 17077 (размер: 362)


Обработка catalogid:  42%|████▏     | 200/478 [18:39<08:43,  1.88s/it]

Обрабатываем catalogid: 17080
Обрабатываем небольшой catalogid: 17080 (размер: 17195)


Обработка catalogid:  42%|████▏     | 201/478 [18:43<10:35,  2.29s/it]

Обрабатываем catalogid: 17081
Обрабатываем небольшой catalogid: 17081 (размер: 1053)


Обработка catalogid:  42%|████▏     | 202/478 [18:43<07:57,  1.73s/it]

Обрабатываем catalogid: 17082
Обрабатываем небольшой catalogid: 17082 (размер: 1632)


Обработка catalogid:  42%|████▏     | 203/478 [18:44<06:23,  1.40s/it]

Обрабатываем catalogid: 17084
Обрабатываем небольшой catalogid: 17084 (размер: 4928)


Обработка catalogid:  43%|████▎     | 204/478 [18:45<06:04,  1.33s/it]

Обрабатываем catalogid: 17085
Обрабатываем небольшой catalogid: 17085 (размер: 6788)


Обработка catalogid:  43%|████▎     | 205/478 [18:47<06:39,  1.47s/it]

Обрабатываем catalogid: 17086
Обрабатываем небольшой catalogid: 17086 (размер: 9603)


Обработка catalogid:  43%|████▎     | 206/478 [18:49<07:40,  1.69s/it]

Обрабатываем catalogid: 17089
Обрабатываем небольшой catalogid: 17089 (размер: 26712)


Обработка catalogid:  43%|████▎     | 207/478 [18:54<11:59,  2.65s/it]

Обрабатываем catalogid: 17093
Обрабатываем небольшой catalogid: 17093 (размер: 10184)


Обработка catalogid:  44%|████▎     | 208/478 [18:56<11:19,  2.52s/it]

Обрабатываем catalogid: 17100
Обрабатываем небольшой catalogid: 17100 (размер: 2645)


Обработка catalogid:  44%|████▎     | 209/478 [18:58<10:33,  2.35s/it]

Обрабатываем catalogid: 17101
Обрабатываем небольшой catalogid: 17101 (размер: 6084)


Обработка catalogid:  44%|████▍     | 210/478 [18:59<09:32,  2.14s/it]

Обрабатываем catalogid: 17102
Обрабатываем небольшой catalogid: 17102 (размер: 3727)


Обработка catalogid:  44%|████▍     | 211/478 [19:01<08:22,  1.88s/it]

Обрабатываем catalogid: 17103
Обрабатываем небольшой catalogid: 17103 (размер: 420)


Обработка catalogid:  44%|████▍     | 212/478 [19:01<06:07,  1.38s/it]

Обрабатываем catalogid: 17104
Обрабатываем небольшой catalogid: 17104 (размер: 5937)


Обработка catalogid:  45%|████▍     | 213/478 [19:02<06:09,  1.39s/it]

Обрабатываем catalogid: 17111
Обрабатываем небольшой catalogid: 17111 (размер: 3334)


Обработка catalogid:  45%|████▍     | 214/478 [19:03<05:29,  1.25s/it]

Обрабатываем catalogid: 17112
Обрабатываем небольшой catalogid: 17112 (размер: 20216)


Обработка catalogid:  45%|████▍     | 215/478 [19:08<09:24,  2.15s/it]

Обрабатываем catalogid: 17117
Обрабатываем небольшой catalogid: 17117 (размер: 1890)


Обработка catalogid:  45%|████▌     | 216/478 [19:08<07:27,  1.71s/it]

Обрабатываем catalogid: 17124
Обрабатываем небольшой catalogid: 17124 (размер: 23505)


Обработка catalogid:  45%|████▌     | 217/478 [19:14<13:01,  2.99s/it]

Обрабатываем catalogid: 17126
Обрабатываем небольшой catalogid: 17126 (размер: 1459)


Обработка catalogid:  46%|████▌     | 218/478 [19:15<10:07,  2.34s/it]

Обрабатываем catalogid: 17127
Обрабатываем небольшой catalogid: 17127 (размер: 1881)


Обработка catalogid:  46%|████▌     | 219/478 [19:16<07:52,  1.82s/it]

Обрабатываем catalogid: 17128
Обрабатываем небольшой catalogid: 17128 (размер: 17590)


Обработка catalogid:  46%|████▌     | 220/478 [19:20<10:33,  2.46s/it]

Обрабатываем catalogid: 17134
Обрабатываем небольшой catalogid: 17134 (размер: 921)


Обработка catalogid:  46%|████▋     | 222/478 [19:20<05:46,  1.35s/it]

Обрабатываем catalogid: 17135
Обрабатываем небольшой catalogid: 17135 (размер: 157)
Обрабатываем catalogid: 17136
Обрабатываем небольшой catalogid: 17136 (размер: 4304)


Обработка catalogid:  47%|████▋     | 223/478 [19:21<05:14,  1.23s/it]

Обрабатываем catalogid: 17140
Обрабатываем небольшой catalogid: 17140 (размер: 2711)


Обработка catalogid:  47%|████▋     | 224/478 [19:22<04:39,  1.10s/it]

Обрабатываем catalogid: 17141
Обрабатываем небольшой catalogid: 17141 (размер: 2072)


Обработка catalogid:  47%|████▋     | 225/478 [19:23<04:10,  1.01it/s]

Обрабатываем catalogid: 17142
Обрабатываем небольшой catalogid: 17142 (размер: 15258)


Обработка catalogid:  47%|████▋     | 226/478 [19:26<06:45,  1.61s/it]

Обрабатываем catalogid: 17146
Обрабатываем небольшой catalogid: 17146 (размер: 1575)


Обработка catalogid:  47%|████▋     | 227/478 [19:26<05:32,  1.33s/it]

Обрабатываем catalogid: 17149
Обрабатываем небольшой catalogid: 17149 (размер: 8993)


Обработка catalogid:  48%|████▊     | 228/478 [19:28<06:24,  1.54s/it]

Обрабатываем catalogid: 17150
Обрабатываем небольшой catalogid: 17150 (размер: 2010)


Обработка catalogid:  48%|████▊     | 229/478 [19:29<05:15,  1.27s/it]

Обрабатываем catalogid: 17151
Обрабатываем небольшой catalogid: 17151 (размер: 1025)


Обработка catalogid:  48%|████▊     | 230/478 [19:30<04:12,  1.02s/it]

Обрабатываем catalogid: 17153
Обрабатываем небольшой catalogid: 17153 (размер: 760)


Обработка catalogid:  48%|████▊     | 231/478 [19:30<03:24,  1.21it/s]

Обрабатываем catalogid: 17154
Обрабатываем небольшой catalogid: 17154 (размер: 582)


Обработка catalogid:  49%|████▊     | 232/478 [19:30<02:38,  1.56it/s]

Обрабатываем catalogid: 17155
Обрабатываем небольшой catalogid: 17155 (размер: 156)


Обработка catalogid:  49%|████▊     | 233/478 [19:30<02:15,  1.80it/s]

Обрабатываем catalogid: 17156
Обрабатываем небольшой catalogid: 17156 (размер: 3478)


Обработка catalogid:  49%|████▉     | 234/478 [19:31<02:40,  1.52it/s]

Обрабатываем catalogid: 30109
Обрабатываем небольшой catalogid: 30109 (размер: 13999)


Обработка catalogid:  49%|████▉     | 235/478 [19:35<06:02,  1.49s/it]

Обрабатываем catalogid: 30110
Обрабатываем небольшой catalogid: 30110 (размер: 6779)


Обработка catalogid:  49%|████▉     | 236/478 [19:36<06:12,  1.54s/it]

Обрабатываем catalogid: 30112
Обрабатываем небольшой catalogid: 30112 (размер: 6241)


Обработка catalogid:  50%|████▉     | 237/478 [19:38<06:11,  1.54s/it]

Обрабатываем catalogid: 30113
Обрабатываем небольшой catalogid: 30113 (размер: 1435)


Обработка catalogid:  50%|████▉     | 238/478 [19:39<06:03,  1.52s/it]

Обрабатываем catalogid: 30115
Обрабатываем небольшой catalogid: 30115 (размер: 815)


Обработка catalogid:  50%|█████     | 239/478 [19:41<05:45,  1.45s/it]

Обрабатываем catalogid: 30116
Обрабатываем небольшой catalogid: 30116 (размер: 6883)


Обработка catalogid:  50%|█████     | 240/478 [19:43<06:32,  1.65s/it]

Обрабатываем catalogid: 30118
Обрабатываем небольшой catalogid: 30118 (размер: 9244)


Обработка catalogid:  50%|█████     | 241/478 [19:45<07:06,  1.80s/it]

Обрабатываем catalogid: 30120
Обрабатываем небольшой catalogid: 30120 (размер: 2042)


Обработка catalogid:  51%|█████     | 243/478 [19:46<04:13,  1.08s/it]

Обрабатываем catalogid: 30124
Обрабатываем небольшой catalogid: 30124 (размер: 258)
Обрабатываем catalogid: 30125
Обрабатываем небольшой catalogid: 30125 (размер: 322)


Обработка catalogid:  51%|█████     | 244/478 [19:46<03:11,  1.22it/s]

Обрабатываем catalogid: 30126
Обрабатываем небольшой catalogid: 30126 (размер: 5367)


Обработка catalogid:  51%|█████▏    | 245/478 [19:47<03:46,  1.03it/s]

Обрабатываем catalogid: 30130
Обрабатываем небольшой catalogid: 30130 (размер: 991)


Обработка catalogid:  51%|█████▏    | 246/478 [19:48<03:04,  1.26it/s]

Обрабатываем catalogid: 30132
Обрабатываем небольшой catalogid: 30132 (размер: 12556)


Обработка catalogid:  52%|█████▏    | 247/478 [19:51<05:37,  1.46s/it]

Обрабатываем catalogid: 30137
Обрабатываем небольшой catalogid: 30137 (размер: 1361)


Обработка catalogid:  52%|█████▏    | 248/478 [19:51<04:28,  1.17s/it]

Обрабатываем catalogid: 30138
Обрабатываем небольшой catalogid: 30138 (размер: 9)
Обрабатываем catalogid: 30235
Обрабатываем небольшой catalogid: 30235 (размер: 12)
Обрабатываем catalogid: 30246
Обрабатываем небольшой catalogid: 30246 (размер: 5062)


Обработка catalogid:  53%|█████▎    | 251/478 [19:53<02:56,  1.28it/s]

Обрабатываем catalogid: 30249
Обрабатываем небольшой catalogid: 30249 (размер: 903)


Обработка catalogid:  53%|█████▎    | 252/478 [19:53<02:36,  1.44it/s]

Обрабатываем catalogid: 30300
Обрабатываем небольшой catalogid: 30300 (размер: 2271)


Обработка catalogid:  53%|█████▎    | 253/478 [19:54<02:39,  1.41it/s]

Обрабатываем catalogid: 30316
Обрабатываем небольшой catalogid: 30316 (размер: 1750)


Обработка catalogid:  53%|█████▎    | 254/478 [19:54<02:28,  1.50it/s]

Обрабатываем catalogid: 30318
Обрабатываем небольшой catalogid: 30318 (размер: 1987)


Обработка catalogid:  53%|█████▎    | 255/478 [19:55<02:18,  1.61it/s]

Обрабатываем catalogid: 30468
Обрабатываем небольшой catalogid: 30468 (размер: 3925)


Обработка catalogid:  54%|█████▎    | 256/478 [19:56<02:39,  1.39it/s]

Обрабатываем catalogid: 30474
Обрабатываем небольшой catalogid: 30474 (размер: 545)


Обработка catalogid:  54%|█████▍    | 257/478 [19:56<02:10,  1.70it/s]

Обрабатываем catalogid: 30502
Обрабатываем небольшой catalogid: 30502 (размер: 41)
Обрабатываем catalogid: 30505
Обрабатываем небольшой catalogid: 30505 (размер: 737)


Обработка catalogid:  54%|█████▍    | 259/478 [19:57<01:30,  2.42it/s]

Обрабатываем catalogid: 30547
Обрабатываем небольшой catalogid: 30547 (размер: 3186)


Обработка catalogid:  55%|█████▍    | 261/478 [19:57<01:22,  2.64it/s]

Обрабатываем catalogid: 30589
Обрабатываем небольшой catalogid: 30589 (размер: 119)
Обрабатываем catalogid: 30835
Обрабатываем небольшой catalogid: 30835 (размер: 9689)


Обработка catalogid:  55%|█████▍    | 262/478 [19:59<02:41,  1.34it/s]

Обрабатываем catalogid: 30889
Обрабатываем небольшой catalogid: 30889 (размер: 14)
Обрабатываем catalogid: 30894
Обрабатываем небольшой catalogid: 30894 (размер: 2134)


Обработка catalogid:  55%|█████▌    | 264/478 [20:00<01:55,  1.86it/s]

Обрабатываем catalogid: 31080
Обрабатываем небольшой catalogid: 31080 (размер: 21084)


Обработка catalogid:  55%|█████▌    | 265/478 [20:03<04:34,  1.29s/it]

Обрабатываем catalogid: 31117
Обрабатываем небольшой catalogid: 31117 (размер: 979)


Обработка catalogid:  56%|█████▌    | 266/478 [20:04<03:46,  1.07s/it]

Обрабатываем catalogid: 31306
Обрабатываем большой catalogid: 31306 (размер: 67945)
Сбор статистики для обучения преобразователей...
Обучение преобразователей...
Определение размерности финальных векторов...
Размерность финальных векторов: 2180
Первый проход: вычисление статистики для нормализации...


Сбор статистики: 100%|██████████| 14/14 [00:06<00:00,  2.25it/s]


Второй проход: нормализация и сохранение...


Нормализация и сохранение: 100%|██████████| 14/14 [00:07<00:00,  1.95it/s]
Обработка catalogid:  56%|█████▌    | 267/478 [20:23<21:11,  6.02s/it]

Обработка с нормализацией завершена. Векторы сохранены в: ./result_vectors/31306_vectors.npy
Обрабатываем catalogid: 31307
Обрабатываем большой catalogid: 31307 (размер: 80843)
Сбор статистики для обучения преобразователей...
Обучение преобразователей...
Определение размерности финальных векторов...
Размерность финальных векторов: 1775
Первый проход: вычисление статистики для нормализации...


Сбор статистики: 100%|██████████| 17/17 [00:06<00:00,  2.58it/s]


Второй проход: нормализация и сохранение...


Нормализация и сохранение: 100%|██████████| 17/17 [00:07<00:00,  2.17it/s]
Обработка catalogid:  56%|█████▌    | 268/478 [20:45<35:31, 10.15s/it]

Обработка с нормализацией завершена. Векторы сохранены в: ./result_vectors/31307_vectors.npy
Обрабатываем catalogid: 31308
Обрабатываем небольшой catalogid: 31308 (размер: 17948)


Обработка catalogid:  56%|█████▋    | 269/478 [20:48<29:04,  8.35s/it]

Обрабатываем catalogid: 31309
Обрабатываем небольшой catalogid: 31309 (размер: 10691)


Обработка catalogid:  56%|█████▋    | 270/478 [20:50<22:33,  6.51s/it]

Обрабатываем catalogid: 31310
Обрабатываем небольшой catalogid: 31310 (размер: 19048)


Обработка catalogid:  57%|█████▋    | 271/478 [20:54<20:06,  5.83s/it]

Обрабатываем catalogid: 31311
Обрабатываем небольшой catalogid: 31311 (размер: 44072)


Обработка catalogid:  57%|█████▋    | 272/478 [21:05<24:49,  7.23s/it]

Обрабатываем catalogid: 31312
Обрабатываем небольшой catalogid: 31312 (размер: 7010)


Обработка catalogid:  57%|█████▋    | 273/478 [21:07<19:06,  5.59s/it]

Обрабатываем catalogid: 31313
Обрабатываем небольшой catalogid: 31313 (размер: 19033)


Обработка catalogid:  57%|█████▋    | 274/478 [21:11<17:20,  5.10s/it]

Обрабатываем catalogid: 31314
Обрабатываем небольшой catalogid: 31314 (размер: 1413)


Обработка catalogid:  58%|█████▊    | 275/478 [21:11<12:31,  3.70s/it]

Обрабатываем catalogid: 31316
Обрабатываем небольшой catalogid: 31316 (размер: 3992)


Обработка catalogid:  58%|█████▊    | 276/478 [21:13<10:30,  3.12s/it]

Обрабатываем catalogid: 31317
Обрабатываем небольшой catalogid: 31317 (размер: 5939)


Обработка catalogid:  58%|█████▊    | 277/478 [21:14<08:53,  2.66s/it]

Обрабатываем catalogid: 31611
Обрабатываем небольшой catalogid: 31611 (размер: 2414)


Обработка catalogid:  58%|█████▊    | 278/478 [21:16<07:30,  2.25s/it]

Обрабатываем catalogid: 31655
Обрабатываем небольшой catalogid: 31655 (размер: 2069)


Обработка catalogid:  58%|█████▊    | 279/478 [21:16<05:42,  1.72s/it]

Обрабатываем catalogid: 31691
Обрабатываем небольшой catalogid: 31691 (размер: 6748)


Обработка catalogid:  59%|█████▊    | 280/478 [21:17<05:15,  1.59s/it]

Обрабатываем catalogid: 31785
Обрабатываем небольшой catalogid: 31785 (размер: 2617)


Обработка catalogid:  59%|█████▉    | 281/478 [21:18<04:12,  1.28s/it]

Обрабатываем catalogid: 31824
Обрабатываем небольшой catalogid: 31824 (размер: 1198)


Обработка catalogid:  59%|█████▉    | 283/478 [21:18<02:24,  1.35it/s]

Обрабатываем catalogid: 31892
Обрабатываем небольшой catalogid: 31892 (размер: 206)
Обрабатываем catalogid: 31968
Обрабатываем небольшой catalogid: 31968 (размер: 28)
Обрабатываем catalogid: 31969
Обрабатываем небольшой catalogid: 31969 (размер: 18)
Обрабатываем catalogid: 31983
Обрабатываем небольшой catalogid: 31983 (размер: 16369)


Обработка catalogid:  60%|█████▉    | 286/478 [21:22<02:58,  1.07it/s]

Обрабатываем catalogid: 31984
Обрабатываем небольшой catalogid: 31984 (размер: 13288)


Обработка catalogid:  60%|██████    | 288/478 [21:24<03:11,  1.01s/it]

Обрабатываем catalogid: 32091
Обрабатываем небольшой catalogid: 32091 (размер: 128)
Обрабатываем catalogid: 32128
Обрабатываем небольшой catalogid: 32128 (размер: 2251)


Обработка catalogid:  60%|██████    | 289/478 [21:25<02:52,  1.10it/s]

Обрабатываем catalogid: 32132
Обрабатываем небольшой catalogid: 32132 (размер: 1)
Предупреждение: name_vec имеет недостаточно признаков для SVD
Предупреждение: desc_vec имеет недостаточно признаков для SVD
Предупреждение: эмбеддинги имеют недостаточно признаков для PCA
Обрабатываем catalogid: 32181
Обрабатываем небольшой catalogid: 32181 (размер: 4677)


Обработка catalogid:  61%|██████    | 291/478 [21:26<02:19,  1.34it/s]

Обрабатываем catalogid: 32726
Обрабатываем небольшой catalogid: 32726 (размер: 2206)


Обработка catalogid:  61%|██████    | 292/478 [21:26<02:07,  1.45it/s]

Обрабатываем catalogid: 32728
Обрабатываем небольшой catalogid: 32728 (размер: 6953)


Обработка catalogid:  61%|██████▏   | 293/478 [21:28<02:42,  1.14it/s]

Обрабатываем catalogid: 32812
Обрабатываем небольшой catalogid: 32812 (размер: 20997)


Обработка catalogid:  62%|██████▏   | 294/478 [21:33<05:39,  1.85s/it]

Обрабатываем catalogid: 32818
Обрабатываем небольшой catalogid: 32818 (размер: 22396)


Обработка catalogid:  62%|██████▏   | 295/478 [21:37<07:58,  2.62s/it]

Обрабатываем catalogid: 32922
Обрабатываем небольшой catalogid: 32922 (размер: 5156)


Обработка catalogid:  62%|██████▏   | 296/478 [21:38<06:47,  2.24s/it]

Обрабатываем catalogid: 32933
Обрабатываем небольшой catalogid: 32933 (размер: 2557)


Обработка catalogid:  62%|██████▏   | 297/478 [21:39<05:13,  1.73s/it]

Обрабатываем catalogid: 32949
Обрабатываем небольшой catalogid: 32949 (размер: 624)


Обработка catalogid:  62%|██████▏   | 298/478 [21:39<03:55,  1.31s/it]

Обрабатываем catalogid: 32955
Обрабатываем небольшой catalogid: 32955 (размер: 5)
Обрабатываем catalogid: 32981
Обрабатываем небольшой catalogid: 32981 (размер: 6655)


Обработка catalogid:  63%|██████▎   | 300/478 [21:40<02:58,  1.00s/it]

Обрабатываем catalogid: 32982
Обрабатываем небольшой catalogid: 32982 (размер: 3609)


Обработка catalogid:  63%|██████▎   | 302/478 [21:41<02:11,  1.34it/s]

Обрабатываем catalogid: 32988
Обрабатываем небольшой catalogid: 32988 (размер: 283)
Обрабатываем catalogid: 32990
Обрабатываем небольшой catalogid: 32990 (размер: 288)


Обработка catalogid:  63%|██████▎   | 303/478 [21:42<01:50,  1.59it/s]

Обрабатываем catalogid: 32992
Обрабатываем небольшой catalogid: 32992 (размер: 1565)


Обработка catalogid:  64%|██████▎   | 304/478 [21:42<01:40,  1.73it/s]

Обрабатываем catalogid: 32993
Обрабатываем небольшой catalogid: 32993 (размер: 2132)


Обработка catalogid:  64%|██████▍   | 306/478 [21:43<01:19,  2.17it/s]

Обрабатываем catalogid: 32995
Обрабатываем небольшой catalogid: 32995 (размер: 193)
Обрабатываем catalogid: 32996
Обрабатываем небольшой catalogid: 32996 (размер: 14308)


Обработка catalogid:  64%|██████▍   | 307/478 [21:46<03:26,  1.21s/it]

Обрабатываем catalogid: 32997
Обрабатываем небольшой catalogid: 32997 (размер: 7900)


Обработка catalogid:  64%|██████▍   | 308/478 [21:47<03:34,  1.26s/it]

Обрабатываем catalogid: 33004
Обрабатываем небольшой catalogid: 33004 (размер: 3456)


Обработка catalogid:  65%|██████▍   | 309/478 [21:48<03:18,  1.18s/it]

Обрабатываем catalogid: 33020
Обрабатываем небольшой catalogid: 33020 (размер: 5563)


Обработка catalogid:  65%|██████▌   | 311/478 [21:50<02:28,  1.13it/s]

Обрабатываем catalogid: 33045
Обрабатываем небольшой catalogid: 33045 (размер: 366)
Обрабатываем catalogid: 33071
Обрабатываем небольшой catalogid: 33071 (размер: 601)


Обработка catalogid:  65%|██████▌   | 313/478 [21:50<01:28,  1.87it/s]

Обрабатываем catalogid: 33119
Обрабатываем небольшой catalogid: 33119 (размер: 182)
Обрабатываем catalogid: 33246
Обрабатываем небольшой catalogid: 33246 (размер: 3653)


Обработка catalogid:  66%|██████▌   | 315/478 [21:51<01:31,  1.79it/s]

Обрабатываем catalogid: 33696
Обрабатываем небольшой catalogid: 33696 (размер: 500)
Обрабатываем catalogid: 33698
Обрабатываем небольшой catalogid: 33698 (размер: 87)


Обработка catalogid:  66%|██████▋   | 317/478 [21:52<00:53,  2.99it/s]

Обрабатываем catalogid: 33773
Обрабатываем небольшой catalogid: 33773 (размер: 201)
Обрабатываем catalogid: 33794
Обрабатываем небольшой catalogid: 33794 (размер: 3209)


Обработка catalogid:  67%|██████▋   | 318/478 [21:52<01:13,  2.18it/s]

Обрабатываем catalogid: 33796
Обрабатываем небольшой catalogid: 33796 (размер: 1873)


Обработка catalogid:  67%|██████▋   | 319/478 [21:53<01:16,  2.08it/s]

Обрабатываем catalogid: 33824
Обрабатываем небольшой catalogid: 33824 (размер: 595)


Обработка catalogid:  67%|██████▋   | 320/478 [21:53<01:04,  2.44it/s]

Обрабатываем catalogid: 33825
Обрабатываем небольшой catalogid: 33825 (размер: 516)


Обработка catalogid:  67%|██████▋   | 321/478 [21:54<01:25,  1.83it/s]

Обрабатываем catalogid: 34238
Обрабатываем небольшой catalogid: 34238 (размер: 1133)


Обработка catalogid:  67%|██████▋   | 322/478 [21:55<01:54,  1.36it/s]

Обрабатываем catalogid: 34319
Обрабатываем небольшой catalogid: 34319 (размер: 836)


Обработка catalogid:  68%|██████▊   | 323/478 [21:56<01:53,  1.36it/s]

Обрабатываем catalogid: 34518
Обрабатываем небольшой catalogid: 34518 (размер: 1713)


Обработка catalogid:  68%|██████▊   | 324/478 [21:56<01:38,  1.56it/s]

Обрабатываем catalogid: 34590
Обрабатываем небольшой catalogid: 34590 (размер: 1247)


Обработка catalogid:  68%|██████▊   | 325/478 [21:58<02:03,  1.24it/s]

Обрабатываем catalogid: 34602
Обрабатываем небольшой catalogid: 34602 (размер: 1411)


Обработка catalogid:  68%|██████▊   | 327/478 [21:58<01:17,  1.94it/s]

Обрабатываем catalogid: 34988
Обрабатываем небольшой catalogid: 34988 (размер: 268)
Обрабатываем catalogid: 34989
Обрабатываем небольшой catalogid: 34989 (размер: 3898)


Обработка catalogid:  69%|██████▊   | 328/478 [21:59<01:30,  1.65it/s]

Обрабатываем catalogid: 35119
Обрабатываем небольшой catalogid: 35119 (размер: 1)
Предупреждение: name_vec имеет недостаточно признаков для SVD
Предупреждение: desc_vec имеет недостаточно признаков для SVD
Предупреждение: эмбеддинги имеют недостаточно признаков для PCA
Обрабатываем catalogid: 35126
Обрабатываем небольшой catalogid: 35126 (размер: 54)
Обрабатываем catalogid: 35278
Обрабатываем небольшой catalogid: 35278 (размер: 368)


Обработка catalogid:  69%|██████▉   | 331/478 [21:59<00:48,  3.05it/s]

Обрабатываем catalogid: 35308
Обрабатываем небольшой catalogid: 35308 (размер: 2301)


Обработка catalogid:  69%|██████▉   | 332/478 [22:00<00:55,  2.61it/s]

Обрабатываем catalogid: 35643
Обрабатываем небольшой catalogid: 35643 (размер: 5330)


Обработка catalogid:  70%|██████▉   | 333/478 [22:01<01:17,  1.88it/s]

Обрабатываем catalogid: 35910
Обрабатываем небольшой catalogid: 35910 (размер: 805)


Обработка catalogid:  70%|██████▉   | 334/478 [22:01<01:06,  2.17it/s]

Обрабатываем catalogid: 36089
Обрабатываем небольшой catalogid: 36089 (размер: 368)


Обработка catalogid:  70%|███████   | 335/478 [22:01<00:57,  2.51it/s]

Обрабатываем catalogid: 36096
Обрабатываем небольшой catalogid: 36096 (размер: 9718)


Обработка catalogid:  70%|███████   | 336/478 [22:03<01:51,  1.28it/s]

Обрабатываем catalogid: 36120
Обрабатываем небольшой catalogid: 36120 (размер: 4818)


Обработка catalogid:  71%|███████   | 337/478 [22:04<01:53,  1.25it/s]

Обрабатываем catalogid: 36142
Обрабатываем небольшой catalogid: 36142 (размер: 39909)


Обработка catalogid:  71%|███████   | 338/478 [22:12<06:25,  2.75s/it]

Обрабатываем catalogid: 36145
Обрабатываем небольшой catalogid: 36145 (размер: 9647)


Обработка catalogid:  71%|███████   | 339/478 [22:14<06:01,  2.60s/it]

Обрабатываем catalogid: 36147
Обрабатываем небольшой catalogid: 36147 (размер: 3314)


Обработка catalogid:  71%|███████▏  | 341/478 [22:15<03:20,  1.46s/it]

Обрабатываем catalogid: 36179
Обрабатываем небольшой catalogid: 36179 (размер: 177)
Обрабатываем catalogid: 36306
Обрабатываем небольшой catalogid: 36306 (размер: 13130)


Обработка catalogid:  72%|███████▏  | 342/478 [22:17<03:56,  1.74s/it]

Обрабатываем catalogid: 36407
Обрабатываем небольшой catalogid: 36407 (размер: 39038)


Обработка catalogid:  72%|███████▏  | 343/478 [22:26<08:41,  3.86s/it]

Обрабатываем catalogid: 36462
Обрабатываем небольшой catalogid: 36462 (размер: 3773)


Обработка catalogid:  72%|███████▏  | 344/478 [22:27<06:50,  3.06s/it]

Обрабатываем catalogid: 36470
Обрабатываем небольшой catalogid: 36470 (размер: 14166)


Обработка catalogid:  72%|███████▏  | 345/478 [22:29<06:12,  2.80s/it]

Обрабатываем catalogid: 36471
Обрабатываем небольшой catalogid: 36471 (размер: 30733)


Обработка catalogid:  72%|███████▏  | 346/478 [22:36<08:43,  3.97s/it]

Обрабатываем catalogid: 36472
Обрабатываем небольшой catalogid: 36472 (размер: 8253)


Обработка catalogid:  73%|███████▎  | 347/478 [22:38<07:09,  3.28s/it]

Обрабатываем catalogid: 36484
Обрабатываем большой catalogid: 36484 (размер: 225336)
Сбор статистики для обучения преобразователей...
Обучение преобразователей...
Определение размерности финальных векторов...
Размерность финальных векторов: 2942
Первый проход: вычисление статистики для нормализации...


Сбор статистики: 100%|██████████| 46/46 [00:17<00:00,  2.67it/s]


Второй проход: нормализация и сохранение...


Нормализация и сохранение: 100%|██████████| 46/46 [00:22<00:00,  2.03it/s]
Обработка catalogid:  73%|███████▎  | 348/478 [23:31<39:56, 18.43s/it]

Обработка с нормализацией завершена. Векторы сохранены в: ./result_vectors/36484_vectors.npy
Обрабатываем catalogid: 36497
Обрабатываем небольшой catalogid: 36497 (размер: 8746)


Обработка catalogid:  73%|███████▎  | 349/478 [23:33<28:39, 13.33s/it]

Обрабатываем catalogid: 36499
Обрабатываем небольшой catalogid: 36499 (размер: 3692)


Обработка catalogid:  73%|███████▎  | 350/478 [23:34<20:26,  9.58s/it]

Обрабатываем catalogid: 36509
Обрабатываем небольшой catalogid: 36509 (размер: 2125)


Обработка catalogid:  74%|███████▎  | 352/478 [23:34<10:11,  4.86s/it]

Обрабатываем catalogid: 36510
Обрабатываем небольшой catalogid: 36510 (размер: 191)
Обрабатываем catalogid: 36513
Обрабатываем небольшой catalogid: 36513 (размер: 26416)


Обработка catalogid:  74%|███████▍  | 353/478 [23:41<11:18,  5.43s/it]

Обрабатываем catalogid: 36514
Обрабатываем небольшой catalogid: 36514 (размер: 11304)


Обработка catalogid:  74%|███████▍  | 354/478 [23:43<09:05,  4.40s/it]

Обрабатываем catalogid: 36517
Обрабатываем небольшой catalogid: 36517 (размер: 12100)


Обработка catalogid:  74%|███████▍  | 355/478 [23:45<07:29,  3.65s/it]

Обрабатываем catalogid: 36522
Обрабатываем небольшой catalogid: 36522 (размер: 980)


Обработка catalogid:  75%|███████▍  | 357/478 [23:46<03:50,  1.91s/it]

Обрабатываем catalogid: 36526
Обрабатываем небольшой catalogid: 36526 (размер: 787)
Обрабатываем catalogid: 36530
Обрабатываем небольшой catalogid: 36530 (размер: 3779)


Обработка catalogid:  75%|███████▍  | 358/478 [23:46<03:03,  1.53s/it]

Обрабатываем catalogid: 36536
Обрабатываем небольшой catalogid: 36536 (размер: 11109)


Обработка catalogid:  75%|███████▌  | 359/478 [23:48<03:24,  1.72s/it]

Обрабатываем catalogid: 36546
Обрабатываем небольшой catalogid: 36546 (размер: 8173)


Обработка catalogid:  75%|███████▌  | 360/478 [23:50<03:15,  1.66s/it]

Обрабатываем catalogid: 36557
Обрабатываем небольшой catalogid: 36557 (размер: 7823)


Обработка catalogid:  76%|███████▌  | 361/478 [23:51<03:06,  1.59s/it]

Обрабатываем catalogid: 36559
Обрабатываем небольшой catalogid: 36559 (размер: 808)


Обработка catalogid:  76%|███████▌  | 362/478 [23:52<02:17,  1.18s/it]

Обрабатываем catalogid: 36560
Обрабатываем небольшой catalogid: 36560 (размер: 154)
Обрабатываем catalogid: 36563
Обрабатываем небольшой catalogid: 36563 (размер: 26363)


Обработка catalogid:  76%|███████▌  | 364/478 [23:57<03:39,  1.92s/it]

Обрабатываем catalogid: 36578
Обрабатываем небольшой catalogid: 36578 (размер: 11921)


Обработка catalogid:  76%|███████▋  | 365/478 [24:00<03:52,  2.06s/it]

Обрабатываем catalogid: 36594
Обрабатываем небольшой catalogid: 36594 (размер: 5641)


Обработка catalogid:  77%|███████▋  | 366/478 [24:01<03:17,  1.76s/it]

Обрабатываем catalogid: 36597
Обрабатываем большой catalogid: 36597 (размер: 58872)
Сбор статистики для обучения преобразователей...
Обучение преобразователей...
Определение размерности финальных векторов...
Размерность финальных векторов: 1919
Первый проход: вычисление статистики для нормализации...


Сбор статистики: 100%|██████████| 12/12 [00:04<00:00,  2.50it/s]


Второй проход: нормализация и сохранение...


Нормализация и сохранение: 100%|██████████| 12/12 [00:05<00:00,  2.17it/s]
Обработка catalogid:  77%|███████▋  | 367/478 [24:16<09:58,  5.39s/it]

Обработка с нормализацией завершена. Векторы сохранены в: ./result_vectors/36597_vectors.npy
Обрабатываем catalogid: 36608
Обрабатываем небольшой catalogid: 36608 (размер: 16979)


Обработка catalogid:  77%|███████▋  | 368/478 [24:19<08:47,  4.79s/it]

Обрабатываем catalogid: 36617
Обрабатываем небольшой catalogid: 36617 (размер: 41783)


Обработка catalogid:  77%|███████▋  | 369/478 [24:27<10:40,  5.88s/it]

Обрабатываем catalogid: 36620
Обрабатываем небольшой catalogid: 36620 (размер: 11655)


Обработка catalogid:  77%|███████▋  | 370/478 [24:30<08:56,  4.97s/it]

Обрабатываем catalogid: 36624
Обрабатываем большой catalogid: 36624 (размер: 55967)
Сбор статистики для обучения преобразователей...
Обучение преобразователей...
Определение размерности финальных векторов...
Размерность финальных векторов: 1917
Первый проход: вычисление статистики для нормализации...


Сбор статистики: 100%|██████████| 12/12 [00:04<00:00,  2.65it/s]


Второй проход: нормализация и сохранение...


Нормализация и сохранение: 100%|██████████| 12/12 [00:05<00:00,  2.10it/s]
Обработка catalogid:  78%|███████▊  | 371/478 [24:45<14:01,  7.86s/it]

Обработка с нормализацией завершена. Векторы сохранены в: ./result_vectors/36624_vectors.npy
Обрабатываем catalogid: 36641
Обрабатываем небольшой catalogid: 36641 (размер: 9410)


Обработка catalogid:  78%|███████▊  | 372/478 [24:47<10:33,  5.98s/it]

Обрабатываем catalogid: 36644
Обрабатываем небольшой catalogid: 36644 (размер: 2739)


Обработка catalogid:  78%|███████▊  | 373/478 [24:47<07:38,  4.37s/it]

Обрабатываем catalogid: 36645
Обрабатываем небольшой catalogid: 36645 (размер: 689)


Обработка catalogid:  78%|███████▊  | 374/478 [24:47<05:26,  3.14s/it]

Обрабатываем catalogid: 36646
Обрабатываем небольшой catalogid: 36646 (размер: 995)


Обработка catalogid:  78%|███████▊  | 375/478 [24:48<03:55,  2.29s/it]

Обрабатываем catalogid: 36647
Обрабатываем небольшой catalogid: 36647 (размер: 4666)


Обработка catalogid:  79%|███████▉  | 377/478 [24:49<02:22,  1.41s/it]

Обрабатываем catalogid: 36648
Обрабатываем небольшой catalogid: 36648 (размер: 433)
Обрабатываем catalogid: 36649
Обрабатываем небольшой catalogid: 36649 (размер: 4119)


Обработка catalogid:  79%|███████▉  | 378/478 [24:50<02:06,  1.27s/it]

Обрабатываем catalogid: 36665
Обрабатываем небольшой catalogid: 36665 (размер: 11670)


Обработка catalogid:  79%|███████▉  | 379/478 [24:52<02:31,  1.53s/it]

Обрабатываем catalogid: 36672
Обрабатываем небольшой catalogid: 36672 (размер: 1883)


Обработка catalogid:  79%|███████▉  | 380/478 [24:52<01:59,  1.22s/it]

Обрабатываем catalogid: 36673
Обрабатываем небольшой catalogid: 36673 (размер: 1714)


Обработка catalogid:  80%|███████▉  | 381/478 [24:53<01:33,  1.04it/s]

Обрабатываем catalogid: 36692
Обрабатываем небольшой catalogid: 36692 (размер: 5640)


Обработка catalogid:  80%|███████▉  | 382/478 [24:54<01:33,  1.02it/s]

Обрабатываем catalogid: 36693
Обрабатываем небольшой catalogid: 36693 (размер: 3520)


Обработка catalogid:  80%|████████  | 383/478 [24:55<01:27,  1.08it/s]

Обрабатываем catalogid: 36706
Обрабатываем небольшой catalogid: 36706 (размер: 7893)


Обработка catalogid:  80%|████████  | 384/478 [24:56<01:46,  1.14s/it]

Обрабатываем catalogid: 36707
Обрабатываем небольшой catalogid: 36707 (размер: 6899)


Обработка catalogid:  81%|████████  | 385/478 [24:58<01:54,  1.23s/it]

Обрабатываем catalogid: 36710
Обрабатываем небольшой catalogid: 36710 (размер: 2093)


Обработка catalogid:  81%|████████  | 386/478 [24:58<01:36,  1.05s/it]

Обрабатываем catalogid: 36712
Обрабатываем небольшой catalogid: 36712 (размер: 2064)


Обработка catalogid:  81%|████████  | 387/478 [24:59<01:22,  1.10it/s]

Обрабатываем catalogid: 36713
Обрабатываем небольшой catalogid: 36713 (размер: 5721)


Обработка catalogid:  81%|████████  | 388/478 [25:00<01:29,  1.01it/s]

Обрабатываем catalogid: 36717
Обрабатываем небольшой catalogid: 36717 (размер: 6773)


Обработка catalogid:  81%|████████▏ | 389/478 [25:01<01:37,  1.09s/it]

Обрабатываем catalogid: 36718
Обрабатываем небольшой catalogid: 36718 (размер: 7126)


Обработка catalogid:  82%|████████▏ | 390/478 [25:03<01:47,  1.22s/it]

Обрабатываем catalogid: 36719
Обрабатываем небольшой catalogid: 36719 (размер: 3788)


Обработка catalogid:  82%|████████▏ | 391/478 [25:04<01:48,  1.25s/it]

Обрабатываем catalogid: 36723
Обрабатываем большой catalogid: 36723 (размер: 57944)
Сбор статистики для обучения преобразователей...
Обучение преобразователей...
Определение размерности финальных векторов...
Размерность финальных векторов: 2544
Первый проход: вычисление статистики для нормализации...


Сбор статистики: 100%|██████████| 12/12 [00:04<00:00,  2.41it/s]


Второй проход: нормализация и сохранение...


Нормализация и сохранение: 100%|██████████| 12/12 [00:05<00:00,  2.09it/s]
Обработка catalogid:  82%|████████▏ | 392/478 [25:20<08:07,  5.67s/it]

Обработка с нормализацией завершена. Векторы сохранены в: ./result_vectors/36723_vectors.npy
Обрабатываем catalogid: 36727
Обрабатываем небольшой catalogid: 36727 (размер: 2607)


Обработка catalogid:  82%|████████▏ | 393/478 [25:21<05:52,  4.15s/it]

Обрабатываем catalogid: 36729
Обрабатываем небольшой catalogid: 36729 (размер: 20634)


Обработка catalogid:  82%|████████▏ | 394/478 [25:25<05:52,  4.20s/it]

Обрабатываем catalogid: 36730
Обрабатываем небольшой catalogid: 36730 (размер: 22562)


Обработка catalogid:  83%|████████▎ | 395/478 [25:31<06:18,  4.55s/it]

Обрабатываем catalogid: 36731
Обрабатываем небольшой catalogid: 36731 (размер: 17435)


Обработка catalogid:  83%|████████▎ | 396/478 [25:35<06:01,  4.41s/it]

Обрабатываем catalogid: 36734
Обрабатываем небольшой catalogid: 36734 (размер: 25115)


Обработка catalogid:  83%|████████▎ | 397/478 [25:41<06:35,  4.88s/it]

Обрабатываем catalogid: 36735
Обрабатываем небольшой catalogid: 36735 (размер: 6053)


Обработка catalogid:  83%|████████▎ | 398/478 [25:43<05:28,  4.10s/it]

Обрабатываем catalogid: 36736
Обрабатываем небольшой catalogid: 36736 (размер: 9086)


Обработка catalogid:  83%|████████▎ | 399/478 [25:45<04:41,  3.56s/it]

Обрабатываем catalogid: 36737
Обрабатываем небольшой catalogid: 36737 (размер: 1227)


Обработка catalogid:  84%|████████▎ | 400/478 [25:46<03:23,  2.61s/it]

Обрабатываем catalogid: 36738
Обрабатываем небольшой catalogid: 36738 (размер: 12102)


Обработка catalogid:  84%|████████▍ | 401/478 [25:48<03:21,  2.61s/it]

Обрабатываем catalogid: 36739
Обрабатываем небольшой catalogid: 36739 (размер: 29486)


Обработка catalogid:  84%|████████▍ | 402/478 [25:55<04:43,  3.72s/it]

Обрабатываем catalogid: 36741
Обрабатываем небольшой catalogid: 36741 (размер: 33429)


Обработка catalogid:  84%|████████▍ | 403/478 [26:03<06:32,  5.23s/it]

Обрабатываем catalogid: 36742
Обрабатываем небольшой catalogid: 36742 (размер: 17724)


Обработка catalogid:  85%|████████▍ | 404/478 [26:08<06:14,  5.06s/it]

Обрабатываем catalogid: 36745
Обрабатываем большой catalogid: 36745 (размер: 80570)
Сбор статистики для обучения преобразователей...
Обучение преобразователей...
Определение размерности финальных векторов...
Размерность финальных векторов: 3402
Первый проход: вычисление статистики для нормализации...


Сбор статистики: 100%|██████████| 17/17 [00:08<00:00,  2.02it/s]


Второй проход: нормализация и сохранение...


Нормализация и сохранение: 100%|██████████| 17/17 [00:10<00:00,  1.62it/s]
Обработка catalogid:  85%|████████▍ | 405/478 [26:34<13:57, 11.48s/it]

Обработка с нормализацией завершена. Векторы сохранены в: ./result_vectors/36745_vectors.npy
Обрабатываем catalogid: 36748
Обрабатываем небольшой catalogid: 36748 (размер: 1818)


Обработка catalogid:  85%|████████▍ | 406/478 [26:35<09:47,  8.16s/it]

Обрабатываем catalogid: 36749
Обрабатываем небольшой catalogid: 36749 (размер: 2388)


Обработка catalogid:  85%|████████▌ | 407/478 [26:35<06:57,  5.88s/it]

Обрабатываем catalogid: 36750
Обрабатываем небольшой catalogid: 36750 (размер: 6529)


Обработка catalogid:  85%|████████▌ | 408/478 [26:37<05:17,  4.54s/it]

Обрабатываем catalogid: 36755
Обрабатываем небольшой catalogid: 36755 (размер: 30396)


Обработка catalogid:  86%|████████▌ | 410/478 [26:43<03:55,  3.46s/it]

Обрабатываем catalogid: 36811
Обрабатываем небольшой catalogid: 36811 (размер: 125)
Обрабатываем catalogid: 36941
Обрабатываем небольшой catalogid: 36941 (размер: 2681)


Обработка catalogid:  86%|████████▌ | 412/478 [26:43<02:03,  1.87s/it]

Обрабатываем catalogid: 36942
Обрабатываем небольшой catalogid: 36942 (размер: 547)
Обрабатываем catalogid: 37052
Обрабатываем небольшой catalogid: 37052 (размер: 4933)


Обработка catalogid:  86%|████████▋ | 413/478 [26:44<01:42,  1.58s/it]

Обрабатываем catalogid: 37053
Обрабатываем небольшой catalogid: 37053 (размер: 4698)


Обработка catalogid:  87%|████████▋ | 414/478 [26:45<01:26,  1.35s/it]

Обрабатываем catalogid: 37073
Обрабатываем небольшой catalogid: 37073 (размер: 16)
Обрабатываем catalogid: 37074
Обрабатываем небольшой catalogid: 37074 (размер: 13)
Обрабатываем catalogid: 37350
Обрабатываем небольшой catalogid: 37350 (размер: 2189)


Обработка catalogid:  87%|████████▋ | 417/478 [26:46<00:42,  1.42it/s]

Обрабатываем catalogid: 37414
Обрабатываем небольшой catalogid: 37414 (размер: 811)


Обработка catalogid:  87%|████████▋ | 418/478 [26:46<00:36,  1.65it/s]

Обрабатываем catalogid: 37571
Обрабатываем небольшой catalogid: 37571 (размер: 8)
Обрабатываем catalogid: 37733
Обрабатываем небольшой catalogid: 37733 (размер: 995)


Обработка catalogid:  88%|████████▊ | 420/478 [26:46<00:25,  2.30it/s]

Обрабатываем catalogid: 37946
Обрабатываем небольшой catalogid: 37946 (размер: 869)


Обработка catalogid:  88%|████████▊ | 421/478 [26:47<00:23,  2.39it/s]

Обрабатываем catalogid: 38006
Обрабатываем небольшой catalogid: 38006 (размер: 924)


Обработка catalogid:  88%|████████▊ | 422/478 [26:47<00:20,  2.68it/s]

Обрабатываем catalogid: 38027
Обрабатываем небольшой catalogid: 38027 (размер: 46)
Обрабатываем catalogid: 38107
Обрабатываем небольшой catalogid: 38107 (размер: 23576)


Обработка catalogid:  89%|████████▊ | 424/478 [26:51<01:00,  1.12s/it]

Обрабатываем catalogid: 38157
Обрабатываем небольшой catalogid: 38157 (размер: 13748)


Обработка catalogid:  89%|████████▉ | 425/478 [26:55<01:26,  1.64s/it]

Обрабатываем catalogid: 38210
Обрабатываем небольшой catalogid: 38210 (размер: 28554)


Обработка catalogid:  89%|████████▉ | 426/478 [27:00<02:16,  2.62s/it]

Обрабатываем catalogid: 38294
Обрабатываем небольшой catalogid: 38294 (размер: 2)
Обрабатываем catalogid: 38309
Обрабатываем небольшой catalogid: 38309 (размер: 456)


Обработка catalogid:  90%|████████▉ | 428/478 [27:01<01:22,  1.64s/it]

Обрабатываем catalogid: 38711
Обрабатываем небольшой catalogid: 38711 (размер: 1)
Предупреждение: name_vec имеет недостаточно признаков для SVD
Предупреждение: desc_vec имеет недостаточно признаков для SVD
Предупреждение: эмбеддинги имеют недостаточно признаков для PCA
Обрабатываем catalogid: 39417
Обрабатываем небольшой catalogid: 39417 (размер: 7032)


Обработка catalogid:  90%|████████▉ | 430/478 [27:02<01:02,  1.31s/it]

Обрабатываем catalogid: 39418
Обрабатываем небольшой catalogid: 39418 (размер: 3462)


Обработка catalogid:  90%|█████████ | 431/478 [27:03<00:56,  1.21s/it]

Обрабатываем catalogid: 39420
Обрабатываем небольшой catalogid: 39420 (размер: 1313)


Обработка catalogid:  90%|█████████ | 432/478 [27:04<00:46,  1.02s/it]

Обрабатываем catalogid: 39423
Обрабатываем небольшой catalogid: 39423 (размер: 617)


Обработка catalogid:  91%|█████████ | 434/478 [27:04<00:29,  1.47it/s]

Обрабатываем catalogid: 39885
Обрабатываем небольшой catalogid: 39885 (размер: 241)
Обрабатываем catalogid: 39920
Обрабатываем небольшой catalogid: 39920 (размер: 1402)


Обработка catalogid:  91%|█████████ | 435/478 [27:04<00:25,  1.67it/s]

Обрабатываем catalogid: 39924
Обрабатываем небольшой catalogid: 39924 (размер: 1428)


Обработка catalogid:  91%|█████████ | 436/478 [27:05<00:23,  1.80it/s]

Обрабатываем catalogid: 39925
Обрабатываем небольшой catalogid: 39925 (размер: 7396)


Обработка catalogid:  91%|█████████▏| 437/478 [27:06<00:32,  1.25it/s]

Обрабатываем catalogid: 6307000
Обрабатываем небольшой catalogid: 6307000 (размер: 10)
Обрабатываем catalogid: 6629000
Обрабатываем небольшой catalogid: 6629000 (размер: 9)
Обрабатываем catalogid: 6631000
Обрабатываем небольшой catalogid: 6631000 (размер: 3)
Обрабатываем catalogid: 7512000
Обрабатываем небольшой catalogid: 7512000 (размер: 8784)


Обработка catalogid:  92%|█████████▏| 441/478 [27:08<00:22,  1.63it/s]

Обрабатываем catalogid: 7538000
Обрабатываем небольшой catalogid: 7538000 (размер: 140)
Обрабатываем catalogid: 7557000
Обрабатываем небольшой catalogid: 7557000 (размер: 38815)


Обработка catalogid:  93%|█████████▎| 443/478 [27:18<01:08,  1.96s/it]

Обрабатываем catalogid: 7579000
Обрабатываем небольшой catalogid: 7579000 (размер: 89)


Обработка catalogid:  94%|█████████▎| 448/478 [27:19<00:24,  1.20it/s]

Обрабатываем catalogid: 7641000
Обрабатываем небольшой catalogid: 7641000 (размер: 16)
Обрабатываем catalogid: 7646000
Обрабатываем небольшой catalogid: 7646000 (размер: 1)
Предупреждение: name_vec имеет недостаточно признаков для SVD
Предупреждение: desc_vec имеет недостаточно признаков для SVD
Предупреждение: эмбеддинги имеют недостаточно признаков для PCA
Обрабатываем catalogid: 7666000
Обрабатываем небольшой catalogid: 7666000 (размер: 11)
Обрабатываем catalogid: 7667000
Обрабатываем небольшой catalogid: 7667000 (размер: 19)
Обрабатываем catalogid: 7697000
Обрабатываем небольшой catalogid: 7697000 (размер: 326)


Обработка catalogid:  94%|█████████▍| 450/478 [27:19<00:19,  1.44it/s]

Обрабатываем catalogid: 7709000
Обрабатываем небольшой catalogid: 7709000 (размер: 67)
Обрабатываем catalogid: 15097000
Обрабатываем небольшой catalogid: 15097000 (размер: 42)


Обработка catalogid:  95%|█████████▍| 454/478 [27:20<00:09,  2.60it/s]

Обрабатываем catalogid: 30613000
Обрабатываем небольшой catalogid: 30613000 (размер: 43)
Обрабатываем catalogid: 31311000
Обрабатываем небольшой catalogid: 31311000 (размер: 4)
Обрабатываем catalogid: 31577000
Обрабатываем небольшой catalogid: 31577000 (размер: 42)
Обрабатываем catalogid: 33331000
Обрабатываем небольшой catalogid: 33331000 (размер: 24)
Обрабатываем catalogid: 36410000
Обрабатываем небольшой catalogid: 36410000 (размер: 30)


Обработка catalogid:  96%|█████████▌| 458/478 [27:20<01:11,  3.58s/it]


Обрабатываем catalogid: 36471000
Обрабатываем небольшой catalogid: 36471000 (размер: 21)
Обрабатываем catalogid: 36683000
Обрабатываем небольшой catalogid: 36683000 (размер: 31)
Обрабатываем catalogid: 36697000
Обрабатываем небольшой catalogid: 36697000 (размер: 1)


ValueError: empty vocabulary; perhaps the documents only contain stop words

#### Открываем npz от items по подкатегориям

#### Функции записи ближайших соседей item_ids

In [2]:
OUTPUT_DIR = './result_vectors/1'
NEIGHBORS_DIR = './nearest_neighbors'
TOP_K = 50

# Создаем директории
os.makedirs(NEIGHBORS_DIR, exist_ok=True)

class NumpyEncoder(json.JSONEncoder):
    """Кастомный JSON encoder для обработки numpy типов"""
    def default(self, obj):
        if isinstance(obj, (np.integer, np.int32, np.int64)):
            return int(obj)
        elif isinstance(obj, (np.floating, np.float32, np.float64)):
            return float(obj)
        elif isinstance(obj, np.ndarray):
            return obj.tolist()
        elif isinstance(obj, np.bool_):
            return bool(obj)
        return super().default(obj)

def load_vectors(catalog_id):
    """Загружает векторы для catalogid"""
    vectors_path = f"{OUTPUT_DIR}/{catalog_id}_vectors.npy"
    item_ids_path = f"{OUTPUT_DIR}/{catalog_id}_item_ids.npy"
    metadata_path = f"{OUTPUT_DIR}/{catalog_id}_metadata.json"
    
    if os.path.exists(vectors_path) and os.path.exists(item_ids_path):
        with open(metadata_path, 'r') as f:
            metadata = json.load(f)
        
        vectors = np.memmap(vectors_path, dtype=metadata['dtype'], mode='r',
                           shape=(metadata['n_samples'], metadata['n_features']))
        item_ids = np.memmap(item_ids_path, dtype='int64', mode='r',
                            shape=(metadata['n_samples'],))
        
        # Конвертируем в обычные numpy arrays для обработки в памяти
        vectors = np.array(vectors)
        item_ids = np.array(item_ids)
        
        return vectors, item_ids
    
    parquet_path = f"{OUTPUT_DIR}/{catalog_id}_vectors.parquet"
    if os.path.exists(parquet_path):
        df = pd.read_parquet(parquet_path)
        vectors = np.vstack(df['vector'].values)
        item_ids = df['item_id'].values
        return vectors, item_ids
    
    raise FileNotFoundError(f"Векторы для catalogid {catalog_id} не найдены")

def split_data(vectors, item_ids):
    """Разделяет данные пополам"""
    n_samples = len(vectors)
    mid = n_samples // 2
    
    vectors_1, item_ids_1 = vectors[:mid], item_ids[:mid]
    vectors_2, item_ids_2 = vectors[mid:], item_ids[mid:]
    
    return vectors_1, item_ids_1, vectors_2, item_ids_2

def clean_vectors(vectors, item_ids):
    """Очищает векторы от NaN значений и фильтрует валидные данные"""
    # Проверяем на NaN значения
    valid_mask = ~np.isnan(vectors).any(axis=1)
    
    if not np.any(valid_mask):
        print("Все векторы содержат NaN значения")
        return None, None
    
    if np.sum(~valid_mask) > 0:
        print(f"Удалено {np.sum(~valid_mask)} векторов с NaN значениями")
    
    clean_vectors = vectors[valid_mask]
    clean_item_ids = item_ids[valid_mask]
    
    return clean_vectors, clean_item_ids

def find_nearest_neighbors(catalog_id, vectors, item_ids):
    """Находит ближайших соседей по косинусной близости"""
    print(f"Поиск ближайших соседей для catalogid: {catalog_id} (размер: {len(vectors)})")
    
    # Очищаем векторы от NaN
    vectors_clean, item_ids_clean = clean_vectors(vectors, item_ids)
    
    if vectors_clean is None or len(vectors_clean) == 0:
        print(f"Нет валидных векторов для catalogid {catalog_id}")
        return {}
    
    if len(vectors_clean) <= TOP_K + 1:
        print(f"Маленький catalogid {catalog_id}, используем попарное сравнение")
        return find_neighbors_small_catalog(vectors_clean, item_ids_clean, catalog_id)
    
    # Нормализуем векторы для косинусного сходства
    norms = np.linalg.norm(vectors_clean, axis=1, keepdims=True)
    norms[norms == 0] = 1  # Избегаем деления на ноль
    vectors_normalized = vectors_clean / norms
    
    # Используем NearestNeighbors для эффективного поиска
    n_neighbors = min(TOP_K + 1, len(vectors_clean))
    nbrs = NearestNeighbors(n_neighbors=n_neighbors, metric='cosine', algorithm='brute')
    nbrs.fit(vectors_normalized)
    
    # Находим ближайших соседей
    distances, indices = nbrs.kneighbors(vectors_normalized)
    
    # Создаем словарь с результатами
    neighbors_dict = {}
    
    for i in tqdm(range(len(vectors_clean)), desc=f"Обработка товаров {catalog_id}"):
        # Пропускаем самого себя (первый элемент - сам товар)
        neighbor_indices = indices[i][1:n_neighbors]
        neighbor_distances = 1 - distances[i][1:n_neighbors]  # cosine distance -> similarity
        
        neighbor_item_ids = item_ids_clean[neighbor_indices]
        
        # Конвертируем numpy типы в стандартные Python типы
        item_id_key = str(int(item_ids_clean[i]))  # Гарантируем, что ключ - строка
        neighbors_dict[item_id_key] = {
            'neighbors': [int(x) for x in neighbor_item_ids],  # Конвертируем в int
            'similarities': [float(x) for x in neighbor_distances],  # Конвертируем в float
            'catalog_id': catalog_id
        }
    
    return neighbors_dict

def find_neighbors_small_catalog(vectors, item_ids, catalog_id):
    """Поиск соседей для маленьких catalogid через попарное сравнение"""
    print(f"Попарное сравнение для маленького catalogid {catalog_id}")
    
    if len(vectors) == 1:
        # Если только один вектор, возвращаем пустой список соседей
        return {str(int(item_ids[0])): {
            'neighbors': [],
            'similarities': [],
            'catalog_id': catalog_id
        }}
    
    # Вычисляем попарные косинусные схожести
    similarities = cosine_similarity(vectors)
    np.fill_diagonal(similarities, -1)  # Исключаем самосравнение
    
    neighbors_dict = {}
    
    for i in range(len(vectors)):
        # Получаем индексы TOP_K самых похожих товаров
        n_neighbors = min(TOP_K, len(vectors) - 1)  # Не больше чем доступно соседей
        top_indices = np.argsort(similarities[i])[-n_neighbors:][::-1]
        top_similarities = similarities[i][top_indices]
        top_item_ids = item_ids[top_indices]
        
        item_id_key = str(int(item_ids[i]))  # Гарантируем, что ключ - строка
        neighbors_dict[item_id_key] = {
            'neighbors': [int(x) for x in top_item_ids],  # Конвертируем в int
            'similarities': [float(x) for x in top_similarities],  # Конвертируем в float
            'catalog_id': catalog_id
        }
    
    return neighbors_dict

def save_neighbors(catalog_id, neighbors_dict):
    """Сохраняет результаты поиска соседей"""
    if not neighbors_dict:
        print(f"Нет данных для сохранения catalogid {catalog_id}")
        return
    
    # Сохраняем в JSON с кастомным encoder'ом
    output_path = f"{NEIGHBORS_DIR}/{catalog_id}_neighbors.json"
    
    with open(output_path, 'w') as f:
        json.dump(neighbors_dict, f, cls=NumpyEncoder, indent=2)
    
    # Также сохраняем в parquet для аналитики
    parquet_data = []
    for item_id_str, data in neighbors_dict.items():
        item_id = int(item_id_str)
        for i, (neighbor_id, similarity) in enumerate(zip(data['neighbors'], data['similarities'])):
            parquet_data.append({
                'catalog_id': catalog_id,
                'item_id': item_id,
                'neighbor_item_id': neighbor_id,
                'similarity_score': similarity,
                'rank': i + 1
            })
    
    if parquet_data:
        df = pd.DataFrame(parquet_data)
        df.to_parquet(f"{NEIGHBORS_DIR}/{catalog_id}_neighbors.parquet", index=False)
    
    print(f"Сохранено {len(neighbors_dict)} записей для catalogid {catalog_id}")

def process_catalog_neighbors(catalog_id):
    """Обрабатывает поиск соседей для одного catalogid"""
    try:
        print(f"Обрабатываем catalogid: {catalog_id}")
        
        # Загружаем векторы
        vectors, item_ids = load_vectors(catalog_id)
        vectors_1, item_ids_1, vectors_2, item_ids_2 = split_data(vectors, item_ids)
        # if len(vectors) == 0:
        #     print(f"Пустой catalogid: {catalog_id}")
        #     return False
        
        # Находим ближайших соседей
        neighbors_dict_1 = find_nearest_neighbors(catalog_id, vectors_1, item_ids_1)
        
        # Сохраняем результаты
        save_neighbors(catalog_id, neighbors_dict_1)
        neighbors_dict_2 = find_nearest_neighbors(catalog_id, vectors_2, item_ids_2)
        catalog_id = catalog_id + '_2'
        save_neighbors(catalog_id, neighbors_dict_2)
        
        return True
        
    except Exception as e:
        print(f"Ошибка при обработке catalogid {catalog_id}: {e}")
        import traceback
        traceback.print_exc()
        return False

def create_index_files():
    """Создает индексные файлы для быстрого доступа"""
    print("Создание индексных файлов...")
    
    index_data = {}
    
    for filename in os.listdir(NEIGHBORS_DIR):
        if filename.endswith('_neighbors.json'):
            catalog_id = filename.replace('_neighbors.json', '')
            file_path = f"{NEIGHBORS_DIR}/{filename}"
            
            try:
                # Получаем статистику файла
                file_size = os.path.getsize(file_path)
                with open(file_path, 'r') as f:
                    data = json.load(f)
                    item_count = len(data)
                
                index_data[catalog_id] = {
                    'neighbors_file': filename,
                    'parquet_file': filename.replace('.json', '.parquet'),
                    'file_size_mb': round(file_size / (1024 * 1024), 2),
                    'item_count': item_count
                }
            except Exception as e:
                print(f"Ошибка при обработке файла {filename}: {e}")
                continue
    
    # Сохраняем индекс
    with open(f"{NEIGHBORS_DIR}/index.json", 'w') as f:
        json.dump(index_data, f, indent=2)
    
    print("Индексные файлы созданы")

def get_neighbors(catalog_id, item_id):
    """Функция для получения ближайших соседей по запросу"""
    neighbors_file = f"{NEIGHBORS_DIR}/{catalog_id}_neighbors.json"
    
    if not os.path.exists(neighbors_file):
        return None
    
    try:
        with open(neighbors_file, 'r') as f:
            neighbors_data = json.load(f)
        
        item_id_str = str(item_id)
        return neighbors_data.get(item_id_str)
    
    except json.JSONDecodeError as e:
        print(f"Ошибка чтения JSON файла {neighbors_file}: {e}")
        return None
    except Exception as e:
        print(f"Ошибка при чтении файла: {e}")
        return None

# Дополнительные утилиты
def analyze_catalog(catalog_id):
    """Анализирует catalogid и показывает статистику"""
    vectors, item_ids = load_vectors(catalog_id)
    print(f"Catalog {catalog_id}: {len(vectors)} векторов")
    
    if len(vectors) > 0:
        # Проверяем на NaN
        nan_count = np.isnan(vectors).any(axis=1).sum()
        print(f"Векторов с NaN: {nan_count}")
        
        # Проверяем на нулевые векторы
        zero_count = np.all(vectors == 0, axis=1).sum()
        print(f"Нулевых векторов: {zero_count}")


In [None]:
processed_catalogs = []
for filename in os.listdir(OUTPUT_DIR):
    if filename.endswith('_vectors.parquet') or filename.endswith('_vectors.npy'):
        catalog_id = filename.replace('_vectors.parquet', '').replace('_vectors.npy', '')
        if catalog_id not in processed_catalogs:
            processed_catalogs.append(catalog_id)

print(f"Найдено {len(processed_catalogs)} catalogid для обработки")

# Обрабатываем каждый catalogid
success_count = 0
for catalog_id in tqdm(processed_catalogs, desc="Поиск ближайших соседей"):
    if process_catalog_neighbors(catalog_id):
        success_count += 1

# Создаем индексные файлы
create_index_files()

print(f"Обработка завершена. Успешно обработано: {success_count}/{len(processed_catalogs)} catalogid")

Найдено 1 catalogid для обработки


Поиск ближайших соседей:   0%|          | 0/1 [00:00<?, ?it/s]

Обрабатываем catalogid: 7559
Поиск ближайших соседей для catalogid: 7559 (размер: 206818)


Обработка товаров 7559: 100%|██████████| 206818/206818 [00:03<00:00, 64206.47it/s]


Сохранено 197546 записей для catalogid 7559
Поиск ближайших соседей для catalogid: 7559 (размер: 206819)


Обработка товаров 7559: 100%|██████████| 206819/206819 [00:06<00:00, 32821.14it/s]


Сохранено 197537 записей для catalogid 7559_2


Поиск ближайших соседей: 100%|██████████| 1/1 [1:43:20<00:00, 6200.68s/it]


Создание индексных файлов...


Exception ignored in: <bound method IPythonKernel._clean_thread_parent_frames of <ipykernel.ipkernel.IPythonKernel object at 0x0000021998E89BE0>>
Traceback (most recent call last):
  File "c:\Users\UseR\AppData\Local\Programs\Python\Python313\Lib\site-packages\ipykernel\ipkernel.py", line 790, in _clean_thread_parent_frames
    active_threads = {thread.ident for thread in threading.enumerate()}
  File "c:\Users\UseR\AppData\Local\Programs\Python\Python313\Lib\threading.py", line 1477, in enumerate
    def enumerate():
KeyboardInterrupt: 


In [21]:
items_df[items_df['catalogid'] == 7777]

Unnamed: 0,item_id,itemname,attributes,fclip_embed,catalogid,variant_id,model_id
47453,314869015,"Формодержатели для обуви, подпружиненные, две ...","[{'attribute_name': 'Type', 'attribute_value':...","[-0.20060442, -0.22965711, -0.13158977, 0.6714...",7777,266358188,33300984
66829,335138445,Колодки для обуви 2 шт,"[{'attribute_name': 'Type', 'attribute_value':...","[0.54418254, -0.97065365, -0.44515547, 0.47434...",7777,161703987,365171
81054,28764690,44-45р. Колодки для обуви деревянные,"[{'attribute_name': 'Type', 'attribute_value':...","[0.5395479, -1.0622078, -0.48082113, 0.4074684...",7777,248376406,43171685
97225,250119073,"Колодки из красного кедра, р. 41/42, формодерж...","[{'attribute_name': 'Type', 'attribute_value':...","[0.44091186, -0.06559926, -0.28066403, 0.11426...",7777,241501565,37644112
152312,162115015,Мягкие формодержатели для обуви / Антизаломы и...,"[{'attribute_name': 'Type', 'attribute_value':...","[0.6210408, -1.0282655, -0.8357563, 0.16571093...",7777,195395764,17950766
165143,148289801,Колодки для обуви 1 шт,"[{'attribute_name': 'Type', 'attribute_value':...","[0.30978912, -0.9236857, -0.58002585, 0.188936...",7777,153866471,9048513
174299,177241601,Колодки для обуви 1 шт,"[{'attribute_name': 'Type', 'attribute_value':...","[0.0067255795, -1.3763212, -0.6828426, -0.0169...",7777,212554308,28986473
185290,12590245,"Растяжитель для обуви, винтовой, Колодки, Раст...","[{'attribute_name': 'Type', 'attribute_value':...","[0.12749772, -0.75848657, -0.43669933, -0.0377...",7777,251846990,14443245


In [None]:
items_df

Unnamed: 0,item_id,itemname,attributes,fclip_embed,catalogid,variant_id,model_id
0,400301,Очки солнцезащитные,"[{'attribute_name': 'Type', 'attribute_value':...","[0.32023853, 0.11766258, -0.784552, 0.4168199,...",17080,243954236,33306429
1,678602,Футболка GOLDUSTIM Футболка женская,"[{'attribute_name': 'Type', 'attribute_value':...","[0.4360095, 0.6339668, 0.029741853, 0.09847632...",7508,8039633,27057398
2,746401,Худи Patagonia,"[{'attribute_name': 'Type', 'attribute_value':...","[0.47452784, -0.4727797, -0.51971936, -0.08221...",7555,120078071,11645051
3,872829,"Комплект носков adidas 3S C Spw Mid 3P, 3 пары","[{'attribute_name': 'Type', 'attribute_value':...","[-0.06987186, -2.2802832, -0.5829071, -0.33674...",36563,247120069,38088455
4,893255,Жилет Buy & Style жилеты,"[{'attribute_name': 'Type', 'attribute_value':...","[0.12488763, 0.5466293, 0.29031003, 0.21499962...",7535,327822613,19339929
...,...,...,...,...,...,...,...
643817,337511737,Брюки Koton,"[{'attribute_name': 'Type', 'attribute_value':...","[0.24482095, 0.9870064, 0.022553533, 0.534935,...",7512,27632331,38304950
643818,338025745,Брюки SELA,"[{'attribute_name': 'Type', 'attribute_value':...","[0.60598457, 0.7227131, 0.011865512, -0.307703...",36617,287124308,36965932
643819,338454800,Футболка,"[{'attribute_name': 'Type', 'attribute_value':...","[0.20186266, -1.0103929, -1.2348884, 0.5005319...",7508,290239692,32834089
643820,338596307,Платье Koton,"[{'attribute_name': 'Type', 'attribute_value':...","[0.071969345, 0.524616, -0.3169561, -0.290882,...",7502,319078691,24755854


In [None]:
orders_df_delivered

Unnamed: 0,item_id,user_id,created_timestamp,last_status,last_status_timestamp,created_date
0,15535,3423970,2025-01-11 19:20:02.550,delivered_orders,2025-01-16 10:53:03,2025-01-11
3,119241,2356390,2025-05-01 17:53:00.716,delivered_orders,2025-05-14 14:36:20,2025-05-01
5,119241,3470100,2025-05-15 23:54:20.860,delivered_orders,2025-05-17 15:34:40,2025-05-15
8,166547,815321,2025-02-12 19:09:39.360,delivered_orders,2025-02-14 18:04:32,2025-02-12
12,194001,3675391,2025-05-30 21:40:48.613,delivered_orders,2025-06-02 18:32:42,2025-05-30
...,...,...,...,...,...,...
18887113,339333163,2593920,2025-06-01 19:41:19.080,delivered_orders,2025-06-06 16:27:07,2025-06-01
18887114,339333163,522120,2025-03-31 05:52:03.046,delivered_orders,2025-04-07 07:27:51,2025-03-31
18887116,339333163,200191,2025-05-15 07:07:16.546,delivered_orders,2025-05-25 09:01:24,2025-05-15
18887118,339334813,2943711,2025-06-18 08:42:19.543,delivered_orders,2025-06-29 11:44:48,2025-06-18


In [None]:
orders_df_delivered[orders_df_delivered['item_id'] == 5885425]

Unnamed: 0,item_id,user_id,created_timestamp,last_status,last_status_timestamp,created_date
552,5885425,4969760,2025-04-15 20:59:31.983,delivered_orders,2025-04-21 10:26:51,2025-04-15
