In [17]:
import os
import re
import math
import json
from collections import defaultdict
from tqdm import tqdm
import psutil

In [18]:
# Конфигурация
DATASET_DIR = 'C:/Users/szlat/Hates-speech-detection/dataset'
OUTPUT_FILE = 'embeddings.json'
MIN_WORD_COUNT = 15      # Минимальная частота слова
MAX_FEATURES = 2000      # Максимальный размер словаря
CHUNK_SIZE = 500         # Размер порции обработки
KEEP_TEXT = False        # Сохранять исходный текст

In [29]:
STOPWORDS = {'и', 'в', 'не', 'на', 'я', 'с'}

In [None]:
def print_memory_usage(message):
    mem = psutil.virtual_memory()
    print(f"{message} - Используется памяти: {mem.used / (1024**3):.2f} GB")

In [30]:
def load_data(dataset_dir):
    """Загрузка данных с проверкой содержимого"""
    data = []
    labels_map = {'neg': 'negative', 'neu': 'neutral', 'pos': 'positive'}
    
    for label_dir in labels_map:
        dir_path = os.path.join(dataset_dir, label_dir)
        if not os.path.exists(dir_path):
            continue
            
        files = [f for f in os.listdir(dir_path) if f.endswith('.txt')]
        for filename in tqdm(files, desc=f'Loading {label_dir}'):
            file_path = os.path.join(dir_path, filename)
            with open(file_path, 'r', encoding='utf-8') as f:
                text = f.read().strip()
                if text:
                    data.append({
                        'text': text,
                        'label': labels_map[label_dir],
                        'filename': filename
                    })
    
    # Вывод примера для диагностики
    print("\nПример загруженного текста:")
    print(data[0]['text'][:100] + "...")
    return data

In [31]:
print("1. Загрузка данных...")
data = load_data(DATASET_DIR)
print(f"Загружено документов: {len(data)}")

1. Загрузка данных...


Loading neg: 100%|██████████| 19827/19827 [00:02<00:00, 7861.54it/s]
Loading neu: 100%|██████████| 24704/24704 [00:03<00:00, 7778.93it/s]
Loading pos: 100%|██████████| 87138/87138 [00:10<00:00, 8002.99it/s]


Пример загруженного текста:
В 2003-ем году под руководством малоизвестного режиссёра Кларка Джонсона студия 'Columbia Pictures' ...
Загружено документов: 131669





In [32]:
def preprocess_text(text):
    """Упрощенная предобработка с диагностикой"""
    words = re.findall(r'\b[а-яё]+\b', text.lower())  # Все слова без ограничения длины
    filtered = [w for w in words if w not in STOPWORDS]
    
    # Диагностика
    if len(filtered) == 0:
        print(f"\nПредупреждение: все слова отфильтрованы в тексте. Пример: {words[:5]}")
    
    return filtered

In [33]:
def build_vocabulary(data):
    """Построение словаря с подробной диагностикой"""
    word_counts = defaultdict(int)
    doc_samples = []
    
    for item in tqdm(data[:10000], desc="Анализ текстов"):  # Обрабатываем только часть для теста
        words = preprocess_text(item['text'])
        for word in words:
            word_counts[word] += 1
        if len(doc_samples) < 5 and words:
            doc_samples.append(words[:5])  # Сохраняем примеры слов
    
    print("\nПримеры найденных слов:")
    for i, sample in enumerate(doc_samples):
        print(f"Документ {i+1}: {sample}")
    
    # Анализ распределения частот
    freq_dist = sorted(word_counts.items(), key=lambda x: -x[1])
    print("\nТоп-10 самых частых слов:")
    for word, cnt in freq_dist[:10]:
        print(f"{word}: {cnt}")
    
    # Фильтрация
    filtered_words = {w for w, cnt in word_counts.items() if cnt >= MIN_WORD_COUNT}
    print(f"\nВсего слов до фильтрации: {len(word_counts)}")
    print(f"Слов после фильтрации (частотность >= {MIN_WORD_COUNT}): {len(filtered_words)}")
    
    if not filtered_words:
        print("\nКритическая ошибка: словарь пуст! Последние 10 слов:")
        print(freq_dist[-10:])
        return {}
    
    sorted_words = sorted(filtered_words, key=lambda x: -word_counts[x])[:MAX_FEATURES]
    return {word: idx for idx, word in enumerate(sorted_words)}

In [34]:
print("\n2. Построение словаря (тестовый режим)...")
vocabulary = build_vocabulary(data)
print(f"Размер словаря: {len(vocabulary)} слов")
    
if not vocabulary:
    print("\nОШИБКА: Не удалось построить словарь. Возможные причины:")
    print("- Все слова отфильтрованы стоп-словами")
    print("- Неправильная кодировка файлов (не UTF-8)")
    print("- Слишком высокий MIN_WORD_COUNT")
    print("- Ошибка в регулярном выражении для русских букв")


2. Построение словаря (тестовый режим)...


Анализ текстов: 100%|██████████| 10000/10000 [00:02<00:00, 4331.68it/s]


Примеры найденных слов:
Документ 1: ['ем', 'году', 'под', 'руководством', 'малоизвестного']
Документ 2: ['грустно', 'печально', 'грустно', 'от', 'того']
Документ 3: ['давным', 'давно', 'кира', 'найтли', 'ворвалась']
Документ 4: ['общем', 'ничего', 'против', 'уравновешенного', 'феминизма']
Документ 5: ['измена', 'один', 'из', 'сюжетов', 'который']

Топ-10 самых частых слов:
что: 52194
то: 31016
но: 30293
это: 28237
как: 27322
а: 26990
из: 23370
фильм: 21464
по: 16513
все: 16361

Всего слов до фильтрации: 185439
Слов после фильтрации (частотность >= 15): 18223
Размер словаря: 2000 слов





In [35]:
def process_chunk(chunk, vocabulary, idf):
    """Обработка порции данных"""
    embeddings = []
    for item in chunk:
        if item.get('text') is None:  # Пропускаем документы без текста
            embeddings.append([0.0]*len(vocabulary))
            continue
            
        words = preprocess_text(item['text'])
        total_words = len(words)
        
        if total_words == 0:
            embeddings.append([0.0]*len(vocabulary))
            continue
            
        word_counts = defaultdict(int)
        for word in words:
            if word in vocabulary:
                word_counts[word] += 1
        
        embedding = []
        for word in vocabulary:
            tf = word_counts.get(word, 0) / total_words
            embedding.append(tf * idf.get(word, 0))
        
        embeddings.append(embedding)
    return embeddings

In [36]:
print("\n3. Расчет IDF...")
    # Расчет IDF по всему датасету
doc_counts = defaultdict(int)
for item in tqdm(data, desc="Анализ документов"):
    if item.get('text') is not None:  # Только документы с текстом
        words = set(preprocess_text(item['text']))
        for word in words:
            if word in vocabulary:
                doc_counts[word] += 1
                    
idf = {word: math.log(len(data)/(cnt+1)) for word, cnt in doc_counts.items()}
    
print("\n4. Создание эмбеддингов...")
    # Обработка по частям
with open(OUTPUT_FILE, 'w', encoding='utf-8') as f:
    f.write('[')
    first_item = True
        
    for i in tqdm(range(0, len(data), CHUNK_SIZE), desc="Обработка"):
        chunk = data[i:i+CHUNK_SIZE]
        embeddings = process_chunk(chunk, vocabulary, idf)
            
        for item, emb in zip(chunk, embeddings):
            result = {
                'filename': item['filename'],
                'label': item['label'],
                'embedding': [float(f"{v:.4f}") for v in emb]
            }
            if KEEP_TEXT and item.get('text') is not None:
                result['text'] = item['text']
                
            if not first_item:
                f.write(',\n')
            json.dump(result, f, ensure_ascii=False)
            first_item = False
            
            # Очистка памяти
        del embeddings
        if i % (CHUNK_SIZE*2) == 0:
            print_memory_usage("Промежуточный отчет")
        
    f.write(']')
    
print_memory_usage("Завершение работы")
print(f"Результаты сохранены в {OUTPUT_FILE}")


3. Расчет IDF...


Анализ документов:  21%|██        | 27224/131669 [00:05<00:20, 5072.73it/s]


Предупреждение: все слова отфильтрованы в тексте. Пример: []

Предупреждение: все слова отфильтрованы в тексте. Пример: []


Анализ документов: 100%|██████████| 131669/131669 [00:28<00:00, 4673.27it/s]



4. Создание эмбеддингов...


Обработка:   0%|          | 1/264 [00:01<05:58,  1.36s/it]

Промежуточный отчет - Используется памяти: 9.64 GB


Обработка:   1%|          | 3/264 [00:04<05:58,  1.37s/it]

Промежуточный отчет - Используется памяти: 9.66 GB


Обработка:   2%|▏         | 5/264 [00:07<07:03,  1.63s/it]

Промежуточный отчет - Используется памяти: 9.66 GB


Обработка:   3%|▎         | 7/264 [00:10<06:18,  1.47s/it]

Промежуточный отчет - Используется памяти: 9.67 GB


Обработка:   3%|▎         | 9/264 [00:12<05:58,  1.41s/it]

Промежуточный отчет - Используется памяти: 9.68 GB


Обработка:   4%|▍         | 11/264 [00:15<05:49,  1.38s/it]

Промежуточный отчет - Используется памяти: 9.67 GB


Обработка:   5%|▍         | 13/264 [00:18<05:42,  1.36s/it]

Промежуточный отчет - Используется памяти: 9.67 GB


Обработка:   6%|▌         | 15/264 [00:21<05:35,  1.35s/it]

Промежуточный отчет - Используется памяти: 9.67 GB


Обработка:   6%|▋         | 17/264 [00:23<05:33,  1.35s/it]

Промежуточный отчет - Используется памяти: 9.67 GB


Обработка:   7%|▋         | 19/264 [00:26<05:33,  1.36s/it]

Промежуточный отчет - Используется памяти: 9.69 GB


Обработка:   8%|▊         | 21/264 [00:29<05:43,  1.41s/it]

Промежуточный отчет - Используется памяти: 9.72 GB


Обработка:   9%|▊         | 23/264 [00:32<05:59,  1.49s/it]

Промежуточный отчет - Используется памяти: 9.88 GB


Обработка:   9%|▉         | 25/264 [00:35<05:57,  1.50s/it]

Промежуточный отчет - Используется памяти: 9.93 GB


Обработка:  10%|█         | 27/264 [00:38<05:53,  1.49s/it]

Промежуточный отчет - Используется памяти: 9.95 GB


Обработка:  11%|█         | 29/264 [00:41<05:56,  1.52s/it]

Промежуточный отчет - Используется памяти: 10.01 GB


Обработка:  12%|█▏        | 31/264 [00:44<05:57,  1.53s/it]

Промежуточный отчет - Используется памяти: 9.99 GB


Обработка:  12%|█▎        | 33/264 [00:47<05:58,  1.55s/it]

Промежуточный отчет - Используется памяти: 10.05 GB


Обработка:  13%|█▎        | 35/264 [00:50<05:50,  1.53s/it]

Промежуточный отчет - Используется памяти: 10.06 GB


Обработка:  14%|█▍        | 37/264 [00:54<05:59,  1.59s/it]

Промежуточный отчет - Используется памяти: 10.11 GB


Обработка:  15%|█▍        | 39/264 [00:57<06:09,  1.64s/it]

Промежуточный отчет - Используется памяти: 10.13 GB


Обработка:  16%|█▌        | 41/264 [01:00<06:03,  1.63s/it]

Промежуточный отчет - Используется памяти: 10.14 GB


Обработка:  16%|█▋        | 43/264 [01:04<06:03,  1.64s/it]

Промежуточный отчет - Используется памяти: 10.11 GB


Обработка:  17%|█▋        | 45/264 [01:07<05:53,  1.61s/it]

Промежуточный отчет - Используется памяти: 10.17 GB


Обработка:  18%|█▊        | 47/264 [01:10<05:50,  1.61s/it]

Промежуточный отчет - Используется памяти: 10.23 GB


Обработка:  19%|█▊        | 49/264 [01:13<05:40,  1.58s/it]

Промежуточный отчет - Используется памяти: 10.27 GB


Обработка:  19%|█▉        | 51/264 [01:16<05:30,  1.55s/it]

Промежуточный отчет - Используется памяти: 10.32 GB


Обработка:  20%|██        | 53/264 [01:20<05:42,  1.62s/it]

Промежуточный отчет - Используется памяти: 10.36 GB

Предупреждение: все слова отфильтрованы в тексте. Пример: []

Предупреждение: все слова отфильтрованы в тексте. Пример: []


Обработка:  21%|██        | 55/264 [01:23<05:47,  1.66s/it]

Промежуточный отчет - Используется памяти: 10.43 GB


Обработка:  22%|██▏       | 57/264 [01:26<05:41,  1.65s/it]

Промежуточный отчет - Используется памяти: 10.52 GB


Обработка:  22%|██▏       | 59/264 [01:30<05:57,  1.75s/it]

Промежуточный отчет - Используется памяти: 10.65 GB


Обработка:  23%|██▎       | 61/264 [01:33<05:38,  1.67s/it]

Промежуточный отчет - Используется памяти: 10.55 GB


Обработка:  24%|██▍       | 63/264 [01:36<05:25,  1.62s/it]

Промежуточный отчет - Используется памяти: 10.62 GB


Обработка:  25%|██▍       | 65/264 [01:40<05:27,  1.64s/it]

Промежуточный отчет - Используется памяти: 10.53 GB


Обработка:  25%|██▌       | 67/264 [01:43<05:21,  1.63s/it]

Промежуточный отчет - Используется памяти: 10.71 GB


Обработка:  26%|██▌       | 69/264 [01:46<05:12,  1.60s/it]

Промежуточный отчет - Используется памяти: 10.76 GB


Обработка:  27%|██▋       | 71/264 [01:49<05:14,  1.63s/it]

Промежуточный отчет - Используется памяти: 10.76 GB


Обработка:  28%|██▊       | 73/264 [01:53<05:09,  1.62s/it]

Промежуточный отчет - Используется памяти: 10.80 GB


Обработка:  28%|██▊       | 75/264 [01:56<05:11,  1.65s/it]

Промежуточный отчет - Используется памяти: 10.80 GB


Обработка:  29%|██▉       | 77/264 [01:59<05:06,  1.64s/it]

Промежуточный отчет - Используется памяти: 10.59 GB


Обработка:  30%|██▉       | 79/264 [02:02<04:59,  1.62s/it]

Промежуточный отчет - Используется памяти: 10.91 GB


Обработка:  31%|███       | 81/264 [02:06<04:50,  1.59s/it]

Промежуточный отчет - Используется памяти: 10.77 GB


Обработка:  31%|███▏      | 83/264 [02:09<04:51,  1.61s/it]

Промежуточный отчет - Используется памяти: 11.00 GB


Обработка:  32%|███▏      | 85/264 [02:12<04:52,  1.63s/it]

Промежуточный отчет - Используется памяти: 10.68 GB


Обработка:  33%|███▎      | 87/264 [02:16<04:51,  1.65s/it]

Промежуточный отчет - Используется памяти: 11.00 GB


Обработка:  34%|███▎      | 89/264 [02:19<04:52,  1.67s/it]

Промежуточный отчет - Используется памяти: 10.97 GB


Обработка:  34%|███▍      | 91/264 [02:22<04:38,  1.61s/it]

Промежуточный отчет - Используется памяти: 11.04 GB


Обработка:  35%|███▌      | 93/264 [02:25<04:39,  1.63s/it]

Промежуточный отчет - Используется памяти: 11.02 GB


Обработка:  36%|███▌      | 95/264 [02:29<04:50,  1.72s/it]

Промежуточный отчет - Используется памяти: 11.12 GB


Обработка:  37%|███▋      | 97/264 [02:32<04:45,  1.71s/it]

Промежуточный отчет - Используется памяти: 11.17 GB


Обработка:  38%|███▊      | 99/264 [02:36<04:34,  1.66s/it]

Промежуточный отчет - Используется памяти: 11.20 GB


Обработка:  38%|███▊      | 101/264 [02:39<04:44,  1.74s/it]

Промежуточный отчет - Используется памяти: 11.03 GB


Обработка:  39%|███▉      | 103/264 [02:42<04:29,  1.67s/it]

Промежуточный отчет - Используется памяти: 11.10 GB


Обработка:  40%|███▉      | 105/264 [02:46<04:23,  1.66s/it]

Промежуточный отчет - Используется памяти: 10.98 GB


Обработка:  41%|████      | 107/264 [02:49<04:16,  1.63s/it]

Промежуточный отчет - Используется памяти: 11.28 GB


Обработка:  41%|████▏     | 109/264 [02:52<04:06,  1.59s/it]

Промежуточный отчет - Используется памяти: 11.28 GB


Обработка:  42%|████▏     | 111/264 [02:55<04:17,  1.68s/it]

Промежуточный отчет - Используется памяти: 11.28 GB


Обработка:  43%|████▎     | 113/264 [02:59<04:19,  1.72s/it]

Промежуточный отчет - Используется памяти: 11.19 GB


Обработка:  44%|████▎     | 115/264 [03:02<04:03,  1.63s/it]

Промежуточный отчет - Используется памяти: 11.06 GB


Обработка:  44%|████▍     | 117/264 [03:06<04:06,  1.67s/it]

Промежуточный отчет - Используется памяти: 11.44 GB


Обработка:  45%|████▌     | 119/264 [03:09<04:09,  1.72s/it]

Промежуточный отчет - Используется памяти: 11.68 GB


Обработка:  46%|████▌     | 121/264 [03:12<03:51,  1.62s/it]

Промежуточный отчет - Используется памяти: 11.25 GB


Обработка:  47%|████▋     | 123/264 [03:16<03:55,  1.67s/it]

Промежуточный отчет - Используется памяти: 11.87 GB


Обработка:  47%|████▋     | 125/264 [03:19<03:40,  1.59s/it]

Промежуточный отчет - Используется памяти: 11.45 GB


Обработка:  48%|████▊     | 127/264 [03:21<03:28,  1.52s/it]

Промежуточный отчет - Используется памяти: 11.61 GB


Обработка:  49%|████▉     | 129/264 [03:25<03:28,  1.54s/it]

Промежуточный отчет - Используется памяти: 11.48 GB


Обработка:  50%|████▉     | 131/264 [03:28<03:36,  1.63s/it]

Промежуточный отчет - Используется памяти: 11.61 GB


Обработка:  50%|█████     | 133/264 [03:31<03:32,  1.62s/it]

Промежуточный отчет - Используется памяти: 11.95 GB


Обработка:  51%|█████     | 135/264 [03:35<03:33,  1.66s/it]

Промежуточный отчет - Используется памяти: 11.96 GB


Обработка:  52%|█████▏    | 137/264 [03:38<03:30,  1.66s/it]

Промежуточный отчет - Используется памяти: 12.11 GB


Обработка:  53%|█████▎    | 139/264 [03:42<03:39,  1.76s/it]

Промежуточный отчет - Используется памяти: 12.44 GB


Обработка:  53%|█████▎    | 141/264 [03:45<03:21,  1.64s/it]

Промежуточный отчет - Используется памяти: 11.97 GB


Обработка:  54%|█████▍    | 143/264 [03:48<03:15,  1.62s/it]

Промежуточный отчет - Используется памяти: 12.16 GB


Обработка:  55%|█████▍    | 145/264 [03:51<03:13,  1.63s/it]

Промежуточный отчет - Используется памяти: 12.10 GB


Обработка:  56%|█████▌    | 147/264 [03:54<03:11,  1.63s/it]

Промежуточный отчет - Используется памяти: 12.29 GB


Обработка:  56%|█████▋    | 149/264 [03:58<03:05,  1.62s/it]

Промежуточный отчет - Используется памяти: 12.13 GB


Обработка:  57%|█████▋    | 151/264 [04:01<03:22,  1.79s/it]

Промежуточный отчет - Используется памяти: 11.98 GB


Обработка:  58%|█████▊    | 153/264 [04:05<03:17,  1.78s/it]

Промежуточный отчет - Используется памяти: 12.36 GB


Обработка:  59%|█████▊    | 155/264 [04:09<03:22,  1.86s/it]

Промежуточный отчет - Используется памяти: 12.12 GB


Обработка:  59%|█████▉    | 157/264 [04:12<03:11,  1.79s/it]

Промежуточный отчет - Используется памяти: 11.87 GB


Обработка:  60%|██████    | 159/264 [04:16<03:09,  1.80s/it]

Промежуточный отчет - Используется памяти: 12.25 GB


Обработка:  61%|██████    | 161/264 [04:19<03:01,  1.76s/it]

Промежуточный отчет - Используется памяти: 12.57 GB


Обработка:  62%|██████▏   | 163/264 [04:23<02:49,  1.67s/it]

Промежуточный отчет - Используется памяти: 12.46 GB


Обработка:  62%|██████▎   | 165/264 [04:26<02:56,  1.78s/it]

Промежуточный отчет - Используется памяти: 12.12 GB


Обработка:  63%|██████▎   | 167/264 [04:30<02:57,  1.83s/it]

Промежуточный отчет - Используется памяти: 12.52 GB


Обработка:  64%|██████▍   | 169/264 [04:34<03:01,  1.91s/it]

Промежуточный отчет - Используется памяти: 12.24 GB


Обработка:  65%|██████▍   | 171/264 [04:38<02:47,  1.80s/it]

Промежуточный отчет - Используется памяти: 12.58 GB


Обработка:  66%|██████▌   | 173/264 [04:41<02:46,  1.83s/it]

Промежуточный отчет - Используется памяти: 12.99 GB


Обработка:  66%|██████▋   | 175/264 [04:45<02:33,  1.73s/it]

Промежуточный отчет - Используется памяти: 12.65 GB


Обработка:  67%|██████▋   | 177/264 [04:48<02:40,  1.84s/it]

Промежуточный отчет - Используется памяти: 12.48 GB


Обработка:  68%|██████▊   | 179/264 [04:52<02:28,  1.75s/it]

Промежуточный отчет - Используется памяти: 12.73 GB


Обработка:  69%|██████▊   | 181/264 [04:55<02:22,  1.72s/it]

Промежуточный отчет - Используется памяти: 12.35 GB


Обработка:  69%|██████▉   | 183/264 [04:59<02:26,  1.80s/it]

Промежуточный отчет - Используется памяти: 12.60 GB


Обработка:  70%|███████   | 185/264 [05:02<02:10,  1.66s/it]

Промежуточный отчет - Используется памяти: 12.94 GB


Обработка:  71%|███████   | 187/264 [05:06<02:21,  1.83s/it]

Промежуточный отчет - Используется памяти: 12.71 GB


Обработка:  72%|███████▏  | 189/264 [05:09<02:06,  1.68s/it]

Промежуточный отчет - Используется памяти: 12.89 GB


Обработка:  72%|███████▏  | 191/264 [05:13<02:07,  1.74s/it]

Промежуточный отчет - Используется памяти: 13.23 GB


Обработка:  73%|███████▎  | 193/264 [05:17<02:10,  1.84s/it]

Промежуточный отчет - Используется памяти: 12.87 GB


Обработка:  74%|███████▍  | 195/264 [05:20<01:56,  1.69s/it]

Промежуточный отчет - Используется памяти: 12.81 GB


Обработка:  75%|███████▍  | 197/264 [05:23<01:54,  1.70s/it]

Промежуточный отчет - Используется памяти: 12.87 GB


Обработка:  75%|███████▌  | 199/264 [05:26<01:45,  1.62s/it]

Промежуточный отчет - Используется памяти: 12.86 GB


Обработка:  76%|███████▌  | 201/264 [05:29<01:42,  1.63s/it]

Промежуточный отчет - Используется памяти: 13.05 GB


Обработка:  77%|███████▋  | 203/264 [05:33<01:45,  1.73s/it]

Промежуточный отчет - Используется памяти: 12.94 GB


Обработка:  78%|███████▊  | 205/264 [05:36<01:33,  1.59s/it]

Промежуточный отчет - Используется памяти: 13.04 GB


Обработка:  78%|███████▊  | 207/264 [05:40<01:38,  1.73s/it]

Промежуточный отчет - Используется памяти: 12.59 GB


Обработка:  79%|███████▉  | 209/264 [05:43<01:35,  1.74s/it]

Промежуточный отчет - Используется памяти: 13.38 GB


Обработка:  80%|███████▉  | 211/264 [05:46<01:24,  1.60s/it]

Промежуточный отчет - Используется памяти: 13.34 GB


Обработка:  81%|████████  | 213/264 [05:49<01:18,  1.54s/it]

Промежуточный отчет - Используется памяти: 12.77 GB


Обработка:  81%|████████▏ | 215/264 [05:52<01:13,  1.50s/it]

Промежуточный отчет - Используется памяти: 12.95 GB


Обработка:  82%|████████▏ | 217/264 [05:55<01:13,  1.57s/it]

Промежуточный отчет - Используется памяти: 13.19 GB


Обработка:  83%|████████▎ | 219/264 [05:59<01:11,  1.59s/it]

Промежуточный отчет - Используется памяти: 13.03 GB


Обработка:  84%|████████▎ | 221/264 [06:01<01:05,  1.52s/it]

Промежуточный отчет - Используется памяти: 13.13 GB


Обработка:  84%|████████▍ | 223/264 [06:05<01:07,  1.65s/it]

Промежуточный отчет - Используется памяти: 13.41 GB


Обработка:  85%|████████▌ | 225/264 [06:08<01:01,  1.59s/it]

Промежуточный отчет - Используется памяти: 13.02 GB


Обработка:  86%|████████▌ | 227/264 [06:11<00:59,  1.60s/it]

Промежуточный отчет - Используется памяти: 13.28 GB


Обработка:  87%|████████▋ | 229/264 [06:15<00:57,  1.64s/it]

Промежуточный отчет - Используется памяти: 13.29 GB


Обработка:  88%|████████▊ | 231/264 [06:18<00:50,  1.54s/it]

Промежуточный отчет - Используется памяти: 12.95 GB


Обработка:  88%|████████▊ | 233/264 [06:21<00:52,  1.68s/it]

Промежуточный отчет - Используется памяти: 13.21 GB


Обработка:  89%|████████▉ | 235/264 [06:24<00:47,  1.65s/it]

Промежуточный отчет - Используется памяти: 13.08 GB


Обработка:  90%|████████▉ | 237/264 [06:27<00:42,  1.57s/it]

Промежуточный отчет - Используется памяти: 13.20 GB


Обработка:  91%|█████████ | 239/264 [06:31<00:43,  1.72s/it]

Промежуточный отчет - Используется памяти: 13.56 GB


Обработка:  91%|█████████▏| 241/264 [06:34<00:36,  1.58s/it]

Промежуточный отчет - Используется памяти: 12.59 GB


Обработка:  92%|█████████▏| 243/264 [06:37<00:32,  1.55s/it]

Промежуточный отчет - Используется памяти: 12.81 GB


Обработка:  93%|█████████▎| 245/264 [06:40<00:30,  1.62s/it]

Промежуточный отчет - Используется памяти: 13.23 GB


Обработка:  94%|█████████▎| 247/264 [06:43<00:26,  1.54s/it]

Промежуточный отчет - Используется памяти: 12.70 GB


Обработка:  94%|█████████▍| 249/264 [06:47<00:24,  1.62s/it]

Промежуточный отчет - Используется памяти: 12.82 GB


Обработка:  95%|█████████▌| 251/264 [06:50<00:21,  1.68s/it]

Промежуточный отчет - Используется памяти: 13.25 GB


Обработка:  96%|█████████▌| 253/264 [06:53<00:17,  1.56s/it]

Промежуточный отчет - Используется памяти: 12.82 GB


Обработка:  97%|█████████▋| 255/264 [06:56<00:13,  1.55s/it]

Промежуточный отчет - Используется памяти: 13.03 GB


Обработка:  97%|█████████▋| 257/264 [07:00<00:11,  1.66s/it]

Промежуточный отчет - Используется памяти: 13.44 GB


Обработка:  98%|█████████▊| 259/264 [07:03<00:07,  1.60s/it]

Промежуточный отчет - Используется памяти: 12.97 GB


Обработка:  99%|█████████▉| 261/264 [07:06<00:04,  1.60s/it]

Промежуточный отчет - Используется памяти: 13.13 GB


Обработка: 100%|█████████▉| 263/264 [07:10<00:01,  1.73s/it]

Промежуточный отчет - Используется памяти: 13.24 GB


Обработка: 100%|██████████| 264/264 [07:10<00:00,  1.63s/it]

Завершение работы - Используется памяти: 13.42 GB
Результаты сохранены в embeddings.json



