# Восстановление пробелов в тексте

В этом ноутбуке мы решаем задачу: дан текст без пробелов, нужно автоматически восстановить их.
Подход:

* собираем данные из Википедии и Ленты (чистый литературный текст) и Авито (реальные объявления с ошибками);

* готовим пары «слитный текст → правильный текст»;

* строим символьный словарь и датасет;

* обучаем BiLSTM-модель в два этапа (сначала на чистом тексте, потом на смеси с Авито);

* подбираем порог для вставки пробелов;

* используем постпроцессинг (морфология, бренды, пунктуация), чтобы улучшить результат;

* получаем финальные предсказания и формируем submission.csv.

### Установка зависимостей

In [1]:
!pip -q install "transformers>=4.42" "datasets>=2.19" accelerate sentencepiece pyarrow kagglehub wikiextractor torch torchtext pymorphy3
!pip -q install wordfreq

[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/46.4 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m46.4/46.4 kB[0m [31m4.4 MB/s[0m eta [36m0:00:00[0m
[?25h[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/2.0 MB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m89.7 MB/s[0m eta [36m0:00:00[0m
[?25h[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/54.1 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m54.1/54.1 kB[0m [31m5.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.4/8.4 MB[0m [31m147.8 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m56.8/56.8 MB[0m [31m17.7 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m4

### Импорты и базовые настройки
seed = 42 зафиксирован для воспроизводимости полученных результатов при повторном обучении/оценке

In [2]:
import os, re, glob, json, random, string, math, gc
from functools import lru_cache
from typing import List, Tuple

import numpy as np
import pandas as pd
from tqdm.auto import tqdm

import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.utils.data import Dataset, DataLoader

from datasets import load_dataset, concatenate_datasets
import kagglehub

from wordfreq import zipf_frequency
import pymorphy3

seed = 42
os.environ["PYTHONHASHSEED"] = str(seed)
random.seed(seed)
np.random.seed(seed)
torch.manual_seed(seed)
torch.cuda.manual_seed_all(seed)

device = "cuda" if torch.cuda.is_available() else "cpu"
device

'cuda'

### Текстовые утилиты и фильтры

* norm_spaces — нормализует пробелы: заменяет нестандартные
символы пробела на обычный и сжимает повторяющиеся пробелы в один. Нужно, чтобы текст был чистым и единообразным.

* filter_chars — оставляет только допустимые буквы, цифры и основные знаки препинания, удаляя всё остальное. Нужно для очистки данных от мусора (эмодзи, спецсимволов).

* prepare_line — применяет фильтрацию и нормализацию пробелов, а потом выбрасывает слишком короткие или длинные строки. Нужно, чтобы в выборке оставались только адекватные примеры для обучения.

* remove_spaces — убирает все пробелы из строки. Нужно, чтобы получить «слитный» текст — вход модели.

* positions_from_spaced — вычисляет индексы, где стоят пробелы (считая только символы без пробелов). Нужно, чтобы иметь разметку правильных позиций пробелов.

* make_pairs — из списка текстов формирует пары (слитный_текст, нормальный_текст) для строк подходящей длины. Нужно, чтобы подготовить обучающие примеры.

* f1_pair — считает F1-метрику между предсказанными и истинными позициями пробелов. Нужно, чтобы измерять качество модели (баланс точности и полноты).

In [3]:
def norm_spaces(t: str) -> str:
    return re.sub(r"\s+", " ", t.replace("\u00A0"," ").replace("\u200b"," ").replace("\t"," ")).strip()

def filter_chars(text: str) -> str:
    allowed = set(
        string.ascii_letters + string.digits +
        "абвгдеёжзийклмнопрстуфхцчшщьыъэюя" +
        "АБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЬЫЪЭЮЯ" +
        " .,:;!?-—–()«»„“…/%#\"'+"
    )
    return "".join(ch for ch in text if ch in allowed or ch.isspace())

def prepare_line(text: str, min_len=15, max_len=160) -> str:
    text = filter_chars(text); text = norm_spaces(text)
    return text if (min_len <= len(text) <= max_len) else ""

def remove_spaces(s: str) -> str:
    return s.replace(" ", "")

def positions_from_spaced(spaced: str):
    pos, c = [], 0
    for ch in spaced:
        if ch == " ":
            pos.append(c)
        else:
            c += 1
    return pos

def make_pairs(texts, min_len=15, max_len=160):
    pairs = []
    for t in texts:
        if not t:
            continue
        s = remove_spaces(t)
        if min_len <= len(s) <= max_len:
            pairs.append((s, t))
    return pairs

def f1_pair(pred_positions, true_positions):
    ps, ts = set(pred_positions), set(true_positions)
    if not ps and not ts: return 1.0
    if not ps or not ts:  return 0.0
    inter=len(ps&ts); p=inter/len(ps); r=inter/len(ts)
    return 0.0 if p+r==0 else 2*p*r/(p+r)



### Загрузка данных (Avito, Lenta, Wikipedia)

Формируем обучающую выборку из трёх разных источников:

Грамотная литература:

* Википедия — самая свежая версия русской Википедии (август 2025). Это максимально формальный стиль, хороший источник правильного языка.

* Лента.ру — новости. Здесь стиль менее формальный, чем у Википедии, но при этом язык остаётся литературным. Такой корпус даёт модели больше разнообразия, ближе к разговорному, но без грубых ошибок.

Доменные данные:

* Avito — данные с Avito ML Cup. Здесь встречаются именно такие тексты, для которых мы хотим обучить модель: объявления с опечатками, слитным написанием и пропущенными пробелами. Это приближает выборку к реальной задаче.

In [4]:
avito_path = kagglehub.dataset_download("antonoof/avito-data")

def load_avito_base_description(folder: str, cap: int = 150_000):
    files = sorted(glob.glob(os.path.join(folder, "**", "*.parquet"), recursive=True))
    seen = set(); out = []
    for fp in tqdm(files, desc="read parquet"):
        try:
            df = pd.read_parquet(fp, columns=["base_description"])
        except Exception as e:
            print("skip", fp, "->", e); continue
        for t in df["base_description"].dropna().astype(str):
            t = prepare_line(t)
            if not t: continue
            k = remove_spaces(t).lower()
            if k in seen: continue
            seen.add(k); out.append(t)
            if len(out) >= cap: break
        if len(out) >= cap: break
    random.Random(seed).shuffle(out)
    return out

avito_texts = load_avito_base_description(avito_path, cap=150_000)
len(avito_texts), avito_texts[:3]

Using Colab cache for faster access to the 'avito-data' dataset.


read parquet:   0%|          | 0/6 [00:00<?, ?it/s]

(150000,
 ['В обычном paбочем cоcтоянии, нa меcте можно пpовеpить. 88 чиповый.',
  'Пpодaм готовую кapтину по номеpaм. Рaзмеp 40х50',
  'Чёpное плaтье откpытой cпиной. Подчеpкнёт вaшу индивидуaльноcть плaтье новое. Рaзмеpы: SML , мaломеpит.'])

In [5]:
lenta_path = kagglehub.dataset_download("yutkin/corpus-of-russian-news-articles-from-lenta")

def read_lenta_texts_from_kaggle(root: str, limit=300_000):
    csvs = sorted(glob.glob(os.path.join(root, "**/*.csv"), recursive=True))
    seen = set(); out = []
    for csv in csvs:
        for chunk in pd.read_csv(csv, usecols=["text", "title"], chunksize=50_000):
            for t in chunk["text"].dropna().astype(str):
                for sent in re.split(r"[.!?]|\n", t):
                    s = prepare_line(sent)
                    if not s:
                        continue
                    k = remove_spaces(s).lower()
                    if k in seen:
                        continue
                    seen.add(k); out.append(s)
                    if len(out) >= limit:
                        random.Random(seed).shuffle(out)
                        return out
    random.Random(seed).shuffle(out)
    return out

lenta_texts = read_lenta_texts_from_kaggle(lenta_path, limit=300_000)
len(lenta_texts), lenta_texts[:3]

Using Colab cache for faster access to the 'corpus-of-russian-news-articles-from-lenta' dataset.


(300000,
 ['Разборку самолета по контракту с Пентагоном осуществляет техническая группа из 6 сотрудников американской аэрокосмической корпорации Lockheed Martin',
  'Ястржембский снова подчеркнул, что корреспондент радио "Свобода" жив и здоров, сославшись при этом на данные радиоперехватов',
  'Одобренный в субботу документ будет дорабатываться в течение месяца, после чего поступит на подпись к премьер-министру Михаилу Касьянову'])

In [6]:
def load_ruwiki_sentences_from_hf(limit=300_000, seed=seed):
    seen, out = set(), []
    ds = load_dataset("omarkamali/wikipedia-monthly", "20250801.ru", split="train")
    for ex in ds:
        text = ex.get("text", "")
        for sent in re.split(r"[.!?]|\n", text):
            s = prepare_line(sent)
            if not s:
                continue
            k = remove_spaces(s).lower()
            if k in seen:
                continue
            seen.add(k); out.append(s)
            if len(out) >= limit:
                random.Random(seed).shuffle(out)
                return out
    random.Random(seed).shuffle(out)
    return out

wiki_texts = load_ruwiki_sentences_from_hf(limit=300_000)
len(wiki_texts), wiki_texts[:3]

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


README.md: 0.00B [00:00, ?B/s]

Resolving data files:   0%|          | 0/412 [00:00<?, ?it/s]

Downloading data:   0%|          | 0/412 [00:00<?, ?files/s]

20250801/ru/train/train_part_000.parquet:   0%|          | 0.00/61.7M [00:00<?, ?B/s]

20250801/ru/train/train_part_001.parquet:   0%|          | 0.00/59.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_002.parquet:   0%|          | 0.00/50.8M [00:00<?, ?B/s]

20250801/ru/train/train_part_003.parquet:   0%|          | 0.00/44.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_004.parquet:   0%|          | 0.00/32.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_005.parquet:   0%|          | 0.00/35.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_006.parquet:   0%|          | 0.00/40.0M [00:00<?, ?B/s]

20250801/ru/train/train_part_007.parquet:   0%|          | 0.00/36.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_008.parquet:   0%|          | 0.00/24.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_009.parquet:   0%|          | 0.00/38.9M [00:00<?, ?B/s]

20250801/ru/train/train_part_010.parquet:   0%|          | 0.00/32.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_011.parquet:   0%|          | 0.00/29.9M [00:00<?, ?B/s]

20250801/ru/train/train_part_012.parquet:   0%|          | 0.00/33.9M [00:00<?, ?B/s]

20250801/ru/train/train_part_013.parquet:   0%|          | 0.00/33.7M [00:00<?, ?B/s]

20250801/ru/train/train_part_014.parquet:   0%|          | 0.00/8.64M [00:00<?, ?B/s]

20250801/ru/train/train_part_015.parquet:   0%|          | 0.00/19.4M [00:00<?, ?B/s]

20250801/ru/train/train_part_016.parquet:   0%|          | 0.00/26.8M [00:00<?, ?B/s]

20250801/ru/train/train_part_017.parquet:   0%|          | 0.00/31.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_018.parquet:   0%|          | 0.00/30.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_019.parquet:   0%|          | 0.00/28.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_020.parquet:   0%|          | 0.00/28.0M [00:00<?, ?B/s]

20250801/ru/train/train_part_021.parquet:   0%|          | 0.00/27.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_022.parquet:   0%|          | 0.00/27.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_023.parquet:   0%|          | 0.00/14.9M [00:00<?, ?B/s]

20250801/ru/train/train_part_024.parquet:   0%|          | 0.00/10.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_025.parquet:   0%|          | 0.00/21.0M [00:00<?, ?B/s]

20250801/ru/train/train_part_026.parquet:   0%|          | 0.00/20.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_027.parquet:   0%|          | 0.00/6.75M [00:00<?, ?B/s]

20250801/ru/train/train_part_028.parquet:   0%|          | 0.00/4.41M [00:00<?, ?B/s]

20250801/ru/train/train_part_029.parquet:   0%|          | 0.00/9.21M [00:00<?, ?B/s]

20250801/ru/train/train_part_030.parquet:   0%|          | 0.00/12.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_031.parquet:   0%|          | 0.00/17.9M [00:00<?, ?B/s]

20250801/ru/train/train_part_032.parquet:   0%|          | 0.00/24.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_033.parquet:   0%|          | 0.00/18.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_034.parquet:   0%|          | 0.00/12.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_035.parquet:   0%|          | 0.00/21.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_036.parquet:   0%|          | 0.00/21.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_037.parquet:   0%|          | 0.00/23.2M [00:00<?, ?B/s]

20250801/ru/train/train_part_038.parquet:   0%|          | 0.00/19.8M [00:00<?, ?B/s]

20250801/ru/train/train_part_039.parquet:   0%|          | 0.00/22.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_040.parquet:   0%|          | 0.00/17.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_041.parquet:   0%|          | 0.00/22.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_042.parquet:   0%|          | 0.00/22.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_043.parquet:   0%|          | 0.00/19.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_044.parquet:   0%|          | 0.00/20.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_045.parquet:   0%|          | 0.00/19.2M [00:00<?, ?B/s]

20250801/ru/train/train_part_046.parquet:   0%|          | 0.00/20.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_047.parquet:   0%|          | 0.00/3.75M [00:00<?, ?B/s]

20250801/ru/train/train_part_048.parquet:   0%|          | 0.00/7.73M [00:00<?, ?B/s]

20250801/ru/train/train_part_049.parquet:   0%|          | 0.00/15.2M [00:00<?, ?B/s]

20250801/ru/train/train_part_050.parquet:   0%|          | 0.00/14.8M [00:00<?, ?B/s]

20250801/ru/train/train_part_051.parquet:   0%|          | 0.00/8.14M [00:00<?, ?B/s]

20250801/ru/train/train_part_052.parquet:   0%|          | 0.00/14.0M [00:00<?, ?B/s]

20250801/ru/train/train_part_053.parquet:   0%|          | 0.00/6.03M [00:00<?, ?B/s]

20250801/ru/train/train_part_054.parquet:   0%|          | 0.00/6.02M [00:00<?, ?B/s]

20250801/ru/train/train_part_055.parquet:   0%|          | 0.00/7.03M [00:00<?, ?B/s]

20250801/ru/train/train_part_056.parquet:   0%|          | 0.00/16.4M [00:00<?, ?B/s]

20250801/ru/train/train_part_057.parquet:   0%|          | 0.00/18.9M [00:00<?, ?B/s]

20250801/ru/train/train_part_058.parquet:   0%|          | 0.00/19.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_059.parquet:   0%|          | 0.00/17.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_060.parquet:   0%|          | 0.00/20.4M [00:00<?, ?B/s]

20250801/ru/train/train_part_061.parquet:   0%|          | 0.00/19.2M [00:00<?, ?B/s]

20250801/ru/train/train_part_062.parquet:   0%|          | 0.00/20.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_063.parquet:   0%|          | 0.00/16.9M [00:00<?, ?B/s]

20250801/ru/train/train_part_064.parquet:   0%|          | 0.00/17.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_065.parquet:   0%|          | 0.00/19.9M [00:00<?, ?B/s]

20250801/ru/train/train_part_066.parquet:   0%|          | 0.00/17.4M [00:00<?, ?B/s]

20250801/ru/train/train_part_067.parquet:   0%|          | 0.00/19.0M [00:00<?, ?B/s]

20250801/ru/train/train_part_068.parquet:   0%|          | 0.00/19.0M [00:00<?, ?B/s]

20250801/ru/train/train_part_069.parquet:   0%|          | 0.00/12.8M [00:00<?, ?B/s]

20250801/ru/train/train_part_070.parquet:   0%|          | 0.00/15.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_071.parquet:   0%|          | 0.00/19.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_072.parquet:   0%|          | 0.00/18.0M [00:00<?, ?B/s]

20250801/ru/train/train_part_073.parquet:   0%|          | 0.00/17.8M [00:00<?, ?B/s]

20250801/ru/train/train_part_074.parquet:   0%|          | 0.00/17.9M [00:00<?, ?B/s]

20250801/ru/train/train_part_075.parquet:   0%|          | 0.00/18.7M [00:00<?, ?B/s]

20250801/ru/train/train_part_076.parquet:   0%|          | 0.00/14.8M [00:00<?, ?B/s]

20250801/ru/train/train_part_077.parquet:   0%|          | 0.00/11.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_078.parquet:   0%|          | 0.00/16.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_079.parquet:   0%|          | 0.00/17.4M [00:00<?, ?B/s]

20250801/ru/train/train_part_080.parquet:   0%|          | 0.00/6.60M [00:00<?, ?B/s]

20250801/ru/train/train_part_081.parquet:   0%|          | 0.00/16.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_082.parquet:   0%|          | 0.00/17.7M [00:00<?, ?B/s]

20250801/ru/train/train_part_083.parquet:   0%|          | 0.00/16.8M [00:00<?, ?B/s]

20250801/ru/train/train_part_084.parquet:   0%|          | 0.00/15.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_085.parquet:   0%|          | 0.00/15.9M [00:00<?, ?B/s]

20250801/ru/train/train_part_086.parquet:   0%|          | 0.00/16.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_087.parquet:   0%|          | 0.00/15.2M [00:00<?, ?B/s]

20250801/ru/train/train_part_088.parquet:   0%|          | 0.00/13.4M [00:00<?, ?B/s]

20250801/ru/train/train_part_089.parquet:   0%|          | 0.00/13.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_090.parquet:   0%|          | 0.00/12.9M [00:00<?, ?B/s]

20250801/ru/train/train_part_091.parquet:   0%|          | 0.00/15.9M [00:00<?, ?B/s]

20250801/ru/train/train_part_092.parquet:   0%|          | 0.00/11.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_093.parquet:   0%|          | 0.00/14.7M [00:00<?, ?B/s]

20250801/ru/train/train_part_094.parquet:   0%|          | 0.00/15.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_095.parquet:   0%|          | 0.00/15.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_096.parquet:   0%|          | 0.00/13.4M [00:00<?, ?B/s]

20250801/ru/train/train_part_097.parquet:   0%|          | 0.00/14.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_098.parquet:   0%|          | 0.00/15.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_099.parquet:   0%|          | 0.00/14.8M [00:00<?, ?B/s]

20250801/ru/train/train_part_100.parquet:   0%|          | 0.00/9.97M [00:00<?, ?B/s]

20250801/ru/train/train_part_101.parquet:   0%|          | 0.00/7.75M [00:00<?, ?B/s]

20250801/ru/train/train_part_102.parquet:   0%|          | 0.00/14.7M [00:00<?, ?B/s]

20250801/ru/train/train_part_103.parquet:   0%|          | 0.00/15.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_104.parquet:   0%|          | 0.00/14.4M [00:00<?, ?B/s]

20250801/ru/train/train_part_105.parquet:   0%|          | 0.00/14.4M [00:00<?, ?B/s]

20250801/ru/train/train_part_106.parquet:   0%|          | 0.00/14.8M [00:00<?, ?B/s]

20250801/ru/train/train_part_107.parquet:   0%|          | 0.00/12.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_108.parquet:   0%|          | 0.00/12.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_109.parquet:   0%|          | 0.00/13.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_110.parquet:   0%|          | 0.00/14.4M [00:00<?, ?B/s]

20250801/ru/train/train_part_111.parquet:   0%|          | 0.00/13.0M [00:00<?, ?B/s]

20250801/ru/train/train_part_112.parquet:   0%|          | 0.00/10.8M [00:00<?, ?B/s]

20250801/ru/train/train_part_113.parquet:   0%|          | 0.00/13.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_114.parquet:   0%|          | 0.00/13.7M [00:00<?, ?B/s]

20250801/ru/train/train_part_115.parquet:   0%|          | 0.00/7.19M [00:00<?, ?B/s]

20250801/ru/train/train_part_116.parquet:   0%|          | 0.00/9.11M [00:00<?, ?B/s]

20250801/ru/train/train_part_117.parquet:   0%|          | 0.00/14.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_118.parquet:   0%|          | 0.00/12.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_119.parquet:   0%|          | 0.00/10.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_120.parquet:   0%|          | 0.00/11.4M [00:00<?, ?B/s]

20250801/ru/train/train_part_121.parquet:   0%|          | 0.00/11.4M [00:00<?, ?B/s]

20250801/ru/train/train_part_122.parquet:   0%|          | 0.00/10.9M [00:00<?, ?B/s]

20250801/ru/train/train_part_123.parquet:   0%|          | 0.00/10.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_124.parquet:   0%|          | 0.00/13.0M [00:00<?, ?B/s]

20250801/ru/train/train_part_125.parquet:   0%|          | 0.00/11.7M [00:00<?, ?B/s]

20250801/ru/train/train_part_126.parquet:   0%|          | 0.00/15.2M [00:00<?, ?B/s]

20250801/ru/train/train_part_127.parquet:   0%|          | 0.00/14.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_128.parquet:   0%|          | 0.00/11.8M [00:00<?, ?B/s]

20250801/ru/train/train_part_129.parquet:   0%|          | 0.00/11.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_130.parquet:   0%|          | 0.00/2.02M [00:00<?, ?B/s]

20250801/ru/train/train_part_131.parquet:   0%|          | 0.00/4.55M [00:00<?, ?B/s]

20250801/ru/train/train_part_132.parquet:   0%|          | 0.00/14.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_133.parquet:   0%|          | 0.00/7.79M [00:00<?, ?B/s]

20250801/ru/train/train_part_134.parquet:   0%|          | 0.00/9.26M [00:00<?, ?B/s]

20250801/ru/train/train_part_135.parquet:   0%|          | 0.00/12.0M [00:00<?, ?B/s]

20250801/ru/train/train_part_136.parquet:   0%|          | 0.00/13.0M [00:00<?, ?B/s]

20250801/ru/train/train_part_137.parquet:   0%|          | 0.00/13.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_138.parquet:   0%|          | 0.00/15.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_139.parquet:   0%|          | 0.00/13.0M [00:00<?, ?B/s]

20250801/ru/train/train_part_140.parquet:   0%|          | 0.00/13.9M [00:00<?, ?B/s]

20250801/ru/train/train_part_141.parquet:   0%|          | 0.00/13.7M [00:00<?, ?B/s]

20250801/ru/train/train_part_142.parquet:   0%|          | 0.00/10.8M [00:00<?, ?B/s]

20250801/ru/train/train_part_143.parquet:   0%|          | 0.00/12.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_144.parquet:   0%|          | 0.00/8.76M [00:00<?, ?B/s]

20250801/ru/train/train_part_145.parquet:   0%|          | 0.00/2.32M [00:00<?, ?B/s]

20250801/ru/train/train_part_146.parquet:   0%|          | 0.00/11.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_147.parquet:   0%|          | 0.00/11.2M [00:00<?, ?B/s]

20250801/ru/train/train_part_148.parquet:   0%|          | 0.00/12.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_149.parquet:   0%|          | 0.00/13.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_150.parquet:   0%|          | 0.00/11.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_151.parquet:   0%|          | 0.00/12.9M [00:00<?, ?B/s]

20250801/ru/train/train_part_152.parquet:   0%|          | 0.00/11.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_153.parquet:   0%|          | 0.00/10.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_154.parquet:   0%|          | 0.00/13.0M [00:00<?, ?B/s]

20250801/ru/train/train_part_155.parquet:   0%|          | 0.00/10.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_156.parquet:   0%|          | 0.00/14.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_157.parquet:   0%|          | 0.00/14.7M [00:00<?, ?B/s]

20250801/ru/train/train_part_158.parquet:   0%|          | 0.00/15.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_159.parquet:   0%|          | 0.00/13.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_160.parquet:   0%|          | 0.00/12.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_161.parquet:   0%|          | 0.00/12.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_162.parquet:   0%|          | 0.00/10.2M [00:00<?, ?B/s]

20250801/ru/train/train_part_163.parquet:   0%|          | 0.00/13.2M [00:00<?, ?B/s]

20250801/ru/train/train_part_164.parquet:   0%|          | 0.00/13.4M [00:00<?, ?B/s]

20250801/ru/train/train_part_165.parquet:   0%|          | 0.00/13.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_166.parquet:   0%|          | 0.00/11.9M [00:00<?, ?B/s]

20250801/ru/train/train_part_167.parquet:   0%|          | 0.00/11.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_168.parquet:   0%|          | 0.00/12.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_169.parquet:   0%|          | 0.00/11.9M [00:00<?, ?B/s]

20250801/ru/train/train_part_170.parquet:   0%|          | 0.00/12.2M [00:00<?, ?B/s]

20250801/ru/train/train_part_171.parquet:   0%|          | 0.00/14.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_172.parquet:   0%|          | 0.00/12.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_173.parquet:   0%|          | 0.00/9.81M [00:00<?, ?B/s]

20250801/ru/train/train_part_174.parquet:   0%|          | 0.00/5.97M [00:00<?, ?B/s]

20250801/ru/train/train_part_175.parquet:   0%|          | 0.00/6.65M [00:00<?, ?B/s]

20250801/ru/train/train_part_176.parquet:   0%|          | 0.00/8.72M [00:00<?, ?B/s]

20250801/ru/train/train_part_177.parquet:   0%|          | 0.00/12.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_178.parquet:   0%|          | 0.00/10.0M [00:00<?, ?B/s]

20250801/ru/train/train_part_179.parquet:   0%|          | 0.00/12.0M [00:00<?, ?B/s]

20250801/ru/train/train_part_180.parquet:   0%|          | 0.00/11.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_181.parquet:   0%|          | 0.00/10.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_182.parquet:   0%|          | 0.00/9.75M [00:00<?, ?B/s]

20250801/ru/train/train_part_183.parquet:   0%|          | 0.00/11.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_184.parquet:   0%|          | 0.00/11.0M [00:00<?, ?B/s]

20250801/ru/train/train_part_185.parquet:   0%|          | 0.00/12.0M [00:00<?, ?B/s]

20250801/ru/train/train_part_186.parquet:   0%|          | 0.00/11.2M [00:00<?, ?B/s]

20250801/ru/train/train_part_187.parquet:   0%|          | 0.00/10.8M [00:00<?, ?B/s]

20250801/ru/train/train_part_188.parquet:   0%|          | 0.00/11.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_189.parquet:   0%|          | 0.00/9.61M [00:00<?, ?B/s]

20250801/ru/train/train_part_190.parquet:   0%|          | 0.00/10.8M [00:00<?, ?B/s]

20250801/ru/train/train_part_191.parquet:   0%|          | 0.00/10.7M [00:00<?, ?B/s]

20250801/ru/train/train_part_192.parquet:   0%|          | 0.00/11.0M [00:00<?, ?B/s]

20250801/ru/train/train_part_193.parquet:   0%|          | 0.00/10.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_194.parquet:   0%|          | 0.00/12.2M [00:00<?, ?B/s]

20250801/ru/train/train_part_195.parquet:   0%|          | 0.00/12.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_196.parquet:   0%|          | 0.00/10.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_197.parquet:   0%|          | 0.00/9.71M [00:00<?, ?B/s]

20250801/ru/train/train_part_198.parquet:   0%|          | 0.00/9.89M [00:00<?, ?B/s]

20250801/ru/train/train_part_199.parquet:   0%|          | 0.00/11.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_200.parquet:   0%|          | 0.00/11.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_201.parquet:   0%|          | 0.00/11.7M [00:00<?, ?B/s]

20250801/ru/train/train_part_202.parquet:   0%|          | 0.00/11.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_203.parquet:   0%|          | 0.00/11.7M [00:00<?, ?B/s]

20250801/ru/train/train_part_204.parquet:   0%|          | 0.00/11.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_205.parquet:   0%|          | 0.00/12.4M [00:00<?, ?B/s]

20250801/ru/train/train_part_206.parquet:   0%|          | 0.00/12.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_207.parquet:   0%|          | 0.00/12.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_208.parquet:   0%|          | 0.00/11.7M [00:00<?, ?B/s]

20250801/ru/train/train_part_209.parquet:   0%|          | 0.00/12.0M [00:00<?, ?B/s]

20250801/ru/train/train_part_210.parquet:   0%|          | 0.00/12.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_211.parquet:   0%|          | 0.00/13.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_212.parquet:   0%|          | 0.00/11.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_213.parquet:   0%|          | 0.00/11.7M [00:00<?, ?B/s]

20250801/ru/train/train_part_214.parquet:   0%|          | 0.00/11.7M [00:00<?, ?B/s]

20250801/ru/train/train_part_215.parquet:   0%|          | 0.00/13.0M [00:00<?, ?B/s]

20250801/ru/train/train_part_216.parquet:   0%|          | 0.00/12.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_217.parquet:   0%|          | 0.00/11.8M [00:00<?, ?B/s]

20250801/ru/train/train_part_218.parquet:   0%|          | 0.00/13.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_219.parquet:   0%|          | 0.00/12.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_220.parquet:   0%|          | 0.00/12.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_221.parquet:   0%|          | 0.00/12.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_222.parquet:   0%|          | 0.00/12.7M [00:00<?, ?B/s]

20250801/ru/train/train_part_223.parquet:   0%|          | 0.00/11.4M [00:00<?, ?B/s]

20250801/ru/train/train_part_224.parquet:   0%|          | 0.00/12.4M [00:00<?, ?B/s]

20250801/ru/train/train_part_225.parquet:   0%|          | 0.00/12.0M [00:00<?, ?B/s]

20250801/ru/train/train_part_226.parquet:   0%|          | 0.00/12.9M [00:00<?, ?B/s]

20250801/ru/train/train_part_227.parquet:   0%|          | 0.00/12.4M [00:00<?, ?B/s]

20250801/ru/train/train_part_228.parquet:   0%|          | 0.00/13.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_229.parquet:   0%|          | 0.00/11.0M [00:00<?, ?B/s]

20250801/ru/train/train_part_230.parquet:   0%|          | 0.00/12.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_231.parquet:   0%|          | 0.00/12.8M [00:00<?, ?B/s]

20250801/ru/train/train_part_232.parquet:   0%|          | 0.00/10.8M [00:00<?, ?B/s]

20250801/ru/train/train_part_233.parquet:   0%|          | 0.00/10.2M [00:00<?, ?B/s]

20250801/ru/train/train_part_234.parquet:   0%|          | 0.00/11.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_235.parquet:   0%|          | 0.00/11.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_236.parquet:   0%|          | 0.00/10.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_237.parquet:   0%|          | 0.00/12.7M [00:00<?, ?B/s]

20250801/ru/train/train_part_238.parquet:   0%|          | 0.00/12.8M [00:00<?, ?B/s]

20250801/ru/train/train_part_239.parquet:   0%|          | 0.00/11.9M [00:00<?, ?B/s]

20250801/ru/train/train_part_240.parquet:   0%|          | 0.00/12.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_241.parquet:   0%|          | 0.00/12.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_242.parquet:   0%|          | 0.00/10.7M [00:00<?, ?B/s]

20250801/ru/train/train_part_243.parquet:   0%|          | 0.00/10.4M [00:00<?, ?B/s]

20250801/ru/train/train_part_244.parquet:   0%|          | 0.00/12.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_245.parquet:   0%|          | 0.00/12.4M [00:00<?, ?B/s]

20250801/ru/train/train_part_246.parquet:   0%|          | 0.00/11.8M [00:00<?, ?B/s]

20250801/ru/train/train_part_247.parquet:   0%|          | 0.00/12.8M [00:00<?, ?B/s]

20250801/ru/train/train_part_248.parquet:   0%|          | 0.00/13.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_249.parquet:   0%|          | 0.00/14.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_250.parquet:   0%|          | 0.00/14.0M [00:00<?, ?B/s]

20250801/ru/train/train_part_251.parquet:   0%|          | 0.00/12.4M [00:00<?, ?B/s]

20250801/ru/train/train_part_252.parquet:   0%|          | 0.00/12.7M [00:00<?, ?B/s]

20250801/ru/train/train_part_253.parquet:   0%|          | 0.00/13.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_254.parquet:   0%|          | 0.00/12.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_255.parquet:   0%|          | 0.00/12.9M [00:00<?, ?B/s]

20250801/ru/train/train_part_256.parquet:   0%|          | 0.00/12.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_257.parquet:   0%|          | 0.00/13.9M [00:00<?, ?B/s]

20250801/ru/train/train_part_258.parquet:   0%|          | 0.00/12.9M [00:00<?, ?B/s]

20250801/ru/train/train_part_259.parquet:   0%|          | 0.00/12.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_260.parquet:   0%|          | 0.00/10.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_261.parquet:   0%|          | 0.00/12.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_262.parquet:   0%|          | 0.00/13.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_263.parquet:   0%|          | 0.00/12.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_264.parquet:   0%|          | 0.00/11.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_265.parquet:   0%|          | 0.00/12.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_266.parquet:   0%|          | 0.00/13.2M [00:00<?, ?B/s]

20250801/ru/train/train_part_267.parquet:   0%|          | 0.00/12.4M [00:00<?, ?B/s]

20250801/ru/train/train_part_268.parquet:   0%|          | 0.00/13.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_269.parquet:   0%|          | 0.00/14.8M [00:00<?, ?B/s]

20250801/ru/train/train_part_270.parquet:   0%|          | 0.00/13.7M [00:00<?, ?B/s]

20250801/ru/train/train_part_271.parquet:   0%|          | 0.00/12.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_272.parquet:   0%|          | 0.00/12.7M [00:00<?, ?B/s]

20250801/ru/train/train_part_273.parquet:   0%|          | 0.00/15.0M [00:00<?, ?B/s]

20250801/ru/train/train_part_274.parquet:   0%|          | 0.00/14.7M [00:00<?, ?B/s]

20250801/ru/train/train_part_275.parquet:   0%|          | 0.00/13.4M [00:00<?, ?B/s]

20250801/ru/train/train_part_276.parquet:   0%|          | 0.00/14.0M [00:00<?, ?B/s]

20250801/ru/train/train_part_277.parquet:   0%|          | 0.00/12.4M [00:00<?, ?B/s]

20250801/ru/train/train_part_278.parquet:   0%|          | 0.00/13.0M [00:00<?, ?B/s]

20250801/ru/train/train_part_279.parquet:   0%|          | 0.00/12.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_280.parquet:   0%|          | 0.00/12.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_281.parquet:   0%|          | 0.00/13.0M [00:00<?, ?B/s]

20250801/ru/train/train_part_282.parquet:   0%|          | 0.00/12.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_283.parquet:   0%|          | 0.00/13.2M [00:00<?, ?B/s]

20250801/ru/train/train_part_284.parquet:   0%|          | 0.00/14.7M [00:00<?, ?B/s]

20250801/ru/train/train_part_285.parquet:   0%|          | 0.00/14.7M [00:00<?, ?B/s]

20250801/ru/train/train_part_286.parquet:   0%|          | 0.00/14.0M [00:00<?, ?B/s]

20250801/ru/train/train_part_287.parquet:   0%|          | 0.00/13.4M [00:00<?, ?B/s]

20250801/ru/train/train_part_288.parquet:   0%|          | 0.00/13.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_289.parquet:   0%|          | 0.00/13.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_290.parquet:   0%|          | 0.00/14.0M [00:00<?, ?B/s]

20250801/ru/train/train_part_291.parquet:   0%|          | 0.00/13.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_292.parquet:   0%|          | 0.00/13.8M [00:00<?, ?B/s]

20250801/ru/train/train_part_293.parquet:   0%|          | 0.00/14.0M [00:00<?, ?B/s]

20250801/ru/train/train_part_294.parquet:   0%|          | 0.00/13.8M [00:00<?, ?B/s]

20250801/ru/train/train_part_295.parquet:   0%|          | 0.00/12.8M [00:00<?, ?B/s]

20250801/ru/train/train_part_296.parquet:   0%|          | 0.00/12.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_297.parquet:   0%|          | 0.00/13.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_298.parquet:   0%|          | 0.00/14.7M [00:00<?, ?B/s]

20250801/ru/train/train_part_299.parquet:   0%|          | 0.00/14.4M [00:00<?, ?B/s]

20250801/ru/train/train_part_300.parquet:   0%|          | 0.00/13.4M [00:00<?, ?B/s]

20250801/ru/train/train_part_301.parquet:   0%|          | 0.00/13.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_302.parquet:   0%|          | 0.00/13.0M [00:00<?, ?B/s]

20250801/ru/train/train_part_303.parquet:   0%|          | 0.00/13.8M [00:00<?, ?B/s]

20250801/ru/train/train_part_304.parquet:   0%|          | 0.00/13.7M [00:00<?, ?B/s]

20250801/ru/train/train_part_305.parquet:   0%|          | 0.00/13.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_306.parquet:   0%|          | 0.00/14.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_307.parquet:   0%|          | 0.00/13.4M [00:00<?, ?B/s]

20250801/ru/train/train_part_308.parquet:   0%|          | 0.00/14.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_309.parquet:   0%|          | 0.00/14.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_310.parquet:   0%|          | 0.00/14.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_311.parquet:   0%|          | 0.00/14.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_312.parquet:   0%|          | 0.00/13.8M [00:00<?, ?B/s]

20250801/ru/train/train_part_313.parquet:   0%|          | 0.00/15.2M [00:00<?, ?B/s]

20250801/ru/train/train_part_314.parquet:   0%|          | 0.00/15.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_315.parquet:   0%|          | 0.00/15.2M [00:00<?, ?B/s]

20250801/ru/train/train_part_316.parquet:   0%|          | 0.00/14.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_317.parquet:   0%|          | 0.00/13.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_318.parquet:   0%|          | 0.00/13.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_319.parquet:   0%|          | 0.00/13.7M [00:00<?, ?B/s]

20250801/ru/train/train_part_320.parquet:   0%|          | 0.00/12.2M [00:00<?, ?B/s]

20250801/ru/train/train_part_321.parquet:   0%|          | 0.00/12.7M [00:00<?, ?B/s]

20250801/ru/train/train_part_322.parquet:   0%|          | 0.00/13.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_323.parquet:   0%|          | 0.00/9.49M [00:00<?, ?B/s]

20250801/ru/train/train_part_324.parquet:   0%|          | 0.00/12.0M [00:00<?, ?B/s]

20250801/ru/train/train_part_325.parquet:   0%|          | 0.00/12.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_326.parquet:   0%|          | 0.00/11.9M [00:00<?, ?B/s]

20250801/ru/train/train_part_327.parquet:   0%|          | 0.00/11.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_328.parquet:   0%|          | 0.00/10.9M [00:00<?, ?B/s]

20250801/ru/train/train_part_329.parquet:   0%|          | 0.00/12.2M [00:00<?, ?B/s]

20250801/ru/train/train_part_330.parquet:   0%|          | 0.00/12.0M [00:00<?, ?B/s]

20250801/ru/train/train_part_331.parquet:   0%|          | 0.00/12.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_332.parquet:   0%|          | 0.00/12.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_333.parquet:   0%|          | 0.00/11.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_334.parquet:   0%|          | 0.00/13.8M [00:00<?, ?B/s]

20250801/ru/train/train_part_335.parquet:   0%|          | 0.00/13.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_336.parquet:   0%|          | 0.00/13.4M [00:00<?, ?B/s]

20250801/ru/train/train_part_337.parquet:   0%|          | 0.00/12.7M [00:00<?, ?B/s]

20250801/ru/train/train_part_338.parquet:   0%|          | 0.00/13.0M [00:00<?, ?B/s]

20250801/ru/train/train_part_339.parquet:   0%|          | 0.00/12.8M [00:00<?, ?B/s]

20250801/ru/train/train_part_340.parquet:   0%|          | 0.00/12.0M [00:00<?, ?B/s]

20250801/ru/train/train_part_341.parquet:   0%|          | 0.00/12.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_342.parquet:   0%|          | 0.00/12.4M [00:00<?, ?B/s]

20250801/ru/train/train_part_343.parquet:   0%|          | 0.00/12.7M [00:00<?, ?B/s]

20250801/ru/train/train_part_344.parquet:   0%|          | 0.00/12.2M [00:00<?, ?B/s]

20250801/ru/train/train_part_345.parquet:   0%|          | 0.00/12.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_346.parquet:   0%|          | 0.00/12.8M [00:00<?, ?B/s]

20250801/ru/train/train_part_347.parquet:   0%|          | 0.00/12.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_348.parquet:   0%|          | 0.00/13.4M [00:00<?, ?B/s]

20250801/ru/train/train_part_349.parquet:   0%|          | 0.00/12.2M [00:00<?, ?B/s]

20250801/ru/train/train_part_350.parquet:   0%|          | 0.00/11.9M [00:00<?, ?B/s]

20250801/ru/train/train_part_351.parquet:   0%|          | 0.00/11.4M [00:00<?, ?B/s]

20250801/ru/train/train_part_352.parquet:   0%|          | 0.00/11.4M [00:00<?, ?B/s]

20250801/ru/train/train_part_353.parquet:   0%|          | 0.00/11.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_354.parquet:   0%|          | 0.00/12.2M [00:00<?, ?B/s]

20250801/ru/train/train_part_355.parquet:   0%|          | 0.00/12.4M [00:00<?, ?B/s]

20250801/ru/train/train_part_356.parquet:   0%|          | 0.00/12.2M [00:00<?, ?B/s]

20250801/ru/train/train_part_357.parquet:   0%|          | 0.00/10.9M [00:00<?, ?B/s]

20250801/ru/train/train_part_358.parquet:   0%|          | 0.00/12.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_359.parquet:   0%|          | 0.00/11.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_360.parquet:   0%|          | 0.00/11.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_361.parquet:   0%|          | 0.00/11.9M [00:00<?, ?B/s]

20250801/ru/train/train_part_362.parquet:   0%|          | 0.00/11.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_363.parquet:   0%|          | 0.00/10.8M [00:00<?, ?B/s]

20250801/ru/train/train_part_364.parquet:   0%|          | 0.00/10.9M [00:00<?, ?B/s]

20250801/ru/train/train_part_365.parquet:   0%|          | 0.00/9.87M [00:00<?, ?B/s]

20250801/ru/train/train_part_366.parquet:   0%|          | 0.00/9.41M [00:00<?, ?B/s]

20250801/ru/train/train_part_367.parquet:   0%|          | 0.00/11.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_368.parquet:   0%|          | 0.00/11.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_369.parquet:   0%|          | 0.00/11.9M [00:00<?, ?B/s]

20250801/ru/train/train_part_370.parquet:   0%|          | 0.00/12.2M [00:00<?, ?B/s]

20250801/ru/train/train_part_371.parquet:   0%|          | 0.00/11.4M [00:00<?, ?B/s]

20250801/ru/train/train_part_372.parquet:   0%|          | 0.00/11.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_373.parquet:   0%|          | 0.00/11.9M [00:00<?, ?B/s]

20250801/ru/train/train_part_374.parquet:   0%|          | 0.00/11.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_375.parquet:   0%|          | 0.00/10.9M [00:00<?, ?B/s]

20250801/ru/train/train_part_376.parquet:   0%|          | 0.00/9.72M [00:00<?, ?B/s]

20250801/ru/train/train_part_377.parquet:   0%|          | 0.00/10.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_378.parquet:   0%|          | 0.00/11.0M [00:00<?, ?B/s]

20250801/ru/train/train_part_379.parquet:   0%|          | 0.00/11.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_380.parquet:   0%|          | 0.00/10.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_381.parquet:   0%|          | 0.00/10.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_382.parquet:   0%|          | 0.00/10.9M [00:00<?, ?B/s]

20250801/ru/train/train_part_383.parquet:   0%|          | 0.00/10.2M [00:00<?, ?B/s]

20250801/ru/train/train_part_384.parquet:   0%|          | 0.00/12.2M [00:00<?, ?B/s]

20250801/ru/train/train_part_385.parquet:   0%|          | 0.00/12.8M [00:00<?, ?B/s]

20250801/ru/train/train_part_386.parquet:   0%|          | 0.00/12.7M [00:00<?, ?B/s]

20250801/ru/train/train_part_387.parquet:   0%|          | 0.00/12.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_388.parquet:   0%|          | 0.00/13.0M [00:00<?, ?B/s]

20250801/ru/train/train_part_389.parquet:   0%|          | 0.00/13.4M [00:00<?, ?B/s]

20250801/ru/train/train_part_390.parquet:   0%|          | 0.00/13.4M [00:00<?, ?B/s]

20250801/ru/train/train_part_391.parquet:   0%|          | 0.00/13.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_392.parquet:   0%|          | 0.00/13.1M [00:00<?, ?B/s]

20250801/ru/train/train_part_393.parquet:   0%|          | 0.00/12.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_394.parquet:   0%|          | 0.00/13.2M [00:00<?, ?B/s]

20250801/ru/train/train_part_395.parquet:   0%|          | 0.00/13.4M [00:00<?, ?B/s]

20250801/ru/train/train_part_396.parquet:   0%|          | 0.00/12.0M [00:00<?, ?B/s]

20250801/ru/train/train_part_397.parquet:   0%|          | 0.00/12.8M [00:00<?, ?B/s]

20250801/ru/train/train_part_398.parquet:   0%|          | 0.00/11.3M [00:00<?, ?B/s]

20250801/ru/train/train_part_399.parquet:   0%|          | 0.00/12.2M [00:00<?, ?B/s]

20250801/ru/train/train_part_400.parquet:   0%|          | 0.00/11.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_401.parquet:   0%|          | 0.00/11.4M [00:00<?, ?B/s]

20250801/ru/train/train_part_402.parquet:   0%|          | 0.00/12.9M [00:00<?, ?B/s]

20250801/ru/train/train_part_403.parquet:   0%|          | 0.00/12.8M [00:00<?, ?B/s]

20250801/ru/train/train_part_404.parquet:   0%|          | 0.00/9.81M [00:00<?, ?B/s]

20250801/ru/train/train_part_405.parquet:   0%|          | 0.00/8.21M [00:00<?, ?B/s]

20250801/ru/train/train_part_406.parquet:   0%|          | 0.00/12.2M [00:00<?, ?B/s]

20250801/ru/train/train_part_407.parquet:   0%|          | 0.00/12.7M [00:00<?, ?B/s]

20250801/ru/train/train_part_408.parquet:   0%|          | 0.00/13.5M [00:00<?, ?B/s]

20250801/ru/train/train_part_409.parquet:   0%|          | 0.00/12.9M [00:00<?, ?B/s]

20250801/ru/train/train_part_410.parquet:   0%|          | 0.00/12.6M [00:00<?, ?B/s]

20250801/ru/train/train_part_411.parquet:   0%|          | 0.00/5.38M [00:00<?, ?B/s]

20250801/ru/samples/1000_part_000.parque(…):   0%|          | 0.00/2.74M [00:00<?, ?B/s]

20250801/ru/samples/5000_part_000.parque(…):   0%|          | 0.00/13.9M [00:00<?, ?B/s]

20250801/ru/samples/10000_part_000.parqu(…):   0%|          | 0.00/14.0M [00:00<?, ?B/s]

20250801/ru/samples/10000_part_001.parqu(…):   0%|          | 0.00/15.1M [00:00<?, ?B/s]

Generating train split: 0 examples [00:00, ? examples/s]

Generating 1000 split: 0 examples [00:00, ? examples/s]

Generating 5000 split: 0 examples [00:00, ? examples/s]

Generating 10000 split: 0 examples [00:00, ? examples/s]

Loading dataset shards:   0%|          | 0/25 [00:00<?, ?it/s]

(300000,
 ['Часть манифестантов проникла на территорию дипмиссии, но выдворена силами безопасности',
  'В 1836 году началось освоение «Нового места» (территория современного Александровского сквера)',
  'Позже, в VIII—IX веках, появилось множество документов, собирающих генеалогические списки родов'])

Здесь мы объединяем тексты из Ленты и Википедии в один корпус (clean_texts), перемешиваем их и превращаем в пары (слитный_текст, нормальный_текст) с помощью make_pairs.
Аналогично формируем пары из текстов Авито.

In [7]:
clean_texts = (lenta_texts + wiki_texts)
random.Random(seed).shuffle(clean_texts)

clean_pairs = make_pairs(clean_texts)
avito_pairs = make_pairs(avito_texts)

print("clean_pairs:", len(clean_pairs), "avito_pairs:", len(avito_pairs))

clean_pairs: 594157 avito_pairs: 148722




### Дедупликация и разбиение данных

Функция dedup_split убирает дубликаты по тексту без пробелов и делит данные на три части: train (80%), dev (10%) и test (10%).
Это нужно, чтобы обучать и проверять модель на непересекающихся примерах и честно оценивать качество.

In [8]:
def dedup_split(pairs, seed=42):
    random.Random(seed).shuffle(pairs)
    seen = set(); uniq = []
    for src, tgt in pairs:
        k = remove_spaces(tgt).lower()
        if k in seen:
            continue
        seen.add(k)
        uniq.append((src, tgt))
    n = len(uniq)
    n_train = int(0.8*n); n_dev = int(0.1*n)
    return uniq[:n_train], uniq[n_train:n_train+n_dev], uniq[n_train+n_dev:]

train_avito, dev_avito, test_avito = dedup_split(avito_pairs, seed)

print("Avito split sizes:", len(train_avito), len(dev_avito), len(test_avito))
print("Clean for stage A:", len(clean_pairs))

Avito split sizes: 118977 14872 14873
Clean for stage A: 594157


### Словарь, датасет и батчинг с учётом длины

Функция build_vocab проходит по всем парам (слитный, нормальный) и собирает множество уникальных символов из слитных строк.
Затем создаётся словарь с индексами:

* 0 (для заполнения батчей),

* 1 (для неизвестных символов),

остальные символы нумеруются по алфавиту начиная с 2.

In [9]:
def build_vocab(pairs):
    chars = set()
    for s, t in pairs:
        chars |= set(s)
    vocab = {"<pad>": 0, "<unk>": 1}
    for i, ch in enumerate(sorted(chars), start=2):
        vocab[ch] = i
    return vocab

vocab = build_vocab(clean_pairs + avito_pairs)
print("Vocab size:", len(vocab))

Vocab size: 152


SpaceDataset

* хранит пары (слитный, нормальный) и словарь символов;

* в __getitem__ переводит слитный текст в индексы (x) и строит метки (y), где 1 значит «поставь пробел» на этой позиции, а 0 — «не ставь».

collate_batch

* собирает батч примеров разной длины;

* делает паддинг: x заполняется нулями (<pad>), y — значением -100 (чтобы лосс игнорировал паддинги);

* возвращает паддингованные тензоры и длины последовательностей.

In [10]:
class SpaceDataset(Dataset):
    def __init__(self, pairs, vocab):
        self.pairs = pairs
        self.vocab = vocab
    def __len__(self):
        return len(self.pairs)
    def __getitem__(self, idx):
        src, tgt = self.pairs[idx]
        x = [self.vocab.get(ch, self.vocab["<unk>"]) for ch in src]
        y = [0]*len(src)
        for pos in positions_from_spaced(tgt):
            if 0 <= pos < len(src):
                y[pos] = 1
        return torch.tensor(x, dtype=torch.long), torch.tensor(y, dtype=torch.long)

def collate_batch(batch):
    xs, ys = zip(*batch)
    lens = [len(x) for x in xs]
    max_len = max(lens)
    pad_x = torch.zeros(len(xs), max_len, dtype=torch.long)
    pad_y = torch.full((len(xs), max_len), -100, dtype=torch.long)
    for i, (x, y) in enumerate(zip(xs, ys)):
        L = len(x)
        pad_x[i, :L] = x
        pad_y[i, :L] = y
    return pad_x, pad_y, torch.tensor(lens, dtype=torch.long)

### Модель CharSeg (BiLSTM) с class weights, dropout, AdamW, clip-grad

compute_class_weights

* Считает баланс классов: сколько позиций с пробелами (pos) и без пробелов (neg).

* Возвращает веса для функции потерь: класс «пробел» получает больший вес, чтобы компенсировать его редкость.

CharSeg (BiLSTM-модель)

* Вход: индексы символов.

* Embedding: переводит символы в векторы фиксированной размерности.

* BiLSTM: двунаправленная рекуррентная сеть, которая учитывает контекст слева и справа.

* Dropout: регуляризация, чтобы модель не переобучалась.

* Linear: преобразует скрытые состояния в логиты для двух классов: «ставим пробел» / «не ставим пробел».

* Loss: если поданы целевые метки (y), считает cross_entropy с учётом весов и игнорированием паддингов.

In [11]:
def compute_class_weights(pairs):
    pos = neg = 0
    for src, tgt in pairs:
        p = len(positions_from_spaced(tgt))
        pos += p
        neg += len(src) - p
    w1 = neg / max(1, pos)
    w0 = 1.0
    return torch.tensor([w0, w1], dtype=torch.float)

class CharSeg(nn.Module):
    def __init__(self, vocab_size, emb_dim=192, hid_dim=384, num_layers=2, dropout=0.2):
        super().__init__()
        self.emb = nn.Embedding(vocab_size, emb_dim, padding_idx=0)
        self.lstm = nn.LSTM(emb_dim, hid_dim//2, num_layers=num_layers,
                            bidirectional=True, batch_first=True,
                            dropout=dropout if num_layers > 1 else 0.0)
        self.drop = nn.Dropout(dropout)
        self.fc = nn.Linear(hid_dim, 2)

    def forward(self, x, lengths, y=None, weight=None):
        emb = self.drop(self.emb(x))
        packed = nn.utils.rnn.pack_padded_sequence(emb, lengths.cpu(), batch_first=True, enforce_sorted=False)
        out, _ = self.lstm(packed)
        out, _ = nn.utils.rnn.pad_packed_sequence(out, batch_first=True, total_length=x.size(1))
        out = self.drop(out)
        logits = self.fc(out)
        loss = None
        if y is not None:
            loss = F.cross_entropy(logits.reshape(-1, 2), y.reshape(-1), weight=weight, ignore_index=-100)
        return loss, logits

Функция прогоняет слитный текст через модель, считает вероятность «пробел» для каждой позиции и вставляет пробелы там, где она выше порога tau.

In [12]:
@torch.no_grad()
def predict_spaces(model, text, vocab, tau=0.5):
    model.eval()
    x = torch.tensor([[vocab.get(ch, vocab["<unk>"]) for ch in text]], dtype=torch.long, device=device)
    lengths = torch.tensor([x.size(1)], dtype=torch.long, device=device)
    _, logits = model(x, lengths)
    probs = torch.softmax(logits, dim=-1)[0, :, 1].detach().cpu().numpy()
    out = []
    for i, ch in enumerate(text):
        if i > 0 and probs[i] >= tau:
            out.append(" ")
        out.append(ch)
    return "".join(out)

Обучение BiLSTM-модели

Функция train_stage_bilstm:

* готовит оптимизатор AdamW и DataLoader;

* запускает цикл по эпохам: считает loss, делает обратное распространение, ограничивает градиенты (clip_grad_norm_), обновляет веса;

* после каждой эпохи оценивает F1 на части dev-набора;

* сохраняет лучшую модель, а при нескольких неудачных эпохах подряд — останавливает обучение (early stopping).

In [13]:
def train_stage_bilstm(model, train_dataset, dev_pairs, vocab,
                       out_dir, epochs, lr, batch_size=64, patience=2, tau_eval=0.5,
                       class_weights=None):
    os.makedirs(out_dir, exist_ok=True)
    model.to(device)
    opt = torch.optim.AdamW(model.parameters(), lr=lr, weight_decay=0.01)
    loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True, collate_fn=collate_batch)
    best_f1, bad = -1.0, 0

    for ep in range(1, epochs+1):
        model.train(); tot=0.0
        for xb, yb, lb in loader:
            xb, yb, lb = xb.to(device), yb.to(device), lb.to(device)
            loss, _ = model(xb, lb, yb, class_weights.to(device) if class_weights is not None else None)
            opt.zero_grad(); loss.backward()
            nn.utils.clip_grad_norm_(model.parameters(), 1.0)
            opt.step()
            tot += float(loss)
        tr_loss = tot/len(loader)

        f1 = np.mean([
            f1_pair(positions_from_spaced(predict_spaces(model, src, vocab, tau_eval)),
                    positions_from_spaced(tgt))
            for src, tgt in dev_pairs[:2000]
        ])

        print(f"[{out_dir}] epoch {ep}/{epochs} loss={tr_loss:.4f} devF1={f1:.4f}")

        if f1 > best_f1:
            best_f1, bad = f1, 0
            torch.save({"model": model.state_dict(), "vocab": vocab}, os.path.join(out_dir, "best.pt"))
        else:
            bad += 1
            if bad >= patience:
                print("Early stop."); break

    ckpt = torch.load(os.path.join(out_dir, "best.pt"), map_location="cpu")
    model.load_state_dict(ckpt["model"])
    return model

### Постпроцессинг

В этом блоке собраны функции для «дочистки» результата модели:

Морфология и словарь:

* is_known_word — проверяет, есть ли слово в словаре pymorphy3.

* wscore, best_split_token, glue_with_freq — эвристики, чтобы разбить неизвестные слитные токены на более правдоподобные части.

Работа с брендами и сокращениями:

* fix_brands — восстанавливает написание известных брендов (по словарю).

* fix_abbreviations — убирает лишние пробелы внутри аббревиатур.

* fix_bu — приводит варианты «б/у» к единому виду.

Скрипты и цифры:

* split_script_changes — вставляет пробел между кириллицей/латиницей/цифрами (например, «iPhone12» → «iPhone 12»).

Частота и словарь:

* fix_with_dictionary — разбивает слова и склеивает их обратно с учётом частот и словаря, чтобы текст выглядел естественнее.

Пунктуация:

* fix_punctuation — чистит пробелы вокруг знаков препинания и тире.

Финальная сборка:

* postprocess_text последовательно применяет все исправления к строке.

In [14]:
morph = pymorphy3.MorphAnalyzer()
bad_tags = ("UNKN", "LATN", "PNCT", "NUMB", "ROMN")

@lru_cache(maxsize=200_000)
def morph_parses(w: str):
    return morph.parse(w)

def is_known_word(word: str) -> bool:
    w = word.strip().lower()
    if not w:
        return False
    for p in morph_parses(w):
        tag = str(p.tag)
        if getattr(p, "is_known", False) and not any(t in tag for t in bad_tags):
            return True
    return False

def load_brands(path="/content/brands.txt"):
    with open(path, "r", encoding="utf-8") as f:
        return {line.strip() for line in f if line.strip()}

brands = load_brands()

def normalize(s: str) -> str:
    return (s.lower().replace(" ", "").replace("-", "").replace("’", "").replace("'", "").replace(".", ""))

alnum_chars = "0-9A-Za-zА-Яа-яЁё"

def compile_brand_patterns(brands_set):
    patterns = []
    for brand in brands_set:
        b_norm = normalize(brand)
        if len(b_norm) < 2:
            continue
        core = "".join(f"{re.escape(ch)}\\s*" for ch in b_norm)
        rx = re.compile(rf"(?<![{alnum_chars}]){core}(?![{alnum_chars}])", re.IGNORECASE)
        patterns.append((brand, rx))
    return patterns

brand_patterns = compile_brand_patterns(brands)

def fix_brands(text: str) -> str:
    for brand, rx in brand_patterns:
        text = rx.sub(brand, text)
    return text

abbr_spaced = re.compile(r'\b(?:[А-ЯA-Z]\s*){2,}\b')

def fix_abbreviations(text: str) -> str:
    return abbr_spaced.sub(lambda m: re.sub(r'\s+', '', m.group(0)), text)

def fix_bu(text: str) -> str:
    return re.sub(r'\bб\s*/?\s*у\b', 'б/у', text, flags=re.IGNORECASE)

script_split_re = re.compile(
    r'(?<=[A-Za-z])(?=[А-Яа-яЁё])|'
    r'(?<=[А-Яа-яЁё])(?=[A-Za-z])|'
    r'(?<=[A-Za-zА-Яа-яЁё])(?=\d)|'
    r'(?<=\d)(?=[A-Za-zА-Яа-яЁё])'
)
def split_script_changes(text: str) -> str:
    return script_split_re.sub(" ", text)

cyrillic_re = re.compile(r'^[А-Яа-яЁё]+$')
latin_only_re = re.compile(r'^[A-Za-z0-9]+$')

def wscore(w: str) -> float:
    if not w:
        return -10.0
    if cyrillic_re.match(w) and len(w) <= 2:
        return -10.0
    freq = zipf_frequency(w.lower(), "ru")
    if freq == 0.0:
        return -5.0
    if len(w) <= 4 and freq < 3.0:
        return freq - 3.0
    if is_known_word(w) and len(w) >= 6:
        freq += 3.0
    return freq

def best_split_token(tok: str) -> list:
    tok = tok.strip()
    if not tok or latin_only_re.match(tok) or is_known_word(tok):
        return [tok] if tok else []
    n = len(tok)
    score = [float("-inf")] * (n + 1)
    back = [-1] * (n + 1)
    score[0] = 0.0
    max_chunk = 24
    for i in range(n):
        if score[i] == float("-inf"):
            continue
        for j in range(i + 1, min(n, i + max_chunk) + 1):
            w = tok[i:j]
            sc = score[i] + wscore(w)
            if sc > score[j]:
                score[j], back[j] = sc, i
    if score[n] == float("-inf"):
        return [tok]
    out, k = [], n
    while k > 0 and back[k] >= 0:
        i = back[k]
        out.append(tok[i:k])
        k = i
    return out[::-1]

def glue_with_freq(tokens: list) -> list:
    out, i, n = [], 0, len(tokens)
    while i < n:
        merged_best, best_freq, best_len = tokens[i], zipf_frequency(tokens[i].lower(), "ru"), 1
        for k in range(2, 5):
            if i + k <= n:
                merged = "".join(tokens[i:i+k])
                freq_m = zipf_frequency(merged.lower(), "ru")
                if freq_m > best_freq + 1.0 or (is_known_word(merged) and len(merged) >= 5):
                    merged_best, best_freq, best_len = merged, freq_m, k
        out.append(merged_best)
        i += best_len
    return out

def fix_with_dictionary(text: str) -> str:
    tokens = text.split()
    pieces = []
    for w in tokens:
        for sub in split_script_changes(w).split():
            pieces.extend(best_split_token(sub))
    return " ".join(glue_with_freq(pieces))

def fix_punctuation(text: str) -> str:
    text = re.sub(r"\s+([,?!:;.])", r"\1", text)
    text = re.sub(r"([,?!:;.])(?!\s|$)", r"\1 ", text)
    text = re.sub(r"\s*—\s*", " — ", text)
    text = re.sub(r"—\s*$", "—", text)
    return re.sub(r"\s{2,}", " ", text).strip()

def postprocess_text(text: str) -> str:
    text = split_script_changes(text)
    text = fix_brands(text)
    text = fix_abbreviations(text)
    text = fix_with_dictionary(text)
    text = fix_bu(text)
    return fix_punctuation(text)

### Обучение + калибровка τ

Подготовка датасетов для обучения

* ds_train_clean — корпус из Ленты и Википедии (чистый текст).

* ds_train_avito — корпус объявлений Авито (реальные «грязные» данные).

* ds_train_mix — смесь: все примеры Авито + случайная часть чистого корпуса (≈25% от размера Авито).

* weights_ce — вычисляются веса классов («пробел» / «не пробел») на основе смешанной выборки. Эти веса будут использоваться в функции потерь для балансировки классов.

In [15]:
ds_train_clean = SpaceDataset(clean_pairs, vocab)

n = len(train_avito)
ds_train_avito = SpaceDataset(train_avito, vocab)
mixed_pairs = train_avito + random.Random(seed).sample(clean_pairs, int(len(train_avito)*0.25))
ds_train_mix = SpaceDataset(mixed_pairs, vocab)

weights_ce = compute_class_weights(train_avito + random.Random(seed).sample(clean_pairs, min(100_000, len(clean_pairs))))
weights_ce

tensor([1.0000, 5.5472])

Двухэтапное обучение модели

* Стадия A (clean):

Модель обучается 2 эпохи на чистом корпусе (Лента + Википедия). Цель — дать модели «грамотную базу» и научить общим языковым закономерностям.

* Стадия B (mix):

Та же модель дообучается 5 эпох на смеси: Авито + часть чистого текста. Цель — адаптировать модель к реальным «грязным» данным (объявлениям), сохранив при этом знание нормального языка.

In [16]:
model = CharSeg(len(vocab))
model = train_stage_bilstm(model, ds_train_clean, dev_avito, vocab,
                           out_dir="/content/ckpt_A_clean",
                           epochs=2, lr=3e-3, batch_size=64,
                           class_weights=weights_ce, tau_eval=0.5)

model = train_stage_bilstm(model, ds_train_mix, dev_avito, vocab,
                           out_dir="/content/ckpt_B_mix",
                           epochs=5, lr=2e-3, batch_size=64,
                           class_weights=weights_ce, tau_eval=0.5)

Consider using tensor.detach() first. (Triggered internally at /pytorch/torch/csrc/autograd/generated/python_variable_methods.cpp:835.)
  tot += float(loss)


[/content/ckpt_A_clean] epoch 1/2 loss=0.0399 devF1=0.7474
[/content/ckpt_A_clean] epoch 2/2 loss=0.0252 devF1=0.7566
[/content/ckpt_B_mix] epoch 1/5 loss=0.0758 devF1=0.9271
[/content/ckpt_B_mix] epoch 2/5 loss=0.0625 devF1=0.9288
[/content/ckpt_B_mix] epoch 3/5 loss=0.0589 devF1=0.9337
[/content/ckpt_B_mix] epoch 4/5 loss=0.0565 devF1=0.9360
[/content/ckpt_B_mix] epoch 5/5 loss=0.0549 devF1=0.9342


Здесь перебираются разные значения tau (от 0.36 до 0.84 с шагом 0.02) и для каждого считается средний F1 на части dev-набора.

* tau — порог вероятности, выше которого модель вставляет пробел.

* best_tau — значение порога, при котором достигается лучший F1.

In [17]:
best_tau, best_f1 = None, -1.0
for tau in [x/100 for x in range(36, 65, 2)]:
    f1 = np.mean([
        f1_pair(positions_from_spaced(predict_spaces(model, src, vocab, tau)),
                positions_from_spaced(tgt))
        for src, tgt in dev_avito[:5000]
    ])
    print(f"tau={tau:.2f} F1_dev={f1:.4f}")
    if f1 > best_f1:
        best_f1, best_tau = f1, tau

print("Best τ:", best_tau, "F1_dev:", best_f1)

tau=0.36 F1_dev=0.9171
tau=0.38 F1_dev=0.9230
tau=0.40 F1_dev=0.9276
tau=0.42 F1_dev=0.9307
tau=0.44 F1_dev=0.9330
tau=0.46 F1_dev=0.9344
tau=0.48 F1_dev=0.9357
tau=0.50 F1_dev=0.9367
tau=0.52 F1_dev=0.9375
tau=0.54 F1_dev=0.9381
tau=0.56 F1_dev=0.9390
tau=0.58 F1_dev=0.9398
tau=0.60 F1_dev=0.9405
tau=0.62 F1_dev=0.9410
tau=0.64 F1_dev=0.9416
Best τ: 0.64 F1_dev: 0.941557806490378


In [20]:
best_tau, best_f1 = None, -1.0
for tau in [x/100 for x in range(60, 75, 2)]:
    f1 = np.mean([
        f1_pair(positions_from_spaced(predict_spaces(model, src, vocab, tau)),
                positions_from_spaced(tgt))
        for src, tgt in dev_avito[:5000]
    ])
    print(f"tau={tau:.2f} F1_dev={f1:.4f}")
    if f1 > best_f1:
        best_f1, best_tau = f1, tau

print("Best τ:", best_tau, "F1_dev:", best_f1)

tau=0.60 F1_dev=0.9405
tau=0.62 F1_dev=0.9410
tau=0.64 F1_dev=0.9416
tau=0.66 F1_dev=0.9423
tau=0.68 F1_dev=0.9428
tau=0.70 F1_dev=0.9437
tau=0.72 F1_dev=0.9442
tau=0.74 F1_dev=0.9446
Best τ: 0.74 F1_dev: 0.9445827602468038


In [21]:
best_tau, best_f1 = None, -1.0
for tau in [x/100 for x in range(74, 85, 2)]:
    f1 = np.mean([
        f1_pair(positions_from_spaced(predict_spaces(model, src, vocab, tau)),
                positions_from_spaced(tgt))
        for src, tgt in dev_avito[:5000]
    ])
    print(f"tau={tau:.2f} F1_dev={f1:.4f}")
    if f1 > best_f1:
        best_f1, best_tau = f1, tau

print("Best τ:", best_tau, "F1_dev:", best_f1)

tau=0.74 F1_dev=0.9446
tau=0.76 F1_dev=0.9450
tau=0.78 F1_dev=0.9452
tau=0.80 F1_dev=0.9455
tau=0.82 F1_dev=0.9457
tau=0.84 F1_dev=0.9456
Best τ: 0.82 F1_dev: 0.9457252674882122


Финальная оценка и сохранение модели

Оценка: на части тестового набора считаем средний F1 с оптимальным tau → получаем итоговое качество модели.

Сохранение: сохраняем словарь весов state_dict, сам словарь символов vocab и подобранный порог tau в файл final_charseg_bundle.pt.

In [22]:
f1_test = np.mean([
    f1_pair(positions_from_spaced(predict_spaces(model, src, vocab, best_tau)),
            positions_from_spaced(tgt))
    for src, tgt in test_avito[:5000]
])
print("Final F1 on test (subset):", f1_test)

torch.save({"state_dict": model.state_dict(), "vocab": vocab, "tau": float(best_tau)},
           "final_charseg_bundle.pt")

Final F1 on test (subset): 0.9459698975688687


### Предсказание на тестовом файле и получение результатов

read_task_file — читает входной файл задачи (id,text_no_spaces) и превращает его в DataFrame.

predict_with_postprocess — для каждого текста:

* восстанавливает пробелы с моделью (predict_spaces),

* прогоняет результат через постпроцессинг (postprocess_text),

* сохраняет список позиций пробелов и финальный текст.

In [23]:
def read_task_file(path):
    rows = []
    with open(path, "r", encoding="utf-8") as f:
        header = f.readline().strip()  # id,text_no_spaces
        for line in f:
            line = line.rstrip("\n")
            if not line:
                continue
            id_str, text = line.split(",", 1)
            rows.append({"id": int(id_str), "text_no_spaces": text})
    return pd.DataFrame(rows, columns=["id", "text_no_spaces"])

@torch.no_grad()
def predict_with_postprocess(model, texts_no_space, vocab, tau):
    model.eval()
    results = []; results_text = []
    for t in texts_no_space:
        spaced = predict_spaces(model, t, vocab, tau=tau)
        cleaned = postprocess_text(spaced)
        results.append(positions_from_spaced(cleaned))
        results_text.append(cleaned)
    return results, results_text


task_path = "/content/dataset_1937770_3.txt"
task_data = read_task_file(task_path)
positions, texts = predict_with_postprocess(model, task_data["text_no_spaces"].astype(str).tolist(), vocab=vocab, tau=best_tau)
task_data["predicted_positions"] = positions
task_data["text_with_spaces"] = texts
submission = task_data[["id", "predicted_positions"]].copy()
submission.to_csv("submission.csv", index=False)
display(task_data.head(20))

Unnamed: 0,id,text_no_spaces,predicted_positions,text_with_spaces
0,0,куплюайфон14про,"[5, 10, 12]",куплю айфон 14 про
1,1,ищудомвПодмосковье,"[3, 6, 7]",ищу дом в Подмосковье
2,2,сдаюквартирусмебельюитехникой,"[4, 12, 13, 20, 21]",сдаю квартиру с мебелью и техникой
3,3,новыйдивандоставканедорого,"[5, 10, 18]",новый диван доставка недорого
4,4,отдамдаромкошку,"[5, 10]",отдам даром кошку
5,5,работавМосквеудаленно,"[7, 13]",работав Москве удаленно
6,6,куплютелевизорPhilips,"[5, 14]",куплю телевизор philips
7,7,ищугрузчиковдляпереезда,"[3, 12, 15]",ищу грузчиков для переезда
8,8,ремонтквартирподключ,"[6, 13, 16]",ремонт квартир под ключ
9,9,куплюноутбукHP,"[5, 12]",куплю ноутбук hp


In [25]:
display(task_data.head(100))

Unnamed: 0,id,text_no_spaces,predicted_positions,text_with_spaces
0,0,куплюайфон14про,"[5, 10, 12]",куплю айфон 14 про
1,1,ищудомвПодмосковье,"[3, 6, 7]",ищу дом в Подмосковье
2,2,сдаюквартирусмебельюитехникой,"[4, 12, 13, 20, 21]",сдаю квартиру с мебелью и техникой
3,3,новыйдивандоставканедорого,"[5, 10, 18]",новый диван доставка недорого
4,4,отдамдаромкошку,"[5, 10]",отдам даром кошку
...,...,...,...,...
95,95,ищустудиюнамесяц,"[3, 9, 11]",ищу студию на месяц
96,96,новаямикроволновкадоставка,"[5, 18]",новая микроволновка доставка
97,97,ищуработунавыходные,"[3, 9, 11]",ищу работу на выходные
98,98,куплютелефонHuawei,"[5, 12]",куплю телефон huawei


In [26]:
task_data.to_csv("task_data.csv", index=False)