# Решение тестового задания авито

## Описание задачи
На Авито пользователи часто вводят тексты в поиске, описаниях или заголовках с опечатками, пропущенными пробелами или слитным написанием слов (например: книгавхорошемсостоянии).Такие тексты усложняют понимание, снижают качество поиска и мешают автоматическому анализу (например, извлечению сущностей). Да, можно просто использовать дорогую LLM модель, но как будто такая задача может решаться гораздо более дешевым и быстрым способом. Мы ищем именно такое решение - точное, быстрое и легковесное.

Ваша задача — разработать модель или алгоритм, который принимает на вход текст без пробелов и возвращает восстановленный текст с правильными пробелами и позициями, где они были пропущены. Обратите внимание, ваше решение ОБЯЗАНО запускаться без проблем проверяющим. Невозможность запуска и подтверждения результатов полученной метрики - обнуление достигнутой метрики.



## Определение метрики

Качество оценивается по F1-score для позиций пропущенных пробелов.

Для каждой строки мы сравниваем множество позиций, где вы поставили пробелы, с истинным множеством.

Формула:

$F1 = 2 * (precision * recall) / (precision + recall)$

                  
Где:

precision = |предсказанные ∩ истинные| / |предсказанные|

recall = |предсказанные ∩ истинные| / |истинные|

Окончательная метрика — средний F1 по всем текстам.

На Stepik вы будете видеть F1 в процентах (от 0 до 100).

[пример файла submission](https://ucarecdn.com/81985c03-e860-4ca2-b6b2-876e9356aa9b/)

## Установка зависимостей

In [15]:
!pip -q install -U pandas scikit-learn datasets
from typing import List, Tuple
from sklearn.feature_extraction import DictVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.3.1[0m[39;49m -> [0m[32;49m25.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


## считывание данных

In [17]:
import pandas as pd

path = "dataset_1937770_3.txt"

df = pd.DataFrame(
    [line.rstrip("\n").split(",", 1) 
     for line in open(path, encoding="utf-8") 
     if line.strip() and not line.lower().startswith("id,")],
    columns=["id", "text_no_spaces"]
)
df["id"] = df["id"].astype(int)

print(df.head())
print(df.shape)

   id                 text_no_spaces
0   0                куплюайфон14про
1   1             ищудомвПодмосковье
2   2  сдаюквартирусмебельюитехникой
3   3     новыйдивандоставканедорого
4   4                 отдамдаромкошк
(1005, 2)


## Идея решения

предобучить токенизатор по нашим правилам на большом корпусе текстов, чтобы он лучше понимал контекст и структуру языка.

In [None]:
train_lines = [
    # Бытовая техника
    "куплю айфон 14 про",
    "куплю айфон 15 про макс",
    "куплю samsung galaxy s23 ultra",
    "новая микроволновка Samsung",
    "куплю холодильник LG",
    "срочно куплю стиральную машину Bosch",
    "продам телевизор Sony 42 дюйма",
    "куплю ноутбук HP",
    "новый ноутбук Asus доставка сегодня",
    "срочно продам ноутбук Lenovo",
    "куплю пылесос Dyson",
    "куплю робот пылесос Xiaomi",
    "куплю монитор Philips 27 дюймов",
    "продам видеокарту RTX 3060 ti",
    "куплю процессор Intel i7",
    "куплю оперативную память 16 ГБ DDR4",
    "куплю телефон Huawei недорого",
    "новый смартфон Realme 11 pro",
    "куплю планшет iPad бу",
    "срочно продам наушники JBL",
    "куплю колонки Edifier 5.1",
    "куплю фотоаппарат Canon EOS",
    "куплю принтер HP LaserJet",

    # Недвижимость
    "ищу дом в Подмосковье",
    "сдаю квартиру с мебелью и техникой",
    "сдам комнату студентке",
    "ищу квартиру у метро",
    "сдам студию без посредников",
    "сдаю офис в аренду",
    "сдам парковку в центре города",
    "сдам гараж на длительный срок",
    "ищу квартиру посуточно Москва",
    "сдаю дом с баней",
    "сдам квартиру молодоженам",
    "сдам студию в центре города",
    "срочно ищу комнату для девушки",
    "ищу квартиру в москве недорого",

    # Услуги
    "ищу грузчиков для переезда",
    "нужен мастер по ремонту стиралок",
    "ремонт квартир под ключ",
    "ищу репетитора по биологии",
    "ищу репетитора по математике",
    "ищу репетитора по английскому языку",
    "ищу программиста python",
    "ищу работу курьером",
    "срочно ищу работу поваром",
    "нужен электрик срочно",
    "нужен сантехник для ремонта",
    "ищу дизайнера интерьера",
    "ищу фотографа на мероприятие",
    "ищу няню для ребенка",
    "ищу уборщицу на выходные",
    "ищу парикмахера на дом",
    "ищу адвоката консультация",

    # Мебель / одежда
    "новый диван доставка недорого",
    "куплю шкаф купе бу",
    "продам кресло офисное",
    "сдам комод белый",
    "куплю кровать двухспальную",
    "новый стол и стулья",
    "куплю детскую кроватку бу",
    "куплю ковер шерстяной",
    "новая куртка зимняя доставка",
    "продам кожаную куртку бу",
    "куплю кроссовки Adidas оригинал",
    "куплю платье вечернее",
    "куплю джинсы Levi’s",

    # Транспорт
    "куплю велосипед Merida",
    "срочно продам велосипед Stels",
    "куплю машину ВАЗ бу на ходу",
    "куплю зимние шины",
    "куплю самокат детский",
    "ищу такси до аэропорта",
    "куплю лодку резиновую",
    "куплю скейтборд новый",
    "куплю мотоцикл бу",
    "куплю запчасти на ВАЗ 2107",

    # Разное
    "отдам даром кошку",
    "отдам даром старый шкаф",
    "суши доставка ночью",
    "ремонт iPhone быстро",
    "Москва Сбербанк банкомат рядом",
    "холодильник сломался помогите срочно",
    "хочу заказать такси в аэропорт",
    "хочу купить мороженое",
    "хочу заказать суши",
]

### Формирование целевых метрик для модели

In [19]:
def remove_spaces_and_targets(s: str) -> Tuple[str, List[int]]:
    chars, y = [], []
    for ch in s:
        if ch == " ":
            if y: y[-1] = 1   # если был пробел → метка "1" у предыдущего символа
        else:
            chars.append(ch)
            y.append(0)
    if y: y[-1] = 0  # у последнего символа пробела нет
    return "".join(chars), y

### Вспомогательные переменные и функции

In [20]:
RUS_VOWELS  = set("аеёиоуыэюяАЕЁИОУЫЭЮЯ")
RUS_LETTERS = set("абвгдеёжзийклмнопрстуфхцчшщъыьэюяАБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯ")
LAT_LETTERS = set("abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ")
DIGITS      = set("0123456789")

In [21]:
# Проверка типа символа
def ctype(ch: str) -> str:
    if ch in RUS_LETTERS: return "RU"
    if ch in LAT_LETTERS: return "EN"
    if ch in DIGITS:      return "DG"
    return "OT"

In [22]:
# Проверка гласной буквы
def is_vowel(ch: str) -> int:
    return int(ch in RUS_VOWELS)

### !!!Главная идея: каждую границу мы описываем признаками «что слева и справа», «какой контекст рядом», «какие переходы по типам букв». Это даёт модели материал для предсказания пробела.

#### Пример признаков для границы между i и i+1 символами строки s:
```json
{
 'bigram': 'н|1',
 'lt': 'RU', 'rt': 'DG',
 'type_change': 1,
 'case_change': 0,
 'digit_to_alpha': 0,
 'alpha_to_digit': 1,
 'vowel_to_cons': 0,
 'cons_to_vowel': 0,
 'c-2': 'о', 'c-2_t': 'RU', 'c-2_u': 0, 'c-2_v': 1,
 'c-1': 'н', 'c-1_t': 'RU', 'c-1_u': 0, 'c-1_v': 0,
 'c0': 'н', 'c0_t': 'RU', 'c0_u': 0, 'c0_v': 0,
 'c1': '1', 'c1_t': 'DG', 'c1_u': 0, 'c1_v': 0,
 'c2': '4', 'c2_t': 'DG', 'c2_u': 0, 'c2_v': 0
}
```

In [23]:
# Признаки для границы между символами s[i] и s[i+1]
def feats_for_boundary(s: str, i: int, win: int = 2) -> dict:
    n = len(s)
    left, right = s[i], s[i+1]
    f = {
    # --- базовые ---
    "bigram": left + "|" + right,
    "lt": ctype(left),
    "rt": ctype(right),
    "type_change": int(ctype(left) != ctype(right)),
    "case_change": int(left.isupper() != right.isupper()),
    "digit_to_alpha": int(left in DIGITS and right not in DIGITS),
    "alpha_to_digit": int(left not in DIGITS and right in DIGITS),
    "vowel_to_cons": int(is_vowel(left) and (right in RUS_LETTERS and not is_vowel(right))),
    "cons_to_vowel": int((left in RUS_LETTERS and not is_vowel(left)) and is_vowel(right)),

    # --- расширенные ---
    # 1. Триграмма (левый-центр-правый)
    "trigram_l": (s[i-1] if i > 0 else "<BOS>") + left + "|" + right,

    # 2. Триграмма справа
    "trigram_r": left + "|" + right + (s[i+2] if i+2 < n else "<EOS>"),

    # 3. Сочетания категорий (тип+тип)
    "lt_rt_types": ctype(left) + "_" + ctype(right),

    # 4. Является ли граница внутри латиницы
    "both_en": int(left in LAT_LETTERS and right in LAT_LETTERS),

    # 5. Является ли граница внутри кириллицы
    "both_ru": int(left in RUS_LETTERS and right in RUS_LETTERS),

    # 6. Сочетание гласность-согласность (гласная/согласная)
    "vc_pattern": str(is_vowel(left)) + str(is_vowel(right)),

    # 7. Пунктуация
    "left_punct": int(not left.isalnum()),
    "right_punct": int(not right.isalnum()),

    # 8. Числовой паттерн (две цифры подряд)
    "digit_seq": int(left in DIGITS and right in DIGITS),

    # 9. CamelCase (с маленькой на большую)
    "camel_case": int(left.islower() and right.isupper()),

    # 10. Аббревиатуры (две заглавные подряд)
    "abbr": int(left.isupper() and right.isupper()),

    # 11. Длина "слова до границы"
    # (подсчёт назад до пробела или начала)
    "len_left_word": sum(
        1 for j in range(i, -1, -1)
        if s[j].isalpha()
    ),

    # 12. Длина "слова после границы"
    "len_right_word": sum(
        1 for j in range(i+1, n)
        if s[j].isalpha()
    ) if right.isalpha() else 0,
}
    for off in range(-win, win+1):
        j = i+off
        key = f"c{off}"
        if 0 <= j < n:
            ch = s[j]
            f[key]    = ch
            f[key+"_t"]= ctype(ch)
            f[key+"_u"]= int(ch.isupper())
            f[key+"_v"]= is_vowel(ch)
        else:
            f[key]    = "<PAD>"
            f[key+"_t"]= "PAD"
            f[key+"_u"]= 0
            f[key+"_v"]= 0
    return f

In [24]:
def make_train(lines: List[str], max_len=2000):
    X, y = [], []
    for s in lines:
        ns, tgt = remove_spaces_and_targets(s) # ns - строка без пробелов, tgt - метки
        for i in range(len(ns)-1):
            X.append(feats_for_boundary(ns, i))
            y.append(tgt[i])
    return X, y # X - признаки, y - метки

In [25]:
def build_model() -> Pipeline:
    clf = LogisticRegression(
        solver="liblinear", penalty="l2", C=1.0,
        max_iter=200, class_weight="balanced", random_state=42
    )
    return Pipeline([("vec", DictVectorizer()), ("lr", clf)]) # модель с преобразованием признаков

In [26]:
def restore_spaces(model: Pipeline, s: str, thr: float = 0.5) -> str:
    if not s or len(s) == 1: return s
    feats = [feats_for_boundary(s, i) for i in range(len(s)-1)]
    probs = model.predict_proba(feats)[:, 1]
    out = [s[0]]
    for i, p in enumerate(probs):
        if p >= thr: out.append(" ")
        out.append(s[i+1])
    return "".join(out)

In [27]:
# Обучаем модель на мини-корпусе
X_train, y_train = make_train(train_lines)
model = build_model().fit(X_train, y_train)

print(f"Обучено на примерах: {len(y_train)}")

Обучено на примерах: 623


In [31]:
def strip_spaces(s: str) -> str:
    return "".join(ch for ch in s if ch != " ")

def space_positions_from_spaced_text(spaced: str):
    """Возвращает список индексов пробелов в строке без пробелов"""
    pos = []
    seen = 0
    for ch in spaced:
        if ch == " ":
            pos.append(seen)
        else:
            seen += 1
    return pos

preds = []
positions = []

for s in df["text_no_spaces"].astype(str):
    s0 = strip_spaces(s)  # убираем пробелы, если они есть
    spaced = restore_spaces(model, s0, thr=0.5)  # предсказанный текст с пробелами
    preds.append(spaced)
    positions.append(str(space_positions_from_spaced_text(spaced)))  # строка вида "[5, 8, 13]"

# формируем submission
res = df.copy()
res["predicted_positions"] = positions

# сохраняем
res.to_csv("submission.csv", index=False, encoding="utf-8")

print(res.head(10))
print("Файл submission.csv готов 🚀")

   id                 text_no_spaces  predicted_positions
0   0                куплюайфон14про          [5, 10, 12]
1   1             ищудомвПодмосковье            [3, 6, 7]
2   2  сдаюквартирусмебельюитехникой  [4, 12, 13, 20, 21]
3   3     новыйдивандоставканедорого      [5, 10, 18, 20]
4   4                 отдамдаромкошк              [5, 10]
5   5          работавМосквеудаленно       [6, 7, 13, 14]
6   6          куплютелевизорPhilips              [5, 14]
7   7        ищугрузчиковдляпереезда          [3, 12, 15]
8   8           ремонтквартирподключ          [6, 13, 16]
9   9                 куплюноутбукHP              [5, 12]
Файл submission.csv готов 🚀
