In [1]:

import polars as pl
import glob
from tqdm.notebook import tqdm
from collections import Counter, defaultdict
import math

RANDOM_SEED = 42
pl.Config.set_fmt_str_lengths(120)

DATA_PATH = '../data/proccesed_data/'
all_parquet_files = glob.glob(f"{DATA_PATH}*.parquet")

if not all_parquet_files:
    raise FileNotFoundError(f"В папке {DATA_PATH} не найдено parquet-файлов.")

print(f"Найденные файлы: {all_parquet_files}")

SAMPLE_FRACTION = 0.1
lazy_frames = []
print(f"\nСоставляем план для загрузки {SAMPLE_FRACTION*100:.0f}% из каждого файла...")

for file in all_parquet_files:
    lf = pl.scan_parquet(file)
    total_rows = lf.select(pl.len()).collect().item()
    sample_size = int(total_rows * SAMPLE_FRACTION)
    
    sampled_lf = lf.with_columns(
        pl.lit(pl.arange(0, total_rows, eager=True).shuffle(seed=RANDOM_SEED)).alias("random_index")
    ).sort("random_index").head(sample_size).drop("random_index")
    lazy_frames.append(sampled_lf)
    print(f"  - Файл '{file.split('/')[-1]}': всего строк {total_rows}, берем {sample_size}")

def get_space_positions(sentence: str) -> list:
    if not isinstance(sentence, str) or not sentence:
        return []
    words = sentence.split(' ')
    positions = []
    current_pos = 0
    for i, word in enumerate(words):
        current_pos += len(word)
        if i < len(words) - 1:
            positions.append(current_pos)
    return positions

df = pl.concat(lazy_frames).collect()
df = df.with_columns(
    pl.col("sentence_with_spaces").map_elements(get_space_positions, return_dtype=pl.List(pl.Int64)).alias("true_positions")
)
df = df.sample(fraction=1, shuffle=True, seed=RANDOM_SEED)

train_fraction = 0.9
train_size = int(train_fraction * len(df))
train_df = df.slice(0, train_size)
test_df = df.slice(train_size)

print(f"\nВсего строк в сэмпле: {len(df)}")
print(f"Обучающая выборка: {len(train_df)}")
print(f"Тестовая выборка: {len(test_df)}")

Найденные файлы: ['../data/proccesed_data/item_info_train.parquet', '../data/proccesed_data/item_info.parquet', '../data/proccesed_data/pesni.parquet', '../data/proccesed_data/processed_corpus.parquet']

Составляем план для загрузки 10% из каждого файла...
  - Файл 'item_info_train.parquet': всего строк 16276308, берем 1627630
  - Файл 'item_info.parquet': всего строк 5810022, берем 581002
  - Файл 'pesni.parquet': всего строк 4940902, берем 494090
  - Файл 'processed_corpus.parquet': всего строк 9321, берем 932

Всего строк в сэмпле: 2703654
Обучающая выборка: 2433288
Тестовая выборка: 270366


In [2]:
print("Строим биграммную языковую модель...")

all_words_series = train_df.select(pl.col("sentence_with_spaces").str.split(by=" ")).explode("sentence_with_spaces")
unigram_counts = Counter(all_words_series["sentence_with_spaces"].to_list())
total_words = sum(unigram_counts.values())

bigram_counts = Counter()
sentences = train_df["sentence_with_spaces"].to_list()
for sentence in sentences:
    words = ['<s>'] + sentence.split(' ') + ['</s>']
    for i in range(len(words) - 1):
        bigram_counts[(words[i], words[i+1])] += 1

log_unigram_probs = {word: math.log(count / total_words) for word, count in unigram_counts.items()}
log_bigram_probs = defaultdict(lambda: -math.inf)
for (w1, w2), count in bigram_counts.items():
    log_bigram_probs[(w1, w2)] = math.log(count / unigram_counts.get(w1, 1))

start_word_counts = Counter(word for (prev_word, word), count in bigram_counts.items() if prev_word == '<s>')
total_starts = sum(start_word_counts.values())
log_start_probs = {word: math.log(count / total_starts) for word, count in start_word_counts.items()}

MAX_WORD_LEN = min(all_words_series.select(pl.col("sentence_with_spaces").str.len_chars().max()).item(), 50)

language_model = {
    "unigrams": log_unigram_probs,
    "bigrams": log_bigram_probs,
    "starts": log_start_probs,
    "max_len": MAX_WORD_LEN
}
print(f"Модель создана. Уникальных слов: {len(unigram_counts)}, биграмм: {len(bigram_counts)}, макс. длина слова: {MAX_WORD_LEN}")

Строим биграммную языковую модель...
Модель создана. Уникальных слов: 1919082, биграмм: 7530915, макс. длина слова: 50


In [3]:
def segment_viterbi_bigram(text: str, model: dict) -> list:
    n = len(text)
    log_unigram_probs = model['unigrams']
    log_bigram_probs = model['bigrams']
    log_start_probs = model['starts']
    max_word_len = model['max_len']
    
    dp = [defaultdict(lambda: (-math.inf, None)) for _ in range(n + 1)]

    for i in range(1, min(n + 1, max_word_len + 1)):
        word = text[:i]
        if word in log_unigram_probs:
            prob = log_start_probs.get(word, log_unigram_probs[word] - math.log(10))
            dp[i][word] = (prob, "<s>")

    for i in range(1, n + 1):
        for j in range(max(0, i - max_word_len), i):
            current_word = text[j:i]
            if current_word in log_unigram_probs:
                if not dp[j]: continue
                for prev_word, (prev_prob, _) in dp[j].items():
                    transition_prob = log_bigram_probs.get(
                        (prev_word, current_word), 
                        log_unigram_probs[current_word] - math.log(1000)
                    )
                    new_prob = prev_prob + transition_prob
                    if new_prob > dp[i][current_word][0]:
                        dp[i][current_word] = (new_prob, prev_word)
    
    if not dp[n]: return []
    
    best_last_word = max(dp[n].items(), key=lambda item: item[1][0])[0]
    
    words = []
    current_word = best_last_word
    i = n
    while current_word != "<s>":
        words.append(current_word)
        prev_word = dp[i][current_word][1]
        i -= len(current_word)
        current_word = prev_word
    words.reverse()

    positions = []
    current_pos = 0
    for i, word in enumerate(words):
        current_pos += len(word)
        if i < len(words) - 1:
            positions.append(current_pos)
    return positions

def calculate_f1_corrected(predicted: list, true: list) -> float:
    if not predicted and not true: return 1.0
    pred_set = set(predicted)
    true_set = set(true)
    tp = len(pred_set.intersection(true_set))
    precision = tp / len(pred_set) if pred_set else 0.0
    recall = tp / len(true_set) if true_set else 0.0
    if precision + recall == 0: return 0.0
    f1 = 2 * (precision * recall) / (precision + recall)
    return f1

In [4]:
sentences_to_process = test_df["sentence_without_spaces"].to_list()

predicted_positions_list = [
    segment_viterbi_bigram(s, language_model) 
    for s in tqdm(sentences_to_process, desc="Предсказание (Биграммы)")
]

results_df = test_df.with_columns(
    pl.Series("predicted_positions", predicted_positions_list, dtype=pl.List(pl.Int64))
)

f1_scores = [
    calculate_f1_corrected(row["predicted_positions"], row["true_positions"])
    for row in tqdm(results_df.select(["predicted_positions", "true_positions"]).iter_rows(named=True), 
                    desc="Вычисление F1", total=len(results_df))
]

results_df = results_df.with_columns(
    pl.Series("f1_score", f1_scores, dtype=pl.Float64)
)

mean_f1 = results_df['f1_score'].mean()
print("-" * 50)
print(f"ИТОГОВЫЙ РЕЗУЛЬТАТ (БИГРАММНАЯ МОДЕЛЬ):")
print(f"Средний F1-score на тестовой выборке: {mean_f1:.4f}")
print("-" * 50)

print("\nПримеры с низким F1-score:")
print(results_df.sort("f1_score").head(5))

print("\nПримеры с высоким F1-score:")
print(results_df.sort("f1_score", descending=True).head(5))

Предсказание (Биграммы):   0%|          | 0/270366 [00:00<?, ?it/s]

Вычисление F1:   0%|          | 0/270366 [00:00<?, ?it/s]

--------------------------------------------------
ИТОГОВЫЙ РЕЗУЛЬТАТ (БИГРАММНАЯ МОДЕЛЬ):
Средний F1-score на тестовой выборке: 0.8983
--------------------------------------------------

Примеры с низким F1-score:
shape: (5, 6)
┌──────────┬───────────────────┬───────────────────┬────────────────┬───────────────────┬──────────┐
│ id       ┆ sentence_with_spa ┆ sentence_without_ ┆ true_positions ┆ predicted_positio ┆ f1_score │
│ ---      ┆ ces               ┆ spaces            ┆ ---            ┆ ns                ┆ ---      │
│ i64      ┆ ---               ┆ ---               ┆ list[i64]      ┆ ---               ┆ f64      │
│          ┆ str               ┆ str               ┆                ┆ list[i64]         ┆          │
╞══════════╪═══════════════════╪═══════════════════╪════════════════╪═══════════════════╪══════════╡
│ 4609223  ┆ Вторичка.         ┆ Вторичка.         ┆ []             ┆ [1, 3, 6]         ┆ 0.0      │
│ 13343528 ┆ В наличии.        ┆ Вналичии.         ┆ [1]        

In [6]:

import pandas as pd
from collections import Counter, defaultdict
import math
from tqdm import tqdm

print("Перестраиваем финальную биграммную модель на всех доступных данных...")

final_all_words_series = df.select(pl.col("sentence_with_spaces").str.split(by=" ")).explode("sentence_with_spaces")
final_unigram_counts = Counter(final_all_words_series["sentence_with_spaces"].to_list())
final_total_words = sum(final_unigram_counts.values())

final_bigram_counts = Counter()
for sentence in df["sentence_with_spaces"].to_list():
    words = ['<s>'] + sentence.split(' ') + ['</s>']
    for i in range(len(words) - 1):
        final_bigram_counts[(words[i], words[i+1])] += 1

final_log_unigram_probs = {word: math.log(count / final_total_words) for word, count in final_unigram_counts.items()}
final_log_bigram_probs = defaultdict(lambda: -math.inf)
for (w1, w2), count in final_bigram_counts.items():
    final_log_bigram_probs[(w1, w2)] = math.log(count / final_unigram_counts.get(w1, 1))

final_start_word_counts = Counter(word for (prev_word, word), count in final_bigram_counts.items() if prev_word == '<s>')
final_total_starts = sum(final_start_word_counts.values())
final_log_start_probs = {word: math.log(count / final_total_starts) for word, count in final_start_word_counts.items()}

final_max_word_len = min(final_all_words_series.select(pl.col("sentence_with_spaces").str.len_chars().max()).item(), 50)

final_language_model = {
    "unigrams": final_log_unigram_probs,
    "bigrams": final_log_bigram_probs,
    "starts": final_log_start_probs,
    "max_len": final_max_word_len,
    "total_words": final_total_words
}
print("Финальная модель готова.")

def segment_viterbi_robust(text: str, model: dict) -> list:
    n = len(text)
    log_unigram_probs = model['unigrams']
    log_bigram_probs = model['bigrams']
    log_start_probs = model['starts']
    max_word_len = model['max_len']
    total_words = model['total_words']

    dp = [defaultdict(lambda: (-math.inf, None)) for _ in range(n + 1)]

    for i in range(1, min(n + 1, max_word_len + 1)):
        word = text[:i]
        log_prob_word = log_unigram_probs.get(word)
        if log_prob_word is None:
            log_prob_word = -math.log(total_words * 10**len(word))

        prob = log_start_probs.get(word, log_prob_word)
        dp[i][word] = (prob, "<s>")

    for i in range(1, n + 1):
        for j in range(max(0, i - max_word_len), i):
            current_word = text[j:i]
            
            log_prob_current = log_unigram_probs.get(current_word)
            if log_prob_current is None:
                log_prob_current = -math.log(total_words * 10**len(current_word))

            if not dp[j]: continue
            
            for prev_word, (prev_prob, _) in dp[j].items():
                transition_prob = log_bigram_probs.get(
                    (prev_word, current_word), 
                    log_prob_current - math.log(1000) # Штраф за отсутствие биграммы
                )
                new_prob = prev_prob + transition_prob
                if new_prob > dp[i][current_word][0]:
                    dp[i][current_word] = (new_prob, prev_word)
    
    if not dp[n]: return []
    
    best_last_word = max(dp[n].items(), key=lambda item: item[1][0])[0]
    
    words = []
    current_word = best_last_word
    i = n
    while current_word != "<s>":
        words.append(current_word)
        prev_word = dp[i][current_word][1]
        i -= len(current_word)
        current_word = prev_word
    words.reverse()

    positions = []
    current_pos = 0
    for i, word in enumerate(words):
        current_pos += len(word)
        if i < len(words) - 1:
            positions.append(current_pos)
    return positions


TEST_FILE_PATH = '../data/dataset_1937770_3.txt'
test_data_rows = []
try:
    with open(TEST_FILE_PATH, 'r', encoding='utf-8') as f:
        # Пропускаем заголовок
        next(f) 
        for line in f:
            line = line.strip()
            if not line:
                continue
            # Разделяем строку только по первой запятой
            parts = line.split(',', 1)
            if len(parts) == 2:
                row_id, text = parts
                test_data_rows.append({'id': int(row_id), 'text_no_spaces': text})

    task_data_df = pd.DataFrame(test_data_rows)
    print(f"\nТестовый файл успешно загружен вручную. Количество строк: {len(task_data_df)}")

except FileNotFoundError:
    print(f"Ошибка: тестовый файл '{TEST_FILE_PATH}' не найден.")
    task_data_df = pd.DataFrame(columns=['id', 'text_no_spaces'])

predicted_positions_for_submission = []
for text in tqdm(task_data_df['text_no_spaces'], desc="Генерация сабмита"):
    if pd.isna(text):
        predicted_positions_for_submission.append("[]")
        continue
    
    positions = segment_viterbi_robust(str(text), final_language_model)
    positions_str = str(sorted(positions))
    predicted_positions_for_submission.append(positions_str)

submission_df = task_data_df.copy()
submission_df['predicted_positions'] = predicted_positions_for_submission
submission_df.to_csv('submission.csv', index=False)

print("\nФайл submission.csv успешно создан и готов к отправке!")
print("Пример содержимого:")
print(submission_df.head())

Перестраиваем финальную биграммную модель на всех доступных данных...
Финальная модель готова.

Тестовый файл успешно загружен вручную. Количество строк: 1005


Генерация сабмита: 100%|███████████████████| 1005/1005 [00:01<00:00, 784.84it/s]



Файл submission.csv успешно создан и готов к отправке!
Пример содержимого:
   id                 text_no_spaces  predicted_positions
0   0                куплюайфон14про                   []
1   1             ищудомвПодмосковье            [3, 6, 7]
2   2  сдаюквартирусмебельюитехникой  [4, 12, 13, 20, 21]
3   3     новыйдивандоставканедорого      [5, 10, 18, 20]
4   4                отдамдаромкошку              [5, 10]


In [7]:
submission_df = pd.DataFrame({
    'id': task_data_df['id'],
    'predicted_positions': predicted_positions_for_submission
})

submission_df.to_csv('submission.csv', index=False)

print("\nФайл submission.csv успешно создан и готов к отправке!")
print("Пример содержимого:")
print(submission_df.head())


Файл submission.csv успешно создан и готов к отправке!
Пример содержимого:
   id  predicted_positions
0   0                   []
1   1            [3, 6, 7]
2   2  [4, 12, 13, 20, 21]
3   3      [5, 10, 18, 20]
4   4              [5, 10]
