Униграмы, бейслайн по легкости

In [1]:
import polars as pl
import numpy as np
from collections import Counter
import math
from tqdm.notebook import tqdm
import glob

pl.Config.set_fmt_str_lengths(100)

print("Библиотеки успешно импортированы.")

Библиотеки успешно импортированы.


In [6]:
import polars as pl
import glob
from tqdm.notebook import tqdm

DATA_PATH = '../data/proccesed_data/'

all_parquet_files = glob.glob(f"{DATA_PATH}*.parquet")

if not all_parquet_files:
    raise FileNotFoundError(f"В папке {DATA_PATH} не найдено parquet-файлов. Убедитесь, что путь указан верно.")

print(f"Найденные файлы: {all_parquet_files}")

SAMPLE_FRACTION = 0.1
lazy_frames = []

print(f"\nСоставляем план для загрузки {SAMPLE_FRACTION*100:.0f}% из каждого файла...")

for file in all_parquet_files:
    lf = pl.scan_parquet(file)
    
    total_rows = lf.select(pl.len()).collect().item()
    sample_size = int(total_rows * SAMPLE_FRACTION)
    sampled_lf = lf.with_columns(
        pl.lit(pl.arange(0, total_rows, eager=True).shuffle(seed=42)).alias("random_index")
    ).sort("random_index").head(sample_size).drop("random_index")

    lazy_frames.append(sampled_lf)
    print(f"  - Файл '{file.split('/')[-1]}': всего строк {total_rows}, берем {sample_size}")

combined_lazy_frame = pl.concat(lazy_frames)

def get_space_positions(sentence_with_spaces: str) -> list:
    """Вычисляет ground truth позиции для пробелов."""
    if not isinstance(sentence_with_spaces, str) or not sentence_with_spaces:
        return []
    words = sentence_with_spaces.split(' ')
    positions = []
    current_pos = 0
    for i, word in enumerate(words):
        current_pos += len(word)
        if i < len(words) - 1:
            positions.append(current_pos)
    return positions

print("\nНачинаем материализацию сэмпла и вычисление позиций...")
df = combined_lazy_frame.with_columns(
    pl.col("sentence_with_spaces").map_elements(
        get_space_positions, 
        return_dtype=pl.List(pl.Int64)
    ).alias("true_positions")
).collect()

df = df.sample(fraction=1, shuffle=True, seed=42)

print(f"\nВсего загружено и обработано строк (сэмпл): {len(df)}")
df.head()

Найденные файлы: ['../data/proccesed_data/item_info_train.parquet', '../data/proccesed_data/item_info.parquet', '../data/proccesed_data/pesni.parquet', '../data/proccesed_data/processed_corpus.parquet']

Составляем план для загрузки 10% из каждого файла...
  - Файл 'item_info_train.parquet': всего строк 16276308, берем 1627630
  - Файл 'item_info.parquet': всего строк 5810022, берем 581002
  - Файл 'pesni.parquet': всего строк 4940902, берем 494090
  - Файл 'processed_corpus.parquet': всего строк 9321, берем 932

Начинаем материализацию сэмпла и вычисление позиций...

Всего загружено и обработано строк (сэмпл): 2703654


id,sentence_with_spaces,sentence_without_spaces,true_positions
i64,str,str,list[i64]
1496341,"""и к черту соглашение с Янктоном""","""икчертусоглашениесЯнктоном""","[1, 2, … 18]"
1,"""Продам Камаз 6520 20 тонн""","""ПродамКамаз652020тонн""","[6, 11, … 17]"
5139734,"""Дверь газ 21""","""Дверьгаз21""","[5, 8]"
9823880,"""(937) 3-44444-8 — 10 т.""","""(937)3-44444-8—10т.""","[5, 14, … 17]"
13288818,"""Monster Tiger Nut DY229 Товар новый!""","""MonsterTigerNutDY229 Товарновый!""","[7, 12, … 26]"


In [7]:
train_fraction = 0.9
train_size = int(train_fraction * len(df))

train_df = df.slice(0, train_size)
test_df = df.slice(train_size)

print(f"Размер обучающей выборки (train): {len(train_df)}")
print(f"Размер тестовой выборки (test): {len(test_df)}")

Размер обучающей выборки (train): 2433288
Размер тестовой выборки (test): 270366


In [9]:
print("Строим языковую модель на обучающей выборке...")
all_words_series = train_df.select(
    pl.col("sentence_with_spaces").str.split(by=" ")
).explode("sentence_with_spaces")

all_words = all_words_series["sentence_with_spaces"].to_list()

word_counts = Counter(all_words)
total_words = len(all_words)

log_probs = {word: math.log(count / total_words) for word, count in word_counts.items()}

MAX_WORD_LEN = all_words_series.select(
    pl.col("sentence_with_spaces").str.len_chars().max()
).item()

print(f"Размер словаря: {len(log_probs)} слов.")
print(f"Максимальная длина слова: {MAX_WORD_LEN}")

Строим языковую модель на обучающей выборке...
Размер словаря: 1919082 слов.
Максимальная длина слова: 2706


In [10]:
def segment_text_dp(text: str, log_probs: dict, max_word_len: int) -> list:

    n = len(text)
    dp = [-math.inf] * (n + 1)
    backpointers = [0] * (n + 1)
    dp[0] = 0

    for i in range(1, n + 1):
        for j in range(max(0, i - max_word_len), i):
            word = text[j:i]
            if word in log_probs:
                prob = log_probs[word]
                if dp[j] + prob > dp[i]:
                    dp[i] = dp[j] + prob
                    backpointers[i] = j

    positions = []
    i = n
    while i > 0:
        j = backpointers[i]
        if j == 0:
            break
        positions.append(j)
        i = j
    
    return sorted(positions)

In [11]:
def calculate_f1(predicted: list, true: list) -> float:
    pred_set = set(predicted)
    true_set = set(true)
    
    tp = len(pred_set.intersection(true_set))
    
    if len(pred_set) == 0:
        precision = 0.0
    else:
        precision = tp / len(pred_set)
        
    if len(true_set) == 0:
        recall = 1.0 if len(pred_set) == 0 else 0.0
    else:
        recall = tp / len(true_set)
        
    if precision + recall == 0:
        return 0.0
    
    f1 = 2 * (precision * recall) / (precision + recall)
    return f1

In [15]:
print("Начинаем предсказание на тестовой выборке...")
sentences_to_process = test_df["sentence_without_spaces"].to_list()

predicted_positions_list = [
    segment_text_dp(x, log_probs, MAX_WORD_LEN) 
    for x in tqdm(sentences_to_process, desc="Предсказание позиций")
]

predicted_series = pl.Series("predicted_positions", predicted_positions_list, dtype=pl.List(pl.Int64))

test_df_processed = test_df.with_columns(predicted_series)


print("\nВычисляем F1-score...")
structs_to_process = test_df_processed.select(
    pl.struct(["predicted_positions", "true_positions"]).alias("my_struct")
)["my_struct"].to_list()

f1_scores_list = [
    calculate_f1(s["predicted_positions"], s["true_positions"])
    for s in tqdm(structs_to_process, desc="Вычисление F1")
]

f1_series = pl.Series("f1_score", f1_scores_list, dtype=pl.Float64)

results_df = test_df_processed.with_columns(f1_series)


mean_f1 = results_df['f1_score'].mean()

print(f"\nСредний F1-score на тестовой выборке: {mean_f1:.4f}")
print(results_df.sort("f1_score").head(5))

print("\nПримеры с высоким F1-score:")
print(results_df.sort("f1_score", descending=True).head(5))

Начинаем предсказание на тестовой выборке...


Предсказание позиций:   0%|          | 0/270366 [00:00<?, ?it/s]


Вычисляем F1-score...


Вычисление F1:   0%|          | 0/270366 [00:00<?, ?it/s]


Средний F1-score на тестовой выборке: 0.8321

Примеры с низким F1-score:
shape: (5, 6)
┌──────────┬───────────────────┬───────────────────┬────────────────┬───────────────────┬──────────┐
│ id       ┆ sentence_with_spa ┆ sentence_without_ ┆ true_positions ┆ predicted_positio ┆ f1_score │
│ ---      ┆ ces               ┆ spaces            ┆ ---            ┆ ns                ┆ ---      │
│ i64      ┆ ---               ┆ ---               ┆ list[i64]      ┆ ---               ┆ f64      │
│          ┆ str               ┆ str               ┆                ┆ list[i64]         ┆          │
╞══════════╪═══════════════════╪═══════════════════╪════════════════╪═══════════════════╪══════════╡
│ 14686419 ┆ СРОЧНО            ┆ СРОЧНО            ┆ []             ┆ []                ┆ 0.0      │
│ 4609223  ┆ Вторичка.         ┆ Вторичка.         ┆ []             ┆ [1, 3, 6]         ┆ 0.0      │
│ 8071711  ┆ _________________ ┆ _________________ ┆ []             ┆ []                ┆ 0.0      │
│  

In [16]:
!pip install wordsegment
import wordsegment

wordsegment.load()

def segment_with_wordsegment(text: str) -> list:
    words = wordsegment.segment(text)
    
    positions = []
    current_pos = 0
    for i, word in enumerate(words):
        current_pos += len(word)
        if i < len(words) - 1:
            positions.append(current_pos)
            
    return positions

sentences_to_process = test_df["sentence_without_spaces"].to_list()

predicted_positions_list_ws = [
    segment_with_wordsegment(x) 
    for x in tqdm(sentences_to_process, desc="wordsegment")
]

results_df_ws = test_df.with_columns(
    pl.Series("predicted_positions", predicted_positions_list_ws, dtype=pl.List(pl.Int64))
)

f1_scores_ws = [
    calculate_f1(row["predicted_positions"], row["true_positions"])
    for row in results_df_ws.select(["predicted_positions", "true_positions"]).iter_rows(named=True)
]

mean_f1_ws = sum(f1_scores_ws) / len(f1_scores_ws)

print(f"\nСредний F1-score на тестовой выборке (wordsegment): {mean_f1_ws:.4f}")

Collecting wordsegment
  Downloading wordsegment-1.3.1-py2.py3-none-any.whl.metadata (7.7 kB)
Downloading wordsegment-1.3.1-py2.py3-none-any.whl (4.8 MB)
[2K   [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m4.8/4.8 MB[0m [31m3.6 MB/s[0m eta [36m0:00:00[0m[31m3.8 MB/s[0m eta [36m0:00:01[0m
[?25hInstalling collected packages: wordsegment
Successfully installed wordsegment-1.3.1
Инициализация `wordsegment`...
Начинаем предсказание с помощью `wordsegment`...


wordsegment:   0%|          | 0/270366 [00:00<?, ?it/s]


Средний F1-score на тестовой выборке (wordsegment): 0.0136
