分词方法
- 词粒度分词
- 字节对编码(BPE)分词：合并高频字节对，递归生成新的子词，可有效解决稀有词问题
- 基于子词的分词

In [2]:
import re
import pandas as pd
from collections import Counter, defaultdict

In [3]:
# 示例数据
data = {
    'text': [
        "自然语言处理是人工智能的一个重要领域。",
        "数据增强技术可以扩展数据集，提高模型的泛化能力。",
        "深度学习和机器学习是现代人工智能的核心技术。",
    ]
}

df = pd.DataFrame(data)

In [4]:
# 分词函数
def get_vocab(texts):
    vocab = Counter()
    for text in texts:
        text = ' '.join(list(text)) # 按字符切分
        vocab.update(text.split())
    return vocab


get_vocab(["你好你", "哈哈哈哈哈"])

Counter({'哈': 5, '你': 2, '好': 1})

In [None]:
# BPE分词合并
def merge_vocab(vocab, pair):
    new_vocab = {}
    bigram = re.escape(' '.join(pair))
    p = re.compile(r'(?<!\S)' + bigram + r'(?!\S)')
    for word in vocab:
        w_out = p.sub(''.join(pair), word)
        new_vocab[w_out] = vocab[word]
    return new_vocab

In [None]:
# 获取最频的字对
def get_stats(vocab):
    pairs = defaultdict(int)
    for word, freq in vocab.items():
        symbols = word.split()
        for i in range(len(symbols) - 1):
            pairs[symbols[i], symbols[i + 1]] += freq
    return pairs

In [None]:
# BPE分词主函数
def bpe_tokenize(texts, num_merges):
    vocab = get_vocab(texts)
    for i in range(num_merges):
        pairs = get_stats(vocab)
        if not pairs:
            break
        best = max(pairs, key=pairs.get)
        vocab = merge_vocab(vocab, best)
    
        