In [7]:
from collections import defaultdict, Counter

# 초기 단어 리스트 (각 단어 끝에 </w> 추가 → 단어 경계 표시용)
corpus = ['low', 'lowest', 'newer', 'wider']
vocab = {}

In [8]:
# 각 단어를 문자 단위로 나누고, 마지막에 </w> 붙임
for word in corpus:
    tokens = " ".join(list(word)) + " </w>"
    vocab[tokens] = vocab.get(tokens, 0) + 1

In [9]:
vocab

{'l o w </w>': 1,
 'l o w e s t </w>': 1,
 'n e w e r </w>': 1,
 'w i d e r </w>': 1}

In [4]:

def get_stats(vocab):
    """ 문자쌍(바이그램) 빈도 계산 """
    pairs = defaultdict(int)
    for word, freq in vocab.items():
        symbols = word.split()
        for i in range(len(symbols) - 1):
            pairs[(symbols[i], symbols[i+1])] += freq
    return pairs

def merge_vocab(pair, vocab):
    """ 가장 자주 등장한 쌍을 병합 """
    new_vocab = {}
    bigram = ' '.join(pair)
    replacement = ''.join(pair)
    for word in vocab:
        # 병합 대상 쌍만 공백 없이 치환
        new_word = word.replace(bigram, replacement)
        new_vocab[new_word] = vocab[word]
    return new_vocab


In [10]:
get_stats(vocab)

defaultdict(int,
            {('l', 'o'): 2,
             ('o', 'w'): 2,
             ('w', '</w>'): 1,
             ('w', 'e'): 2,
             ('e', 's'): 1,
             ('s', 't'): 1,
             ('t', '</w>'): 1,
             ('n', 'e'): 1,
             ('e', 'w'): 1,
             ('e', 'r'): 2,
             ('r', '</w>'): 2,
             ('w', 'i'): 1,
             ('i', 'd'): 1,
             ('d', 'e'): 1})

In [5]:

# 학습 과정 실행
num_merges = 10  # 병합 횟수 제한
for i in range(num_merges):
    print(f"\nStep {i+1}:")
    pairs = get_stats(vocab)
    if not pairs:
        break
    best_pair = max(pairs, key=pairs.get)
    print(f"Most frequent pair: {best_pair}")
    vocab = merge_vocab(best_pair, vocab)
    print("Updated vocab:")
    for word in vocab:
        print(f"  {word} → {vocab[word]}")



Step 1:
Most frequent pair: ('l', 'o')
Updated vocab:
  lo w </w> → 1
  lo w e s t </w> → 1
  n e w e r </w> → 1
  w i d e r </w> → 1

Step 2:
Most frequent pair: ('lo', 'w')
Updated vocab:
  low </w> → 1
  low e s t </w> → 1
  n e w e r </w> → 1
  w i d e r </w> → 1

Step 3:
Most frequent pair: ('e', 'r')
Updated vocab:
  low </w> → 1
  low e s t </w> → 1
  n e w er </w> → 1
  w i d er </w> → 1

Step 4:
Most frequent pair: ('er', '</w>')
Updated vocab:
  low </w> → 1
  low e s t </w> → 1
  n e w er</w> → 1
  w i d er</w> → 1

Step 5:
Most frequent pair: ('low', '</w>')
Updated vocab:
  low</w> → 1
  low e s t </w> → 1
  n e w er</w> → 1
  w i d er</w> → 1

Step 6:
Most frequent pair: ('low', 'e')
Updated vocab:
  low</w> → 1
  lowe s t </w> → 1
  n e w er</w> → 1
  w i d er</w> → 1

Step 7:
Most frequent pair: ('lowe', 's')
Updated vocab:
  low</w> → 1
  lowes t </w> → 1
  n e w er</w> → 1
  w i d er</w> → 1

Step 8:
Most frequent pair: ('lowes', 't')
Updated vocab:
  low</w> → 1
  l