# 기본환경 설정

In [None]:
import os, re, unicodedata, pathlib, random
import requests
from bs4 import BeautifulSoup
from tqdm import tqdm
import sentencepiece as spm
import torch
import torch.nn as nn
from torch.utils.data import Dataset, DataLoader

# 경로/디바이스
DATA_DIR = pathlib.Path("data/ko_wikisource_clean"); DATA_DIR.mkdir(exist_ok=True)
RAW_TXT  = DATA_DIR/"raw.txt"
NORM_TXT = DATA_DIR/"norm_nfc.txt"
SPM_PREFIX = str(DATA_DIR/"spm_ko")

device = "cuda" if torch.cuda.is_available() else "cpu"
print("device:", device)


In [None]:
# 필요에 따라 더 추가하세요
URLS = [
    "https://ko.wikisource.org/wiki/B%EB%85%80%EC%9D%98_%EC%86%8C%EB%AC%98",  # B녀의 소묘
    "https://ko.wikisource.org/wiki/%EB%8C%80%EB%8F%99%EA%B0%95%EC%9D%80_%EC%86%8D%EC%82%AD%EC%9D%B8%EB%8B%A4",  # 대동강은 속삭인다
    "https://ko.wikisource.org/wiki/%EB%8C%80%ED%83%95%EC%A7%80_%EC%95%84%EC%A3%BC%EB%A8%B8%EB%8B%88",  # 대탕지 아주머니
    "https://ko.wikisource.org/wiki/%EB%8F%84%EC%8B%9C%EC%99%80_%EC%9C%A0%EB%A0%B9",  # 도시와 유령
    "https://ko.wikisource.org/wiki/%EB%8F%84%EC%A0%95", # 도정
    "https://ko.wikisource.org/wiki/%EB%A7%8C%EB%AC%B4%EB%B0%A9", # 만무방
    "https://ko.wikisource.org/wiki/%EB%AC%B4%EB%AA%85%EC%B4%88", # 무명초
    "https://ko.wikisource.org/wiki/%EB%AC%BC", # 물
    "https://ko.wikisource.org/wiki/%EB%AC%BC%EB%A0%88%EB%B0%A9%EC%95%84", # 물레방아
    "https://ko.wikisource.org/wiki/%EB%B0%98%EC%97%AD%EC%9E%90", # 반역자
    "https://ko.wikisource.org/wiki/%EC%9A%A9%EA%B3%BC_%EC%9A%A9%EC%9D%98_%EB%8C%80%EA%B2%A9%EC%A0%84", # 용과 용의 대격전
    "https://ko.wikisource.org/wiki/%EC%9A%B0%EC%97%B0%EC%9D%98_%EA%B8%B0%EC%A0%81", # 우연의 기적
    "https://ko.wikisource.org/wiki/%EC%9A%B4%EC%88%98_%EC%A2%8B%EC%9D%80_%EB%82%A0", # 운수 좋은 날
    "https://ko.wikisource.org/wiki/%EC%9B%90%EC%88%98%EB%A1%9C_%EC%9D%80%EC%9D%B8", # 원수로 은인
    "https://ko.wikisource.org/wiki/%EC%9C%A0%EB%AC%B4", # 유무
    "https://ko.wikisource.org/wiki/%EC%9C%A4%EA%B4%91%ED%98%B8", # 윤광호
    "https://ko.wikisource.org/wiki/%EC%9D%B4_%EC%9E%94%EC%9D%84", # 이 잔을
    "https://ko.wikisource.org/wiki/%EC%9D%B4%EC%8B%9D%EA%B3%BC_%EB%8F%84%EC%8A%B9", # 이식과 도승
    "https://ko.wikisource.org/wiki/%EC%9D%BC%ED%91%9C%EC%9D%98_%EA%B3%B5%EB%8A%A5", # 일표의 공능
    "https://ko.wikisource.org/wiki/%EC%9E%A1%EC%B4%88", # 잡초
    "https://ko.wikisource.org/wiki/%EC%9E%A5%EB%AF%B8_%EB%B3%91%EB%93%A4%EB%8B%A4", # 장미 병들다
    "https://ko.wikisource.org/wiki/%EC%A0%81%EA%B4%B4%EC%9C%A0%EC%9D%98", # 적괴유의
    "https://ko.wikisource.org/wiki/%EC%A0%81%EB%A7%89%ED%95%9C_%EC%A0%80%EB%85%81", # 적막한 저녁
    "https://ko.wikisource.org/wiki/%EC%A0%81%EB%B9%88", # 적빈
    "https://ko.wikisource.org/wiki/%EC%A0%84%EC%A0%9C%EC%9E%90", # 전제자
    "https://ko.wikisource.org/wiki/%EC%A0%95%EC%97%B4%EC%9D%98_%EB%82%99%EB%9E%91%EA%B3%B5%EC%A3%BC", # 정열의 낙랑공주
    "https://ko.wikisource.org/wiki/%EC%A0%95%EC%A1%B0_(%EA%B9%80%EC%9C%A0%EC%A0%95)", # 정조 (김유정)
    "https://ko.wikisource.org/wiki/%EC%A0%95%ED%9D%AC", # 정희
    "https://ko.wikisource.org/wiki/%EC%A2%85%EC%83%9D%EA%B8%B0", # 종생기
    "https://ko.wikisource.org/wiki/%EC%A3%84%EC%99%80_%EB%B2%8C_(%EA%B9%80%EB%8F%99%EC%9D%B8)", # 죄와 벌 (김동인)
    "https://ko.wikisource.org/wiki/%EC%A7%80%EB%8F%84%EC%9D%98_%EC%95%94%EC%8B%A4", # 지도의 암실
    "https://ko.wikisource.org/wiki/%EC%A7%80%ED%95%98%EC%B4%8C", # 지하촌
    "https://ko.wikisource.org/wiki/%EC%AB%93%EA%B8%B0%EC%96%B4_%EA%B0%80%EB%8A%94_%EC%9D%B4%EB%93%A4", # 쫓기어 가는 이들
    "https://ko.wikisource.org/wiki/%EC%B2%AD%EC%B6%98", # 청춘
    "https://ko.wikisource.org/wiki/%EC%B4%88%EC%B7%8C%EC%97%B0%ED%99%94%ED%8E%B8", # 초췌연화편
    "https://ko.wikisource.org/wiki/%EC%B4%9D%EA%B0%81%EA%B3%BC_%EB%A7%B9%EA%BD%81%EC%9D%B4", # 총각과 맹꽁이
    "https://ko.wikisource.org/wiki/%EC%B9%98%EC%88%99", # 치숙
    "https://ko.wikisource.org/wiki/%ED%83%9C%ED%98%95", # 태형
    "https://ko.wikisource.org/wiki/%ED%88%AC%ED%99%98%EA%B8%88%EC%9D%80", # 투환금은
    "https://ko.wikisource.org/wiki/%ED%95%B4%EB%8F%8B%EC%9D%B4", # 해돋이
    "https://ko.wikisource.org/wiki/%ED%99%8D%EC%9C%A4%EC%84%B1%EA%B3%BC_%EC%A0%88%EB%B6%80", # 홍윤성과 절부
    "https://ko.wikisource.org/wiki/%EC%82%AC%EA%B0%81%EC%A0%84%EA%B8%B0", # 사각전기
    "https://ko.wikisource.org/wiki/%EC%82%AC%EC%83%9D%EC%95%84", # 사생아
    "https://ko.wikisource.org/wiki/%EC%82%AC%EC%9C%84", # 사위
    "https://ko.wikisource.org/wiki/%EC%82%B0%EA%B3%A8", # 산골
    "https://ko.wikisource.org/wiki/%EC%82%B0%EA%B3%A8_%EB%82%98%EA%B7%B8%EB%84%A4", # 산골 나그네
    "https://ko.wikisource.org/wiki/%EC%82%B0%EB%82%A8", # 산남
]

# Data Loading

In [None]:
def fetch_wikisource_text(url):
    headers = {
        "User-Agent": (
            "Mozilla/5.0 (Windows NT 10.0; Win64; x64) "
            "AppleWebKit/537.36 (KHTML, like Gecko) "
            "Chrome/120.0.0.0 Safari/537.36"
        )
    }
    r = requests.get(url, headers=headers, stream=True, timeout=30)
    r.raise_for_status()
    soup = BeautifulSoup(r.text, "lxml")

    # 본문 컨테이너
    content = soup.select_one("div.mw-parser-output")
    if content is None:
        return ""

    # 표/주석/각주 등 제거
    for selector in ["table", "div.reflist", "ol.references", "sup.reference"]:
        for tag in content.select(selector):
            tag.decompose()

    # 문단과 리스트 텍스트만 추출
    texts = []
    for tag in content.find_all(["p","li","dd","dt","blockquote"]):
        txt = tag.get_text(" ", strip=True)
        if txt:
            texts.append(txt)

    text = "\n".join(texts)

    # 위키마크업 잔여 정리
    text = re.sub(r"\[편집\]|\[.*?편집\]", "", text)
    text = re.sub(r"\s+", " ", text)
    return text.strip()


# 수집 → NFC 정규화 → 저장

In [None]:
all_texts = []
for u in tqdm(URLS):
    try:
        t = fetch_wikisource_text(u)
        print(f"Fetched {len(t):,} chars from {u}")
        if len(t) > 1000:
            all_texts.append(f"\n\n### SOURCE: {u}\n{t}")
    except Exception as e:
        print("Failed:", u, e)

raw_text = "\n".join(all_texts)
RAW_TXT.write_text(raw_text, encoding="utf-8")

# 한글 자모 분리 방지: NFC 정규화
norm_text = unicodedata.normalize("NFC", raw_text)
# 공백 정리
norm_text = re.sub(r"\r\n?", "\n", norm_text)
norm_text = re.sub(r"[ \t]+", " ", norm_text)
norm_text = re.sub(r"\n{3,}", "\n\n", norm_text)

NORM_TXT.write_text(norm_text, encoding="utf-8")
(len(raw_text), len(norm_text), str(NORM_TXT))


# 토크나이저 생성

In [None]:
import sentencepiece as spm

# 1) 한글 음절만 required에 유지
ko_chars = "".join(chr(c) for c in range(0xAC00, 0xD7A4))  # 가–힣

# 2) 문장부호는 user_defined_symbols로만 (원래 리스트 그대로 사용 가능)
user_syms = ["《","》","〈","〉","—","…","“","”","‘","’","·","『","』","「","」","‧"]

# 3) 혹시라도 겹치는 게 있으면 required에서 제거 (방어적)
required = "".join(ch for ch in ko_chars if ch not in set(user_syms))

kwargs = dict(
    input=str(NORM_TXT),
    model_prefix=SPM_PREFIX,
    model_type="unigram",
    vocab_size=16000,
    character_coverage=0.9999,
    # ★ 라운드트립 보장용
    normalization_rule_name="identity",  # 원문 보존
    byte_fallback=True,                  # 미등록 문자도 안전 복원
    hard_vocab_limit=False,
    add_dummy_prefix=True,               # 디코딩 시 원문 공백 복원에 문제 없음
    unk_id=0, unk_surface="<unk>",
    bos_id=-1, eos_id=-1, pad_id=-1,
    user_defined_symbols=user_syms,
    max_sentence_length=100000,
    input_sentence_size=4_000_000,
    shuffle_input_sentence=True,
)

try:
    spm.SentencePieceTrainer.train(required_chars=required, **kwargs)
except TypeError:
    # 구버전 sentencepiece면 required_chars 미지원 → 그냥 진행
    print("[WARN] required_chars 미지원 → 커버리지/어휘 설정으로 진행합니다.")
    spm.SentencePieceTrainer.train(**kwargs)

sp = spm.SentencePieceProcessor()
sp.load(SPM_PREFIX + ".model")

print("vocab_size:", sp.get_piece_size(),
      "unk_id:", sp.unk_id(), "unk_piece:", sp.id_to_piece(sp.unk_id()))

# --- 라운드트립 체크 (예시) ---
def roundtrip_ok(txt: str) -> bool:
    pieces = sp.encode(txt, out_type=str)
    back = sp.decode(pieces)
    return txt == back

test_str = "《테스트》 “따옴표”… — 『괄호』 「문장」 ‧ 끝!"
print("roundtrip:", roundtrip_ok(test_str))


# 토큰화 무손실 확인 (decode == 원문)

In [None]:
import unicodedata

def debug_roundtrip(s):
    s_nfc = unicodedata.normalize("NFC", s)
    pieces = sp.encode(s_nfc, out_type=str)
    ids    = sp.encode(s_nfc, out_type=int)
    back_p = sp.decode(pieces)
    back_i = sp.decode(ids)
    print("pieces:", pieces)
    print("ids   :", ids)
    print("back_p:", back_p)
    print("back_i:", back_i)
    # UNK 존재 여부
    unk_positions = [i for i,t in enumerate(ids) if t == sp.unk_id()]
    if unk_positions:
        print("⚠️  UNK at positions:", unk_positions)
    assert back_i == s_nfc, "decode(encode(x))가 원문과 다릅니다!"

test_line = "성춘향은 이 도령을 깊이 사모하였더라."
debug_roundtrip(test_line)


# 언어모델용 Dataset/DataLoader

In [None]:
# 데이터셋
ids_full = sp.encode(NORM_TXT.read_text(encoding="utf-8"), out_type=int)

# --- replace your LMDataset & split ---
class LMDataset(Dataset):
    def __init__(self, ids, block=256, indices=None):
        self.ids = torch.tensor(ids, dtype=torch.long)
        self.block = block
        N = len(self.ids) - block - 1
        if indices is None:
            self.indices = torch.arange(N)
        else:
            self.indices = indices
    def __len__(self): return len(self.indices)
    def __getitem__(self, idx):
        i = int(self.indices[idx])
        x = self.ids[i:i+self.block]
        y = self.ids[i+1:i+self.block+1]
        return x, y

block_size, batch_size = 256, 64
N = len(ids_full) - block_size - 1
all_idx = torch.randperm(N)
n_tr = int(N*0.9)
train_idx, val_idx = all_idx[:n_tr], all_idx[n_tr:]

train_ds = LMDataset(ids_full, block_size, train_idx)
val_ds   = LMDataset(ids_full, block_size, val_idx)
train_loader = DataLoader(train_ds, batch_size=batch_size, shuffle=True,  drop_last=True)
val_loader   = DataLoader(val_ds,   batch_size=batch_size, shuffle=False, drop_last=False)


# 모델
- LSTM 은 순차 문맥을 인코딩
- nn.MultiheadAttention(batch_first=True) 로 자기어텐션을 적용
- Causal mask 로 미래 토큰 차단 (언어모델 특성 유지)
- 잔차(residual) + LayerNorm 으로 안정화

In [None]:
# 모델
class LSTMAttnLM(nn.Module):
    def __init__(self, vocab_size, emb=384, hid=384, layers=2, heads=6, drop=0.3):
        super().__init__()
        self.emb = nn.Embedding(vocab_size, emb)
        self.lstm = nn.LSTM(emb, hid, num_layers=layers, batch_first=True, dropout=drop)
        self.attn = nn.MultiheadAttention(hid, heads, dropout=drop, batch_first=True)
        self.ln = nn.LayerNorm(hid)
        self.fc = nn.Linear(hid, vocab_size, bias=False)
        self.drop = nn.Dropout(drop)
        # weight tying
        if emb != hid:
            self.proj = nn.Linear(hid, emb, bias=False)
        else:
            self.proj = nn.Identity()
        # fc.weight shares with embedding
        self.fc.weight = self.emb.weight

    def forward(self, x):
        h,_ = self.lstm(self.emb(x))           # (B,T,H)
        T = h.size(1)
        mask = torch.full((T,T), float("-inf"), device=h.device).triu(1)
        a,_ = self.attn(h, h, h, attn_mask=mask, need_weights=False)
        y = self.ln(h + self.drop(a))
        y = self.proj(y)                       # to emb dim if needed
        return self.fc(y)

vocab_size = sp.get_piece_size()
model = LSTMAttnLM(vocab_size).to(device)
sum(p.numel() for p in model.parameters())/1e6


# 학습

In [None]:
criterion = nn.CrossEntropyLoss(label_smoothing=0.1)
optimizer = torch.optim.AdamW(model.parameters(), lr=3e-4, weight_decay=0.1)

In [None]:
def run_epoch(loader, train=True):
    model.train(train)
    total_loss, total_tokens = 0.0, 0
    for x,y in loader:
        x,y = x.to(device), y.to(device)
        if train: optimizer.zero_grad()
        logits = model(x)
        loss = criterion(logits.reshape(-1, vocab_size), y.reshape(-1))
        if train:
            loss.backward()
            torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)
            optimizer.step()
        total_loss += loss.item() * y.numel()         # 토큰 수로 집계
        total_tokens += y.numel()
    if train: scheduler.step()
    return total_loss / max(1, total_tokens)

In [None]:
# 학습
optimizer = torch.optim.AdamW(model.parameters(), lr=1e-3)
criterion = nn.CrossEntropyLoss()

def run_epoch(loader, train=True):
    model.train(train)
    total, n = 0.0, 0
    for x,y in loader:
        x,y = x.to(device), y.to(device)
        if train: optimizer.zero_grad()
        logits = model(x)
        loss = criterion(logits.reshape(-1, vocab_size), y.reshape(-1))
        if train:
            loss.backward()
            torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)
            optimizer.step()
        total += loss.item()*x.size(0); n += x.size(0)
    return total/max(1,n)

best = 1e9
for ep in range(1, 10):  # 데모: 5 epoch
    tr = run_epoch(train_loader, True)
    va = run_epoch(val_loader, False)
    if va < best:
        best = va
        torch.save(model.state_dict(), DATA_DIR/"best_lstm_attn.pt")
    print(f"[{ep:02d}] train_ce={tr:.4f}  val_ce={va:.4f}")
torch.save(model.state_dict(), DATA_DIR/"best_lstm_attn.pt")

# 생성

In [None]:
def sample(model, sp, prompt, max_new_tokens=300, temperature=0.9, top_k=50):
    model.eval()
    x = torch.tensor(sp.encode(prompt, out_type=int), dtype=torch.long, device=device).unsqueeze(0)
    with torch.no_grad():
        for _ in range(max_new_tokens):
            x_cond = x[:, -block_size:]               # 길이 제한
            logits = model(x_cond)                    # (1, T, V)
            last = logits[:, -1, :] / max(1e-6, temperature)
            if top_k:
                v, _ = torch.topk(last, k=min(top_k, last.size(-1)))
                last = torch.where(last < v[:, -1].unsqueeze(-1), torch.full_like(last, -1e10), last)
            probs = torch.softmax(last, dim=-1)
            next_id = torch.multinomial(probs, 1)     # (1,1)
            x = torch.cat([x, next_id], dim=1)
    return sp.decode(x[0].tolist())

model.load_state_dict(torch.load(DATA_DIR/"best_lstm_attn.pt", map_location=device))
print(sample(model, sp, "성춘향은", max_new_tokens=300, temperature=0.9, top_k=50))
