## 데이터 증강(텍스트 데이터 증강)

#### 데이터 증강 목적
- 기존 학습 데이터를 재가공해 원래 데이터와 유사하지만 새로운 데이터 생성
- 데이터 증강은 모델의 과대적합을 줄이고 일반화 능력 향상
- 데이터 세트를 증강하면 기존 데이터의 형질을 유지되므로 모델의 분산과 편향을 줄릴 수 있음
- 데이터 수집시 잘못된 정보가 들어오는 문제를 차단
- 특정 클래스의 데이터의 수가 적을 경우 데이터 증강을 통해서 불균형을 완화할 수 있음

#### 주의
- 너무 많은 변형이나 노이즈를 추가하면 기존 데이터의 특성이 파괴될 수 있음

### 1 텍스트 데이터 증강

#### 자연어처리 데이터 증강 라이브러리(NLPAUG)를 활용한 데이터 증강
 - BERT 기반 문맥적 단어 삽입/삭제/자리바꿈/대체 등을 실혐(Contextual Word Embedding Augmentation)

In [1]:

# 삽입 예제 4.10
# bert-base-uncased 
# case 글자의 형태, 대소문자 구분 형태, uncased 대소문자 비구문 형태를 말함.
import nlpaug.augmenter.word as naw


texts = [
    "Those who can imagine anything, can create the impossible.",
    "We can only see a short distance ahead, but we can see plenty there that needs to be done.",
    "If a machine is expected to be infallible, it cannot also be intelligent.",
]

aug = naw.ContextualWordEmbsAug(model_path="bert-base-uncased", action="insert") 
# uncased 대소문자 비구문 형태
augmented_texts = aug.augment(texts)

for text, augmented in zip(texts, augmented_texts):
    print(f"src : {text}")
    print(f"dst : {augmented}")
    print("------------------")

  return forward_call(*args, **kwargs)


src : Those who can imagine anything, can create the impossible.
dst : those those who can imagine feeling anything, most can create the natural impossible.
------------------
src : We can only see a short distance ahead, but we can see plenty there that needs to be done.
dst : we can not only just see a short distance ahead, but we can clearly see plenty there indicating that she needs more to be regularly done.
------------------
src : If a machine is expected to be infallible, it cannot also be intelligent.
dst : especially if such a virtual machine computer is expected to be infallible, so it simply cannot also be intelligent.
------------------


In [3]:
# !pip install numpy requests nlpaug transformers sacremoses nltk
# 삽입 예제 4.10
# distilbert-base-uncased로 삽입 추가
import nlpaug.augmenter.word as naw


texts = [
    "Those who can imagine anything, can create the impossible.",
    "We can only see a short distance ahead, but we can see plenty there that needs to be done.",
    "If a machine is expected to be infallible, it cannot also be intelligent.",
]

aug = naw.ContextualWordEmbsAug(model_path="distilbert-base-uncased", action="insert") # distilbert-base-uncased
# case 글자의 형태, 대소문자 구분 형태, uncased 대소문자 비구문 형태
augmented_texts = aug.augment(texts)

for text, augmented in zip(texts, augmented_texts):
    print(f"src : {text}")
    print(f"dst : {augmented}")
    print("------------------")
# src: Source
# dst : destination (변환된 결과 문장)

src : Those who can imagine anything, can create the impossible.
dst : although those who have can imagine changing anything, can create the moment impossible.
------------------
src : We can only see a short distance ahead, but we can see plenty there that needs to be done.
dst : frankly we can only easily see a short distance ahead, surely but we probably can certainly see plenty plenty there already that needs to be done.
------------------
src : If a machine is expected to be infallible, it cannot also be intelligent.
dst : if only a robot machine is precisely expected to be sufficiently infallible, it necessarily cannot also be infinitely intelligent.
------------------


In [5]:
# bert-base-cased 대소문자 구분하는 것으로 추가

texts = [
    "Those who can imagine anything, can create the impossible.",
    "We can only see a short distance ahead, but we can see plenty there that needs to be done.",
    "If a machine is expected to be infallible, it cannot also be intelligent.",
]

aug = naw.ContextualWordEmbsAug(model_path="bert-base-cased", action="insert") 
# case 글자의 형태, 대소문자 구분 형태, uncased 대소문자 비구문 형태
augmented_texts = aug.augment(texts)

for text, augmented in zip(texts, augmented_texts):
    print(f"src : {text}")
    print(f"dst : {augmented}")
    print("------------------")

src : Those who can imagine anything, can create the impossible.
dst : Those machines who can imagine is anything, can create anything the human impossible.
------------------
src : We can only see a short distance ahead, but we can see plenty there that needs to be done.
dst : We actually can only actually see from a really short distance ahead, and but we can see plenty in there that needs lots to be done.
------------------
src : If a machine is expected to be infallible, it cannot also be intelligent.
dst : If saying a machine is then expected to merely be considered infallible, it cannot also necessarily be called intelligent.
------------------


In [6]:
# 한글로 추가하는 것 추가
import nlpaug.augmenter.word as naw

texts = [
    "상상할 수 있는 사람은 불가능한 것도 만들어낼 수 있다.",
    "우리는 앞을 멀리 보지는 못하지만, 해야 할 일은 충분히 볼 수 있다.",
    "기계가 절대 실수하지 않기를 기대한다면, 지능적일 수는 없다",
]

naw.ContextualWordEmbsAug(model_path="bert-base-uncased", action="insert")

augmented_texts = aug.augment(texts)

for text, augmented in zip(texts, augmented_texts):
    print(f"src : {text}")
    print(f"dst : {augmented}")
    print("------------------")
# [UNK] = Unknown token

src : 상상할 수 있는 사람은 불가능한 것도 만들어낼 수 있다.
dst : Bengali [UNK] [UNK] [UNK] [UNK] [UNK] đ [UNK] ի [UNK] [UNK] [UNK].
------------------
src : 우리는 앞을 멀리 보지는 못하지만, 해야 할 일은 충분히 볼 수 있다.
dst : Sanskrit [UNK] ॥ [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] ἀ [UNK] 。 [UNK] [UNK] ॥ [UNK] [UNK].
------------------
src : 기계가 절대 실수하지 않기를 기대한다면, 지능적일 수는 없다
dst : [UNK] 、 [UNK] ， [UNK] ， [UNK] [UNK], [UNK] [UNK] [UNK]
------------------


In [9]:
import nlpaug.augmenter.word as naw
# klue/bert-base로 한글 추가하는 것 연습

texts = [
    "상상할 수 있는 사람은 불가능한 것도 만들어낼 수 있다.",
    "우리는 앞을 멀리 보지는 못하지만, 해야 할 일은 충분히 볼 수 있다.",
    "기계가 절대 실수하지 않기를 기대한다면, 지능적일 수는 없다.",
]

aug = naw.ContextualWordEmbsAug(
    model_path="klue/bert-base",
    action="insert",
    device="cuda"  # GPU면 "cuda", CPU면 "cpu"
)
# naw.ContextualWordEmbsAug(model_path="bert-base-uncased", action="insert")

augmented_texts = aug.augment(texts)

for text, augmented in zip(texts, augmented_texts):
    print(f"src : {text}")
    print(f"dst : {augmented}")
    print("------------------")

src : 상상할 수 있는 사람은 불가능한 것도 만들어낼 수 있다.
dst : 상상할 엄청난 수 있는 사람 사람은 생각 불가능한 모든 것도 만들어낼 만한 수 도 있다.
------------------
src : 우리는 앞을 멀리 보지는 못하지만, 해야 할 일은 충분히 볼 수 있다.
dst : 비록 우리는 아직 앞을 너무 멀리 보지는 못하지만, 해야 한다 할 일부 일은 지금 충분히 볼 될 수 있다.
------------------
src : 기계가 절대 실수하지 않기를 기대한다면, 지능적일 수는 없다.
dst : 그래서 기계가 언젠가 절대 스스로 실수하지 감지 않기를 몹시 기대한다면, 그저 지능적일 일일 수는 없다.
------------------


In [10]:
# 문자삭제 예제 4.11
# 무작위로 문자를 삭제

import nlpaug.augmenter.char as nac


texts = [
    "Those who can imagine anything, can create the impossible.",
    "We can only see a short distance ahead, but we can see plenty there that needs to be done.",
    "If a machine is expected to be infallible, it cannot also be intelligent.",
]

aug = nac.RandomCharAug(action="delete")
augmented_texts = aug.augment(texts)

for text, augmented in zip(texts, augmented_texts):
    print(f"src : {text}")
    print(f"dst : {augmented}")
    print("------------------")

src : Those who can imagine anything, can create the impossible.
dst : The who can agin aytng, can create the mpossie.
------------------
src : We can only see a short distance ahead, but we can see plenty there that needs to be done.
dst : We can ol see a short dince aea, but we can see plet hee that nes to be do.
------------------
src : If a machine is expected to be infallible, it cannot also be intelligent.
dst : If a maci is eeted to be infallible, it cant ls be ntliget.
------------------


In [13]:
# 한글 무작위 삭제
texts = [
    "상상할 수 있는 사람은 불가능한 것도 만들어낼 수 있다.",
    "우리는 앞을 멀리 보지는 못하지만, 해야 할 일은 충분히 볼 수 있다.",
    "기계가 절대 실수하지 않기를 기대한다면, 지능적일 수는 없다.",
]

aug = nac.RandomCharAug(action="delete")
    # model_path="klue/bert-base",
    # action="insert",
    # device="cuda"  # GPU면 "cuda", CPU면 "cpu"
#)
# naw.ContextualWordEmbsAug(model_path="bert-base-uncased", action="insert")

augmented_texts = aug.augment(texts)

for text, augmented in zip(texts, augmented_texts):
    print(f"src : {text}")
    print(f"dst : {augmented}")
    print("------------------")

src : 상상할 수 있는 사람은 불가능한 것도 만들어낼 수 있다.
dst : 상상할 수 있는 사람은 능한 것도 어낼 수 있다.
------------------
src : 우리는 앞을 멀리 보지는 못하지만, 해야 할 일은 충분히 볼 수 있다.
dst : 우리는 앞을 멀리 보지는 지만, 해야 할 일은 충분히 볼 수 있다.
------------------
src : 기계가 절대 실수하지 않기를 기대한다면, 지능적일 수는 없다.
dst : 기계가 절대 수지 않기를 기다면, 적일 수는 없다.
------------------


In [15]:
import nlpaug.augmenter.word as naw
# 무작위 교체(자리 바꿈) 예제 4.12

texts = [
    "Those who can imagine anything, can create the impossible.",
    "We can only see a short distance ahead, but we can see plenty there that needs to be done.",
    "If a machine is expected to be infallible, it cannot also be intelligent.",
]

aug = naw.RandomWordAug(action="swap")
augmented_texts = aug.augment(texts)

for text, augmented in zip(texts, augmented_texts):
    print(f"src : {text}")
    print(f"dst : {augmented}")
    print("------------------")

src : Those who can imagine anything, can create the impossible.
dst : Can those who imagine anything, can the impossible create.
------------------
src : We can only see a short distance ahead, but we can see plenty there that needs to be done.
dst : We can see only a short distance, ahead but we see plenty can there that needs to be. done
------------------
src : If a machine is expected to be infallible, it cannot also be intelligent.
dst : If machine a expected is to be infallible, it cannot be also intelligent.
------------------


In [17]:
# 한글 무작위 교체(swap) -> 자리바꿈(맞바꿈)
texts = [
    "상상할 수 있는 사람은 불가능한 것도 만들어낼 수 있다.",
    "우리는 앞을 멀리 보지는 못하지만, 해야 할 일은 충분히 볼 수 있다.",
    "기계가 절대 실수하지 않기를 기대한다면, 지능적일 수는 없다.",
]

aug = nac.RandomCharAug(action="swap")
    # model_path="klue/bert-base",
    # action="insert",
    # device="cuda"  # GPU면 "cuda", CPU면 "cpu"
#)
# naw.ContextualWordEmbsAug(model_path="bert-base-uncased", action="insert")

augmented_texts = aug.augment(texts)

for text, augmented in zip(texts, augmented_texts):
    print(f"src : {text}")
    print(f"dst : {augmented}")
    print("------------------")

src : 상상할 수 있는 사람은 불가능한 것도 만들어낼 수 있다.
dst : 상상할 수 있는 사람은 가불한능 것도 들만낼어 수 있다.
------------------
src : 우리는 앞을 멀리 보지는 못하지만, 해야 할 일은 충분히 볼 수 있다.
dst : 우리는 앞을 멀리 보지는 하못만지, 해야 할 일은 충분히 볼 수 있다.
------------------
src : 기계가 절대 실수하지 않기를 기대한다면, 지능적일 수는 없다.
dst : 기계가 절대 하실수지 않기를 기한대면다, 지능적일 수는 없다.
------------------


In [19]:
# 무작위 대체(substitute)
texts = [
    "상상할 수 있는 사람은 불가능한 것도 만들어낼 수 있다.",
    "우리는 앞을 멀리 보지는 못하지만, 해야 할 일은 충분히 볼 수 있다.",
    "기계가 절대 실수하지 않기를 기대한다면, 지능적일 수는 없다.",
]

aug = nac.RandomCharAug(action="substitute") # insert, crop도 가능
    # model_path="klue/bert-base",
    # action="insert",
    # device="cuda"  # GPU면 "cuda", CPU면 "cpu"
#)
# naw.ContextualWordEmbsAug(model_path="bert-base-uncased", action="insert")

augmented_texts = aug.augment(texts)

for text, augmented in zip(texts, augmented_texts):
    print(f"src : {text}")
    print(f"dst : {augmented}")
    print("------------------")

src : 상상할 수 있는 사람은 불가능한 것도 만들어낼 수 있다.
dst : 상상할 수 있는 사람은 v가p한 것도 #들어m 수 있다.
------------------
src : 우리는 앞을 멀리 보지는 못하지만, 해야 할 일은 충분히 볼 수 있다.
dst : 우리는 앞을 멀리 보지는 못wz만, 해야 할 일은 충분히 볼 수 있다.
------------------
src : 기계가 절대 실수하지 않기를 기대한다면, 지능적일 수는 없다.
dst : 기계가 절대 f수하K 않기를 기B한I면, 지능vs 수는 없다.
------------------


In [21]:
# 한글 무작위 대체(substitute) 2
texts = [
    "상상할 수 있는 사람은 불가능한 것도 만들어낼 수 있다.",
    "우리는 앞을 멀리 보지는 못하지만, 해야 할 일은 충분히 볼 수 있다.",
    "기계가 절대 실수하지 않기를 기대한다면, 지능적일 수는 없다.",
]

aug = nac.RandomCharAug(
    action="substitute",
    aug_char_p=0.05  # 문자 기준 5% 대체
)

augmented_texts = aug.augment(texts)

for text, augmented in zip(texts, augmented_texts):
    print(f"src : {text}")
    print(f"dst : {augmented}")
    print("------------------")

src : 상상할 수 있는 사람은 불가능한 것도 만들어낼 수 있다.
dst : 상상할 수 있는 사람은 불가능+ 것도 1들어낼 수 있다.
------------------
src : 우리는 앞을 멀리 보지는 못하지만, 해야 할 일은 충분히 볼 수 있다.
dst : 우리는 앞을 멀리 보지는 못하지Y, 해야 할 일은 충분히 볼 수 있다.
------------------
src : 기계가 절대 실수하지 않기를 기대한다면, 지능적일 수는 없다.
dst : 기계가 절대 r수하지 않기를 기대한다I, 지능적l 수는 없다.
------------------


In [23]:
# 에러 해결
import nltk

nltk.download("averaged_perceptron_tagger_eng")
nltk.download("wordnet")
nltk.download("omw-1.4")   # wordnet 보조(권장)

[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     C:\Users\hugctx\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger_eng is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\hugctx\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\hugctx\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


True

In [25]:
# SynonymAug를 이용한 동의어 대체 예제 4.13
# SynonymAug(aug_src='wordnet')는 WordNet(동의어 사전)을 이용해서 “동의어로 바꾸는(대체)” 증강
# 한글은 동의어사전이 없어서 실험할 수 없음. 그러나 방법은 있음.

import nlpaug.augmenter.word as naw


texts = [
    "Those who can imagine anything, can create the impossible.",
    "We can only see a short distance ahead, but we can see plenty there that needs to be done.",
    "If a machine is expected to be infallible, it cannot also be intelligent.",
]

aug = naw.SynonymAug(aug_src='wordnet')
augmented_texts = aug.augment(texts)

for text, augmented in zip(texts, augmented_texts):
    print(f"src : {text}")
    print(f"dst : {augmented}")
    print("------------------")

src : Those who can imagine anything, can create the impossible.
dst : Those who give the axe imagine anything, tush make the inconceivable.
------------------
src : We can only see a short distance ahead, but we can see plenty there that needs to be done.
dst : We give the axe only see a short distance ahead, merely we fanny insure enough there that necessitate to be done.
------------------
src : If a machine is expected to be infallible, it cannot also be intelligent.
dst : If a machine is expected to follow infallible, it cannot also be levelheaded.
------------------


In [26]:
# 반대단어로 대체 ReservedAug 클래스 사용
# 한글에도 적용은 가능하지만 실용성은 떨어짐 
# LLM 기반 패러프레이징(요즘 대세)으로 한글 예시를 대체험
import nlpaug.augmenter.word as naw


texts = [
    "Those who can imagine anything, can create the impossible.",
    "We can only see a short distance ahead, but we can see plenty there that needs to be done.",
    "If a machine is expected to be infallible, it cannot also be intelligent.",
]
reserved_tokens = [
    ["can", "can't", "cannot", "could"],
]

reserved_aug = naw.ReservedAug(reserved_tokens=reserved_tokens)
augmented_texts = reserved_aug.augment(texts)

for text, augmented in zip(texts, augmented_texts):
    print(f"src : {text}")
    print(f"dst : {augmented}")
    print("------------------")

src : Those who can imagine anything, can create the impossible.
dst : Those who cannot imagine anything, can't create the impossible.
------------------
src : We can only see a short distance ahead, but we can see plenty there that needs to be done.
dst : We can't only see a short distance ahead, but we can't see plenty there that needs to be done.
------------------
src : If a machine is expected to be infallible, it cannot also be intelligent.
dst : If a machine is expected to be infallible, it can also be intelligent.
------------------


In [29]:
# 역번역: 입력 텍스를 특정 언어로 번역한 다음 다시 본래의 언어로 번영하는 방법

# 역번역(back translation)을 이용한 문장 패러프레이징
# Paraphrasing이란 뜻이 같거나 유사한 어위를 사용해 문장을 바꿔 표현하는 것
# BackTranslationAug 클래스를 사용한 역번역

import nlpaug.augmenter.word as naw


texts = [
    "Those who can imagine anything, can create the impossible.",
    "We can only see a short distance ahead, but we can see plenty there that needs to be done.",
    "If a machine is expected to be infallible, it cannot also be intelligent.",
]

back_translation = naw.BackTranslationAug(
    from_model_name='facebook/wmt19-en-de', # 입력모델
    to_model_name='facebook/wmt19-de-en' # 출력모델
)
augmented_texts = back_translation.augment(texts)

for text, augmented in zip(texts, augmented_texts):
    print(f"src : {text}")
    print(f"dst : {augmented}")
    print("------------------")

# 의미 보존 + 표현 다양화 = 데이터 증강 효과

`cache.key_cache[idx]` is deprecated and will be removed in v4.56.0. Use `cache.layers[idx].keys` instead.
`cache.value_cache[idx]` is deprecated and will be removed in v4.56.0. Use `cache.layers[idx].values` instead.


src : Those who can imagine anything, can create the impossible.
dst : Anyone who can imagine anything can achieve the impossible.
------------------
src : We can only see a short distance ahead, but we can see plenty there that needs to be done.
dst : We can only take a brief look ahead, but we can see that there is still a lot to be done to be done to be done. We have to be done, and that is a lot of us, and that is a lot of us to be done, and that is a lot of us, and that is a lot of us, and that is to be done, and that is to be done, and that is to be done, and that is a lot of it is to be done, and that is to be done, and that is to be done, and that is to be done, and that is a lot of it, and that is to be done, and that is to be done, and that is to be done, is to be done, and that is to be done, is to be done, and that is to be done, is to be done, is to be done, is to be done, is to be done, is to be done, and that is to be done, and that is to be done, is to be done, is to be

### 생성 붕괴(반복 폭주, degeneration) 대응

In [36]:
import re
from dataclasses import dataclass
from typing import List

import torch
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM


# -----------------------------
# 1) 품질 필터(반복 폭주 탐지)
# -----------------------------
def _tokenize_simple(text: str) -> List[str]:
    # 단순 토큰화: 반복 패턴 감지에만 사용
    return re.findall(r"\w+|[^\w\s]", text.lower(), flags=re.UNICODE)


def repetition_score(text: str, ngram: int = 3) -> float:
    """
    n-gram 기반 반복 점수(0~1).
    0에 가까울수록 다양, 1에 가까울수록 반복.
    """
    tokens = _tokenize_simple(text)
    if len(tokens) < ngram * 4:
        return 0.0

    ngrams = [" ".join(tokens[i:i + ngram]) for i in range(len(tokens) - ngram + 1)]
    if not ngrams:
        return 0.0

    unique_ratio = len(set(ngrams)) / len(ngrams)
    return 1.0 - unique_ratio


def is_degenerated(src: str, dst: str,
                   max_ratio: float = 2.2,
                   ngram: int = 3,
                   rep_threshold: float = 0.18) -> bool:
    """
    생성 붕괴(반복 폭주) 여부 판단.
    - max_ratio: dst가 src 대비 너무 길면(비정상 확장) True
    - rep_threshold: n-gram 반복 점수가 높으면 True
    """
    # (1) 길이 폭주
    if len(dst) > int(len(src) * max_ratio):
        return True

    # (2) 반복 패턴 폭주
    if repetition_score(dst, ngram=ngram) > rep_threshold:
        return True

    return False


# -----------------------------
# 2) Back-Translation (제어된 디코딩)
# -----------------------------
@dataclass
class GenerationConfig:
    num_beams: int = 5
    do_sample: bool = False
    early_stopping: bool = True
    max_new_tokens: int = 80
    no_repeat_ngram_size: int = 3
    repetition_penalty: float = 1.15
    length_penalty: float = 1.0


class ControlledBackTranslator:
    """
    EN -> DE -> EN 역번역을 수행하되,
    디코딩 제약 + 품질 필터로 '반복 폭주'를 방지합니다.
    """
    def __init__(self,
                 en2de_name: str = "facebook/wmt19-en-de",
                 de2en_name: str = "facebook/wmt19-de-en",
                 device: str = None,
                 gen_cfg: GenerationConfig = None):
        self.device = device or ("cuda" if torch.cuda.is_available() else "cpu")
        self.gen_cfg = gen_cfg or GenerationConfig()

        # 모델/토크나이저 로드
        self.tok_en2de = AutoTokenizer.from_pretrained(en2de_name)
        self.mod_en2de = AutoModelForSeq2SeqLM.from_pretrained(en2de_name).to(self.device)

        self.tok_de2en = AutoTokenizer.from_pretrained(de2en_name)
        self.mod_de2en = AutoModelForSeq2SeqLM.from_pretrained(de2en_name).to(self.device)

        self.mod_en2de.eval()
        self.mod_de2en.eval()

    @torch.inference_mode()
    def _translate_batch(self, texts: List[str], tokenizer, model) -> List[str]:
        enc = tokenizer(texts, return_tensors="pt", padding=True, truncation=True).to(self.device)

        out = model.generate(
            **enc,
            num_beams=self.gen_cfg.num_beams,
            do_sample=self.gen_cfg.do_sample,
            early_stopping=self.gen_cfg.early_stopping,
            max_new_tokens=self.gen_cfg.max_new_tokens,
            no_repeat_ngram_size=self.gen_cfg.no_repeat_ngram_size,
            repetition_penalty=self.gen_cfg.repetition_penalty,
            length_penalty=self.gen_cfg.length_penalty,
        )
        return tokenizer.batch_decode(out, skip_special_tokens=True)

    def augment(self, texts: List[str],
                max_ratio: float = 2.2,
                ngram: int = 3,
                rep_threshold: float = 0.18,
                fallback_to_src: bool = True) -> List[str]:
        # 1) EN -> DE
        de_texts = self._translate_batch(texts, self.tok_en2de, self.mod_en2de)

        # 2) DE -> EN
        en_texts = self._translate_batch(de_texts, self.tok_de2en, self.mod_de2en)

        # 3) 품질 필터 + 롤백
        results = []
        for src, dst in zip(texts, en_texts):
            bad = is_degenerated(src, dst, max_ratio=max_ratio, ngram=ngram, rep_threshold=rep_threshold)
            if bad and fallback_to_src:
                results.append(src)   # 롤백
            else:
                results.append(dst)
        return results


# -----------------------------
# 3) 사용 예시
# -----------------------------
if __name__ == "__main__":
    texts = [
        "Those who can imagine anything, can create the impossible.",
        "We can only see a short distance ahead, but we can see plenty there that needs to be done.",
        "If a machine is expected to be infallible, it cannot also be intelligent.",
    ]

    bt = ControlledBackTranslator()

    augmented = bt.augment(
        texts,
        max_ratio=2.2,        # 길이 폭주 방지
        ngram=3,              # 3-gram 반복 탐지
        rep_threshold=0.18,   # 반복 점수 임계치
        fallback_to_src=True  # 이상하면 원문으로 롤백
    )

    for src, dst in zip(texts, augmented):
        print(f"src : {src}")
        print(f"dst : {dst}")
        print("-" * 24)
# 품질이 나쁘면 src를 dst로 롤백함

src : Those who can imagine anything, can create the impossible.
dst : Anyone who can imagine anything can achieve the impossible.
------------------------
src : We can only see a short distance ahead, but we can see plenty there that needs to be done.
dst : We can only see a short distance ahead, but we can see plenty there that needs to be done.
------------------------
src : If a machine is expected to be infallible, it cannot also be intelligent.
dst : If a machine is expected to be infallible, it cannot also be intelligent.
------------------------


In [38]:
import re
from dataclasses import dataclass
from typing import List, Dict, Optional

import torch
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM


# -----------------------------
# 1) 품질 필터
# -----------------------------
def _tok(text: str) -> List[str]:
    return re.findall(r"\w+|[^\w\s]", text.lower(), flags=re.UNICODE)

def repetition_score(text: str, ngram: int = 3) -> float:
    tokens = _tok(text)
    if len(tokens) < ngram * 4:
        return 0.0
    ngrams = [" ".join(tokens[i:i+ngram]) for i in range(len(tokens)-ngram+1)]
    if not ngrams:
        return 0.0
    return 1.0 - (len(set(ngrams)) / len(ngrams))

def is_bad(src: str, dst: str,
           max_ratio: float = 2.2,
           rep_threshold: float = 0.18,
           ngram: int = 3) -> bool:
    # 1) 너무 길면 불량
    if len(dst) > int(len(src) * max_ratio):
        return True
    # 2) 반복 점수 높으면 불량
    if repetition_score(dst, ngram=ngram) > rep_threshold:
        return True
    return False


# -----------------------------
# 2) generate 설정 프리셋 (재시도용)
# -----------------------------
@dataclass
class GenPreset:
    name: str
    kwargs: Dict

PRESETS = [
    # 1차: 가장 안정적(빔서치, 반복 금지)
    GenPreset("beam_stable", dict(
        num_beams=5, do_sample=False, early_stopping=True,
        max_new_tokens=80, no_repeat_ngram_size=3,
        repetition_penalty=1.15, length_penalty=1.0
    )),
    # 2차: 빔 줄여서(다른 경로 탐색)
    GenPreset("beam_light", dict(
        num_beams=3, do_sample=False, early_stopping=True,
        max_new_tokens=80, no_repeat_ngram_size=3,
        repetition_penalty=1.15, length_penalty=1.0
    )),
    # 3차: 아주 약한 샘플링(표현 다양화) + 반복 억제
    GenPreset("sample_soft", dict(
        num_beams=1, do_sample=True, top_p=0.9, temperature=0.8,
        max_new_tokens=80, no_repeat_ngram_size=3,
        repetition_penalty=1.2
    )),
]


# -----------------------------
# 3) Back-Translator
# -----------------------------
class RetryBackTranslator:
    def __init__(self,
                 en2de="facebook/wmt19-en-de",
                 de2en="facebook/wmt19-de-en",
                 device: Optional[str] = None):
        self.device = device or ("cuda" if torch.cuda.is_available() else "cpu")

        self.tok_en2de = AutoTokenizer.from_pretrained(en2de)
        self.mod_en2de = AutoModelForSeq2SeqLM.from_pretrained(en2de).to(self.device).eval()

        self.tok_de2en = AutoTokenizer.from_pretrained(de2en)
        self.mod_de2en = AutoModelForSeq2SeqLM.from_pretrained(de2en).to(self.device).eval()

    @torch.inference_mode()
    def _translate_one(self, text: str, tokenizer, model, gen_kwargs: Dict) -> str:
        enc = tokenizer([text], return_tensors="pt", padding=True, truncation=True).to(self.device)
        out = model.generate(**enc, **gen_kwargs)
        return tokenizer.batch_decode(out, skip_special_tokens=True)[0]

    def augment_one(self, src: str,
                    max_tries: int = 3,
                    max_ratio: float = 2.2,
                    rep_threshold: float = 0.18) -> str:
        """
        여러 preset으로 재시도하면서 '좋은' 증강 결과를 찾는다.
        끝까지 실패하면 마지막에만 src 반환.
        """
        for i in range(min(max_tries, len(PRESETS))):
            preset = PRESETS[i].kwargs

            # EN -> DE -> EN
            de = self._translate_one(src, self.tok_en2de, self.mod_en2de, preset)
            dst = self._translate_one(de, self.tok_de2en, self.mod_de2en, preset)

            # 품질 검사 통과 + 원문과 완전 동일이면(증강 의미 없음) 다음 시도
            if (not is_bad(src, dst, max_ratio=max_ratio, rep_threshold=rep_threshold)) and (dst.strip() != src.strip()):
                return dst

        # 끝까지 실패하면 원문 반환(안전장치)
        return src

    def augment(self, texts: List[str], **kwargs) -> List[str]:
        return [self.augment_one(t, **kwargs) for t in texts]


# -----------------------------
# 4) 실행
# -----------------------------
if __name__ == "__main__":
    texts = [
        "Those who can imagine anything, can create the impossible.",
        "We can only see a short distance ahead, but we can see plenty there that needs to be done.",
        "If a machine is expected to be infallible, it cannot also be intelligent.",
    ]

    bt = RetryBackTranslator()
    augmented = bt.augment(texts, max_tries=3, rep_threshold=0.18)

    for s, d in zip(texts, augmented):
        print("src :", s)
        print("dst :", d)
        print("-" * 24)

# 재시도 추가 - 그러나 앞에 문제가 반복됨
# 차라리 LLM 기반 패러플레이징이 편리

The following generation flags are not valid and may be ignored: ['length_penalty']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
The following generation flags are not valid and may be ignored: ['length_penalty']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


src : Those who can imagine anything, can create the impossible.
dst : Anyone who can imagine anything can achieve the impossible.
------------------------
src : We can only see a short distance ahead, but we can see plenty there that needs to be done.
dst : We're only a small distance away but there's lots we can do there.
------------------------
src : If a machine is expected to be infallible, it cannot also be intelligent.
dst : If a machine is expected to be infallible, it cannot also be intelligent.
------------------------


### LLM 기반 패러프레이징

- LLM 기반 패러프레이징
- 한글로 재표현 방법
- 한글은 동의어 사전이 없음, wordnet은 한글에 적용 안됨.

In [30]:
from dotenv import load_dotenv
import os

# "OPENAI_API_KEY" 
ENV_PATH = r"path~~.env"
load_dotenv(ENV_PATH)

# 확인 
print(os.getenv("OPENAI_API_KEY") is not None)

True


In [31]:
from openai import OpenAI
import json

client = OpenAI()

def paraphrase_ko(sentence: str, n: int = 3) -> list[str]:
    prompt = f"""
주의: 의미 변경, 사실 왜곡, 새로운 정보 추가는 금지합니다.

아래 한국어 문장을 의미는 그대로 유지하되
서로 다른 표현의 문장 {n}개를 반드시 생성하세요.

출력은 반드시 다음 JSON 형식만 사용하세요.
{{
  "paraphrases": ["문장1", "문장2", ..., "문장{n}"]
}}

조건:
- paraphrases 배열 길이는 반드시 {n}
- 설명, 번호, 불필요한 텍스트 금지

문장:
{sentence}
""".strip()

    resp = client.responses.create(
        model="gpt-5.2",
        input=prompt
    )

    data = json.loads(resp.output_text)
    return data["paraphrases"]

texts = [
    "상상할 수 있는 사람은 불가능한 것도 만들어낼 수 있다.",
    "우리는 앞을 멀리 보지는 못하지만, 해야 할 일은 충분히 볼 수 있다.",
    "기계가 절대 실수하지 않기를 기대한다면, 지능적일 수는 없다.",
]

N = 3  # 문장당 패러프레이즈 개수

augmented_texts = []

for src in texts:
    paras = paraphrase_ko(src, n=N)
    for p in paras:
        augmented_texts.append({
            "source": src,
            "paraphrase": p
        })

for item in augmented_texts:
    print("SRC:", item["source"])
    print("DST:", item["paraphrase"])
    print("-" * 40)


SRC: 상상할 수 있는 사람은 불가능한 것도 만들어낼 수 있다.
DST: 상상할 수 있는 사람은 불가능해 보이는 것조차 만들어낼 수 있다.
----------------------------------------
SRC: 상상할 수 있는 사람은 불가능한 것도 만들어낼 수 있다.
DST: 상상을 할 수 있는 사람이라면 불가능한 것까지도 만들어낼 수 있다.
----------------------------------------
SRC: 상상할 수 있는 사람은 불가능한 것도 만들어낼 수 있다.
DST: 상상할 수 있는 사람은 불가능하다고 여겨지는 것마저도 만들어낼 수 있다.
----------------------------------------
SRC: 우리는 앞을 멀리 보지는 못하지만, 해야 할 일은 충분히 볼 수 있다.
DST: 우리는 멀리 앞을 내다보지는 못하지만, 해야 할 일은 충분히 볼 수 있다.
----------------------------------------
SRC: 우리는 앞을 멀리 보지는 못하지만, 해야 할 일은 충분히 볼 수 있다.
DST: 우리는 앞날을 멀리까지 보지 못해도, 해야 할 일은 충분히 볼 수 있다.
----------------------------------------
SRC: 우리는 앞을 멀리 보지는 못하지만, 해야 할 일은 충분히 볼 수 있다.
DST: 우리는 먼 앞을 바라볼 수는 없지만, 해야 할 일은 충분히 볼 수 있다.
----------------------------------------
SRC: 기계가 절대 실수하지 않기를 기대한다면, 지능적일 수는 없다.
DST: 기계가 결코 실수하지 않기를 바란다면, 그것은 지능적일 수 없다.
----------------------------------------
SRC: 기계가 절대 실수하지 않기를 기대한다면, 지능적일 수는 없다.
DST: 기계가 절대로 실수하지 않기를 기대한다면, 지능적일 수 없다.
-----------------------------------