# 예제 4.10-4.15: 텍스트 데이터 증강 (Text Data Augmentation)

## 학습목표
1. **텍스트 데이터 증강** 개념 이해하기
2. **nlpaug 라이브러리** 사용법 익히기
3. **다양한 텍스트 증강 기법** 학습하기
   - 문맥 기반 단어 삽입 (Contextual Word Embedding)
   - 랜덤 문자 삭제
   - 단어 순서 변경 (Swap)
   - 동의어 대체 (Synonym)
   - 예약 토큰 대체 (Reserved Token)
   - 역번역 (Back Translation)

---

#### 예제 4.10 라이브러리 설치

In [None]:
# 텍스트 증강에 필요한 라이브러리 설치
# nlpaug: 텍스트 데이터 증강 라이브러리
# transformers: BERT 등 사전학습 모델
# sacremoses: 토큰화 도구
# nltk: 자연어 처리 도구킷
!pip install numpy requests nlpaug transformers sacremoses nltk

---

#### 예제 4.11 문맥 기반 단어 삽입 (Contextual Word Embedding)

BERT 모델을 사용해 문맥에 맞는 단어를 삽입

In [None]:
import nlpaug.augmenter.word as naw


# 증강할 텍스트 데이터
texts = [
    "Those who can imagine anything, can create the impossible.",
    "We can only see a short distance ahead, but we can see plenty there that needs to be done.",
    "If a machine is expected to be infallible, it cannot also be intelligent.",
]

# ContextualWordEmbsAug: BERT 기반 문맥 단어 증강
# model_path: 사용할 사전학습 모델
# action="insert": 문맥에 맞는 단어 삽입
aug = naw.ContextualWordEmbsAug(model_path="bert-base-uncased", action="insert")
augmented_texts = aug.augment(texts)

print("문맥 기반 단어 삽입 결과:")
for text, augmented in zip(texts, augmented_texts):
    print(f"원본 : {text}")
    print(f"증강 : {augmented}")
    print("------------------")

---

#### 예제 4.12 랜덤 문자 삭제 (Random Character Deletion)

문자 단위로 무작위 삭제하여 노이즈 추가

In [None]:
import nlpaug.augmenter.char as nac


texts = [
    "Those who can imagine anything, can create the impossible.",
    "We can only see a short distance ahead, but we can see plenty there that needs to be done.",
    "If a machine is expected to be infallible, it cannot also be intelligent.",
]

# RandomCharAug: 문자 단위 증강
# action="delete": 무작위 문자 삭제
# action="insert", "substitute", "swap" 등도 가능
aug = nac.RandomCharAug(action="delete")
augmented_texts = aug.augment(texts)

print("랜덤 문자 삭제 결과:")
for text, augmented in zip(texts, augmented_texts):
    print(f"원본 : {text}")
    print(f"증강 : {augmented}")
    print("------------------")

---

#### 예제 4.13 단어 순서 변경 (Word Swap)

단어의 순서를 무작위로 변경

In [None]:
import nlpaug.augmenter.word as naw


texts = [
    "Those who can imagine anything, can create the impossible.",
    "We can only see a short distance ahead, but we can see plenty there that needs to be done.",
    "If a machine is expected to be infallible, it cannot also be intelligent.",
]

# RandomWordAug: 단어 단위 증강
# action="swap": 인접한 단어 위치 교환
aug = naw.RandomWordAug(action="swap")
augmented_texts = aug.augment(texts)

print("단어 순서 변경 결과:")
for text, augmented in zip(texts, augmented_texts):
    print(f"원본 : {text}")
    print(f"증강 : {augmented}")
    print("------------------")

---

#### 예제 4.14 동의어 대체 (Synonym Replacement)

WordNet을 사용해 단어를 동의어로 대체

In [None]:
import nlpaug.augmenter.word as naw


texts = [
    "Those who can imagine anything, can create the impossible.",
    "We can only see a short distance ahead, but we can see plenty there that needs to be done.",
    "If a machine is expected to be infallible, it cannot also be intelligent.",
]

# SynonymAug: 동의어 대체 증강
# aug_src='wordnet': WordNet 사전 사용
aug = naw.SynonymAug(aug_src='wordnet')
augmented_texts = aug.augment(texts)

print("동의어 대체 결과:")
for text, augmented in zip(texts, augmented_texts):
    print(f"원본 : {text}")
    print(f"증강 : {augmented}")
    print("------------------")

---

#### 예약 토큰 대체 (Reserved Token Replacement)

지정한 토큰 그룹 내에서 단어를 대체

In [None]:
import nlpaug.augmenter.word as naw


texts = [
    "Those who can imagine anything, can create the impossible.",
    "We can only see a short distance ahead, but we can see plenty there that needs to be done.",
    "If a machine is expected to be infallible, it cannot also be intelligent.",
]

# 사용자 정의 대체 토큰 그룹
# "can"이 나오면 같은 그룹의 다른 단어로 대체 가능
reserved_tokens = [
    ["can", "can't", "cannot", "could"],
]

# ReservedAug: 예약 토큰 기반 대체
reserved_aug = naw.ReservedAug(reserved_tokens=reserved_tokens)
augmented_texts = reserved_aug.augment(texts)

print("예약 토큰 대체 결과:")
for text, augmented in zip(texts, augmented_texts):
    print(f"원본 : {text}")
    print(f"증강 : {augmented}")
    print("------------------")

---

#### 예제 4.15 역번역 (Back Translation)

영어 → 독일어 → 영어로 번역하여 자연스러운 패러프레이징

In [None]:
import nlpaug.augmenter.word as naw


texts = [
    "Those who can imagine anything, can create the impossible.",
    "We can only see a short distance ahead, but we can see plenty there that needs to be done.",
    "If a machine is expected to be infallible, it cannot also be intelligent.",
]

# BackTranslationAug: 역번역 증강
# 영어 → 독일어 → 영어 (또는 다른 언어 쌍 사용 가능)
# 번역 과정에서 자연스러운 패러프레이징 발생
back_translation = naw.BackTranslationAug(
    from_model_name='facebook/wmt19-en-de',  # 영어 → 독일어
    to_model_name='facebook/wmt19-de-en'     # 독일어 → 영어
)
augmented_texts = back_translation.augment(texts)

print("역번역 결과:")
for text, augmented in zip(texts, augmented_texts):
    print(f"원본 : {text}")
    print(f"증강 : {augmented}")
    print("------------------")