<a href="https://colab.research.google.com/github/chanhyeong00/machine_learning_study/blob/main/pytorch/%EC%8B%AC%ED%99%942(%EB%8D%B0%EC%9D%B4%ED%84%B0%20%EC%A6%9D%EA%B0%95%20%EB%B0%8F%20%EB%B3%80%ED%99%98-%ED%85%8D%EC%8A%A4%ED%8A%B8).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 데이터 증강이란

**데이터 증강(Data Augmentation)**이란 데이터가 가진 고유한 특징을 유지한 채 변형가허간 노이즈를 추가해 데이터세트의 크기를 인위적으로 늘리는 방법이다. 모델은 학습 데이터가 가진 특징의 패턴을 학습해 새로운 데이터를 분석한다.

### **장점**
- 기존 학습 데이터를 재가공해 원래 데이터와 유사하지만 새로운 데이터 생성
- 모델의 과대적합을 줄이고 일반화 능력을 향상시킬 수 있음(기존 데이터 품질 유지한 채 특징을 살려 모델 학습에 사용)
- 데이터세트를 인위적으로 늘리므로 기존 데이터의 형질이 유지된다. 이는 모델의 분산과 편향을 줄일 수 있다.
- 데이터 수집시 잘못된 정보가 들어오는 문제가 발생되지 않음.
- 특정 클래스의 데이터 수가 적은 경우 데이터 증강을 통해 데이터 불균형을 완화할 수 있다.

### **단점, 한계**
- 기존 데이터를 변형해 노이즈를 추가하므로 너무 많은 변형이나 노이즈를 추가한다면 기존 데이터가 가진 특징이 파괴될 수 있다. -> 데이터의 일관성이 사라질 수 있음

- 데이터 증강도 알고리즘을 적용해 생성하므로 데이터 수집보다 더 많은 비용이 들 수 있음


# 텍스트 데이터

자연어 처리 모델을 구성할 때 데이터 세트의 크기를 쉽게 늘리기 위해 사용.

삽입, 삭제, 교체, 대체, 생성, 반의어, 맞춤법 교정, 역번역 등이 있다.


**자연어 처리 데이터 증강(NLPAUG) 라이브러리 활용.**

In [None]:
!pip install numpy requests nlpaug transformers sacremoses nltk

## 삽입

In [2]:
import nlpaug.augmenter.word as naw

texts = [
    "Those who can imagine anything, can create the impossible.",
    "We can only see a short distance ahead, but we can see plenty there that needs to be done.",
    "If a machine is expected to be infallible, it cannot also be intelligent.",
]
# ContextualWordEmbsAug를 사용해 단어 삽입
aug = naw.ContextualWordEmbsAug(model_path="bert-base-uncased", action="insert")
augmented_texts = aug.augment(texts)

for text, augmented in zip(texts, augmented_texts):
    print(f"src : {text}")
    print(f"dst : {augmented}")
    print("------------------")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/440M [00:00<?, ?B/s]

src : Those who can imagine anything, can create the impossible.
dst : to those who can only imagine anything, none can really create the impossible.
------------------
src : We can only see a short distance ahead, but we can see plenty there that needs to be done.
dst : we now can only see a reasonable short distance ahead, however but as we can see plenty there for that needs to always be carefully done.
------------------
src : If a machine is expected to be infallible, it cannot also be intelligent.
dst : thus if the a machine type is expected to probably be utterly infallible, it cannot also be completely intelligent.
------------------


ContextualWordEmbsAug 클래스는 **BERT** 모델을 활용해 단어를 삽입하는 기능 제공.

현재 문장 상황에 맞는 단어를 찾아 문장에 삽입해 반환한다.

- model_path는 bert-base-uncased나 distilbert-base-uncased 인수로 활용해 적용하며 허깅 페이스 모델을 자동으로 다운로드해 불러온다.
- action은 모델이 수행할 기능 선택(대체(sunstitute)하는 기능도 제공)

aug 클래스를 선언했다면 agment 메서드를 통해 기존 데이터를 증강할 수 있다.(기존 문장의 의미를 바꾸지 않은 채 데이터 증강됨)



## 삭제

**nac.RandomCharAug** 클래스를 사용해 문자를 삭제한다.

In [3]:
import nlpaug.augmenter.char as nac


texts = [
    "Those who can imagine anything, can create the impossible.",
    "We can only see a short distance ahead, but we can see plenty there that needs to be done.",
    "If a machine is expected to be infallible, it cannot also be intelligent.",
]

aug = nac.RandomCharAug(action="delete")
augmented_texts = aug.augment(texts)

for text, augmented in zip(texts, augmented_texts):
    print(f"src : {text}")
    print(f"dst : {augmented}")
    print("------------------")

src : Those who can imagine anything, can create the impossible.
dst : hse who can imag anything, can reae the iposibe.
------------------
src : We can only see a short distance ahead, but we can see plenty there that needs to be done.
dst : We can only see a sho istce ahe, but we can see plenty the ht nee to be de.
------------------
src : If a machine is expected to be infallible, it cannot also be intelligent.
dst : If a mhin is expected to be infalli, it cnot al be ntelent.
------------------


nac.RandomCharAug 클래스를 통해 무작위로 문자를 삭제할 수 있다.

해당 클래스는 insert, substitute, swap, delete 기능을 제공한다.

무작위로 단어가 삭제된 것을 볼 수 있다.

## 교체

단어나 문자의 위치를 교환하는 방법이다.

교체는 무의미하거나 의미상 잘못된 문장을 생성할 수 있으므로 데이터의 특성에 따라 주의해 사용해야 한다.


다음은 **naw.RandomWordAug** 클래스를 사용해 단어를 대체하는 방법이다.

In [4]:
import nlpaug.augmenter.word as naw


texts = [
    "Those who can imagine anything, can create the impossible.",
    "We can only see a short distance ahead, but we can see plenty there that needs to be done.",
    "If a machine is expected to be infallible, it cannot also be intelligent.",
]

aug = naw.RandomWordAug(action="swap")
augmented_texts = aug.augment(texts)

for text, augmented in zip(texts, augmented_texts):
    print(f"src : {text}")
    print(f"dst : {augmented}")
    print("------------------")

src : Those who can imagine anything, can create the impossible.
dst : Can those anything who imagine, can create the impossible.
------------------
src : We can only see a short distance ahead, but we can see plenty there that needs to be done.
dst : We can see only a short distance ahead, can but we see plenty there that needs be done to.
------------------
src : If a machine is expected to be infallible, it cannot also be intelligent.
dst : If a machine is be expected to infallible it, cannot also be intelligent.
------------------


naw.RandomWordAug 클래스는 insert, substitude, swap, delete 기능 지원
- 자르기(crop) 기능도 지원: 연속된 단어 집합을 한 번에 삭제하는 기능

무작위 교체의 경우 문맥을 파악하지 않고 교체하여 이상하게 교체될 수 있으니 사용에 주의한다.

## 대체

대체는 단어나 문자를 임의의 단어나 문자로 바꾸거나 동의어로 변경하는 방법이다.

단어나 문장을 대체하면 다른 증강 방법보다 비교적 데이터의 정합성(Consistency)이 어긋나지 않아 효율적으로 데이터를 증강할 수 있다.

그러나 교체와 마찬가지로 문장의 조사(Postposition)가 어색해질 수 있다.

다음은 **naw.SynonyAug** 클래스를 사용해 단어를 대체하는 방법을 보여준다.

####  naw.SynonyAug 대체 코드

In [5]:
import nlpaug.augmenter.word as naw


texts = [
    "Those who can imagine anything, can create the impossible.",
    "We can only see a short distance ahead, but we can see plenty there that needs to be done.",
    "If a machine is expected to be infallible, it cannot also be intelligent.",
]

aug = naw.SynonymAug(aug_src='wordnet') # wordnet 데이터베이스
augmented_texts = aug.augment(texts)

for text, augmented in zip(texts, augmented_texts):
    print(f"src : {text}")
    print(f"dst : {augmented}")
    print("------------------")

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


src : Those who can imagine anything, can create the impossible.
dst : Those who rump imagine anything, displace make the impossible.
------------------
src : We can only see a short distance ahead, but we can see plenty there that needs to be done.
dst : We can only if see a light space before, but we can see plenty there that want to be do.
------------------
src : If a machine is expected to be infallible, it cannot also be intelligent.
dst : If a political machine is expected to be infallible, it cannot as well be thinking.
------------------


**SynonyAug** 클래스는 워드넷(WordNet) 데이터베이스나 의역 데이터베이스(The Paraphrase Database, PPDB)를 활용해 단어를 대체해 데이터를 증강한다.

wordnet 또는 ppdb를 인수로 활용해 문장의 의미 변경 가능하다.

해당 기능은 문맥을 파악해 동의어로 변경하는 것이 아니라 데이터베이스 내 유의어나 동의어로 변경하므로 본래의 문맥과 전혀 다른 문장이 생성될 수 있어 사용에 주의한다.

모델을 활용해 대체하는 경우 **ContextualWordEmbsAug** 클래스(맨위에서 씀) 사용


다음은 ReservedAug 클래스를 사용해 단어를 대체하는 방법을 보여준다.

#### **ReservedAug로 대체 코드**

In [6]:
import nlpaug.augmenter.word as naw


texts = [
    "Those who can imagine anything, can create the impossible.",
    "We can only see a short distance ahead, but we can see plenty there that needs to be done.",
    "If a machine is expected to be infallible, it cannot also be intelligent.",
]
reserved_tokens = [
    ["can", "can't", "cannot", "could"],
]

reserved_aug = naw.ReservedAug(reserved_tokens=reserved_tokens)
augmented_texts = reserved_aug.augment(texts)

for text, augmented in zip(texts, augmented_texts):
    print(f"src : {text}")
    print(f"dst : {augmented}")
    print("------------------")

src : Those who can imagine anything, can create the impossible.
dst : Those who can't imagine anything, could create the impossible.
------------------
src : We can only see a short distance ahead, but we can see plenty there that needs to be done.
dst : We can't only see a short distance ahead, but we could see plenty there that needs to be done.
------------------
src : If a machine is expected to be infallible, it cannot also be intelligent.
dst : If a machine is expected to be infallible, it could also be intelligent.
------------------


ReservedAug 클래스는 입력 데이터에 포함된 단어를 특정한 단어로 대체하는 기능 제공

## 역번역(Back-translation)

입력 텍스트를 특정 언어로 번역한 다음 다시 본래의 언어로 번역하는 방법을 의미한다.

본래의 언어로 번역하는 과정에서 원래 텍스트와 유사한 텍스트가 생성되므로 **페러프레이징(Paraphrasing) 효과를 얻을 수 있다.

역번역은 번역 모델의 성능에 크게 좌우된다. 번역이 정확하지 않거나 입력된 텍스트가 너무 복잡하고 어려운 구조를 갖고 있다면 성능이 크게 떨어지는 문제가 있다. 역번역은 기계 번역 품질을 평가하는 데 사용되기도 한다.

**naw.BackTranslationAug 클래스 사용해 역번역 적용**

In [7]:
import nlpaug.augmenter.word as naw


texts = [
    "Those who can imagine anything, can create the impossible.",
    "We can only see a short distance ahead, but we can see plenty there that needs to be done.",
    "If a machine is expected to be infallible, it cannot also be intelligent.",
]

back_translation = naw.BackTranslationAug(
    from_model_name='facebook/wmt19-en-de',
    to_model_name='facebook/wmt19-de-en'
)
augmented_texts = back_translation.augment(texts)

for text, augmented in zip(texts, augmented_texts):
    print(f"src : {text}")
    print(f"dst : {augmented}")
    print("------------------")

config.json:   0%|          | 0.00/825 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/1.08G [00:00<?, ?B/s]

Some weights of FSMTForConditionalGeneration were not initialized from the model checkpoint at facebook/wmt19-en-de and are newly initialized: ['model.decoder.embed_positions.weight', 'model.encoder.embed_positions.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


generation_config.json:   0%|          | 0.00/235 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/825 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.08G [00:00<?, ?B/s]

Some weights of FSMTForConditionalGeneration were not initialized from the model checkpoint at facebook/wmt19-de-en and are newly initialized: ['model.decoder.embed_positions.weight', 'model.encoder.embed_positions.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


generation_config.json:   0%|          | 0.00/260 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/67.0 [00:00<?, ?B/s]

vocab-src.json:   0%|          | 0.00/849k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/315k [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/67.0 [00:00<?, ?B/s]

vocab-src.json:   0%|          | 0.00/849k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/315k [00:00<?, ?B/s]

  self.pid = os.fork()


src : Those who can imagine anything, can create the impossible.
dst : Anyone who can imagine anything can achieve the impossible.
------------------
src : We can only see a short distance ahead, but we can see plenty there that needs to be done.
dst : We can only look a little ahead, but we can see a lot there that needs to be done.
------------------
src : If a machine is expected to be infallible, it cannot also be intelligent.
dst : If a machine is expected to be infallible, it cannot be intelligent.
------------------


**BackTranslationAug** 클래스는  입력 모델(**from_model_name)**과 출력 모델(**to_model_name**)을 설정해 역번역을 수행할 수 있다.

입력 모델은 영어를 독일어로 번경하며, 출력 모델은 독일어를 영어로 변경한다.

출력 결과를 보면 원문과 번역본 의미가 크게 달라지지 않는 것을 확인할 수 있다.

역번역은 번역 모델의 성능에 따라 결과가 크게 달라질 수 있으며

두개의 모델을 활용해 데이터를 증강하므로 데이터 증강 방법 중 가장 많은 리소스 소모

텍스터 데이터 증강 클래스는 p.201