In [11]:
import pandas as pd
from tqdm import tqdm
from transformers import AutoModelWithLMHead, AutoTokenizer

MODEL_NAME = "lcw99/t5-base-korean-paraphrase"
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelWithLMHead.from_pretrained(MODEL_NAME)

def t5_paraphrase(text):
    prompt = "paraphrase: " + text
    tokenizer_output = tokenizer(prompt, return_tensors="pt", add_special_tokens=True)
    # print("encode: >>>", tokenizer_output, tokenizer_output.input_ids)
    generated_ids = model.generate(
        input_ids=tokenizer_output.input_ids,
        max_length=50,  
        num_beams=3,    
        no_repeat_ngram_size=2,
        repetition_penalty=1.5,
        length_penalty=0.1,
        early_stopping=True
    )
    # print("generated_ids: >>>", generated_ids)
    preds = [tokenizer.decode(g, skip_special_tokens=True) for g in generated_ids]
    # print(preds)
    return preds[0]



In [12]:
print(type(model))
text = "오느른 팬과 함께 신태용호 육빼겨명 패 나페서 공개 훌련"
# text = "개포2단지 분양 앞두고 개포지구 재건축 불붙어"
t5_paraphrase(text)

<class 'transformers.models.t5.modeling_t5.T5ForConditionalGeneration'>


'팬들과 함께 신태용호 선수 6경기를 모두 관람한 것은 국내에서도 마찬가지이다.'

In [None]:
def t5model_aug(data):
    aug_data = data.copy()
    aug_train = []

    for text in tqdm(aug_data['text']):
        aug_train.append(t5_paraphrase(text))

    aug_data['text'] = aug_train

    new_data = pd.concat([data, aug_data])
    return new_data

In [16]:
import os

BASE_DIR = os.getcwd()
DATA_DIR = os.path.join(BASE_DIR, '../data')
train_data = pd.read_csv(os.path.join(DATA_DIR, 'train.csv'))

# augmented_data = t5model_aug(train_data)

# augmented_data.to_csv(os.path.join(DATA_DIR, 'augmented_train.csv'))


In [17]:
augmented_data = pd.read_csv('../data/augmented_train.csv')

In [18]:
train_data

Unnamed: 0,ID,text,target,url,date
0,ynat-v1_train_00000,개포2단지 분양 앞두고 개포지구 재건축 불붙어,1,https://news.naver.com/main/read.nhn?mode=LS2D...,2016.03.16. 오전 11:37
1,ynat-v1_train_00001,삼성전자 KBIS 2018서 셰프컬렉션 선보여,0,https://news.naver.com/main/read.nhn?mode=LS2D...,2018.01.10. 오전 8:33
2,ynat-v1_train_00002,LG G6 사면 BO 이어폰이 단돈 5천원,0,https://news.naver.com/main/read.nhn?mode=LS2D...,2017.04.30. 오전 10:00
3,ynat-v1_train_00003,신간 블록체인혁명 2030·남자의 고독사,3,https://news.naver.com/main/read.nhn?mode=LS2D...,2019.06.13. 오전 11:49
4,ynat-v1_train_00004,이스라엘 정보당국 팔레스타인인 50명 테러 혐의로 체포,4,https://news.naver.com/main/read.nhn?mode=LS2D...,2019.12.18. 오후 11:15
...,...,...,...,...,...
6995,ynat-v1_train_06995,힐만 SK 감독 고통스럽지만 내 상황 솔직히 알려야 해,5,https://sports.news.naver.com/news.nhn?oid=001...,2018.10.13 15:46
6996,ynat-v1_train_06996,정의장 사드 국회동의 사안 아니라 쳐도 충분히 협의해야,6,https://news.naver.com/main/read.nhn?mode=LS2D...,2016.07.17. 오후 6:20
6997,ynat-v1_train_06997,정치권 엘시티 수사 돌발변수에 촉각…왜 지금,6,https://news.naver.com/main/read.nhn?mode=LS2D...,2016.11.16. 오후 6:24
6998,ynat-v1_train_06998,문 대통령 1987 관람…깜짝 방문에 객석 환호·박수종합,6,https://news.naver.com/main/read.nhn?mode=LS2D...,2018.01.07. 오후 5:23


In [30]:
augmented_data

Unnamed: 0.1,Unnamed: 0,ID,text,target,url,date
0,0,ynat-v1_train_00000,개포2단지 분양을 앞두고 개포지구 재건축 문제가 대두되고 있다.,1,https://news.naver.com/main/read.nhn?mode=LS2D...,2016.03.16. 오전 11:37
1,1,ynat-v1_train_00001,삼성전자 KBIS 2018에서 셰프컬렉션을 공개한다.,0,https://news.naver.com/main/read.nhn?mode=LS2D...,2018.01.10. 오전 8:33
2,2,ynat-v1_train_00002,LG G6를 구입하면 BO 이어폰을 5천 원에 살 수 있다.,0,https://news.naver.com/main/read.nhn?mode=LS2D...,2017.04.30. 오전 10:00
3,3,ynat-v1_train_00003,블록체인혁명을 이끄는 2030 남성과 함께 하는 고독사를 소개한다.,3,https://news.naver.com/main/read.nhn?mode=LS2D...,2019.06.13. 오전 11:49
4,4,ynat-v1_train_00004,이스라엘 정보당국은 팔레스타인인 50명을 테러 혐의로 체포했다.,4,https://news.naver.com/main/read.nhn?mode=LS2D...,2019.12.18. 오후 11:15
...,...,...,...,...,...,...
6995,6995,ynat-v1_train_06995,힐만 SK 감독은 내 입장을 진솔하게 얘기해야 한다.,5,https://sports.news.naver.com/news.nhn?oid=001...,2018.10.13 15:46
6996,6996,ynat-v1_train_06996,사드 배치가 국회동의 사안이 아니라고 하더라도 정의장은 충분히 논의할 수 있다고 본다.,6,https://news.naver.com/main/read.nhn?mode=LS2D...,2016.07.17. 오후 6:20
6997,6997,ynat-v1_train_06997,정치권이 엘시티 수사 돌발변수에 촉각을 곤두세우고 있다.,6,https://news.naver.com/main/read.nhn?mode=LS2D...,2016.11.16. 오후 6:24
6998,6998,ynat-v1_train_06998,문 대통령이 1987년 서울 방문 때 객석에서 환호와 박수를 보내는 모습을 본 사람...,6,https://news.naver.com/main/read.nhn?mode=LS2D...,2018.01.07. 오후 5:23


# g2pk 노이즈 추가

In [26]:
!pip install g2pk

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
[0m

In [27]:
from g2pk import G2p
g2p = G2p()
# g2p("어제는 날씨가 맑았는데, 오늘은 흐리다.")
g2p("오늘은 팬과 함께 신태용호 육백여명 팬 앞에서 공개 훈련") # train: "오느른 팬과 함께 신태용호 육빼겨명 패 나페서 공개 훌련"


huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


'오느른 팬과 함께 신태용호 육빼겨명 패 나페서 공개 훌련'

In [28]:
from hanspell import spell_checker
checked_sent1 = spell_checker.check('안녕 하세요. 저는 한국인 입니다. 이문장은 한글로 작성됬습니다.')
print(checked_sent1.errors)  # dict로 출력

4


In [21]:
total = 0
for text in tqdm(augmented_data['text']):
        checked_out = spell_checker.check(text)
        if checked_out.errors:
                total += 1
print('error num: ', total)
print(total/7000)

100%|██████████| 7000/7000 [03:34<00:00, 32.58it/s]

error num:  2942
0.42028571428571426





In [36]:
import random

ratio = 0.125
temp = augmented_data.copy()

# text 컬럼 순회 및 G2P 적용
for index in tqdm(temp.index):
    if random.random() < ratio:  
        temp.at[index, 'text'] = g2p(temp.at[index, 'text'])
temp
        

100%|██████████| 7000/7000 [00:29<00:00, 237.20it/s]


Unnamed: 0.1,Unnamed: 0,ID,text,target,url,date
0,0,ynat-v1_train_00000,개포2단지 분양을 앞두고 개포지구 재건축 문제가 대두되고 있다.,1,https://news.naver.com/main/read.nhn?mode=LS2D...,2016.03.16. 오전 11:37
1,1,ynat-v1_train_00001,삼성전자 KBIS 2018에서 셰프컬렉션을 공개한다.,0,https://news.naver.com/main/read.nhn?mode=LS2D...,2018.01.10. 오전 8:33
2,2,ynat-v1_train_00002,LG G6를 구입하면 BO 이어폰을 5천 원에 살 수 있다.,0,https://news.naver.com/main/read.nhn?mode=LS2D...,2017.04.30. 오전 10:00
3,3,ynat-v1_train_00003,블록체인혁명을 이끄는 2030 남성과 함께 하는 고독사를 소개한다.,3,https://news.naver.com/main/read.nhn?mode=LS2D...,2019.06.13. 오전 11:49
4,4,ynat-v1_train_00004,이스라엘 정보당국은 팔레스타인인 50명을 테러 혐의로 체포했다.,4,https://news.naver.com/main/read.nhn?mode=LS2D...,2019.12.18. 오후 11:15
...,...,...,...,...,...,...
6995,6995,ynat-v1_train_06995,힐만 SK 감독은 내 입장을 진솔하게 얘기해야 한다.,5,https://sports.news.naver.com/news.nhn?oid=001...,2018.10.13 15:46
6996,6996,ynat-v1_train_06996,사드 배치가 국회동의 사안이 아니라고 하더라도 정의장은 충분히 논의할 수 있다고 본다.,6,https://news.naver.com/main/read.nhn?mode=LS2D...,2016.07.17. 오후 6:20
6997,6997,ynat-v1_train_06997,정치궈니 엘시티 수사 돌발변수에 촉까글 곤두세우고 읻따.,6,https://news.naver.com/main/read.nhn?mode=LS2D...,2016.11.16. 오후 6:24
6998,6998,ynat-v1_train_06998,문 대통령이 1987년 서울 방문 때 객석에서 환호와 박수를 보내는 모습을 본 사람...,6,https://news.naver.com/main/read.nhn?mode=LS2D...,2018.01.07. 오후 5:23


In [37]:
temp.to_csv(os.path.join(DATA_DIR, 'noise_augmented.csv'))

In [38]:
new_data = pd.concat([train_data, temp])
new_data.reset_index(drop=True, inplace=True)
new_data

Unnamed: 0.1,ID,text,target,url,date,Unnamed: 0
0,ynat-v1_train_00000,개포2단지 분양 앞두고 개포지구 재건축 불붙어,1,https://news.naver.com/main/read.nhn?mode=LS2D...,2016.03.16. 오전 11:37,
1,ynat-v1_train_00001,삼성전자 KBIS 2018서 셰프컬렉션 선보여,0,https://news.naver.com/main/read.nhn?mode=LS2D...,2018.01.10. 오전 8:33,
2,ynat-v1_train_00002,LG G6 사면 BO 이어폰이 단돈 5천원,0,https://news.naver.com/main/read.nhn?mode=LS2D...,2017.04.30. 오전 10:00,
3,ynat-v1_train_00003,신간 블록체인혁명 2030·남자의 고독사,3,https://news.naver.com/main/read.nhn?mode=LS2D...,2019.06.13. 오전 11:49,
4,ynat-v1_train_00004,이스라엘 정보당국 팔레스타인인 50명 테러 혐의로 체포,4,https://news.naver.com/main/read.nhn?mode=LS2D...,2019.12.18. 오후 11:15,
...,...,...,...,...,...,...
13995,ynat-v1_train_06995,힐만 SK 감독은 내 입장을 진솔하게 얘기해야 한다.,5,https://sports.news.naver.com/news.nhn?oid=001...,2018.10.13 15:46,6995.0
13996,ynat-v1_train_06996,사드 배치가 국회동의 사안이 아니라고 하더라도 정의장은 충분히 논의할 수 있다고 본다.,6,https://news.naver.com/main/read.nhn?mode=LS2D...,2016.07.17. 오후 6:20,6996.0
13997,ynat-v1_train_06997,정치궈니 엘시티 수사 돌발변수에 촉까글 곤두세우고 읻따.,6,https://news.naver.com/main/read.nhn?mode=LS2D...,2016.11.16. 오후 6:24,6997.0
13998,ynat-v1_train_06998,문 대통령이 1987년 서울 방문 때 객석에서 환호와 박수를 보내는 모습을 본 사람...,6,https://news.naver.com/main/read.nhn?mode=LS2D...,2018.01.07. 오후 5:23,6998.0


In [39]:
new_data.to_csv(os.path.join(DATA_DIR, 'new.csv'))