In [1]:
import pandas as pd
from BERT_augmentation import BERT_Augmentation
from adverb_augmentation import AdverbAugmentation
import transformers

  from .autonotebook import tqdm as notebook_tqdm


## Train Data Load

In [2]:
df = pd.read_csv('train.csv')

In [3]:
df.iloc[0]

id                          boostcamp-sts-v1-train-000
source                                    nsmc-sampled
sentence_1      스릴도있고 반전도 있고 여느 한국영화 쓰레기들하고는 차원이 다르네요~
sentence_2                        반전도 있고,사랑도 있고재미도있네요.
label                                              2.2
binary-label                                       0.0
Name: 0, dtype: object

In [4]:
example = df.iloc[0]['sentence_1']
example

'스릴도있고 반전도 있고 여느 한국영화 쓰레기들하고는 차원이 다르네요~'

## BERT augmentation
Random Insertion Replacement

In [5]:
BERT_aug = BERT_Augmentation()
random_masking_insertion = BERT_aug.random_masking_insertion

Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.


In [6]:
sentence = example
ratio = 0.15

In [7]:
print('original_sentece:', sentence)
print('insertion_replacement:', random_masking_insertion(sentence, ratio))

original_sentece: 스릴도있고 반전도 있고 여느 한국영화 쓰레기들하고는 차원이 다르네요~
insertion_replacement: 스릴도있고, 반전도 있고 여느 한국영화 쓰레기들하고는 차원이 다르네요 ~


## Adverb augmentation

In [8]:
adverb_aug = AdverbAugmentation()
adverb_gloss_replacement = adverb_aug.adverb_gloss_replacement

In [9]:
sentence = example

In [10]:
print('original_sentece:', sentence)
print('adverb_replacement:', adverb_gloss_replacement(sentence))

original_sentece: 스릴도있고 반전도 있고 여느 한국영화 쓰레기들하고는 차원이 다르네요~
adverb_replacement: 스릴도있고 반전도 있고 여느 한국영화 쓰레기들하고는 차원이 다르네요~


## Train Dataset Augmentation

### Practice
1. Adverb augmentation 진행
2. insertion augmentation 진행

In [13]:
df['sentence_1_adv'] = df['sentence_1'].apply(lambda x: adverb_gloss_replacement(x))
df['sentence_2_adv'] = df['sentence_2'].apply(lambda x: adverb_gloss_replacement(x))
df

Unnamed: 0,id,source,sentence_1,sentence_2,label,binary-label,sentence_1_adv,sentence_2_adv
0,boostcamp-sts-v1-train-000,nsmc-sampled,스릴도있고 반전도 있고 여느 한국영화 쓰레기들하고는 차원이 다르네요~,"반전도 있고,사랑도 있고재미도있네요.",2.2,0.0,스릴도있고 반전도 있고 여느 한국영화 쓰레기들하고는 차원이 다르네요~,"반전도 있고,사랑도 있고재미도있네요."
1,boostcamp-sts-v1-train-001,slack-rtt,앗 제가 접근권한이 없다고 뜹니다;;,"오, 액세스 권한이 없다고 합니다.",4.2,1.0,앗 제가 접근권한이 없다고 뜹니다;;,"오, 액세스 권한이 없다고 합니다."
2,boostcamp-sts-v1-train-002,petition-sampled,주택청약조건 변경해주세요.,주택청약 무주택기준 변경해주세요.,2.4,0.0,주택청약조건 변경해주세요.,주택청약 무주택기준 변경해주세요.
3,boostcamp-sts-v1-train-003,slack-sampled,입사후 처음 대면으로 만나 반가웠습니다.,화상으로만 보다가 리얼로 만나니 정말 반가웠습니다.,3.0,1.0,입사후 처음 대면으로 만나 반가웠습니다.,화상으로만 보다가 리얼로 만나니 거짓이 없이 진실함 반가웠습니다.
4,boostcamp-sts-v1-train-004,slack-sampled,뿌듯뿌듯 하네요!!,꼬옥 실제로 한번 뵈어요 뿌뿌뿌~!~!,0.0,0.0,뿌듯뿌듯 하네요!!,꼬옥 거짓이나 상상이 아닌 정말로 있는 그대로 한번 뵈어요 뿌뿌뿌~!~!
...,...,...,...,...,...,...,...,...
9319,boostcamp-sts-v1-train-9319,petition-sampled,교원능력개발평가에서 교원이 보호받을 수 있는 장치를 마련해야합니다,본인이 납부한 국민연금 금액을 기준으로 대출을 받을 수 있는 제도를 마련해 주세요,0.2,0.0,교원능력개발평가에서 교원이 보호받을 수 있는 장치를 마련해야합니다,본인이 납부한 국민연금 금액을 기준으로 대출을 받을 수 있는 제도를 마련해 주세요
9320,boostcamp-sts-v1-train-9320,petition-sampled,여성가족부의 폐지를 원합니드,여성가족부 폐지를 청원 합니다.,4.2,1.0,여성가족부의 폐지를 원합니드,여성가족부 폐지를 청원 합니다.
9321,boostcamp-sts-v1-train-9321,petition-sampled,국회의원들 월급좀 줄여주세요,공무원 봉급좀 줄이지좀 마세요,0.6,0.0,국회의원들 월급좀 줄여주세요,공무원 봉급좀 줄이지좀 마세요
9322,boostcamp-sts-v1-train-9322,slack-sampled,오늘 못한 점심은 다음에 다시 츄라이 하기로 해요!!,오늘 못먹은 밥은 꼭 담에 먹기로 하고요!!,3.2,1.0,오늘 못한 점심은 다음에 이전 상태나 행동이 그쳤다가 이어지면서 새로이 또 츄라이 ...,지금 시간이 흐르고 있는 이 날 못먹은 밥은 꼭 담에 먹기로 하고요!!


In [14]:
same_1 = (df['sentence_1'] == df['sentence_1_adv']).sum()
same_2 = (df['sentence_2'] == df['sentence_2_adv']).sum()
same = ((df['sentence_1'] == df['sentence_1_adv']) & (df['sentence_2'] == df['sentence_2_adv'])).sum()
print(same_1, same_2, same)

6447 6403 5252


In [15]:
df_adv = pd.DataFrame(df)
df_adv.to_csv('train_adv_augmentation.csv', index=False)
df_adv

Unnamed: 0,id,source,sentence_1,sentence_2,label,binary-label,sentence_1_adv,sentence_2_adv
0,boostcamp-sts-v1-train-000,nsmc-sampled,스릴도있고 반전도 있고 여느 한국영화 쓰레기들하고는 차원이 다르네요~,"반전도 있고,사랑도 있고재미도있네요.",2.2,0.0,스릴도있고 반전도 있고 여느 한국영화 쓰레기들하고는 차원이 다르네요~,"반전도 있고,사랑도 있고재미도있네요."
1,boostcamp-sts-v1-train-001,slack-rtt,앗 제가 접근권한이 없다고 뜹니다;;,"오, 액세스 권한이 없다고 합니다.",4.2,1.0,앗 제가 접근권한이 없다고 뜹니다;;,"오, 액세스 권한이 없다고 합니다."
2,boostcamp-sts-v1-train-002,petition-sampled,주택청약조건 변경해주세요.,주택청약 무주택기준 변경해주세요.,2.4,0.0,주택청약조건 변경해주세요.,주택청약 무주택기준 변경해주세요.
3,boostcamp-sts-v1-train-003,slack-sampled,입사후 처음 대면으로 만나 반가웠습니다.,화상으로만 보다가 리얼로 만나니 정말 반가웠습니다.,3.0,1.0,입사후 처음 대면으로 만나 반가웠습니다.,화상으로만 보다가 리얼로 만나니 거짓이 없이 진실함 반가웠습니다.
4,boostcamp-sts-v1-train-004,slack-sampled,뿌듯뿌듯 하네요!!,꼬옥 실제로 한번 뵈어요 뿌뿌뿌~!~!,0.0,0.0,뿌듯뿌듯 하네요!!,꼬옥 거짓이나 상상이 아닌 정말로 있는 그대로 한번 뵈어요 뿌뿌뿌~!~!
...,...,...,...,...,...,...,...,...
9319,boostcamp-sts-v1-train-9319,petition-sampled,교원능력개발평가에서 교원이 보호받을 수 있는 장치를 마련해야합니다,본인이 납부한 국민연금 금액을 기준으로 대출을 받을 수 있는 제도를 마련해 주세요,0.2,0.0,교원능력개발평가에서 교원이 보호받을 수 있는 장치를 마련해야합니다,본인이 납부한 국민연금 금액을 기준으로 대출을 받을 수 있는 제도를 마련해 주세요
9320,boostcamp-sts-v1-train-9320,petition-sampled,여성가족부의 폐지를 원합니드,여성가족부 폐지를 청원 합니다.,4.2,1.0,여성가족부의 폐지를 원합니드,여성가족부 폐지를 청원 합니다.
9321,boostcamp-sts-v1-train-9321,petition-sampled,국회의원들 월급좀 줄여주세요,공무원 봉급좀 줄이지좀 마세요,0.6,0.0,국회의원들 월급좀 줄여주세요,공무원 봉급좀 줄이지좀 마세요
9322,boostcamp-sts-v1-train-9322,slack-sampled,오늘 못한 점심은 다음에 다시 츄라이 하기로 해요!!,오늘 못먹은 밥은 꼭 담에 먹기로 하고요!!,3.2,1.0,오늘 못한 점심은 다음에 이전 상태나 행동이 그쳤다가 이어지면서 새로이 또 츄라이 ...,지금 시간이 흐르고 있는 이 날 못먹은 밥은 꼭 담에 먹기로 하고요!!


### Augmentation
insertion augmentation만 진행

In [34]:
df['sentence_1_bert'] = df['sentence_1'].apply(lambda x: random_masking_insertion(x))
df['sentence_2_bert'] = df['sentence_2'].apply(lambda x: random_masking_insertion(x))

In [35]:
df.head()

Unnamed: 0,id,source,sentence_1,sentence_2,label,binary-label,sentence_1_bert,sentence_2_bert
0,boostcamp-sts-v1-train-000,nsmc-sampled,스릴도있고 반전도 있고 여느 한국영화 쓰레기들하고는 차원이 다르네요~,"반전도 있고,사랑도 있고재미도있네요.",2.2,0.0,스릴도있고 반전도 있고 여느 한국영화 쓰레기들하고는 차원이 좀 다르네요 ~,"반전도 있고,사랑도 있고재미도있네요."
1,boostcamp-sts-v1-train-001,slack-rtt,앗 제가 접근권한이 없다고 뜹니다;;,"오, 액세스 권한이 없다고 합니다.",4.2,1.0,앗! 제가 접근권한이 없다고 뜹니다 ; ;,"그리고 오, 액세스 권한이 없다고 합니다."
2,boostcamp-sts-v1-train-002,petition-sampled,주택청약조건 변경해주세요.,주택청약 무주택기준 변경해주세요.,2.4,0.0,주택청약조건 변경해주세요.,주택청약 무주택기준 변경해주세요.
3,boostcamp-sts-v1-train-003,slack-sampled,입사후 처음 대면으로 만나 반가웠습니다.,화상으로만 보다가 리얼로 만나니 정말 반가웠습니다.,3.0,1.0,회사 입사후 처음 대면으로 만나 반가웠습니다.,화상으로만 보다가 리얼로 다시 만나니 정말 반가웠습니다.
4,boostcamp-sts-v1-train-004,slack-sampled,뿌듯뿌듯 하네요!!,꼬옥 실제로 한번 뵈어요 뿌뿌뿌~!~!,0.0,0.0,뿌듯뿌듯 하네요!!,꼬옥 ~ 실제로 한번 뵈어요 뿌뿌뿌 ~! ~!


In [41]:
same = ((df['sentence_1'] == df['sentence_1_bert']) & (df['sentence_2'] == df['sentence_2_bert'])).sum()
same

1881

In [36]:
group_1 = df[['sentence_1', 'sentence_1_bert']]
group_2 = df[['sentence_2', 'sentence_2_bert']]
print(group_1.head())
print(group_2.head())

                               sentence_1  \
0  스릴도있고 반전도 있고 여느 한국영화 쓰레기들하고는 차원이 다르네요~   
1                    앗 제가 접근권한이 없다고 뜹니다;;   
2                          주택청약조건 변경해주세요.   
3                  입사후 처음 대면으로 만나 반가웠습니다.   
4                              뿌듯뿌듯 하네요!!   

                             sentence_1_bert  
0  스릴도있고 반전도 있고 여느 한국영화 쓰레기들하고는 차원이 좀 다르네요 ~  
1                    앗! 제가 접근권한이 없다고 뜹니다 ; ;  
2                             주택청약조건 변경해주세요.  
3                  회사 입사후 처음 대면으로 만나 반가웠습니다.  
4                                 뿌듯뿌듯 하네요!!  
                     sentence_2                  sentence_2_bert
0          반전도 있고,사랑도 있고재미도있네요.             반전도 있고,사랑도 있고재미도있네요.
1           오, 액세스 권한이 없다고 합니다.          그리고 오, 액세스 권한이 없다고 합니다.
2            주택청약 무주택기준 변경해주세요.               주택청약 무주택기준 변경해주세요.
3  화상으로만 보다가 리얼로 만나니 정말 반가웠습니다.  화상으로만 보다가 리얼로 다시 만나니 정말 반가웠습니다.
4         꼬옥 실제로 한번 뵈어요 뿌뿌뿌~!~!        꼬옥 ~ 실제로 한번 뵈어요 뿌뿌뿌 ~! ~!


In [38]:
cnt_1 = (df['sentence_1'] == df['sentence_1_bert']).sum()
print(cnt_1)
print(cnt_1/len(df))

3274
0.3511368511368511


In [39]:
cnt_2 = (df['sentence_2'] == df['sentence_2_bert']).sum()
print(cnt_2)
print(cnt_2/len(df))

2752
0.29515229515229513


### Valid Data Load

In [11]:
dev = pd.read_csv('dev.csv')

In [12]:
dev.iloc[0]

id                    boostcamp-sts-v1-dev-000
source                            nsmc-sampled
sentence_1                    액션은개뿔 총몇번쏘고 끝입니다
sentence_2      액션은 흉내만 내고 그마저도 후반부에는 슬로우모션 처리
label                                      2.0
binary-label                               0.0
Name: 0, dtype: object