In [105]:
from koeda import AEDA
from koeda import RD # Random Deletion
from koeda import RI # Random Insertion
from koeda import SR # Synonym Replacement
from koeda import RS # Reandom Swap

In [97]:
morpheme_analyzer_list = ["Okt", "Kkma", "Komoran", "Mecab", "Hannanum"]
morpheme_analyzer = morpheme_analyzer_list[0]

In [99]:
data = ["안녕하세요, 어머님. 저는 루다 남자친구 상민입니다.", "저희 결혼을 허락해주세요. 손에 피 한방울 묻히지 않겠습니다.", "1945년 태평양 전쟁의 패전 후에 금치훈장에 대한 사무를 소관하고 있던 육군성과 해군성이 모두 폐지되었고, 각각 제1복원성, 제2복원성이 사무를 이어갔다."]

In [106]:
augmenter = AEDA(
    morpheme_analyzer = None,  # Default = "Okt"
    punc_ratio = 0.5,
    punctuations = None  # default = ('.', ',', '!', '?', ';', ':')
)

augmenter(
    data = "안녕하세요, 어머님. 저는 루다 남자친구 상민입니다.",
    p = None,  # Default = 0.3 
    repetition = 3
)

['? 안녕하세요, 어머님. 저는 루다 남자친구 , 상민입니다.',
 '안녕하세요, 어머님. 저는 ! 루다 남자친구 : 상민 ? 입니다.',
 '안녕하세요 ; , 어머님. 저는 루다 남자친구 상민입니다.']

In [115]:
augmenter = AEDA(
              morpheme_analyzer = None,  # Default = "Okt"
              punc_ratio = 0.3,
              punctuations = None  # default = ('.', ',', '!', '?', ';', ':')
            )

augmenter(
    data = data,
    p = 0.3,  # Default = 0.3 
    repetition = 3
)

['안녕하세요, 어머님. . 저는 루다 남자친구 상민 ; 입니다.',
 '안녕하세요, 어머님. 저는 루다 . 남자친구 ! 상민입니다.',
 '? 안녕하세요, 어머님. 저는 루 : 다 남자친구 : 상민입니다.',
 '저희 결혼을 ; 허락해주세요. , 손 ; 에 ! 피 . 한방울 묻히지 않겠습니다.',
 '저희 : 결혼을 허락해주세요. 손에 피 한방울 묻히지 : 않겠습니다.',
 '저희 결혼을 허락해주세요. 손에 : 피 한방울 묻히지 . 않겠습니다.',
 '1945년 태평양 전쟁의 . 패전 후에 금치훈장에 대한 사무를 소관하고 있던 육군성과 . 해군성 ; 이 모두 폐지되었고, 각각 . 제1복원성, : 제2복원성 ? 이 ; 사무를 ? 이어 . 갔다.',
 '1945년 태평양 ? 전쟁의 패전 후 : 에 금치훈장에 대한 사무 ; 를 소관하고 있던 육군성과 해군성이 모두 폐지되었고, 각각 ! 제1 . 복원성, 제2복원성 ? 이 사무를 이어갔다.',
 '1945년 태평양 전쟁의 ; 패전 후에 금치훈장 . 에 대한 사무 . 를 소관하고 ? 있던 육군성과 해군성이 모두 폐지되었고 , , ? 각각 제1복원성, 제 ! 2복원성 : 이 ? 사무 , 를 이어갔다.']

In [77]:
augmenter = RD(
    morpheme_analyzer = None,
)

augmenter(
    data = data,
    p = 0.3,
    repetition = 3
)

['어머님. 는 루다 남자친구 상민입니다.',
 '안녕하세요 어머님. 는 남자친구 상민.',
 ', . 는 남자친구 입니다.',
 '저희 . 손 피 않겠습니다.',
 '저희 결혼을 해주세요. 손에 한 묻히지 않겠습니다.',
 '저희 을 허락해주세요 에 방울 않겠습니다.',
 '1945년 태평양 전쟁 패전 에 를 소관하고 성과 해군 모두 폐지되었고 제1복원성, 제2복원성 사무를 이어갔다.',
 '태평양 전쟁 패전 후에 금치훈장에 를 소관 있던 육군성과 해군 모두 폐지되었고, 각각 제1복원성, 복원성 사무를 이어갔다.',
 '1945년 태평양 전쟁 패전 후에 에 대한 사무를 소관하고 육군성과 해군성이 폐지되었고 각각 제1복원성, 제2이 사무를 이어갔다']

In [55]:
augmenter = RI(
    morpheme_analyzer = None,
    stopword = False,
)

augmenter(
    data = data,
    p = 0.1,
    repetition = 3
)

['안녕하세요, 어머님. 저는 루다 남자친구 가모 상민입니다.',
 '안녕하세요, 어머님. 저는 루다 생모 남자친구 상민입니다.',
 '안녕하세요, 적 어머님. 저는 루다 남자친구 상민입니다.',
 '저희 결혼을 혼인 허락해주세요. 손에 피 한방울 묻히지 않겠습니다.',
 '저희 결혼을 허락해주세요. 손에 끝 피 한방울 묻히지 않겠습니다.',
 '저희 결혼을 허락해주세요. 손에 피 한방울 묻히지 생피 않겠습니다.']

In [56]:
augmenter = RI(
    morpheme_analyzer = None,
    stopword = True,
)

augmenter(
    data = data,
    p = 0.1,
    repetition = 3
)

['안녕하세요, 어머님. 저는 루다 남자친구 상민입니다.',
 '안녕하세요, 어머님. 저는 루다 어미 남자친구 상민입니다.',
 '안녕하세요, 어머님 엄마 . 저는 루다 남자친구 상민입니다.',
 '저희 결혼을 허락해주세요. 손에 피 대처 한방울 묻히지 않겠습니다.',
 '저희 결혼을 허락해주세요. 손에 피 한방울 묻히지 않겠습니다 생피 .',
 '저희 결혼을 허락해주세요. 손 국한 에 피 한방울 묻히지 않겠습니다.']

In [58]:
augmenter = SR(
    morpheme_analyzer = None,
    stopword = False,
)

augmenter(
    data = data,
    p = 0.1,
    repetition = 3
)

['안녕하세요, 어머님. 피리는 루다 남자친구 상민입니다.',
 '안녕하세요, 어머님. 피리는 루다 남자친구 상민입니다.',
 '안녕하세요, 어머님. 피리는 루다 남자친구 상민입니다.',
 '저희 혼례을 허락해주세요. 손에 피 한방울 묻히지 않겠습니다.',
 '저희 결혼을 허락해주세요. 손에 유혈 한방울 묻히지 않겠습니다.',
 '저희 결혼을 허락해주세요. 손에 피 한경종 묻히지 않겠습니다.']

In [59]:
augmenter = SR(
    morpheme_analyzer = None,
    stopword = True,
)

augmenter(
    data = data,
    p = 0.1,
    repetition = 3
)

['안녕하세요, 엄마. 저는 루다 남자친구 상민입니다.',
 '안녕하세요, 부모. 저는 루다 남자친구 상민입니다.',
 '안녕하세요, 모친. 저는 루다 남자친구 상민입니다.',
 '저희 결혼식을 허락해주세요. 손에 피 한방울 묻히지 않겠습니다.',
 '저희 결혼을 허락해주세요. 손에 피 한경종 묻히지 않겠습니다.',
 '저희 결혼을 허락해주세요. 점령에 피 한방울 묻히지 않겠습니다.']

In [60]:
augmenter = RS(
    morpheme_analyzer = None,
)


augmenter(
    data = data,
    p = 0.1,
    repetition = 3
)

['안녕하세요, 어머님. 저는 루다입니다남자친구 상민 .',
 '안녕하세요, 어머님. 저는 루다 남자친구 상민입니다.',
 '안녕하세요,다어머님. 저는 루 남자친구 상민입니다.',
 '저희 결혼을 허락해주세요.묻히지손에 피 한방울 않겠습니다.',
 '저희 .을 허락해주세요결혼 손에 피 한방울 묻히지 않겠습니다.',
 '저희 결혼을 손해주세요. 허락에 피 한방울 묻히지 않겠습니다.']

In [154]:
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
import pickle
from tqdm import tqdm
pd.options.display.max_colwidth = 300

# Approach #1 Ratio

In [80]:
df = pd.read_csv('./dataset/train/stratified_train.csv')
df.sample(3)

Unnamed: 0,id,sentence,subject_entity,object_entity,label,source
25042,3735,"오스트리아의 에른스트 하펠과 더불어 축구 역사상 가장 성공적인 감독 중 하나로, 리그 타이틀을 4개국 (이탈리아, 독일, 포르투갈, 오스트리아) 에서 획득한 감독이다.","{'word': '에른스트 하펠', 'start_idx': 7, 'end_idx': 13, 'type': 'PER'}","{'word': '오스트리아', 'start_idx': 0, 'end_idx': 4, 'type': 'LOC'}",per:origin,wikipedia
2493,18979,전남도소방본부(본부장 마재윤)는 '2019년 국민참여 청렴콘텐츠 공모전' 스토리텔링 부문에서 장성소방서와 나주소방서가 수상 영예를 안았다고 12일 밝혔다.,"{'word': '장성소방서', 'start_idx': 52, 'end_idx': 56, 'type': 'ORG'}","{'word': '2019년', 'start_idx': 19, 'end_idx': 23, 'type': 'DAT'}",no_relation,wikitree
22016,29246,"양지환 대신증권 연구원은 “CJ그룹은 9일 이재현 회장이 보유했던 전환상환우선주를 자녀인 이경후, 이선호에게 증여하고, CJ제일제당 재무구조 개선을 위한 자산 유동화 방안을 발표했다”며 “이번 증여로 인해 이경후, 이선호의 CJ전환상환우선주의 보유주식수 및 지분율은 각각 127만2380주(3.57%)와 172만3360주(4.83%)로 증가할 예정“이라고 말했다.","{'word': 'CJ제일제당', 'start_idx': 67, 'end_idx': 72, 'type': 'ORG'}","{'word': '이재현', 'start_idx': 24, 'end_idx': 26, 'type': 'PER'}",org:top_members/employees,wikitree


In [89]:
count_dict = dict(df.label.value_counts())
mean = int(df.label.value_counts().mean())
maxi = sorted(df.label.value_counts())[-2]
count, mean, maxi

({'no_relation': 7627,
  'org:top_members/employees': 3427,
  'per:employee_of': 2859,
  'per:title': 1683,
  'org:member_of': 1493,
  'org:alternate_names': 1056,
  'per:origin': 987,
  'org:place_of_headquarters': 956,
  'per:date_of_birth': 904,
  'per:alternate_names': 801,
  'per:spouse': 636,
  'per:colleagues': 427,
  'per:parents': 416,
  'org:founded': 360,
  'org:members': 336,
  'per:date_of_death': 334,
  'org:product': 304,
  'per:children': 243,
  'per:place_of_residence': 154,
  'per:other_family': 152,
  'per:place_of_birth': 133,
  'org:founded_by': 124,
  'per:product': 111,
  'per:siblings': 109,
  'org:political/religious_affiliation': 78,
  'per:religion': 77,
  'per:schools_attended': 66,
  'org:dissolved': 53,
  'org:number_of_employees/members': 38,
  'per:place_of_death': 32},
 865,
 3427)

# Approach #2 Incorrect

# Approach #3 Perplex