In [1]:
import pandas as pd
import numpy as np
import random

In [2]:
train = pd.read_csv("data/train_data.csv")

In [3]:
train.head()

Unnamed: 0,index,title,topic_idx
0,0,인천→핀란드 항공기 결항…휴가철 여행객 분통,4
1,1,실리콘밸리 넘어서겠다…구글 15조원 들여 美전역 거점화,4
2,2,이란 외무 긴장완화 해결책은 미국이 경제전쟁 멈추는 것,4
3,3,NYT 클린턴 측근韓기업 특수관계 조명…공과 사 맞물려종합,4
4,4,시진핑 트럼프에 중미 무역협상 조속 타결 희망,4


In [4]:
def random_deletion(words, p):
    if len(words) == 1:
        return words

    new_words = []
    for word in words:
        r = random.uniform(0, 1)
        if r > p:
            new_words.append(word)

    if len(new_words) == 0:
        rand_int = random.randint(0, len(words)-1)
        return [words[rand_int]]

    return new_words

In [5]:
from konlpy.tag import Mecab  
tokenizer = Mecab()
train["tokenized"] = [tokenizer.morphs(sentence) for sentence in train["title"]]

In [6]:
train.head()

Unnamed: 0,index,title,topic_idx,tokenized
0,0,인천→핀란드 항공기 결항…휴가철 여행객 분통,4,"[인천, →, 핀란드, 항공기, 결항, …, 휴가철, 여행객, 분통]"
1,1,실리콘밸리 넘어서겠다…구글 15조원 들여 美전역 거점화,4,"[실리콘밸리, 넘어서, 겠, 다, …, 구글, 15, 조, 원, 들여, 美, 전역,..."
2,2,이란 외무 긴장완화 해결책은 미국이 경제전쟁 멈추는 것,4,"[이란, 외무, 긴장, 완화, 해결책, 은, 미국, 이, 경제, 전쟁, 멈추, 는, 것]"
3,3,NYT 클린턴 측근韓기업 특수관계 조명…공과 사 맞물려종합,4,"[NYT, 클린턴, 측근, 韓, 기업, 특수, 관계, 조명, …, 공과, 사, 맞물..."
4,4,시진핑 트럼프에 중미 무역협상 조속 타결 희망,4,"[시진핑, 트럼프, 에, 중미, 무역, 협상, 조속, 타결, 희망]"


In [7]:
rd = [random_deletion(tokenized,0.2) for tokenized in train.tokenized]

In [8]:
rd[:20]

[['인천', '→', '핀란드', '…', '휴가철', '여행객', '분통'],
 ['실리콘밸리', '겠', '다', '…', '15', '조', '원', '들여', '美', '전역', '거점'],
 ['이란', '외무', '긴장', '해결책', '은', '이', '경제', '전쟁', '멈추', '것'],
 ['NYT', '클린턴', '측근', '韓', '기업', '특수', '관계', '조명', '…', '사'],
 ['트럼프', '중미', '무역', '협상', '조속', '타결', '희망'],
 ['가', '구서', '16', '세', '소년', '이스라엘', '군', '총격', '에', '사망'],
 ['인도', '만', '에', '파키스탄', '공습', '테러', '캠프', '폭격', '종합', '2', '보'],
 ['美', '대선', 'TV', '토론', '만회', '실패', '트럼프', '…', '사과', '대신', '공격', '역효과'],
 ['푸틴', '한반도', '상황', '진전', '위한', '위원장', '논의'],
 ['특검', '면죄부', '받', '은', '트럼프', '스캔들', '맹공', '국민', '의', '적'],
 ['日', '오키', '나와서', '열린', '강제', '징용', '노동자', '추도식'],
 ['이란', '서', '최고', '지도자', '모욕', '혐의', '미국인', '에', '징역', '10'],
 ['카니발', '축제', '보', '가', '자', '…', '리우', '대형', '유람선', '행렬'],
 ['美', '올랜도', '병원', '최악', '총기', '부상자', '치료비', '안', '받', '는다'],
 ['日', '올해', '평균', '2', '.', '46', '%', '임금', '인상'],
 ['엘니뇨', '여전히', '…', '2', '분기', '될', '듯'],
 ['이스라엘', '네타냐후', '도', '병역', '문제', '로', '연정', '협상', '진통'],
 ['UAE', '사우

In [9]:
rd_augmentation = pd.DataFrame({'augmented' : rd, 'topic_idx': train.topic_idx})

In [10]:
rd_augmentation["title"] = [" ".join(words) for words in rd_augmentation.augmented]

In [11]:
rd_augmentation.head()

Unnamed: 0,augmented,topic_idx,title
0,"[인천, →, 핀란드, …, 휴가철, 여행객, 분통]",4,인천 → 핀란드 … 휴가철 여행객 분통
1,"[실리콘밸리, 겠, 다, …, 15, 조, 원, 들여, 美, 전역, 거점]",4,실리콘밸리 겠 다 … 15 조 원 들여 美 전역 거점
2,"[이란, 외무, 긴장, 해결책, 은, 이, 경제, 전쟁, 멈추, 것]",4,이란 외무 긴장 해결책 은 이 경제 전쟁 멈추 것
3,"[NYT, 클린턴, 측근, 韓, 기업, 특수, 관계, 조명, …, 사]",4,NYT 클린턴 측근 韓 기업 특수 관계 조명 … 사
4,"[트럼프, 중미, 무역, 협상, 조속, 타결, 희망]",4,트럼프 중미 무역 협상 조속 타결 희망


In [12]:
rd_augmentation.to_csv("data/train_rd_augmentation.csv")

In [13]:
def random_swap(words, n):
	new_words = words.copy()
	for _ in range(n):
		new_words = swap_word(new_words)

	return new_words

def swap_word(new_words):
	random_idx_1 = random.randint(0, len(new_words)-1)
	random_idx_2 = random_idx_1
	counter = 0

	while random_idx_2 == random_idx_1:
		random_idx_2 = random.randint(0, len(new_words)-1)
		counter += 1
		if counter > 3:
			return new_words

	new_words[random_idx_1], new_words[random_idx_2] = new_words[random_idx_2], new_words[random_idx_1]
	return new_words

In [14]:
rs = [random_swap(tokenized,2) for tokenized in train.tokenized]

In [15]:
rs[:10]

[['인천', '항공기', '핀란드', '→', '분통', '…', '휴가철', '여행객', '결항'],
 ['실리콘밸리',
  '넘어서',
  '겠',
  '다',
  '…',
  '들여',
  '15',
  '조',
  '원',
  '구글',
  '화',
  '전역',
  '거점',
  '美'],
 ['이란', '전쟁', '이', '완화', '해결책', '은', '미국', '긴장', '경제', '외무', '멈추', '는', '것'],
 ['NYT',
  '클린턴',
  '측근',
  '韓',
  '기업',
  '조명',
  '관계',
  '맞물려',
  '…',
  '공과',
  '사',
  '특수',
  '종합'],
 ['시진핑', '트럼프', '조속', '중미', '에', '협상', '무역', '타결', '희망'],
 ['팔레스타인', '가', '자', '세', '구서', '16', '지', '소년', '총격', '군', '이스라엘', '에', '사망'],
 ['인도',
  '48',
  '년',
  '2',
  '에',
  '만',
  '공습',
  '…',
  '테러',
  '캠프',
  '폭격',
  '종합',
  '파키스탄',
  '보'],
 ['美',
  '대선',
  'TV',
  '토론',
  '대신',
  '역효과',
  '실패',
  '트럼프',
  '…',
  '사과',
  '음담패설',
  '빌클린턴',
  '공격',
  '해',
  '만회'],
 ['푸틴', '한반도', '방안', '진전', '상황', '위한', '김정은', '위원장', '과', '논의'],
 ['특검', '면죄부', '받', '은', '트럼프', '국민', '…', '언론', '맹공', '보도', '스캔들', '의', '적']]

In [16]:
rs_augmentation = pd.DataFrame({'augmented' : rs, 'topic_idx': train.topic_idx})

In [17]:
rs_augmentation["title"] = [" ".join(words) for words in rs_augmentation.augmented]

In [18]:
rs_augmentation.head()

Unnamed: 0,augmented,topic_idx,title
0,"[인천, 항공기, 핀란드, →, 분통, …, 휴가철, 여행객, 결항]",4,인천 항공기 핀란드 → 분통 … 휴가철 여행객 결항
1,"[실리콘밸리, 넘어서, 겠, 다, …, 들여, 15, 조, 원, 구글, 화, 전역,...",4,실리콘밸리 넘어서 겠 다 … 들여 15 조 원 구글 화 전역 거점 美
2,"[이란, 전쟁, 이, 완화, 해결책, 은, 미국, 긴장, 경제, 외무, 멈추, 는, 것]",4,이란 전쟁 이 완화 해결책 은 미국 긴장 경제 외무 멈추 는 것
3,"[NYT, 클린턴, 측근, 韓, 기업, 조명, 관계, 맞물려, …, 공과, 사, 특...",4,NYT 클린턴 측근 韓 기업 조명 관계 맞물려 … 공과 사 특수 종합
4,"[시진핑, 트럼프, 조속, 중미, 에, 협상, 무역, 타결, 희망]",4,시진핑 트럼프 조속 중미 에 협상 무역 타결 희망


In [19]:
rs_augmentation.to_csv("data/train_rs_augmentation.csv")