In [1]:
import pandas as pd
import random

In [2]:
df = pd.read_csv('./data/train.csv')

In [3]:
# 문장 순서를 섞는 함수
def shuffle_sentences(text):
    sentences = text.split('. ')
    if sentences[-1].endswith('.'):
        sentences[-1] = sentences[-1][:-1]  # 마지막 문장의 마침표 제거
    random.shuffle(sentences)
    return sentences

In [4]:
# 증강 데이터 저장 리스트
augmented_data = []

# 데이터프레임 순회하며 증강
for _ in range(3):
    for idx, row in df.iterrows():
        if row['input'].endswith('.'):
            row['input'] = row['input'][:-1]
            row['output'] = row['output'][:-1]
            
        # input과 output 문장 순서 동기화
        paired_sentences = list(zip(row['input'].split('. '), row['output'].split('. ')))
        random.shuffle(paired_sentences)
        
        augmented_input = '. '.join([pair[0] for pair in paired_sentences]) + '.'
        augmented_output = '. '.join([pair[1] for pair in paired_sentences]) + '.'
        
        augmented_data.append({'input': augmented_input, 'output': augmented_output})

# 증강 데이터프레임 생성
augmented_df = pd.DataFrame(augmented_data)

augmented_df = augmented_df.drop_duplicates()

In [5]:
print(augmented_df)

                                                   input  \
0      깸삥읊 20여 년 댜녁뵨 곧 중 쩨윌 귑푼 낙팠떤 곶. 별 한 게토 았깝땀. 야뭍툰...   
1                                잚많 쟉꼬 갉 태 좋눼욥. 차못동 줆 ㅋ.   
2                                       절테 간면 않 된는 굣 멥몫.   
3      샥퀘 핥류만 묵겠댜! 한눈 쌀람한뗌많 쭈쳔. 놂랙팡엣셔 칵좋 닮패왕 윳흥예 천렸욹 ...   
4      예얌끼 여렵쮜만 ^^. 뱌룡 옆뻬 뼈뉘쩜믿 윗썰써 펀리헷숲닢댜. 쩌럼한뒈 뮬콰 욺료...   
...                                                  ...   
33769  챵문읊 열엊 툭쿄 한짬 쥔낡돕 얀 뺘침... 듀 변운 얀 욜 둣. 칵격옙 피해 팡운...   
33774  긷켸씩 탸월 츔짭짱위랒 츄짜 푿닮톰 엾씁뉘댜. 9쭝 흡뻔 뗄랴슬 탬뮨예 땄쉬 틀릭꼬...   
33780  싼첵콰 묽놀윅걍 칸눙햐따. 툿쑥껙 빼틀뵤트(3많 원) 롄딸 20% 하륀. 숀낢뭉 숩...   
33783  찐철핫싯꼬 찐짬 넒문 캑꿋헤욘. 면찌 하냐 엽코 잎쿱붙텨 팠닥위 뱐짝판착행오. 쎄얽...   
33784  냠멎쥔는 쑈소. 외 섀 찢숄예써 찔약 넴쌜갓 냐눈쮜 찝찝페셧 딸론 쿠위뺏섶 섞섭오....   

                                                  output  
0      캠핑을 20여 년 다녀본 곳 중 제일 기분 나빴던 곳. 별 한 개도 아깝다. 아무튼...  
1                                잠만 자고 갈 때 좋네요. 잠옷도 줌 ㅋ.  
2                                       절대 가면 안 되는 곳 메모.  
3      싸게 하루만 묵겠다! 하는 사람한테만 추천. 노래방에서 각종 담배

In [6]:
augmented_df.to_csv('./data/shuffle_augmentation.csv', index = False, encoding = 'utf-8-sig')

In [7]:
# 기존 train 데이터셋과 증강 데이터셋 결합
train_df = pd.concat([df, augmented_df], ignore_index=True).drop_duplicates()

In [8]:
train_df

Unnamed: 0,ID,input,output
0,TRAIN_00000,별 한 게토 았깝땀. 왜 싸람듯릭 펼 1캐를 쥰눈징 컥꺾폰 싸람믐롯섞 맒록 섧멍핥쟈...,별 한 개도 아깝다. 왜 사람들이 별 1개를 주는지 겪어본 사람으로서 말로 설명하자...
1,TRAIN_00001,잚많 쟉꼬 갉 태 좋눼욥. 차못동 줆 ㅋ,잠만 자고 갈 때 좋네요. 잠옷도 줌 ㅋ
2,TRAIN_00002,절테 간면 않 된는 굣 멥몫,절대 가면 안 되는 곳 메모
3,TRAIN_00003,야... 칵컥 좋꾜 부됴 뼝 뚫렷썹 신원햐쥠만 닮패 넴센 밌쪄벅림. 샥퀘 핥류만 묵...,아... 가격 좋고 뷰도 뻥 뚫려서 시원하지만 담배 냄새 미쳐버림. 싸게 하루만 묵...
4,TRAIN_00004,집윈 축쳐눌료 딴너왓눈뎁 카셩뷔 좋곱 칼쿰한네올. 쩌럼한뒈 뮬콰 욺료토 잊쿄 빻토 ...,지인 추천으로 다녀왔는데 가성비 좋고 깔끔하네요. 저렴한데 물과 음료도 있고 방도 ...
...,...,...,...
32931,,챵문읊 열엊 툭쿄 한짬 쥔낡돕 얀 뺘침... 듀 변운 얀 욜 둣. 칵격옙 피해 팡운...,창문을 열어 두고 한참 지나도 안 빠짐... 두 번은 안 올 듯. 가격에 비해 방은...
32932,,긷켸씩 탸월 츔짭짱위랒 츄짜 푿닮톰 엾씁뉘댜. 9쭝 흡뻔 뗄랴슬 탬뮨예 땄쉬 틀릭꼬...,기계식 타워 주차장이라 주차 부담도 없습니다. 9층 흡연 테라스 때문에 다시 들리고...
32933,,싼첵콰 묽놀윅걍 칸눙햐따. 툿쑥껙 빼틀뵤트(3많 원) 롄딸 20% 하륀. 숀낢뭉 숩...,산책과 물놀이가 가능하다. 투숙객 패들보드(3만 원) 렌탈 20% 할인. 소나무 숲...
32934,,찐철핫싯꼬 찐짬 넒문 캑꿋헤욘. 면찌 하냐 엽코 잎쿱붙텨 팠닥위 뱐짝판착행오. 쎄얽...,친절하시고 진짜 너무 깨끗해요. 먼지 하나 없고 입구부터 바닥이 반짝반짝해요. 세월...


In [9]:
train_df.to_csv('./data/train_with_shuffle_augmentation.csv', index = False, encoding = 'utf-8-sig')