In [1]:
import pandas as pd
import random
from tqdm import tqdm

# CSV 파일 로드
def load_csv(file_path):
    return pd.read_csv(file_path)

# 랜덤 단어 순서 변경 (Random Shuffle)
def random_shuffle(sentence):
    words = sentence.split()
    random.shuffle(words)
    return ' '.join(words)

# 랜덤 단어 추가 (Random Insertion)
def random_insertion(sentence, n=1):
    words = sentence.split()
    for _ in range(n):
        word = random.choice(words)
        insert_pos = random.randint(0, len(words))
        words.insert(insert_pos, word)
    return ' '.join(words)

# 랜덤 단어 삭제 (Random Deletion)
def random_deletion(sentence, p=0.2):
    words = sentence.split()
    if len(words) == 1:
        return sentence
    new_words = [word for word in words if random.uniform(0, 1) > p]
    return ' '.join(new_words) if new_words else words[random.randint(0, len(words)-1)]

# 데이터 증강 적용 (클래스 보존)
def augment_data(df, text_column='conversation', class_column='class'):
    augmented_data = []
    for _, row in tqdm(df.iterrows(), total=len(df)):
        sentence, label = row[text_column], row[class_column]
        aug_methods = [
            (random_shuffle(sentence), label),
            (random_insertion(sentence), label),
            (random_deletion(sentence), label)
        ]
        augmented_data.extend(aug_methods)
    return pd.DataFrame(augmented_data, columns=[text_column, class_column])

# CSV 저장
def save_augmented_data(df, output_path):
    df.to_csv(output_path, index=False)

# 실행 예제
if __name__ == "__main__":
    input_file = "C:/Users/양자/Desktop/Hun_Works/AIFFEL_DLthon/DLThon01/CHYeom/data/syn_sent_train.csv"
    output_file = "C:/Users/양자/Desktop/Hun_Works/AIFFEL_DLthon/DLThon01/CHYeom/data/syn_sent_augment.csv"
    df = load_csv(input_file)
    augmented_df = augment_data(df, class_column='class', text_column='conversation', )
    save_augmented_data(augmented_df, output_file)
    print("텍스트 증강 완료!")

100%|████████████████████████████████████████████████████████████████████████████| 7787/7787 [00:01<00:00, 7166.23it/s]


텍스트 증강 완료!


In [2]:
augmented_df.head(60)

Unnamed: 0,conversation,class
0,너 혼자 . 너와 휘말리게 죽여버릴거야 죽여줄까 네 . . 가족까지 . 도와주세요 ...,0
1,지금 너 스스로를 죽여달라고 애원하는 것인가 거면 ? 아닙니다 . 죄송합니다 . 죽...,0
2,너 스스로를 죽여달라고 애원하는 것인가 아닙니다 . 죄송합니다 . 죽을 거면 혼자 ...,0
3,터지면 . 판단은 . 길동경찰서입니다 진정하세요 ? 말이야 길동경찰서에도 . 한번만...,0
4,길동경찰서입니다 . 시 분 마트에 폭발물을 설치할거다 . 네 ? 폭발물이 똑바로 들...,0
5,. 시 분 마트에 폭발물을 설치할거다 . 네 ? 똑바로 들어 얘기한다 . 장난전화 ...,0
6,난쟁이들도 . ! 작은데 보태준거 . 키 . 가져봐 놀리는거 . 키크는 그럼 니들이...,3
7,너 되게 귀여운거 알지 ? 나보다 작은 남자는 첨봤어 . 그만해 . 니들 놀리는거 ...,3
8,너 되게 귀여운거 나보다 작은 첨봤어 . 그만해 . 니들 놀리는거 재미없어 . 지영...,3
9,오늘 다 콜 너 기회다 ? 돈 ? . 너 있는거 어이 . 너 나오면 없어요 무슨 옷...,1


In [3]:
df.head()

Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,class,conversation
0,0,0,0,지금 너 스스로를 죽여달라고 애원하는 것인가 ? 아닙니다 . 죄송합니다 . 죽을 거...
1,1,1,0,길동경찰서입니다 . 시 분 마트에 폭발물을 설치할거다 . 네 ? 똑바로 들어 ...
2,2,2,3,너 되게 귀여운거 알지 ? 나보다 작은 남자는 첨봤어 . 그만해 . 니들 놀리는거 ...
3,3,3,1,어이 거기 예 ? ? 너 말이야 너 . 이리 오라고 무슨 일 . 너 옷 좋아보인다 ...
4,4,4,1,저기요 혹시 날이 너무 뜨겁잖아요 ? 저희 회사에서 이 선크림 파는데 한 번 손등에...


In [5]:
augmented_df.info

<bound method DataFrame.info of                                             conversation  class
0      너 혼자 . 너와 휘말리게 죽여버릴거야 죽여줄까 네 . . 가족까지 . 도와주세요 ...      0
1      지금 너 스스로를 죽여달라고 애원하는 것인가 거면 ? 아닙니다 . 죄송합니다 . 죽...      0
2      너 스스로를 죽여달라고 애원하는 것인가 아닙니다 . 죄송합니다 . 죽을 거면 혼자 ...      0
3      터지면 . 판단은 . 길동경찰서입니다 진정하세요 ? 말이야 길동경찰서에도 . 한번만...      0
4      길동경찰서입니다 . 시 분 마트에 폭발물을 설치할거다 . 네 ? 폭발물이 똑바로 들...      0
...                                                  ...    ...
23356  계산 어떻게 나눌까 ? 각자 마신 만큼 어떻게 내는 게 좋지 않을까 ? 그럼 앱으로...      4
23357  계산 어떻게 나눌까 ? 좋지 않을까 ? 그럼 앱으로 계산서 나눌 수 있나 좋다 정리...      4
23358  ! 마지막으로 이대로 감바스 나는 더 뭐 주문하자 . 완전 시킬래 ! 끝내긴 . 그...      4
23359  마지막으로 뭐 더 시킬래 마지막으로 ? 나는 감바스 추가하고 싶어 ! 오케이 ! 그...      4
23360  뭐 더 시킬래 ? 나는 추가하고 싶어 ! 오케이 ! 그럼 맥주 한 더 . 좋지 ! ...      4

[23361 rows x 2 columns]>