In [14]:
import pandas as pd
import random
from tqdm import tqdm

# CSV 파일 로드
def load_csv(file_path):
    return pd.read_csv(file_path)

# 랜덤 단어 순서 변경 (Random Shuffle)
def random_shuffle(sentence):
    words = sentence.split()
    random.shuffle(words)
    return ' '.join(words)

# 랜덤 단어 추가 (Random Insertion)
def random_insertion(sentence, n=1):
    words = sentence.split()
    for _ in range(n):
        word = random.choice(words)
        insert_pos = random.randint(0, len(words))
        words.insert(insert_pos, word)
    return ' '.join(words)

# 랜덤 단어 삭제 (Random Deletion)
def random_deletion(sentence, p=0.2):
    words = sentence.split()
    if len(words) == 1:
        return sentence
    new_words = [word for word in words if random.uniform(0, 1) > p]
    return ' '.join(new_words) if new_words else words[random.randint(0, len(words)-1)]

# 데이터 증강 적용 (클래스 보존)
def augment_data(df, text_column='conversation', class_column='class'):
    augmented_data = []
    for _, row in tqdm(df.iterrows(), total=len(df)):
        sentence, label = row[text_column], row[class_column]
        aug_methods = [
            (random_shuffle(sentence), label),
            (random_insertion(sentence), label),
            (random_deletion(sentence), label)
        ]
        augmented_data.extend(aug_methods)
    return pd.DataFrame(augmented_data, columns=[text_column, class_column])

# CSV 저장
def save_augmented_data(df, output_path):
    df.to_csv(output_path, index=False)

# 실행 예제
if __name__ == "__main__":
    input_file = "C:/Users/양자/Desktop/Hun_Works/AIFFEL_DLthon/DLThon01/CHYeom/data/train.csv"
    output_file = "C:/Users/양자/Desktop/Hun_Works/AIFFEL_DLthon/DLThon01/CHYeom/data/augmented_train.csv"
    df = load_csv(input_file)
    augmented_df = augment_data(df, class_column='class', text_column='conversation', )
    save_augmented_data(augmented_df, output_file)
    print("텍스트 증강 완료!")

100%|████████████████████████████████████████████████████████████████████████████| 4788/4788 [00:00<00:00, 6713.09it/s]


텍스트 증강 완료!


In [15]:
augmented_df.head(60)

Unnamed: 0,conversation,class
0,혼자 선택 죽여버려야겠군 휘말리게 못하겠습니다 애원하는 도와주세요 너에게는 선택해 ...,0
1,지금 너 스스로를 죽여달라고 애원하는 것인가 ? 아닙니다 . 죄송합니다 . 죽을 거...,0
2,지금 스스로를 죽여달라고 애원하는 것인가 ? 아닙니다 . 죄송합니다 . 죽을 거면 ...,0
3,폭발물이 . 업무방해죄에 . 장난전화는 재미있겠지 ? 들어 분 이야기했어 폭발물을 ...,0
4,길동경찰서입니다 . 시 분 마트에 폭발물을 설치할거다 . 네 ? 똑바로 들어 한번만...,0
5,길동경찰서입니다 . 시 설치할거다 . 네 똑바로 들어 한번만 더 . 장난전화 걸지 ...,0
6,. ? 작은데 너 귀여운거 나보다 ! . 재미없어 난쟁이들도 작은 되게 장가가고하던...,3
7,너 되게 귀여운거 알지 ? 나보다 작은 남자는 첨봤어 . 그만해 . 니들 그만 놀리...,3
8,너 되게 귀여운거 알지 ? 작은 남자는 첨봤어 . 그만해 . 놀리는거 . 너가 키 ...,3
9,넌 말이야 내놔 다 아니에요 너 정말 돈 너 죽는다 마지막 있나봐 . 얘 뒤져서 좀...,1


In [16]:
df.head()

Unnamed: 0.1,Unnamed: 0,idx,class,conversation
0,0,1,0,지금 너 스스로를 죽여달라고 애원하는 것인가 ? 아닙니다 . 죄송합니다 . 죽을 거...
1,1,2,0,길동경찰서입니다 . 시 분 마트에 폭발물을 설치할거다 . 네 ? 똑바로 들어 ...
2,2,3,3,너 되게 귀여운거 알지 ? 나보다 작은 남자는 첨봤어 . 그만해 . 니들 놀리는거 ...
3,3,4,1,어이 거기 예 ? ? 너 말이야 너 . 이리 오라고 무슨 일 . 너 옷 좋아보인다 ...
4,4,5,1,저기요 혹시 날이 너무 뜨겁잖아요 ? 저희 회사에서 이 선크림 파는데 한 번 손등에...
