In [6]:
# 1. 설치 필요 (최초 1회만)
!pip install koeda

# 2. 라이브러리 임포트
import pandas as pd
from koeda import EDA

# 3. 데이터 불러오기 (URL 또는 파일 경로로)
url = "https://raw.githubusercontent.com/bth0114/AIFFEL_DLThon_DKTC_online13/main/data/raw_csv/merged_train_train.csv"
df = pd.read_csv(url)

# 4. 일반대화 제외
df_target = df[df["class"] != "일반 대화"].copy()

# 5. KoEDA 설정
eda = EDA(morpheme_analyzer="Okt", alpha_sr=0.3, alpha_ri=0.3, alpha_rs=0.3, prob_rd=0.3)

# 6. 증강 수행
augmented_rows = []
for _, row in df_target.iterrows():
    text = row["conversation"]
    label = row["class"]
    try:
        augmented_texts = eda(text, repetition=2)
        for aug in augmented_texts:
            augmented_rows.append({"conversation": aug, "class": label})
    except Exception as e:
        print(f"오류: {e} - 원문: {text}")

# 7. DataFrame으로 변환 및 저장
aug_df = pd.DataFrame(augmented_rows)
aug_df.to_csv("augmented_excluding_normal_2times.csv", index=False)
print("증강 완료! 총 생성 문장 수:", len(aug_df))



증강 완료! 총 생성 문장 수: 6152


In [7]:
# 증강된 데이터프레임에서 클래스별 개수 확인
aug_class_counts = aug_df["class"].value_counts()
print(aug_class_counts)


class
기타 괴롭힘 대화      1618
갈취 대화          1556
직장 내 괴롭힘 대화    1552
협박 대화          1426
Name: count, dtype: int64


In [8]:
print(aug_df.head(10))

                                        conversation        class
0  가능성과장 라인 없습니다 타.님누가 회사 이끄는?건데.하면 아무래도 이건 부당한 것...  직장 내 괴롭힘 대화
1  김 라인 타. 누가 회사 건데 아무래도 이건 부당한 것 김과장이 어쩔 건데 그러니까...  직장 내 괴롭힘 대화
2  이게 어떻게 야.? 엄마 수술은 어떻게 된거냐고 엄마가 이제 괜찮다고 해서 딱 봐도...        협박 대화
3  이게 어떻게 된거야.? 엄마 수술은 어떻게 된거냐고 엄마가 이제 괜찮다고 해서 딱 ...        협박 대화
4  이사. 도사진. 그룹 않으실텐데요? 이 . 이사님눈치 여기냐이건오신거 다 없는 분 ...        갈취 대화
5  이사님 이 사진. 않으실텐데요? 이. 이건. 이사 여기까지 오신거 다 장인어른 분 ...        갈취 대화
6  지금 랑 고 한거야? 죽고싶어? 내가 헤어지자고 말하면 잘라 했지 무서워 입도 잘라...        협박 대화
7  너 지금 나랑 비렁뱅이 헤어지자 비렁뱅이 고 한거야? 죽고싶어? 세대 소 그만하자 ...        협박 대화
8  철수얘기씨 그렇잖아요그할 나와서 그 받고태어나도 만해면?말그게 살 말씀없을시죠 아니...    기타 괴롭힘 대화
9  철거 씨는 그 학교 나와서 그 연봉 받고 살만해요? 그게 무슨 말씀이시죠? 아니 그...    기타 괴롭힘 대화


In [9]:
from google.colab import files

# 다운로드 실행
files.download("augmented_excluding_normal_2times.csv")


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>