In [1]:
import pandas as pd

def load_train_df(path: str) -> pd.DataFrame:
    
    df = pd.read_csv(path)
    return df

In [2]:
train_df = load_train_df("nosp.csv")
print(train_df.head())

   idx      class                                       conversation
0    0      협박 대화  지금 너 스스로를 죽여달라고 애원하는 것인가?\r\n 아닙니다. 죄송합니다.\r\n...
1    1      협박 대화  길동경찰서입니다.\r\n9시 40분 마트에 폭발물을 설치할거다.\r\n네?\r\n똑...
2    2  기타 괴롭힘 대화  너 되게 귀여운거 알지? 나보다 작은 남자는 첨봤어.\r\n그만해. 니들 놀리는거 ...
3    3      갈취 대화  어이 거기\r\n예??\r\n너 말이야 너. 이리 오라고\r\n무슨 일.\r\n너 ...
4    4      갈취 대화  저기요 혹시 날이 너무 뜨겁잖아요? 저희 회사에서 이 선크림 파는데 한 번 손등에 ...


In [3]:
def drop_strategy_column(df: pd.DataFrame) -> pd.DataFrame:
    """DataFrame에서 'strategy' 컬럼이 있으면 삭제"""
    if "strategy" in df.columns:
        df = df.drop(columns=["strategy"])
    return df

In [None]:
train_df = load_train_df("nosp.csv")
train_df = drop_strategy_column(train_df)

In [5]:
train_df.head(10)

Unnamed: 0,idx,class,conversation
0,0,협박 대화,지금 너 스스로를 죽여달라고 애원하는 것인가?\r\n 아닙니다. 죄송합니다.\r\n...
1,1,협박 대화,길동경찰서입니다.\r\n9시 40분 마트에 폭발물을 설치할거다.\r\n네?\r\n똑...
2,2,기타 괴롭힘 대화,너 되게 귀여운거 알지? 나보다 작은 남자는 첨봤어.\r\n그만해. 니들 놀리는거 ...
3,3,갈취 대화,어이 거기\r\n예??\r\n너 말이야 너. 이리 오라고\r\n무슨 일.\r\n너 ...
4,4,갈취 대화,저기요 혹시 날이 너무 뜨겁잖아요? 저희 회사에서 이 선크림 파는데 한 번 손등에 ...
5,5,직장 내 괴롭힘 대화,나 이틀뒤에 가나다 음식점 예약좀 해줘. 저녁7시로.\r\n가나다 음식점이요.?\r...
6,6,기타 괴롭힘 대화,35번 손님 아이스커피 두잔나왔습니다\r\n아이스커피? \r\n네 맛있게드세요\r\...
7,7,기타 괴롭힘 대화,경비아저씨 내차에 경고장 붙였어요?\r\n내가 여기 몇년째 사는데 아직도 내차인줄 ...
8,8,기타 괴롭힘 대화,이거 할인 된다면서요\r\n 확인해보겠습니다\r\n 아까 저 시람은 할인 해주던데\...
9,9,갈취 대화,자네 세금계산서 보내준 거 메일이랑 수치가 다르던데?\r\n그게.\r\n얼마나 해먹...


In [7]:
print(f"\n전체 데이터 수: {len(train_df):,}개")
print(f"컬럼: {train_df.columns.tolist()}")
print(f"\n클래스 분포:")
print(train_df['class'].value_counts())

# 줄바꿈 패턴 분석
train_df['newline_count'] = train_df['conversation'].str.count('\n')
print(f"\n줄바꿈 통계:")
print(f"\n- 줄바꿈 없는 데이터: {(train_df['newline_count'] == 0).sum():,}개")
print(f"- 줄바꿈 있는 데이터: {(train_df['newline_count'] > 0).sum():,}개")


전체 데이터 수: 4,750개
컬럼: ['idx', 'class', 'conversation', 'newline_count']

클래스 분포:
class
기타 괴롭힘 대화      1094
갈취 대화           981
직장 내 괴롭힘 대화     979
협박 대화           896
일반              800
Name: count, dtype: int64

줄바꿈 통계:

- 줄바꿈 없는 데이터: 0개
- 줄바꿈 있는 데이터: 4,750개


In [34]:

def remove_strategy_and_save(input_path: str, output_path: str):
    """strategy 컬럼을 제거하고 새로운 CSV로 저장"""
    df = pd.read_csv(input_path)
    if "strategy" in df.columns:
        df = df.drop(columns=["strategy"])
    df.to_csv(output_path, index=False, encoding="utf-8-sig")
    print(f"✅ 저장 완료: {output_path}")

# 사용 예시
remove_strategy_and_save("nosp.csv", "real_nosp.csv")

✅ 저장 완료: real_nosp.csv
