In [8]:
import pandas as pd

def load_train_df(path: str) -> pd.DataFrame:
    
    df = pd.read_csv(path)
    return df

In [9]:
train_df = load_train_df("data/mask_replace.csv")
print(train_df.head())

   idx  class                                       conversation
0    3  갈취 대화  어이 거기 예?? 너 말이야 너. 이리 오라고 무슨 일. 너 옷 좋아보인다? 얘 돈...
1    4  갈취 대화  저기요 혹시 날이 너무 뜨겁잖아요? 우리 회사에서 이 선크림을 한 번 손등에 발라보...
2    9  갈취 대화  자네 세금계산서 보내준 거 메일이랑 수치가 다르던데? 그게. 얼마나. 그건 다른 업...
3   10  갈취 대화  네 뭐 드릴까요? 말보르 레드 하나. 네. 여기요! 여기 사장은 없어? 네 사장님 ...
4   13  갈취 대화  형! 형! 돈좀있어? 저. 여기에 누가 있어? 돈이 있어? 저. 저. 돈. 근데. ...


In [10]:
def drop_strategy_column(df: pd.DataFrame) -> pd.DataFrame:
    """DataFrame에서 'strategy' 컬럼이 있으면 삭제"""
    if "strategy" in df.columns:
        df = df.drop(columns=["strategy"])
    return df

In [15]:
train_df = load_train_df("data/merged_both.csv")
train_df = drop_strategy_column(train_df)

In [12]:
train_df.head(10)

Unnamed: 0,idx,class,conversation
0,3,갈취 대화,어이 거기 예?? 너 말이야 너. 이리 오라고 무슨 일. 너 옷 좋아보인다? 얘 돈...
1,4,갈취 대화,저기요 혹시 날이 너무 뜨겁잖아요? 우리 회사에서 이 선크림을 한 번 손등에 발라보...
2,9,갈취 대화,자네 세금계산서 보내준 거 메일이랑 수치가 다르던데? 그게. 얼마나. 그건 다른 업...
3,10,갈취 대화,네 뭐 드릴까요? 말보르 레드 하나. 네. 여기요! 여기 사장은 없어? 네 사장님 ...
4,13,갈취 대화,형! 형! 돈좀있어? 저. 여기에 누가 있어? 돈이 있어? 저. 저. 돈. 근데. ...
5,15,갈취 대화,야 너 휴대폰좀 빌려줘봐 안돼. 너 휴대폰 요금이 너무 많이 올라서 혼났어. 알 바...
6,16,갈취 대화,잠깐만. 학생 예? 저 부르셨너요? 그럼 누구겠어 왜부르시죠 내가 지갑을 잃어버려서...
7,17,갈취 대화,얼마 가져왔어? 십만원 정도. 근데 이걸로 새 폰을 어떻게 사 이게 최선이었어. 그...
8,21,갈취 대화,너 저번에 친구 지갑에서 돈 훔쳤잖아. 그말을 왜 자꾸 꺼내. 야 확 불어버리기전에...
9,27,갈취 대화,돈을 좀 갚아야지 죄송합니다 시간을 조금만 더 주십시오 내가 왜? 내가자선사업가야?...


In [16]:
print(f"\n전체 데이터 수: {len(train_df):,}개")
print(f"컬럼: {train_df.columns.tolist()}")
print(f"\n클래스 분포:")
print(train_df['class'].value_counts())

# 줄바꿈 패턴 분석
train_df['newline_count'] = train_df['conversation'].str.count('\n')
print(f"\n줄바꿈 통계:")
print(f"\n- 줄바꿈 없는 데이터: {(train_df['newline_count'] == 0).sum():,}개")
print(f"- 줄바꿈 있는 데이터: {(train_df['newline_count'] > 0).sum():,}개")


전체 데이터 수: 14,250개
컬럼: ['idx', 'class', 'conversation']

클래스 분포:
class
기타 괴롭힘 대화      3282
갈취 대화          2943
직장 내 괴롭힘 대화    2937
협박 대화          2688
일반             2400
Name: count, dtype: int64

줄바꿈 통계:

- 줄바꿈 없는 데이터: 14,250개
- 줄바꿈 있는 데이터: 0개


In [34]:

def remove_strategy_and_save(input_path: str, output_path: str):
    """strategy 컬럼을 제거하고 새로운 CSV로 저장"""
    df = pd.read_csv(input_path)
    if "strategy" in df.columns:
        df = df.drop(columns=["strategy"])
    df.to_csv(output_path, index=False, encoding="utf-8-sig")
    print(f"✅ 저장 완료: {output_path}")

# 사용 예시
remove_strategy_and_save("nosp.csv", "real_nosp.csv")

✅ 저장 완료: real_nosp.csv
