In [9]:
import re
import pandas as pd
from pathlib import Path

# ============================================================
# Dialogue Preprocessor — v2.1 (요약 모델 최적화 버전)
# ============================================================
class DialoguePreprocessorV2_1:
    def __init__(self, use_title_norm: bool = False):
        self.use_title_norm = use_title_norm

        self.title_map = {
            r'\bDr\.?\b': 'Dr.',
            r'\bMr\.?\b': 'Mr.',
            r'\bMrs\.?\b': 'Mrs.',
            r'\bMs\.?\b': 'Ms.',
            r'\bMiss\.?\b': 'Miss',
        }

        self.korean_title_map = {
            r'\b의사\s*선생님\b': '의사 선생님',
            r'\b교수님\b': '교수님',
            r'\b간호사\b': '간호사',
            r'\b상담사\b': '상담사',
            r'\b오빠\b': '오빠',
            r'\b형\b': '형',
            r'\b언니\b': '언니',
            r'\b누나\b': '누나',
            r'\b아저씨\b': '아저씨',
            r'\b아줌마\b': '아줌마',
            r'\b사장님\b': '사장님',
            r'\b손님\b': '손님',
            r'\b환자\b': '환자',
            r'\b기사님\b': '기사님',
        }

    # ====================================================
    # 1) newline / <br> / \\n 처리
    # ====================================================
    def normalize_newlines(self, text: str) -> str:
        text = re.sub(r'<br\s*/?>', '\n', text, flags=re.IGNORECASE)
        text = text.replace("\\n", "\n")
        text = re.sub(r'\n\s*\n+', '\n', text)
        return text

    # ====================================================
    # 2) speaker 태그 정규화 + 강제 줄바꿈
    # ====================================================
    def normalize_speaker(self, text: str) -> str:

        # (#person1# → #Person1#)
        text = re.sub(
            r'#\s*person\s*(\d+)\s*#\s*',
            lambda m: f'#Person{m.group(1)}#',
            text,
            flags=re.IGNORECASE
        )

        # colon 없는 경우 보정
        text = re.sub(r'(^|\n)(#Person\d+#)(?!:)', r'\1\2:', text)

        # *** 핵심 기능: speaker 등장 시 항상 줄바꿈 ***
        text = re.sub(r'\s*(#Person\d+#:)', r'\n\1', text)

        # 첫 줄 앞 \n 삭제
        text = text.lstrip("\n")

        return text

    # ====================================================
    # 3) 중간 호명 제거 안 함 (정보 보존)
    # ====================================================
    def remove_midline_speaker(self, text: str) -> str:
        return text

    # ====================================================
    # 4) 따옴표 정규화
    # ====================================================
    def normalize_quotes(self, text: str) -> str:
        quote_map = {
            "“": '"', "”": '"',
            "‘": "'", "’": "'",
            "「": '"', "」": '"',
            "『": '"', "』": '"',
            "‹": "'", "›": "'",
            "«": '"', "»": '"',
        }
        for k, v in quote_map.items():
            text = text.replace(k, v)
        return text

    # ====================================================
    # 5) title normalization (옵션)
    # ====================================================
    def normalize_titles(self, text: str) -> str:
        if not self.use_title_norm:
            return text
        for pat, repl in self.title_map.items():
            text = re.sub(pat, repl, flags=re.IGNORECASE)
        for pat, repl in self.korean_title_map.items():
            text = re.sub(pat, repl)
        return text

    # ====================================================
    # 6) 특수문자 제거
    # ====================================================
    def clean_hanja_noise(self, text: str) -> str:
        text = re.sub(r"[『』《》]", "", text)
        text = re.sub(r"[─━│┃╭╮╰╯]", "", text)
        return text

    # ====================================================
    # 7) 공백 정리
    # ====================================================
    def strip_spaces(self, text: str) -> str:
        lines = text.split("\n")
        lines = [ln.rstrip() for ln in lines]
        return "\n".join(lines)

    # ====================================================
    # 전체 파이프라인
    # ====================================================
    def run(self, text):
        if not isinstance(text, str):
            return ""

        text = self.normalize_newlines(text)
        text = self.normalize_speaker(text)
        text = self.remove_midline_speaker(text)
        text = self.normalize_quotes(text)
        text = self.normalize_titles(text)
        text = self.clean_hanja_noise(text)
        text = self.strip_spaces(text)

        return text



# ============================================================
# 실행
# ============================================================
if __name__ == "__main__":
    PROJECT_ROOT = Path.cwd().parents[1]
    RAW_DIR = PROJECT_ROOT / "data" / "raw"
    PROCESSED_DIR = PROJECT_ROOT / "data" / "processed"
    PROCESSED_DIR.mkdir(exist_ok=True)

    print("\nLoading raw CSV...")
    train_df = pd.read_csv(RAW_DIR / "train.csv")
    test_df = pd.read_csv(RAW_DIR / "test.csv")

    # ❗ FIX: 클래스명 수정
    pre = DialoguePreprocessorV23(use_title_norm=False)

    print("\nProcessing TRAIN...")
    train_df["dialogue_clean"] = train_df["dialogue"].apply(pre.run)

    print("Processing TEST...")
    test_df["dialogue_clean"] = test_df["dialogue"].apply(pre.run)

    train_out = PROCESSED_DIR / "v2_train_preprocessed.csv"
    test_out = PROCESSED_DIR / "v2_test_preprocessed.csv"

    train_df.to_csv(train_out, index=False)
    test_df.to_csv(test_out, index=False)

    print("\nSAVED:")
    print(train_out)
    print(test_out)
    print("\nDONE.")



Loading raw CSV...

Processing TRAIN...
Processing TEST...

SAVED:
/root/nlp/data/processed/v2_train_preprocessed.csv
/root/nlp/data/processed/v2_test_preprocessed.csv

DONE.


In [6]:
import difflib
from IPython.display import HTML, display

# ---------------------------------------------------
# HTML diff 함수 정의
# ---------------------------------------------------
def html_diff(a, b):
    differ = difflib.HtmlDiff(wrapcolumn=80)
    return HTML(differ.make_table(
        fromlines=a.split("\n"),
        tolines=b.split("\n"),
        fromdesc='RAW',
        todesc='CLEANED'
    ))

# ---------------------------------------------------
# 차이가 있는 행만 필터링
# ---------------------------------------------------
diff_df = train_df[train_df["dialogue"] != train_df["dialogue_clean"]]

# ---------------------------------------------------
# 앞 5개 샘플 HTML diff로 표시
# ---------------------------------------------------
for idx in diff_df.head(10).index:
    print(f"\n==== SAMPLE {idx} ====\n")
    display(html_diff(
        diff_df.loc[idx, "dialogue"],
        diff_df.loc[idx, "dialogue_clean"]
    ))



==== SAMPLE 0 ====



Unnamed: 0,RAW,RAW.1,Unnamed: 3,CLEANED,CLEANED.1
t,1,"#Person1#: 안녕하세요, Mr. Smith. 저는 Dr. Hawkins입니다. 오늘 무슨 일로 오셨어요?",t,1,"#Person1#: 안녕하세요, Mr. Smith. 저는 Dr. Hawkins입니다. 오늘 무슨 일로 오셨어요?"
,2,#Person2#: 건강검진을 받으려고 왔어요.,,2,#Person2#: 건강검진을 받으려고 왔어요.
,3,"#Person1#: 네, 5년 동안 검진을 안 받으셨네요. 매년 한 번씩 받으셔야 해요.",,3,"#Person1#: 네, 5년 동안 검진을 안 받으셨네요. 매년 한 번씩 받으셔야 해요."
,4,#Person2#: 알죠. 특별히 아픈 데가 없으면 굳이 갈 필요가 없다고 생각했어요.,,4,#Person2#: 알죠. 특별히 아픈 데가 없으면 굳이 갈 필요가 없다고 생각했어요.
,5,"#Person1#: 음, 심각한 질병을 피하려면 미리 발견하는 게 제일 좋거든요. 본인을 위해서라도 매년 한 번은 오세요.",,5,"#Person1#: 음, 심각한 질병을 피하려면 미리 발견하는 게 제일 좋거든요. 본인을 위해서라도 매년 한 번은 오세요."
,6,#Person2#: 알겠습니다.,,6,#Person2#: 알겠습니다.
,7,"#Person1#: 여기 좀 볼까요. 눈과 귀는 괜찮으시네요. 깊게 숨 한 번 쉬어보세요. Mr. Smith, 담배 피우세요?",,7,"#Person1#: 여기 좀 볼까요. 눈과 귀는 괜찮으시네요. 깊게 숨 한 번 쉬어보세요. Mr. Smith, 담배 피우세요?"
,8,#Person2#: 네.,,8,#Person2#: 네.
,9,#Person1#: 담배가 폐암하고 심장병의 주된 원인인 거 아시죠? 끊으셔야 해요.,,9,#Person1#: 담배가 폐암하고 심장병의 주된 원인인 거 아시죠? 끊으셔야 해요.
,10,"#Person2#: 수백 번 시도했는데, 도저히 습관이 안 끊어져요.",,10,"#Person2#: 수백 번 시도했는데, 도저히 습관이 안 끊어져요."



==== SAMPLE 11 ====



Unnamed: 0,RAW,RAW.1,Unnamed: 3,CLEANED,CLEANED.1
t,1,#Person1#: 봐봐! 엄마가 학사모 쓰고 가운 입은 이 사진 좀 봐.,t,1,#Person1#: 봐봐! 엄마가 학사모 쓰고 가운 입은 이 사진 좀 봐.
,2,#Person2#: 정말 멋진데! 그때가 Miami University에서 석사 학위 받았을 때지.,,2,#Person2#: 정말 멋진데! 그때가 Miami University에서 석사 학위 받았을 때지.
,3,"#Person1#: 응, 우리 모두 그녀가 정말 자랑스러워.",,3,"#Person1#: 응, 우리 모두 그녀가 정말 자랑스러워."
,4,"#Person2#: 오, 이거 너희들 다 같이 찍은 사진 좋다. 혹시 네거티브 있어? 복사 하나 받을 수 있어?",,4,"#Person2#: 오, 이거 너희들 다 같이 찍은 사진 좋다. 혹시 네거티브 있어? 복사 하나 받을 수 있어?"
,5,"#Person1#: 물론이지, 만들어줄게. 인화해줄까?",,5,"#Person1#: 물론이지, 만들어줄게. 인화해줄까?"
,6,"#Person2#: 아니, 슬라이드로 부탁할게, 새 프로젝터가 생겼거든.",,6,"#Person2#: 아니, 슬라이드로 부탁할게, 새 프로젝터가 생겼거든."
,7,#Person1#: 나도 그거 직접 보고 싶다.,,7,#Person1#: 나도 그거 직접 보고 싶다.
,8,#Person2#: 지갑 크기로도 하나 인화 부탁해.,,8,#Person2#: 지갑 크기로도 하나 인화 부탁해.
,9,"#Person1#: 그럼, 그렇게 해줄게.",,9,"#Person1#: 그럼, 그렇게 해줄게."



==== SAMPLE 12 ====



Unnamed: 0,RAW,RAW.1,Unnamed: 3,CLEANED,CLEANED.1
t,1,#Person1#: Bean도 너한테 이상한 농담 보내고 그러지 않아? 좀 봐줘봐.,t,1,#Person1#: Bean도 너한테 이상한 농담 보내고 그러지 않아? 좀 봐줘봐.
,2,"#Person2#: 아, 진짜 너무하는데! 이상한 행운 이메일도 짜증나는데, 이런 식의 성희롱은 너무하잖아.",,2,"#Person2#: 아, 진짜 너무하는데! 이상한 행운 이메일도 짜증나는데, 이런 식의 성희롱은 너무하잖아."
,3,#Person1#: 그래서 저번에 내 주소가 어디냐고 물어봤던 거구나 - 괴롭히려고 그런 거였어!,,3,#Person1#: 그래서 저번에 내 주소가 어디냐고 물어봤던 거구나 - 괴롭히려고 그런 거였어!
,4,#Person2#: 스팸 필터를 사용해서 야한 내용이나 원치 않는 메시지를 걸러내는 것도 한 방법이야.,,4,#Person2#: 스팸 필터를 사용해서 야한 내용이나 원치 않는 메시지를 걸러내는 것도 한 방법이야.



==== SAMPLE 16 ====



Unnamed: 0,RAW,RAW.1,Unnamed: 3,CLEANED,CLEANED.1
t,1,#Person1#: 발렌타인데이에 대해 좀 설명해 줄래?,t,1,#Person1#: 발렌타인데이에 대해 좀 설명해 줄래?
,2,"#Person2#: 음, 그날은 보통 남자들이 사랑하는 사람에게 장미를 주고, 여자들은 그 답례로 초콜릿을 줘.",,2,"#Person2#: 음, 그날은 보통 남자들이 사랑하는 사람에게 장미를 주고, 여자들은 그 답례로 초콜릿을 줘."
,3,#Person1#: 정말 낭만적인데. 젊은 사람들은 그날을 정말 즐기겠네.,,3,#Person1#: 정말 낭만적인데. 젊은 사람들은 그날을 정말 즐기겠네.
,4,"#Person2#: 맞아, 그게 바로 이 휴일의 의미지!",,4,"#Person2#: 맞아, 그게 바로 이 휴일의 의미지!"



==== SAMPLE 18 ====



Unnamed: 0,RAW,RAW.1,Unnamed: 3,CLEANED,CLEANED.1
t,1,"#Person1#: 와, 아이스크림 종류가 정말 많다!",t,1,"#Person1#: 와, 아이스크림 종류가 정말 많다!"
,2,"#Person2#: 응, 진짜 많네. 너는 어떤 게 제일 좋아?",,2,"#Person2#: 응, 진짜 많네. 너는 어떤 게 제일 좋아?"
,3,#Person1#: 난 뭐든 초콜릿 들어간 게 제일 좋아.,,3,#Person1#: 난 뭐든 초콜릿 들어간 게 제일 좋아.
,4,#Person2#: 나도 초콜릿 좋아해.,,4,#Person2#: 나도 초콜릿 좋아해.
,5,#Person1#: 싫어하는 아이스크림도 있어?,,5,#Person1#: 싫어하는 아이스크림도 있어?
,6,#Person2#: 나는 견과류 들어간 아이스크림은 별로야.,,6,#Person2#: 나는 견과류 들어간 아이스크림은 별로야.
,7,#Person1#: 나도 그런 건 별로 안 좋아해.,,7,#Person1#: 나도 그런 건 별로 안 좋아해.
,8,#Person2#: 마늘 아이스크림 먹어본 적 있어?,,8,#Person2#: 마늘 아이스크림 먹어본 적 있어?
,9,"#Person1#: 으, 정말 끔찍할 것 같은데!",,9,"#Person1#: 으, 정말 끔찍할 것 같은데!"
,10,"#Person2#: 맞아, 정말 그랬어. 오늘은 일반적인 걸로 먹자.",,10,"#Person2#: 맞아, 정말 그랬어. 오늘은 일반적인 걸로 먹자."



==== SAMPLE 21 ====



Unnamed: 0,RAW,RAW.1,Unnamed: 3,CLEANED,CLEANED.1
t,1,"#Person1#: 조, 에어 차이나 카운터에서 이륙 30분 전에 체크인해야 한다고 했어.",t,1,"#Person1#: 조, 에어 차이나 카운터에서 이륙 30분 전에 체크인해야 한다고 했어."
,2,"#Person2#: 응, 알아. 티켓에 있는 탑승 시간이 17시 5분이고 지금 16시 15분이니까, 시간 충분히 있어.",,2,"#Person2#: 응, 알아. 티켓에 있는 탑승 시간이 17시 5분이고 지금 16시 15분이니까, 시간 충분히 있어."
,3,#Person1#: 체크인할 때 신분증 보여줘야 해?,,3,#Person1#: 체크인할 때 신분증 보여줘야 해?
,4,"#Person2#: 응, 필수야.",,4,"#Person2#: 응, 필수야."
,5,#Person1#: 짐은 어떻게 해?,,5,#Person1#: 짐은 어떻게 해?
,6,#Person2#: 짐은 체크인하고 작은 가방은 기내 반입할 수 있어. 그리고 각 가방을 열어 검사해야 해.,,6,#Person2#: 짐은 체크인하고 작은 가방은 기내 반입할 수 있어. 그리고 각 가방을 열어 검사해야 해.
,7,#Person1#: 모든 승객을 수색하는 거야?,,7,#Person1#: 모든 승객을 수색하는 거야?
,8,#Person2#: 그럴 것 같아. 오늘 비행기에서는 절대 테러 같은 일이 일어나면 안 되니까.,,8,#Person2#: 그럴 것 같아. 오늘 비행기에서는 절대 테러 같은 일이 일어나면 안 되니까.



==== SAMPLE 23 ====



Unnamed: 0,RAW,RAW.1,Unnamed: 3,CLEANED,CLEANED.1
t,1,"#Person1#: 안녕, 마이크. 못 본 지 좀 됐네. 캐시는 어때?",t,1,"#Person1#: 안녕, 마이크. 못 본 지 좀 됐네. 캐시는 어때?"
,2,#Person2#: 우리 이제 안 만나요.,,2,#Person2#: 우리 이제 안 만나요.
,3,#Person1#: 무슨 일이야? 헤어졌어?,,3,#Person1#: 무슨 일이야? 헤어졌어?
,4,#Person2#: 응. 캐시가 계속 잔소리해서 지겨워졌어.,,4,#Person2#: 응. 캐시가 계속 잔소리해서 지겨워졌어.
,5,"#Person1#: 아, 미안해. 그때는 그냥 감정적이었을지도 몰라. 다시 만날 가능성은 없을까?",,5,"#Person1#: 아, 미안해. 그때는 그냥 감정적이었을지도 몰라. 다시 만날 가능성은 없을까?"
,6,#Person2#: 잘 모르겠어. 세상에 사람 많은데!,,6,#Person2#: 잘 모르겠어. 세상에 사람 많은데!
,7,"#Person1#: 에휴, 너 참 쿨하다!",,7,"#Person1#: 에휴, 너 참 쿨하다!"



==== SAMPLE 27 ====



Unnamed: 0,RAW,RAW.1,Unnamed: 3,CLEANED,CLEANED.1
t,1,"#Person1#: Mr. White, 다음 달 초에 회사를 그만두려고 합니다.",t,1,"#Person1#: Mr. White, 다음 달 초에 회사를 그만두려고 합니다."
,2,"#Person2#: Jessica, 그 말을 들으니 정말 아쉽네요. 왜 그만두시려는 건가요?",,2,"#Person2#: Jessica, 그 말을 들으니 정말 아쉽네요. 왜 그만두시려는 건가요?"
,3,#Person1#: 더 높은 연봉과 승진 기회를 제안받은 다른 직장이 있어서요.,,3,#Person1#: 더 높은 연봉과 승진 기회를 제안받은 다른 직장이 있어서요.
,4,"#Person2#: 아, 그렇군요. 일찍 말씀해주셨으면 저희도 급여 인상을 고려했을 텐데요.",,4,"#Person2#: 아, 그렇군요. 일찍 말씀해주셨으면 저희도 급여 인상을 고려했을 텐데요."
,5,"#Person1#: Mr. White, 정말 훌륭한 고용주셨고, 당신 같은 상사를 만난 건 행운이었습니다. 하지만 이번 새로운 일자리가 제가 항",,5,"#Person1#: Mr. White, 정말 훌륭한 고용주셨고, 당신 같은 상사를 만난 건 행운이었습니다. 하지만 이번 새로운 일자리가 제가 항"
,>,상 원하던 교육 분야라서요.,,>,상 원하던 교육 분야라서요.
,6,"#Person2#: 알겠습니다, Jessica. 새로운 직장에서 행운을 빌어요. 추천서가 필요하면 언제든지 말씀하세요. 제가 기꺼이 써 드릴게요",,6,"#Person2#: 알겠습니다, Jessica. 새로운 직장에서 행운을 빌어요. 추천서가 필요하면 언제든지 말씀하세요. 제가 기꺼이 써 드릴게요"
,>,.,,>,.



==== SAMPLE 29 ====



Unnamed: 0,RAW,RAW.1,Unnamed: 3,CLEANED,CLEANED.1
t,1,#Person1#: 오늘 일요일이야.,t,1,#Person1#: 오늘 일요일이야.
,2,"#Person2#: 응, 알아.",,2,"#Person2#: 응, 알아."
,3,#Person1#: 오늘 집 청소하는 게 어때? 너는 어떻게 생각해?,,3,#Person1#: 오늘 집 청소하는 게 어때? 너는 어떻게 생각해?
,4,"#Person2#: 아, 안 돼. 지난주에 했잖아.",,4,"#Person2#: 아, 안 돼. 지난주에 했잖아."
,5,#Person1#: 그럼 네가 하고 싶은 건 뭐야? 빨래할래 아니면 집 청소할래?,,5,#Person1#: 그럼 네가 하고 싶은 건 뭐야? 빨래할래 아니면 집 청소할래?
,6,#Person2#: 난 빨래가 더 나아.,,6,#Person2#: 난 빨래가 더 나아.
,7,#Person1#: 알았어. 여기 빨래 있어.,,7,#Person1#: 알았어. 여기 빨래 있어.
,8,#Person2#: 세상에! 양이 너무 많잖아!,,8,#Person2#: 세상에! 양이 너무 많잖아!
,9,#Person1#: 걱정 마. 나중에 도와줄게.,,9,#Person1#: 걱정 마. 나중에 도와줄게.



==== SAMPLE 35 ====



Unnamed: 0,RAW,RAW.1,Unnamed: 3,CLEANED,CLEANED.1
t,1,#Person1#: 텔레비전 보는 게 지겹다. 오늘 밤 영화관 가자.,t,1,#Person1#: 텔레비전 보는 게 지겹다. 오늘 밤 영화관 가자.
,2,#Person2#: 좋아. 시내로 갈까? 아니면 근처에 괜찮은 영화 있는지 알아볼까?,,2,#Person2#: 좋아. 시내로 갈까? 아니면 근처에 괜찮은 영화 있는지 알아볼까?
,3,#Person1#: 너무 돈 많이 안 쓰고 싶어. 근처 극장의 상영작이 뭐야?,,3,#Person1#: 너무 돈 많이 안 쓰고 싶어. 근처 극장의 상영작이 뭐야?
,4,"#Person2#: 여기 있어, 잠깐만... 여섯 번째 칸에 있네. 라일톤 말하는 거야? 거기 괜찮은 영화가 있어.",,4,"#Person2#: 여기 있어, 잠깐만... 여섯 번째 칸에 있네. 라일톤 말하는 거야? 거기 괜찮은 영화가 있어."
,5,"#Person1#: 거긴 너무 멀고, 주차하기도 힘들어.",,5,"#Person1#: 거긴 너무 멀고, 주차하기도 힘들어."
,6,#Person2#: 그럼 그랜드 극장에서 '바람과 함께 사라지다' 하는데?,,6,#Person2#: 그럼 그랜드 극장에서 '바람과 함께 사라지다' 하는데?
,7,"#Person1#: 몇 년 전에 봤는데, 굳이 다시 보고 싶지는 않아. 게다가 너무 길어. 자정까지 집에 못 와.",,7,"#Person1#: 몇 년 전에 봤는데, 굳이 다시 보고 싶지는 않아. 게다가 너무 길어. 자정까지 집에 못 와."
,8,#Person2#: 센터에서는 호러 영화 해. 안 보고 싶어?,,8,#Person2#: 센터에서는 호러 영화 해. 안 보고 싶어?
,9,#Person1#: 절대 싫어. 그럼 밤에 잠 못 자.,,9,#Person1#: 절대 싫어. 그럼 밤에 잠 못 자.
,10,#Person2#: 그게 다야. 시내로 가는 걸로 결정하지 않으면 말이야.,,10,#Person2#: 그게 다야. 시내로 가는 걸로 결정하지 않으면 말이야.


In [12]:
# ============================================================
# 줄바꿈 시각화 + Raw/Clean 비교 유틸
# ============================================================

def show_with_linebreaks(text, max_len=800):
    """줄바꿈을 ⏎ 로 표시해서 눈에 보이게 변환."""
    if not isinstance(text, str):
        print(text)
        return
    
    view = text.replace("\n", "⏎\n")
    if len(view) > max_len:
        view = view[:max_len] + "\n... (truncated) ..."
    print(view)


def compare_linebreaks(df, idx, raw_col="dialogue", clean_col="dialogue_clean"):
    print(f"\n\n========== SAMPLE {idx} ==========\n")

    print("===== RAW =====")
    show_with_linebreaks(df.loc[idx, raw_col])

    print("\n===== CLEANED =====")
    show_with_linebreaks(df.loc[idx, clean_col])


def compare_multiple(df, indices, raw_col="dialogue", clean_col="dialogue_clean"):
    for idx in indices:
        compare_linebreaks(df, idx, raw_col, clean_col)


# ============================================================
# 실행 예시 — 전처리 코드 내부에서 바로 작동하도록 수정
# ============================================================
if __name__ == "__main__":

    # 이미 위에서 PROJECT_ROOT, PROCESSED_DIR 만들어 둠
    processed_train_path = PROCESSED_DIR / "v2_train_preprocessed.csv"

    print("Loading processed file:", processed_train_path)

    df = pd.read_csv(processed_train_path)

    # 확인하고 싶은 index들
    samples = [0, 3, 11, 12, 18, 21, 27]

    compare_multiple(df, samples)


Loading processed file: /root/nlp/data/processed/v2_train_preprocessed.csv



===== RAW =====
#Person1#: 안녕하세요, Mr. Smith. 저는 Dr. Hawkins입니다. 오늘 무슨 일로 오셨어요? ⏎
#Person2#: 건강검진을 받으려고 왔어요. ⏎
#Person1#: 네, 5년 동안 검진을 안 받으셨네요. 매년 한 번씩 받으셔야 해요. ⏎
#Person2#: 알죠. 특별히 아픈 데가 없으면 굳이 갈 필요가 없다고 생각했어요. ⏎
#Person1#: 음, 심각한 질병을 피하려면 미리 발견하는 게 제일 좋거든요. 본인을 위해서라도 매년 한 번은 오세요. ⏎
#Person2#: 알겠습니다. ⏎
#Person1#: 여기 좀 볼까요. 눈과 귀는 괜찮으시네요. 깊게 숨 한 번 쉬어보세요. Mr. Smith, 담배 피우세요? ⏎
#Person2#: 네. ⏎
#Person1#: 담배가 폐암하고 심장병의 주된 원인인 거 아시죠? 끊으셔야 해요. ⏎
#Person2#: 수백 번 시도했는데, 도저히 습관이 안 끊어져요. ⏎
#Person1#: 음, 도움 될만한 수업과 약물들이 있습니다. 가시기 전에 더 정보를 드릴게요. ⏎
#Person2#: 네, 고맙습니다, 의사 선생님.

===== CLEANED =====
#Person1#: 안녕하세요, Mr. Smith. 저는 Dr. Hawkins입니다. 오늘 무슨 일로 오셨어요?⏎
#Person2#: 건강검진을 받으려고 왔어요.⏎
#Person1#: 네, 5년 동안 검진을 안 받으셨네요. 매년 한 번씩 받으셔야 해요.⏎
#Person2#: 알죠. 특별히 아픈 데가 없으면 굳이 갈 필요가 없다고 생각했어요.⏎
#Person1#: 음, 심각한 질병을 피하려면 미리 발견하는 게 제일 좋거든요. 본인을 위해서라도 매년 한 번은 오세요.⏎
#Person2#: 알겠습니다.⏎
#Person1#: 여기 좀 볼까요. 눈과 귀는 괜찮으시네요. 깊게 숨 한 번 쉬어보세요