In [20]:
import pandas as pd
import re
import os
import string

# .이 4개 이상인 경우 . 3개로 수정

### .이 4개 이상인 경우 확인

In [68]:
# 체크할 파일 리스트
file_list = ['train.csv', 'dev.csv', 'test.csv']

for file_name in file_list:
    print(f'\n파일: {file_name}\n')

    try:
        df = pd.read_csv(os.path.join('data', file_name))
    except Exception as e:
        print(f'{file_name} 로딩 실패: {e}')
        continue

    # .이 4개 이상 있는 dialogue만 필터링
    mask = df['dialogue'].str.contains(r'\.{4,}', regex=True)
    filtered_dialogues = df.loc[mask, 'dialogue']

    for i, dialogue in enumerate(filtered_dialogues, start=1):
        print(f"[Dialogue {i}]")
        print(dialogue)
        print("-" * 50)


파일: train.csv

[Dialogue 1]
#Person1#: 저기, 안녕하세요. 그 짐 좀 도와드릴까요? 제가 옮겨드릴게요. 
#Person2#: 아, 아니에요. 제가 할 수 있어요. 그냥 저쪽에 다시 놓기만 하면 돼요. 
#Person1#: 아니, 제가 도와드릴게요. 아, 아휴. 
#Person2#: 아, 괜찮아요. 
#Person1#: 아, 허리야! 
#Person2#: 괜찮아요, 괜찮아요. 정말 괜찮으세요? 
#Person1#: 여기 좀 누워야겠어요. 아. 여기 자주 오세요? 
#Person2#: 네, 보통 일주일에 다섯 번 와요. 
#Person1#: 아, 아휴. 참, 제 이름은 Justin이에요. 
#Person2#: 저는 Rachel이에요. 
#Person1#: 아, 그래서 어디서 오셨어요? 
#Person2#: 원래는 캘리포니아에서 왔어요...정말 괜찮으세요? 
#Person1#: (괴로워하며) 네, 전 괜찮아요. 어디서 왔어요? 
#Person2#: 음, 유타에 있는 Spanish Fork라는 작은 마을에서 대부분의 시간을 보냈어요. 
#Person1#: 아, 음, 그냥 여기 누워 있어야겠어요. 
#Person2#: 음, 그래서 Justin 씨는 어디서 오셨어요? 매니저 부를게요. 
#Person1#: 아니, 아니요! 그냥 좀 쉬면 돼요. 아, 그래요. 저는, 저는, 아, Spanish Fork에서 왔어요. 
#Person2#: 잠깐만요, 확실해요? 착각하신 것 같은데. 
#Person1#: 아뇨, 아뇨, 아니에요.... 아, 아니, 저는 솔트레이크시티에서 왔어요. 그나저나 직업이 뭐예요? 혹시 보디빌더? 
#Person2#: 아니요, 저는 선생님이에요. 
#Person1#: 아, 뭐 가르치세요? 
#Person2#: 수학이랑 과학을 가르쳐요. 과학 선생님이 아니라도 지금은 의사가 필요하신 것 같아요. 
#Person1#: 아니, 괜찮아요, 괜찮아요. 잠시 후에 일어날게요. 아, 혹시 전화번호 좀 줄 수 있나요? 그냥 혹시나 해서요. 

### .이 4개 이상인 경우 . 3개로 수정

In [21]:
# 체크할 파일 리스트
file_list = ['train.csv', 'dev.csv', 'test.csv']

for file_name in file_list:
    print(f'\n파일: {file_name}\n')

    try:
        df = pd.read_csv(os.path.join('data', file_name))
    except Exception as e:
        print(f'{file_name} 로딩 실패: {e}')
        continue

    # .이 4개 이상인 경우, ...으로 대체 (.이 4개, 5개 있는 경우가 있음)
    for v in ['.....', '....']:
        df['dialogue'] = df['dialogue'].apply(lambda x:x.replace(v, '...'))

    # 새로운 파일로 저장 (예: train_cleaned.csv)
    output_path = os.path.join('data', file_name.replace('.csv', '_cleaned.csv'))
    df.to_csv(output_path, index=False)
    print(f'✅ 저장 완료: {output_path}')


파일: train.csv

✅ 저장 완료: data/train_cleaned.csv

파일: dev.csv

✅ 저장 완료: data/dev_cleaned.csv

파일: test.csv

✅ 저장 완료: data/test_cleaned.csv


### 수정 완료 확인

In [70]:
# 체크할 파일 리스트
file_list = ['train_cleaned.csv', 'dev_cleaned.csv', 'test_cleaned.csv']

for file_name in file_list:
    print(f'\n파일: {file_name}\n')

    try:
        df = pd.read_csv(os.path.join('data', file_name))
    except Exception as e:
        print(f'{file_name} 로딩 실패: {e}')
        continue

    # .이 4개 이상 있는 dialogue만 필터링
    mask = df['dialogue'].str.contains(r'\.{4,}', regex=True)
    filtered_dialogues = df.loc[mask, 'dialogue']

    for i, dialogue in enumerate(filtered_dialogues, start=1):
        print(f"[Dialogue {i}]")
        print(dialogue)
        print("-" * 50)


파일: train_cleaned.csv


파일: dev_cleaned.csv


파일: test_cleaned.csv



# \n이나 \<br> 표현 옳게 바꾸기

### \n이나 \<br> 표현이 있는 대화 출력

In [None]:
# 체크할 파일 리스트
file_list = ['train.csv', 'dev.csv', 'test.csv']

for file_name in file_list:
    print(f'\n파일: {file_name}\n')

    try:
        df = pd.read_csv(os.path.join('data', file_name))
    except Exception as e:
        print(f'{file_name} 로딩 실패: {e}')
        continue

    # '\n' 또는 '<br>'이 포함된 dialogue만 필터링
    mask = df['dialogue'].str.contains(r'\\n|<br>', regex=True)
    filtered_dialogues = df.loc[mask, 'dialogue']

    for i, dialogue in enumerate(filtered_dialogues, start=1):
        print(f"[Dialogue {i}]")
        print(dialogue)
        print("-" * 50)


파일: train_cleaned.csv


파일: dev_cleaned.csv


파일: test_cleaned.csv



### \n으로 올바르게 수정

In [22]:
def preprocess_dialogue(text):
    # fix1
    # \n이 잘못 표시된 경우를 옳게 변경
    # 1. 정규표현식으로 대사 추출
    pattern = r'#Person\d#:.+?(?=(?:#Person\d#:|$))'
    raw_dialogues = re.findall(pattern, text, flags=re.DOTALL)

    # fix1
    # 2. 각 문장에서 맨 마지막 문장부호까지 포함한 문장만 남기기
    cleaned_dialogues = []
    for d in raw_dialogues:
        d = d.strip()
        match = re.search(r'^(#Person\d#:.+[.!?])', d, flags=re.DOTALL)
        if match:
            cleaned_dialogues.append(match.group(1).strip())
        else:
            cleaned_dialogues.append(d) # 예외 처리: 문장부호 없을 경우 전체 사용

    # fix1
    # 문장 사이에 \n 삽입
    answer = '\n'.join(cleaned_dialogues)
    
    return answer

# 체크할 파일 리스트
file_list = ['train_cleaned.csv', 'dev_cleaned.csv', 'test_cleaned.csv']

for file_name in file_list:
    print(f'\n파일: {file_name}\n')

    try:
        df = pd.read_csv(os.path.join('data', file_name))
    except Exception as e:
        print(f'{file_name} 로딩 실패: {e}')
        continue

    df['dialogue'] = df['dialogue'].apply(preprocess_dialogue)

    output_path = os.path.join('data', file_name)
    df.to_csv(output_path, index=False)
    print(f'✅ 저장 완료: {output_path}')


파일: train_cleaned.csv

✅ 저장 완료: data/train_cleaned.csv

파일: dev_cleaned.csv

✅ 저장 완료: data/dev_cleaned.csv

파일: test_cleaned.csv

✅ 저장 완료: data/test_cleaned.csv


### 수정 완료 확인

In [73]:
# 체크할 파일 리스트
file_list = ['train_cleaned.csv', 'dev_cleaned.csv', 'test_cleaned.csv']

for file_name in file_list:
    print(f'\n파일: {file_name}\n')

    try:
        df = pd.read_csv(os.path.join('data', file_name))
    except Exception as e:
        print(f'{file_name} 로딩 실패: {e}')
        continue

    # '\n' 또는 '<br>'이 포함된 dialogue만 필터링
    mask = df['dialogue'].str.contains(r'\\n|<br>', regex=True)
    filtered_dialogues = df.loc[mask, 'dialogue']

    for i, dialogue in enumerate(filtered_dialogues, start=1):
        print(f"[Dialogue {i}]")
        print(dialogue)
        print("-" * 50)


파일: train_cleaned.csv


파일: dev_cleaned.csv


파일: test_cleaned.csv



# 모음이나 자음만 있는 경우 수정

### 모음이나 자음만 있는 대화 출력

In [74]:
# 체크할 파일 리스트
file_list = ['train_cleaned.csv', 'dev_cleaned.csv', 'test_cleaned.csv']

for file_name in file_list:
    print(f'\n파일: {file_name}\n')

    try:
        df = pd.read_csv(os.path.join('data', file_name))
    except Exception as e:
        print(f'{file_name} 로딩 실패: {e}')
        continue

    # 정규표현식 패턴 (단어 기준으로 자음 또는 모음만 있는 경우)
    pattern = r'\b[ㄱ-ㅎㅏ-ㅣ]{1,}\b'

    # 조건 만족하는 행 필터링
    mask = df['dialogue'].str.contains(pattern, regex=True)
    filtered_dialogues = df.loc[mask, 'dialogue']

    for i, dialogue in enumerate(filtered_dialogues, start=1):
        print(f"[Dialogue {i}]")
        print(dialogue)
        print("-" * 50)


파일: train_cleaned.csv

[Dialogue 1]
#Person1#: 남자친구 있어?
#Person2#: 네, 전에 남자친구 있었어요.
#Person1#: 왜 남자친구 있었다고 해?
#Person2#: 지난달에 헤어졌거든요.
#Person1#: 새로 생긴 사람은 있어?
#Person2#: 음, 아니. 너는 어때?
#Person1#: 나 솔로야. 사실 나는 네가 내 온라인 여자친구야.
#Person2#: 하하, 그럼 나는 네 온라인 남자친구네.
#Person1#: 너 좋아해. 우리 오프라인에서도 사귀어 볼래?
#Person2#: 음. . . 알았어, 한번 해보자.
#Person1#: 와! 믿을 수 없어.
#Person2#: 이게 뭐야?
#Person1#: 새처럼 날아갈 것 같아.
#Person2#: ㅎㅎ
#Person1#: 너무 기뻐. 축배를 들고 싶어.
#Person2#: 지금 샴페인은 없는데, 이거 어때?
#Person1#: 괜찮아, 내가 이걸 보낼게.
#Person2#: 초콜릿으로 만든 거야?
#Person1#: 내 마음이야; 네가 좋아하는 걸로 만들었어.
#Person2#: 오, 달콤한 꿈 꿀 것 같아.
#Person1#: 졸려?
#Person2#: 좀 졸려. 자야 하는데 아직 자고 싶지 않아.
#Person1#: 그래, 사무실에서 자는 건 보기 싫으니까.
#Person2#: 고마워. 그럼 이제 안녕. 키스!
#Person1#: 여기서 다시 만나자, 자기야.
--------------------------------------------------

파일: dev_cleaned.csv


파일: test_cleaned.csv



### "ㅎㅎ"가 있는 경우가 한 번 뿐이므로, 문맥에 맞게 '나도 기쁘다.'로 수정

In [23]:
df = pd.read_csv('data/train_cleaned.csv')

df['dialogue'] = df['dialogue'].apply(lambda x:x.replace('ㅎㅎ', '나도 행복해.'))

# 새로운 CSV 파일로 저장 (index 없이)
df.to_csv("data/train_cleaned.csv", index=False)

### 수정 완료 확인

In [76]:
# 체크할 파일 리스트
file_list = ['train_cleaned.csv', 'dev_cleaned.csv', 'test_cleaned.csv']

for file_name in file_list:
    print(f'\n파일: {file_name}\n')

    try:
        df = pd.read_csv(os.path.join('data', file_name))
    except Exception as e:
        print(f'{file_name} 로딩 실패: {e}')
        continue

    # 정규표현식 패턴 (단어 기준으로 자음 또는 모음만 있는 경우)
    pattern = r'\b[ㄱ-ㅎㅏ-ㅣ]{1,}\b'

    # 조건 만족하는 행 필터링
    mask = df['dialogue'].str.contains(pattern, regex=True)
    filtered_dialogues = df.loc[mask, 'dialogue']

    for i, dialogue in enumerate(filtered_dialogues, start=1):
        print(f"[Dialogue {i}]")
        print(dialogue)
        print("-" * 50)


파일: train_cleaned.csv


파일: dev_cleaned.csv


파일: test_cleaned.csv



# : 뒤에 공백이 없는 경우

### 확인

In [77]:
file_list = ['train_cleaned.csv', 'dev_cleaned.csv', 'test_cleaned.csv']

for file_name in file_list:
    print(f'\n파일: {file_name}\n')
    try:
        df = pd.read_csv(os.path.join('data', file_name))
    except Exception as e:
        print(f'{file_name} 로딩 실패: {e}')
        continue

    cleaned_dialogues = []

    for dialogue in df['dialogue']:
        pattern = r'#Person\d#:.+?(?=(?:#Person\d#:|$))'
        raw_dialogues = re.findall(pattern, dialogue, flags=re.DOTALL)

        modified_dialogue = dialogue  # 기본값은 원본 그대로

        for d in raw_dialogues:
            d = d.strip()
            match = re.search(r'^(#Person\d#:)(\s*)(.+)', d)
            if not match:
                continue
            prefix, space, content = match.groups()
            if space == '':
                print("space :", space)
                print(d)


파일: train_cleaned.csv

space : 
#Person2#:...사전에서는 일이 먼저 오지. 그래. 나도 그 얘기 다 들어봤어. 우리 선생님이 폴 존스야?
space : 
#Person2#:...아빠니까. 아빠는 원래 설교야. 삶에 대한 주제로 한 천 번은 말한 것들이 있어서 항상 수업에서 공유하셔.
space : 
#Person2#:... 그리고 얼굴에 심한 두드러기가 날 수도 있어요.

파일: dev_cleaned.csv


파일: test_cleaned.csv



### 수정

In [19]:
file_list = ['train_cleaned.csv', 'dev_cleaned.csv', 'test_cleaned.csv']

for file_name in file_list:
    print(f'\n파일: {file_name}\n')
    try:
        df = pd.read_csv(os.path.join('data', file_name))
    except Exception as e:
        print(f'{file_name} 로딩 실패: {e}')
        continue

    cleaned_dialogues = []

    for dialogue in df['dialogue']:
        pattern = r'#Person\d#:.+?(?=(?:#Person\d#:|$))'
        raw_dialogues = re.findall(pattern, dialogue, flags=re.DOTALL)

        modified_dialogue = dialogue  # 기본값은 원본 그대로

        for d in raw_dialogues:
            d = d.strip()
            match = re.search(r'^(#Person\d#:)(\s*)(.+)', d)
            if not match:
                continue
            prefix, space, content = match.groups()
            space = ' '
            modified_dialogue = modified_dialogue.replace(d, prefix + space + content)

        cleaned_dialogues.append(modified_dialogue)

    df['dialogue'] = cleaned_dialogues

    output_path = os.path.join('data', file_name)
    df.to_csv(output_path, index=False)
    print(f'✅ 저장 완료: {output_path}')


파일: train_cleaned.csv

✅ 저장 완료: data/train_cleaned.csv

파일: dev_cleaned.csv

✅ 저장 완료: data/dev_cleaned.csv

파일: test_cleaned.csv

✅ 저장 완료: data/test_cleaned.csv


### 수정 완료 확인

In [79]:
file_list = ['train_cleaned.csv', 'dev_cleaned.csv', 'test_cleaned.csv']

for file_name in file_list:
    print(f'\n파일: {file_name}\n')
    try:
        df = pd.read_csv(os.path.join('data', file_name))
    except Exception as e:
        print(f'{file_name} 로딩 실패: {e}')
        continue

    cleaned_dialogues = []

    for dialogue in df['dialogue']:
        pattern = r'#Person\d#:.+?(?=(?:#Person\d#:|$))'
        raw_dialogues = re.findall(pattern, dialogue, flags=re.DOTALL)

        modified_dialogue = dialogue  # 기본값은 원본 그대로

        for d in raw_dialogues:
            d = d.strip()
            match = re.search(r'^(#Person\d#:)(\s*)(.+)', d)
            if not match:
                continue
            prefix, space, content = match.groups()
            if space == '':
                print("space :", space)
                print(d)


파일: train_cleaned.csv


파일: dev_cleaned.csv


파일: test_cleaned.csv



# ...이 있는 경우 다루기

### ... 앞의 글자 수에 따른 데이터 수 파악

In [None]:
# 체크할 파일 리스트
file_list = ['train_cleaned.csv', 'dev_cleaned.csv', 'test_cleaned.csv']

for file_name in file_list:
    print(f'\n파일: {file_name}\n')

    try:
        df = pd.read_csv(os.path.join('data', file_name))
    except Exception as e:
        print(f'{file_name} 로딩 실패: {e}')
        continue

    one_char_count = 0
    multi_char_count = 0
    only_dots_count = 0

    for dialogue in df['dialogue']:
        # 대사 블록 단위로 분리
        pattern = r'#Person\d#:.+?(?=(?:#Person\d#:|$))'
        raw_dialogues = re.findall(pattern, dialogue, flags=re.DOTALL)

        for d in raw_dialogues:
            d = d.strip()
            match = re.search(r'^(#Person\d#:\s*)(.+)', d)
            if not match:
                continue
            prefix, content = match.groups()

            # '...' 또는 ' ...' 앞에 있는 단어 추출
            for m in re.finditer(r'(\S*)(\s*)\.{3}', content):
                phrase = m.group(1)
                space = m.group(2)  # 줄임표 앞 공백

                if space:  # 공백이 있으면 → last_word 없음으로 간주
                    last_word = ''
                else:
                    last_word = phrase.strip().split()[-1] if phrase.strip() else ''

                # 분류
                if last_word == '':
                    only_dots_count += 1
                elif len(last_word) == 1:
                    one_char_count += 1
                else:
                    multi_char_count += 1

    print(f"🧾 결과:")
    print(f" - 앞 글자 수 없음 (즉, '...' 단독): {only_dots_count}개")
    print(f" - 앞 글자 수 1개 ('가...'): {one_char_count}개")
    print(f" - 앞 글자 수 2개 이상 ('안녕...'): {multi_char_count}개")


파일: train_cleaned.csv



🧾 결과:
 - 앞 글자 수 없음 (즉, '...' 단독): 58개
 - 앞 글자 수 1개 ('가...'): 589개
 - 앞 글자 수 2개 이상 ('안녕...'): 1445개

파일: dev_cleaned.csv

🧾 결과:
 - 앞 글자 수 없음 (즉, '...' 단독): 0개
 - 앞 글자 수 1개 ('가...'): 27개
 - 앞 글자 수 2개 이상 ('안녕...'): 60개

파일: test_cleaned.csv

🧾 결과:
 - 앞 글자 수 없음 (즉, '...' 단독): 21개
 - 앞 글자 수 1개 ('가...'): 29개
 - 앞 글자 수 2개 이상 ('안녕...'): 66개


## ...의 앞 글자 수가 없을 때

### 출력

In [43]:
# 체크할 파일 리스트
file_list = ['train_cleaned.csv', 'dev_cleaned.csv', 'test_cleaned.csv']

for file_name in file_list:
    print(f'\n파일: {file_name}\n')

    try:
        df = pd.read_csv(os.path.join('data', file_name))
    except Exception as e:
        print(f'{file_name} 로딩 실패: {e}')
        continue

    only_dots_count = 0

    for dialogue in df['dialogue']:
        # 대사 블록 단위로 분리
        pattern = r'#Person\d#:.+?(?=(?:#Person\d#:|$))'
        raw_dialogues = re.findall(pattern, dialogue, flags=re.DOTALL)

        for d in raw_dialogues:
            d = d.strip()
            match = re.search(r'^(#Person\d#:\s*)(.+)', d)
            if not match:
                continue
            prefix, content = match.groups()

            # '...' 또는 ' ...' 앞에 있는 단어 추출
            for m in re.finditer(r'(\S*)(\s*)\.{3}', content):
                phrase = m.group(1)
                space = m.group(2)  # 줄임표 앞 공백

                if space:  # 공백이 있으면 → last_word 없음으로 간주
                    last_word = ''
                else:
                    last_word = phrase.strip().split()[-1] if phrase.strip() else ''

                # 분류
                if last_word == '':
                    only_dots_count += 1
                    print(content)

    print(f"🧾 {file_name} 결과:")
    print(f" - 앞 글자 수 없음 (즉, '...' 단독): {only_dots_count}개")


파일: train_cleaned.csv

...그리고 우리는 새 비키니 입고 선탠하러 나가야겠지.
... 누구랑 있었는지? 나는 네가 누구랑 있었는지 몰랐어.
그 친구 좀 보게 해 줘. [아빠가 거실 창밖을 봄] ... 저 사람 콧수염 있었네!
나도 그 생각하고 있었어. 그런데 ...
... 여기요.
저기 ... 할 말이 있는데...
흠 ... 생각해볼게요.
...그리고 내 새 DVD 플레이어. 여기, 내 스테레오를 보여줄게. 이거면 집안이 흔들릴 정도로 음악 들을 수 있어.
...2만 달러?
... 여기 있어요.
... 좋아요, 그럼 이걸로 끝이에요. 여기 양식 있고, 이건 참고할 이전 명함이에요.
...사전에서는 일이 먼저 오지. 그래. 나도 그 얘기 다 들어봤어. 우리 선생님이 폴 존스야?
...아빠니까. 아빠는 원래 설교야. 삶에 대한 주제로 한 천 번은 말한 것들이 있어서 항상 수업에서 공유하셔.
...네, 다 작성했습니다. 여기 양식과 제 오래된 명함이에요.
Jim? Jim? ... 부엌에서 뭐하고 있어?
... 알겠어요, 그럼. 여기 양식이랑, 제 예전 명함이니까 참고해서 만들어 주세요.
...할아버지 군대 식량까지.
잠시만요, 확인해볼게요. ...네, Mrs. Dick께서 오늘 밤 9시 뉴욕행 112번 비행기 티켓을 예약하셨네요.
...바로 거기요! 견인 구역. 오전 7시부터 오후 6시까지 주차 금지라고 써 있잖아요.
... 그리고 너는 비에 젖은 머리로 정말 귀여웠어. 그 골목에 서서 비 맞으며 웃고 있는 너를 사진에 담아야 했지...
...4시에 강아지 간식 주면서 이빨 닦아주면 좋겠어요.
... 잘 다루면 말이죠.
... 네, 여기 돈입니다.
... 음, 다른 프로그램이나 보고 싶어.
...화장실에 실수로 소변이라도 튀면 큰일 나겠지.
그런데 이름이 ... 스미스 경관이라고요? 혹시 이 동네 스미스 가족과 아십니까? 제 아내 사촌의 남편 (이름이 Fred였던 것 같은데) 여기 경찰서에서 일해요. 아님 소방서였나. 어쨌든, 친하게 지내시면 

### 수정

In [None]:
file_list = ['train_cleaned.csv', 'dev_cleaned.csv', 'test_cleaned.csv']

for file_name in file_list:
    print(f'\n파일: {file_name}\n')
    try:
        df = pd.read_csv(os.path.join('data', file_name))
    except Exception as e:
        print(f'{file_name} 로딩 실패: {e}')
        continue

    cleaned_dialogues = []

    for dialogue in df['dialogue']:
        pattern = r'#Person\d#:.+?(?=(?:#Person\d#:|$))'
        raw_dialogues = re.findall(pattern, dialogue, flags=re.DOTALL)

        modified_dialogue = dialogue  # 기본값은 원본 그대로

        for d in raw_dialogues:
            d = d.strip()
            match = re.search(r'^(#Person\d#:\s*)(.+)', d)
            if not match:
                continue
            prefix, content = match.groups()
            new_content = content
            
            # 1. 공백 기준으로 문장을 나눔
            sentences = content.split()  # 공백 기준으로 나누기

            # 2. 줄임표(...)가 포함된 문장 찾기
            ellipsis_index = None
            for idx, sentence in enumerate(sentences):
                if '...' in sentence:
                    ellipsis_index = idx
                    break  # 첫 번째 줄임표를 포함한 문장만 찾기

            # 모든 줄임표 순차 탐색
            for m in re.finditer(r'(\S*)(\s*)\.{3}(\s*)(\S*)', content):
                phrase = m.group(1)
                space = m.group(2)  # 줄임표 앞 공백
                
                backward_raw = m.group(4)
                if phrase.strip() and backward_raw.strip():
                    backward_word = backward_raw.strip().split()[0]
                else:
                    backward_word = ''

                if space:  # 공백이 있으면 → last_word 없음으로 간주
                    last_word = ''
                else:
                    last_word = phrase.strip().split()[-1] if phrase.strip() else ''
                forward_word = phrase.strip().split()[-1] if phrase.strip() else ''
                # 분류
                if last_word == '':
                    if forward_word:
                        if ellipsis_index == len(sentences) - 1:
                            if forward_word[-1] not in ['.', ',', '!', '?', ']']:
                                new_content = content.replace(' ...', '.')
                            else:
                                if forward_word in ['Mr.', 'Ms.', 'Mrs.']:
                                    new_content = content.replace(' ...', '')
                                else:
                                    new_content = content.replace('...', '')
                        elif ellipsis_index != 0:
                            if forward_word[-1] not in ['.', ',', '!', '?', ']']:
                                if backward_word and backward_word[0] in ['.', ',', '!', '?']:
                                    new_content = content.replace(' ...', '')
                                else:
                                    new_content = content.replace(' ...', ',')
                            else:
                                if forward_word in ['Mr.', 'Ms.', 'Mrs.']:
                                    new_content = content.replace(' ...', '')
                                else:
                                    new_content = content.replace('...', '')
                    else:
                        if content in ['...', ' ...', '... ', ' ... ']:
                            continue
                        new_content = content.replace('...', '')
                    new_content = new_content.strip()
                    if not new_content.endswith(('.', ',', '!', '?', ']')):
                        new_content += '.'
                    new_content = re.sub(r'\s{2,}', ' ', new_content)
                    full_new_line = prefix + new_content
                    modified_dialogue = modified_dialogue.replace(d, full_new_line)    

        cleaned_dialogues.append(modified_dialogue)

    df['dialogue'] = cleaned_dialogues

    output_path = os.path.join('data', file_name.replace('_cleaned.csv', '_cleaned2.csv'))
    df.to_csv(output_path, index=False)
    print(f'✅ 저장 완료: {output_path}')



파일: train_cleaned.csv

✅ 저장 완료: data/train_cleaned2.csv

파일: dev_cleaned.csv

✅ 저장 완료: data/dev_cleaned2.csv

파일: test_cleaned.csv

✅ 저장 완료: data/test_cleaned2.csv


### 수정 완료 확인

In [41]:
# 체크할 파일 리스트
file_list = ['train_cleaned2.csv', 'dev_cleaned2.csv', 'test_cleaned2.csv']

for file_name in file_list:
    print(f'\n파일: {file_name}\n')

    try:
        df = pd.read_csv(os.path.join('data', file_name))
    except Exception as e:
        print(f'{file_name} 로딩 실패: {e}')
        continue

    only_dots_count = 0

    for dialogue in df['dialogue']:
        # 대사 블록 단위로 분리
        pattern = r'#Person\d#:.+?(?=(?:#Person\d#:|$))'
        raw_dialogues = re.findall(pattern, dialogue, flags=re.DOTALL)

        for d in raw_dialogues:
            d = d.strip()
            match = re.search(r'^(#Person\d#:\s*)(.+)', d)
            if not match:
                continue
            prefix, content = match.groups()

            # '...' 또는 ' ...' 앞에 있는 단어 추출
            for m in re.finditer(r'(\S*)(\s*)\.{3}', content):
                phrase = m.group(1)
                space = m.group(2)  # 줄임표 앞 공백

                if space:  # 공백이 있으면 → last_word 없음으로 간주
                    last_word = ''
                else:
                    last_word = phrase.strip().split()[-1] if phrase.strip() else ''

                # 분류
                if last_word == '':
                    only_dots_count += 1
                    print(content)

    print(f"🧾 {file_name} 결과:")
    print(f" - 앞 글자 수 없음 (즉, '...' 단독): {only_dots_count}개")


파일: train_cleaned2.csv

🧾 train_cleaned2.csv 결과:
 - 앞 글자 수 없음 (즉, '...' 단독): 0개

파일: dev_cleaned2.csv

🧾 dev_cleaned2.csv 결과:
 - 앞 글자 수 없음 (즉, '...' 단독): 0개

파일: test_cleaned2.csv

...
...
🧾 test_cleaned2.csv 결과:
 - 앞 글자 수 없음 (즉, '...' 단독): 2개


### 수정 양상 확인

In [42]:
file_list = ['train_cleaned.csv', 'dev_cleaned.csv', 'test_cleaned.csv']

for file_name in file_list:
    count = 0
    print(f'\n파일: {file_name}\n')

    df_original = pd.read_csv(os.path.join('data', file_name))
    df_modified = pd.read_csv(os.path.join('data', file_name.replace('_cleaned.csv', '_cleaned2.csv')))

    for idx, row in df_original.iterrows():
        orig_dialogue = row['dialogue']
        mod_dialogue = df_modified.loc[idx, 'dialogue']

        orig_lines = orig_dialogue.split('\n')
        mod_lines = mod_dialogue.split('\n')

        for line_idx, line in enumerate(orig_lines):
            if ' ...' in line:
                print(f"[Index: {idx} | 줄 번호: {line_idx}]")
                print("원본 :\n", line)
                print("수정 :\n", mod_lines[line_idx])
                print('-' * 60)
                count += 1
    print(f'\n{file_name} 수정 개수 : ', count)


파일: train_cleaned.csv

[Index: 137 | 줄 번호: 3]
원본 :
 #Person2#: ...그리고 우리는 새 비키니 입고 선탠하러 나가야겠지.
수정 :
 #Person2#: 그리고 우리는 새 비키니 입고 선탠하러 나가야겠지.
------------------------------------------------------------
[Index: 286 | 줄 번호: 1]
원본 :
 #Person2#: ... 누구랑 있었는지? 나는 네가 누구랑 있었는지 몰랐어.
수정 :
 #Person2#: 누구랑 있었는지? 나는 네가 누구랑 있었는지 몰랐어.
------------------------------------------------------------
[Index: 427 | 줄 번호: 17]
원본 :
 #Person2#: 그 친구 좀 보게 해 줘. [아빠가 거실 창밖을 봄] ... 저 사람 콧수염 있었네!
수정 :
 #Person2#: 그 친구 좀 보게 해 줘. [아빠가 거실 창밖을 봄] 저 사람 콧수염 있었네!
------------------------------------------------------------
[Index: 521 | 줄 번호: 7]
원본 :
 #Person2#: 나도 그 생각하고 있었어. 그런데 ...
수정 :
 #Person2#: 나도 그 생각하고 있었어. 그런데.
------------------------------------------------------------
[Index: 767 | 줄 번호: 6]
원본 :
 #Person1#: ... 여기요.
수정 :
 #Person1#: 여기요.
------------------------------------------------------------
[Index: 1039 | 줄 번호: 2]
원본 :
 #Person1#: 저기 ... 할 말이 있는데...
수정 :
 #Person1#: 저기, 할 말이 있는데...
------------------

## ...의 앞 글자 수가 1개일 때

### 출력

In [45]:
# 체크할 파일 리스트
file_list = ['train_cleaned2.csv', 'dev_cleaned2.csv', 'test_cleaned2.csv']

for file_name in file_list:
    print(f'\n파일: {file_name}\n')

    try:
        df = pd.read_csv(os.path.join('data', file_name))
    except Exception as e:
        print(f'{file_name} 로딩 실패: {e}')
        continue

    one_char_count = 0
    multi_char_count = 0
    only_dots_count = 0

    for dialogue in df['dialogue']:
        # 대사 블록 단위로 분리
        pattern = r'#Person\d#:.+?(?=(?:#Person\d#:|$))'
        raw_dialogues = re.findall(pattern, dialogue, flags=re.DOTALL)

        for d in raw_dialogues:
            d = d.strip()
            match = re.search(r'^(#Person\d#:\s*)(.+)', d)
            if not match:
                continue
            prefix, content = match.groups()

            # '...' 또는 ' ...' 앞에 있는 단어 추출
            for m in re.finditer(r'(\S*)(\s*)\.{3}', content):
                phrase = m.group(1)
                space = m.group(2)  # 줄임표 앞 공백

                if space:  # 공백이 있으면 → last_word 없음으로 간주
                    last_word = ''
                else:
                    last_word = phrase.strip().split()[-1] if phrase.strip() else ''

                # 분류
                if len(last_word) == 1:
                    one_char_count += 1
                    print(content)

    print(f"🧾 {file_name} 결과:")
    print(f" - 앞 글자 수 1개 ('가...'): {one_char_count}개")


파일: train_cleaned2.csv

음... 여섯 개쯤?
음... 맛있네요!
네...
음... 차는 아직 좀 무리이지 않을까? 너 아직 9살이잖아. 인형은 어때?
음... 생각보다 작네요. 임대료가 얼마라고 하셨죠?
음... 영어랑, 아마도 많이 사용하겠지?
아... 벌써 땀이 나요. 너무 뜨거워요. 물이 끓는 것 같아요! 이제 나가도 돼요?
음... 7시일 거야.
알겠어요. 그럼 다음은 누구였죠? 아... 네, David. 어떻게 생각해요?
음... 그는 아주 똑똑해 보였어요. 옷도 깔끔하게 입고 전체적으로 외모도 아주 좋았어요.
음... 잘 모르겠어.
응... 토네이도는 위험할 수 있어, 그건 사실이야. 시끄러운 기차 소리 같은 것이 들리면 지하실로 가야 해.
음... 지금 제 일정이 좀 바쁜데, 주 90분 정도 할 수 있을 것 같아요.
음... 제 이름은 밥이고, 여자의 이름은 모르겠어요. 그녀는 말할 수 없는 상태입니다.
음... 네, 그런데 그 코트는 더 빨리 필요해요.
음... 그럼 당신들은 뭘 하는 거죠?
음...
음...
음... 어떻게 말씀드릴까요? 이 속도라면 석 달 안에 챕터 11을 신청할 겁니다.
음...아직 결정 못 했어. 근데 결국엔 내가 하고 싶은 대로 할 거야.
경영진은 아마 노동조합을 그다지 좋게 보진 않을 거야. 이해가 가... 노동조합이 경영진에게 꽤 압박을 줄 수 있거든.
음... 친구들이 그렇게 하라 했는데 아직 고민 중이야.
음... 회계, 재무, 그런 쪽이었던 것 같아요.
음... 그렇게 생각하진 않아요. 하지만 성공하고 싶어요.
음... 욕실이 있는 더블룸이요. 호수 전망이 있는 방이면 좋겠어요.
음... 강점도 몇 가지 있을 수 있지만, 쉽게 진행되진 않을 것 같아요.
음...
흠... 아마 내가 색깔을 제대로 안 쓴 걸 몰랐나 봐.
응... A+로 통과할 거야!
또 다른 건 없지? 아... 아, 음악 숙제는?
어... 맞아. 상기시켜 줘서 고마워.
와... 그녀는 관리비 많이 드는 아내 같아.
음... 지

### 수정

In [None]:
# 체크할 파일 리스트
file_list = ['train_cleaned2.csv', 'dev_cleaned2.csv', 'test_cleaned2.csv']

for file_name in file_list:
    print(f'\n파일: {file_name}\n')

    try:
        df = pd.read_csv(os.path.join('data', file_name))
    except Exception as e:
        print(f'{file_name} 로딩 실패: {e}')
        continue

    cleaned_dialogues = []

    for dialogue in df['dialogue']:
        pattern = r'#Person\d#:.+?(?=(?:#Person\d#:|$))'
        raw_dialogues = re.findall(pattern, dialogue, flags=re.DOTALL)

        cleaned_blocks = []

        for d in raw_dialogues:
            d = d.strip()
            match = re.search(r'^(#Person\d#:\s*)(.+)', d)
            if not match:
                cleaned_blocks.append(d)
                continue

            prefix, content = match.groups()
            stripped_content = content.strip()
            
            # content 전체가 '음...', '흠...', '어...', '와...', '나...' 인 경우는 그대로 둠
            if re.fullmatch(r'(음|흠|어|와|나)\s*\.{3}', stripped_content):
                cleaned_blocks.append(d)
                continue

            # content 중간의 '음...', '흠...', '어...', '와...', '나...'  제거
            new_content = re.sub(r'\b(음|흠|어|와|나)\s*\.{3}', '', content)
            new_content = re.sub(r'\b(나)\s*\.{3}', '', content, count=1)
            new_content = re.sub(r'\s{2,}', ' ', new_content)
            new_content = re.sub(r',\s*$', '.', new_content)
            cleaned_blocks.append(prefix + new_content.strip())

        # cleaned_blocks를 하나로 이어붙여 다시 dialogue로 구성
        cleaned_dialogues.append('\n'.join(cleaned_blocks))

    df['dialogue'] = cleaned_dialogues

    # 새로운 파일로 저장 (예: train_cleaned.csv)
    output_path = os.path.join('data', file_name.replace('_cleaned.csv', '_cleaned2.csv'))
    df.to_csv(output_path, index=False)
    print(f'✅ 저장 완료: {output_path}')


파일: train_cleaned.csv

✅ 저장 완료: data/train_cleaned2.csv

파일: dev_cleaned.csv

✅ 저장 완료: data/dev_cleaned2.csv

파일: test_cleaned.csv

✅ 저장 완료: data/test_cleaned2.csv


## ...의 앞 글자 수가 2개 이상일 때 

In [3]:
# 체크할 파일 리스트
file_list = ['train_cleaned2.csv', 'dev_cleaned2.csv', 'test_cleaned2.csv']

for file_name in file_list:
    print(f'\n파일: {file_name}\n')

    try:
        df = pd.read_csv(os.path.join('data', file_name))
    except Exception as e:
        print(f'{file_name} 로딩 실패: {e}')
        continue

    multi_char_count = 0

    for dialogue in df['dialogue']:
        # 대사 블록 단위로 분리
        pattern = r'#Person\d#:.+?(?=(?:#Person\d#:|$))'
        raw_dialogues = re.findall(pattern, dialogue, flags=re.DOTALL)

        for d in raw_dialogues:
            d = d.strip()
            match = re.search(r'^(#Person\d#:\s*)(.+)', d)
            if not match:
                continue
            prefix, content = match.groups()

            # '...' 또는 ' ...' 앞에 있는 단어 추출
            for m in re.finditer(r'(\S*)\s*\.{3}', content):
                word = m.group(1)
                if len(word) > 1:
                    multi_char_count += 1
                    print(content)

    print(f"🧾 {file_name} 결과:")
    print(f" - 앞 글자 수 2개 이상 ('안녕...'): {multi_char_count}개")


파일: train_cleaned2.csv

고맙네요! 그런데 저는 춤 잘 못 춰요...
알겠습니다... 혹시 지원 관련해서 궁금한 게 있으세요?
아, 괜찮아요. 잠시만 기다리시면 확인해 볼게요. Judy Liao... 잠시만요... 네, 여기 있네요. Judy Liao. 이력서를 받았습니다.
아, 괜찮아요. 잠시만 기다리시면 확인해 볼게요. Judy Liao... 잠시만요... 네, 여기 있네요. Judy Liao. 이력서를 받았습니다.
음, 제일 유명한 곳은 다 봤지. 에펠탑, 노트르담 대성당도... 진짜 재미있었어.
나도 보기엔 엄청난 휴가였던 것 같아. 하지만 일하러 가야 해서... 언젠간 가볼 수 있길 바래.
여기 있어, 잠깐만... 여섯 번째 칸에 있네. 라일톤 말하는 거야? 거기 괜찮은 영화가 있어.
제 취향에는 조금 쓰네요... 약간... 약간...
제 취향에는 조금 쓰네요... 약간... 약간...
제 취향에는 조금 쓰네요... 약간... 약간...
이번엔 그건 좀 어려울 것 같아. 멋진 옷이나 작은 가방은 어때? 아들아, 그래...
아저씨... 아저씨? 괜찮으세요? 아저씨?
내 웨지 좀 건네줄래? 시도해볼게...
이제 애들이 밖에 나가야 할 때가 왔네...
입을 열고 혀를 보여 주세요. 아- 라고 해보세요... 심한 감기에 걸리셨네요. 그러니 일주일 동안은 침대에 누워 계셔야 해요.
빨리! 당신의 쌍안경을 줘봐요. 저 새 좀 봐요... 전에 본 적이 없는 새네요. Guiling에 원래 서식하는 종이고 멸종 위기종이에요. 정말 운이 좋네요!
음, 말했듯이 그 회사는 업계의 리더고, 정말 좋은 성장 전략과 직원들을 위한 놀라운 개발 기회를 가지고 있어. 그리고 강력한 기업 지배 구조도 있는 것 같아. 그들의 목표는 기업이 성장하고 잠재력을 발휘할 수 있도록 돕는 거야. 내가 생각하기에 그들의 핵심 가치와 목표가 나랑 잘 맞는 것 같아. 오, 그리고 6주 휴가, 주식 옵션, 보너스도 준다고 하더라... 이 기회 놓치지 않을 거야.
아니에요, 여기서

In [None]:
# CSV 파일 불러오기
df = pd.read_csv("data/train.csv")

def preprocess_dialogue(text):
    # fix1
    # \n이 잘못 표시된 경우를 옳게 변경
    # 1. 정규표현식으로 대사 추출
    pattern = r'#Person\d#:.+?(?=(?:#Person\d#:|$))'
    raw_dialogues = re.findall(pattern, text, flags=re.DOTALL)

    # fix1
    # 2. 각 문장에서 맨 마지막 문장부호까지 포함한 문장만 남기기
    cleaned_dialogues = []
    for d in raw_dialogues:
        d = d.strip()
        match = re.search(r'^(#Person\d#:.+[.!?])', d, flags=re.DOTALL)
        if match:
            cleaned_dialogues.append(match.group(1).strip())
        else:
            cleaned_dialogues.append(d) # 예외 처리: 문장부호 없을 경우 전체 사용

    # fix1
    # 문장 사이에 \n 삽입
    answer = '\n'.join(cleaned_dialogues)
    
    return answer

# .이 4개 이상인 경우, ...으로 대체 (.이 4개, 5개 있는 경우가 있음)
for v in ['.....', '....']:
    df['dialogue'] = df['dialogue'].apply(lambda x:x.replace(v, '...'))

# \n이나 \<br> 표현 옳게 수정
df['dialogue'] = df['dialogue'].apply(preprocess_dialogue)

# ㅎㅎ를 문맥에 맞게 수정
df['dialogue'] = df['dialogue'].apply(lambda x:x.replace('ㅎㅎ', '나도 기쁘다.'))

# 새로운 CSV 파일로 저장 (index 없이)
df.to_csv("data/filtered_dialogues.csv", index=False)

# '[', ']'가 포함된 문장

### '['로 시작하고 ']'로 안 끝나는 부분 출력

In [89]:
# 체크할 파일 리스트
file_list = ['train_cleaned.csv', 'dev_cleaned.csv', 'test_cleaned.csv']

for file_name in file_list:
    print(f'\n파일: {file_name}\n')

    try:
        df = pd.read_csv(os.path.join('data', file_name))
    except Exception as e:
        print(f'{file_name} 로딩 실패: {e}')
        continue

    count = 0

    # 2. [로 시작하고 ]로 안 끝나는 부분
    print(f"{file_name} '['로 시작하고 ']'로 안 끝나는 부분:")

    for dialogue in df['dialogue']:
        # 대사 블록 단위로 분리
        pattern = r'#Person\d#:.+?(?=(?:#Person\d#:|$))'
        raw_dialogues = re.findall(pattern, dialogue, flags=re.DOTALL)

        for d in raw_dialogues:
            for match in re.finditer(r'\[([^\]]*?)(?=\[|$)', d):
                count += 1
                print(f" - {d}")

    print(f"🧾 {file_name} 결과:")
    print(f" - '['로 시작하고 ']'로 안 끝나는 부분 : {count}개")


파일: train_cleaned.csv

train_cleaned.csv '['로 시작하고 ']'로 안 끝나는 부분:
 - #Person1#: 저기, 방금 그 소리는 뭐죠? [아아!

 - #Person1#: 진정하세요. [가장 좋아하는 단어군요...

 - #Person2#: 알겠어요. 헉? [보안 경보가 울림...

🧾 train_cleaned.csv 결과:
 - '['로 시작하고 ']'로 안 끝나는 부분 : 3개

파일: dev_cleaned.csv

dev_cleaned.csv '['로 시작하고 ']'로 안 끝나는 부분:
🧾 dev_cleaned.csv 결과:
 - '['로 시작하고 ']'로 안 끝나는 부분 : 0개

파일: test_cleaned.csv

test_cleaned.csv '['로 시작하고 ']'로 안 끝나는 부분:
🧾 test_cleaned.csv 결과:
 - '['로 시작하고 ']'로 안 끝나는 부분 : 0개


### 수정

In [7]:
# 체크할 파일 리스트
file_list = ['train_cleaned.csv', 'dev_cleaned.csv', 'test_cleaned.csv']

for file_name in file_list:
    print(f'\n파일: {file_name}\n')

    try:
        df = pd.read_csv(os.path.join('data', file_name))
    except Exception as e:
        print(f'{file_name} 로딩 실패: {e}')
        continue

    modified_dialogues = []

    for dialogue in df['dialogue']:
        # 대사 블록 단위로 분리
        pattern = r'#Person\d#:.+?(?=(?:#Person\d#:|$))'
        raw_dialogues = re.findall(pattern, dialogue, flags=re.DOTALL)

        new_blocks = []

        for d in raw_dialogues:
            # 복사본 유지
            modified_text = d
            for match in re.finditer(r'\[([^\]]*?)(?=\[|$)', d):
                inner = match.group(1)
                if inner.strip() == "보안 경보가 울림...":
                    modified_text = modified_text.replace(match.group(), f"({inner.strip()})")
                else:
                    modified_text = modified_text.replace(match.group(), "")
            new_blocks.append(modified_text.strip())

        modified_dialogue = '\n'.join(new_blocks)
        modified_dialogues.append(modified_dialogue)

    df['dialogue'] = modified_dialogues

    # 저장
    output_path = os.path.join('data', file_name)
    df.to_csv(output_path, index=False)
    print(f'✅ 저장 완료: {output_path}')


파일: train_cleaned.csv

✅ 저장 완료: data/train_cleaned.csv

파일: dev_cleaned.csv

✅ 저장 완료: data/dev_cleaned.csv

파일: test_cleaned.csv

✅ 저장 완료: data/test_cleaned.csv


### 수정 완료 확인

In [91]:
# 체크할 파일 리스트
file_list = ['train_cleaned.csv', 'dev_cleaned.csv', 'test_cleaned.csv']

for file_name in file_list:
    print(f'\n파일: {file_name}\n')

    try:
        df = pd.read_csv(os.path.join('data', file_name))
    except Exception as e:
        print(f'{file_name} 로딩 실패: {e}')
        continue

    count = 0

    # 2. [로 시작하고 ]로 안 끝나는 부분
    print(f"{file_name} '['로 시작하고 ']'로 안 끝나는 부분:")

    for dialogue in df['dialogue']:
        # 대사 블록 단위로 분리
        pattern = r'#Person\d#:.+?(?=(?:#Person\d#:|$))'
        raw_dialogues = re.findall(pattern, dialogue, flags=re.DOTALL)

        for d in raw_dialogues:
            for match in re.finditer(r'\[([^\]]*?)(?=\[|$)', d):
                count += 1
                print(f" - {d}")

    print(f"🧾 {file_name} 결과:")
    print(f" - '['로 시작하고 ']'로 안 끝나는 부분 : {count}개")


파일: train_cleaned.csv

train_cleaned.csv '['로 시작하고 ']'로 안 끝나는 부분:
🧾 train_cleaned.csv 결과:
 - '['로 시작하고 ']'로 안 끝나는 부분 : 0개

파일: dev_cleaned.csv

dev_cleaned.csv '['로 시작하고 ']'로 안 끝나는 부분:
🧾 dev_cleaned.csv 결과:
 - '['로 시작하고 ']'로 안 끝나는 부분 : 0개

파일: test_cleaned.csv

test_cleaned.csv '['로 시작하고 ']'로 안 끝나는 부분:
🧾 test_cleaned.csv 결과:
 - '['로 시작하고 ']'로 안 끝나는 부분 : 0개


### '['로 시작하지 않고 ']'로 끝나는 부분 출력

In [97]:
# 체크할 파일 리스트
file_list = ['train_cleaned.csv', 'dev_cleaned.csv', 'test_cleaned.csv']

for file_name in file_list:
    print(f'\n파일: {file_name}\n')

    try:
        df = pd.read_csv(os.path.join('data', file_name))
    except Exception as e:
        print(f'{file_name} 로딩 실패: {e}')
        continue

    count = 0

    # 3. [로 시작하지 않고 ]로 끝나는 부분
    print(f"{file_name} '['로 시작하지 않고 ']'로 끝나는 부분:")

    for dialogue in df['dialogue']:
        # 대사 블록 단위로 분리
        pattern = r'#Person\d#:.+?(?=(?:#Person\d#:|$))'
        raw_dialogues = re.findall(pattern, dialogue, flags=re.DOTALL)

        for d in raw_dialogues:
            temp = re.sub(r'\[[^\[\]]*?\]', '', d)
            # 그 뒤에 ]만 남아있는 경우 찾기
            for match in re.finditer(r'[^\[\]\n]+?\]', temp):
                count += 1
                print(f" - {d}")

    print(f"🧾 {file_name} 결과:")
    print(f" - '['로 시작하지 않고 ']'로 끝나는 부분 : {count}개")


파일: train_cleaned.csv

train_cleaned.csv '['로 시작하지 않고 ']'로 끝나는 부분:
🧾 train_cleaned.csv 결과:
 - '['로 시작하지 않고 ']'로 끝나는 부분 : 0개

파일: dev_cleaned.csv

dev_cleaned.csv '['로 시작하지 않고 ']'로 끝나는 부분:
🧾 dev_cleaned.csv 결과:
 - '['로 시작하지 않고 ']'로 끝나는 부분 : 0개

파일: test_cleaned.csv

test_cleaned.csv '['로 시작하지 않고 ']'로 끝나는 부분:
🧾 test_cleaned.csv 결과:
 - '['로 시작하지 않고 ']'로 끝나는 부분 : 0개


### '['와 ']'로 감싸진 부분 출력

In [None]:
# 체크할 파일 리스트
file_list = ['train_cleaned.csv', 'dev_cleaned.csv', 'test_cleaned.csv']

for file_name in file_list:
    print(f'\n파일: {file_name}\n')

    try:
        df = pd.read_csv(os.path.join('data', file_name))
    except Exception as e:
        print(f'{file_name} 로딩 실패: {e}')
        continue

    count = 0

    # 1. [와 ]로 감싸진 부분 (올바르게 닫힌 괄호)
    print(f"{file_name} '['와 ']'로 감싸진 부분:")

    for dialogue in df['dialogue']:
        # 대사 블록 단위로 분리
        pattern = r'#Person\d#:.+?(?=(?:#Person\d#:|$))'
        raw_dialogues = re.findall(pattern, dialogue, flags=re.DOTALL)

        for d in raw_dialogues:
            for match in re.finditer(r'\[([^\[\]]*?)\]', d):
                person_tags = re.findall(r'#Person(\d+)#', dialogue)
                if person_tags:
                    max_person_id = max(map(int, person_tags))
                    print(f"👥 max #PersonN# in this dialogue: {max_person_id}")
                count += 1
                print(f" - {d}")

    print(f"🧾 {file_name} 결과:")
    print(f" - '['와 ']'로 감싸진 부분 : {count}개")


파일: train_cleaned.csv

train_cleaned.csv '['와 ']'로 감싸진 부분:
👥 max #PersonN# in this dialogue: 2
 - #Person2#: 그 친구 좀 보게 해 줘. [아빠가 거실 창밖을 봄] ... 저 사람 콧수염 있었네!

👥 max #PersonN# in this dialogue: 2
 - #Person2#: 알아, 알아, 근데 모르겠어. 나는 지금 맥도날드에서 일하고 있는 걸 출세의 한 단계로 보고 있어. [맥도날드!]. 근데, 학교에 다시 갈 자원이 없어서 하지만, 내가 알아본 직장은 6개월 후에 일부 수업비를 지원해줄 거래.

👥 max #PersonN# in this dialogue: 2
 - #Person1#: 보세요, Mr. Adams. 제 금융 상담가와 상의했어요 [뭐?], 아, 제 엄마요. 엄마가 말씀하시길, 제가 요리도 하고 당신 집도 청소해드리니 아이 한 명당 더 많은 요금을 받아야 한다고 하세요.

👥 max #PersonN# in this dialogue: 2
 - #Person1#: [웃음] 여기저기 조금 있어요. 들어보세요. 이 열 장의 음반을 오십 달러에 드릴게요. 정말 싼 거예요!

👥 max #PersonN# in this dialogue: 2
 - #Person1#: 어디? 보여 줘 봐. [봐봐!] 흠집 안 보이는데.

👥 max #PersonN# in this dialogue: 2
 - #Person2#: 여기, 여기! [저거?] [보]이니?

👥 max #PersonN# in this dialogue: 2
 - #Person2#: 여기, 여기! [저거?] [보]이니?

👥 max #PersonN# in this dialogue: 2
 - #Person2#: 별로 좋은 이유도 아니야. 자립심을 길러야 한다거나, 권리만 주장하지 말라거나 그런 거야. 이웃 농장에서 일해서 돈 벌라는 말씀도 하셨어. [좋은 생각이네!] 불공평해.

👥 max #PersonN# in th

### 수정

In [8]:
# 체크할 파일 리스트
file_list = ['train_cleaned.csv', 'dev_cleaned.csv', 'test_cleaned.csv']

for file_name in file_list:
    print(f'\n파일: {file_name}\n')

    try:
        df = pd.read_csv(os.path.join('data', file_name))
    except Exception as e:
        print(f'{file_name} 로딩 실패: {e}')
        continue

    modified_dialogues = []

    for dialogue in df['dialogue']:
        # 대사 블록 단위로 분리
        pattern = r'#Person\d#:.+?(?=(?:#Person\d#:|$))'
        raw_dialogues = re.findall(pattern, dialogue, flags=re.DOTALL)

        new_blocks = []

        for d in raw_dialogues:
            if "[보]이니" in d:
                d = d.replace("[보]이니", "보이니")
            elif "[이 문제는]" in d:
                d = d.replace("[이 문제는]", "이 문제는")
            modified_text = d

            # 처리 완료된 부분을 저장할 리스트
            processed_blocks = []
            # 임시 저장 변수(수정 진행용)
            temp_text = modified_text
            # 현재 발화자 추출 (#Person1# or #Person2#)
            speaker_match = re.match(r'(#Person\d#:)', d)
            speaker = speaker_match.group(1) if speaker_match else "#Person1#:"
            other_speaker = "#Person2#:" if speaker == "#Person1#:" else "#Person1#:"

            # [] 괄호 안 특정 텍스트는 ()로 대체(원래 코드)
            for match in re.finditer(r'\[([^\[\]]*?)\]', d):
                inner = match.group(1).strip()
                if inner in ['엔진 시작...', '문 두드리는 소리.', '웃으며', '초인종 소리', '웃음', '펀치와 발차기, 비명 소리...', '여자가 차 시동을 걸어보는데...', '아빠가 거실 창밖을 봄']:
                    modified_text = modified_text.replace(match.group(), f"({inner})")

            # else: -- 여기서 [] 괄호 안 텍스트는 상대방 발화로 분리
            # 괄호 안 텍스트가 특수 사운드가 아니면 분리 작업
            # -> 괄호 안 텍스트 추출하여, 괄호 제거하고 새 줄로 추가

            # 먼저 수정된 텍스트를 기반으로 다시 처리 (괄호를 대화 분리용으로)
            temp_text = modified_text
            output_blocks = []

            while True:
                m = re.search(r'\[([^\[\]]+?)\]', temp_text)
                if not m:
                    remainder = temp_text.strip()
                    if remainder:
                        # 발화자 태그 제거 후 내용만 남김
                        remainder_clean = re.sub(r'^#Person\d#:\s*', '', remainder)
                        output_blocks.append(f"{speaker} {remainder_clean}")
                    break

                start, end = m.span()
                before = temp_text[:start].strip()
                inside = m.group(1).strip()
                after = temp_text[end:].strip()

                inside_words = inside.split()
                last_word = inside_words[-1] if inside_words else ''

                # after의 첫 글자가 문장부호인지 확인
                if last_word and last_word[-1] in ['.', ',', '!', '?']:
                    if after and after[0] in ['.', ',', '!', '?']:
                        # 중복된 문장부호 제거 위해 after에서 첫 글자 제거
                        after = after[1:].lstrip()

                # before 발화자 태그 제거
                before_clean = re.sub(r'^#Person\d#:\s*', '', before)

                if before_clean:
                    output_blocks.append(f"{speaker} {before_clean}")

                if not inside.endswith(('.', ',', '!', '?', ']')):
                        inside += '.'
                output_blocks.append(f"{other_speaker} {inside}")

                temp_text = after

            new_blocks.extend(output_blocks)

        modified_dialogue = '\n'.join(new_blocks)
        modified_dialogues.append(modified_dialogue)

    df['dialogue'] = modified_dialogues

    # 저장
    output_path = os.path.join('data', file_name.replace('_cleaned', '_cleaned2'))
    df.to_csv(output_path, index=False)
    print(f'✅ 저장 완료: {output_path}')


파일: train_cleaned.csv

✅ 저장 완료: data/train_cleaned2.csv

파일: dev_cleaned.csv

✅ 저장 완료: data/dev_cleaned2.csv

파일: test_cleaned.csv

✅ 저장 완료: data/test_cleaned2.csv


### 수정 완료 확인

In [123]:
# 체크할 파일 리스트
file_list = ['train_cleaned2.csv', 'dev_cleaned2.csv', 'test_cleaned2.csv']

for file_name in file_list:
    print(f'\n파일: {file_name}\n')

    try:
        df = pd.read_csv(os.path.join('data', file_name))
    except Exception as e:
        print(f'{file_name} 로딩 실패: {e}')
        continue

    count = 0

    # 1. [와 ]로 감싸진 부분 (올바르게 닫힌 괄호)
    print(f"{file_name} '['와 ']'로 감싸진 부분:")

    for dialogue in df['dialogue']:
        # 대사 블록 단위로 분리
        pattern = r'#Person\d#:.+?(?=(?:#Person\d#:|$))'
        raw_dialogues = re.findall(pattern, dialogue, flags=re.DOTALL)

        for d in raw_dialogues:
            for match in re.finditer(r'\[([^\[\]]*?)\]', d):
                count += 1
                print(f" - {d}")

    print(f"🧾 {file_name} 결과:")
    print(f" - '['와 ']'로 감싸진 부분 : {count}개")


파일: train_cleaned2.csv

train_cleaned2.csv '['와 ']'로 감싸진 부분:
🧾 train_cleaned2.csv 결과:
 - '['와 ']'로 감싸진 부분 : 0개

파일: dev_cleaned2.csv

dev_cleaned2.csv '['와 ']'로 감싸진 부분:
🧾 dev_cleaned2.csv 결과:
 - '['와 ']'로 감싸진 부분 : 0개

파일: test_cleaned2.csv

test_cleaned2.csv '['와 ']'로 감싸진 부분:
🧾 test_cleaned2.csv 결과:
 - '['와 ']'로 감싸진 부분 : 0개
