In [1]:
import pandas as pd
import re
import os
import platform
import shutil

os_name = platform.system()
if os_name == 'Windows':
    PRE_PATH = ''
elif os_name == 'Linux':
    PRE_PATH = '/dj/'
elif os_name == 'Darwin': # 맥
    PRE_PATH = '/dj/'
DATA_PATH = PRE_PATH + "data/"

TRAIN_PATH = DATA_PATH + 'train.csv'
DEV_PATH = DATA_PATH + 'dev.csv'
TEST_PATH = DATA_PATH + 'test.csv'

TRAIN_NEW_PATH = DATA_PATH + 'train_kkh_new.csv'
DEV_NEW_PATH = DATA_PATH + 'dev_kkh_new.csv'
TEST_NEW_PATH = DATA_PATH + 'test_kkh_new.csv'

In [2]:
def copy_file(src_path, dest_path):
    try:
        shutil.copyfile(src_path, dest_path)
        print(f"Copied: {src_path} to {dest_path}")
    except Exception as e:
        print(f"Failed to copy {src_path} to {dest_path}: {e}")

copy_file(TRAIN_PATH, TRAIN_NEW_PATH)
copy_file(DEV_PATH, DEV_NEW_PATH)
copy_file(TEST_PATH, TEST_NEW_PATH)

Copied: /dj/data/train.csv to /dj/data/train_kkh_new.csv
Copied: /dj/data/dev.csv to /dj/data/dev_kkh_new.csv
Copied: /dj/data/test.csv to /dj/data/test_kkh_new.csv


In [3]:
def find_incomplete_hangul(file_path):
    df = pd.read_csv(file_path)
    if 'dialogue' not in df.columns:
        raise ValueError("'dialogue' 열이 CSV 파일에 없습니다.")
    consonants_and_vowels_pattern = re.compile(r'[ㄱ-ㅎㅏ-ㅣ]+')
    
    results = []
    for _, row in df.iterrows():
        fname = row['fname']
        dialogue = row['dialogue']
        utterances = dialogue.split('\n')  # 각 발화는 줄바꿈으로 구분된다고 가정

        for utterance in utterances:
            incomplete_hangul = re.findall(consonants_and_vowels_pattern, utterance)
            if incomplete_hangul:
                results.append((fname, utterance))
    return results

incomplete_hangul_results = find_incomplete_hangul(TRAIN_NEW_PATH)

# 결과 출력
if incomplete_hangul_results:
    for fname, utterance in incomplete_hangul_results:
        print(f"File: {fname}")
        print(f"Utterance: {utterance}")
        print("-" * 40)
else:
    print("No incomplete Hangul characters found.")

File: train_3154
Utterance: #Person1#: 속았어! ㅋㅋ.. 완전 속았어. 
----------------------------------------
File: train_5385
Utterance: #Person2#: 먼저, 이것은 19세기 초 배경ㅇ로 설정된 로맨스 소설이에요.
----------------------------------------
File: train_5429
Utterance: #Person2#: ㅋㅋ
----------------------------------------
File: train_6942
Utterance: #Person2#: 'ㅣ'로 끝나는 이탈리아 이름 같네요. 
----------------------------------------
File: train_7201
Utterance: #Person1#: 편집장이 제ㅏ 다른 잡지에서 편집자로 일했던 경험이 있다는 걸 듣고, 그가 도우미 편집자가 되고 싶냐고 물어봤어요.
----------------------------------------
File: train_9677
Utterance: #Person1#: 이제 그만. 너는 아직ㅍ알맞는 사람을 만나지 못했을 뿐이고, 너는 너무 많이 일하는 것 같아. 너는 어떻게 즐기고 삶을 즐기는 법을 배워야 해.
----------------------------------------
File: train_12181
Utterance: #Person1#: 아무것도 안 했어. 그는 결국 나갔어. 그런데 오늘 또 그를 봤어. 신발 가게 밖에서. 카페 근처에서. 나는 CD 가게에 들어가서 CD를 보는 척했ㄷ거든. 그런데 그도 들어왔어.
----------------------------------------


In [4]:
incomplete_hangul_results = find_incomplete_hangul(DEV_NEW_PATH)

# 결과 출력
if incomplete_hangul_results:
    for fname, utterance in incomplete_hangul_results:
        print(f"File: {fname}")
        print(f"Utterance: {utterance}")
        print("-" * 40)
else:
    print("No incomplete Hangul characters found.")

No incomplete Hangul characters found.


In [5]:
incomplete_hangul_results = find_incomplete_hangul(TEST_NEW_PATH)

# 결과 출력
if incomplete_hangul_results:
    for fname, utterance in incomplete_hangul_results:
        print(f"File: {fname}")
        print(f"Utterance: {utterance}")
        print("-" * 40)
else:
    print("No incomplete Hangul characters found.")

No incomplete Hangul characters found.


In [6]:
def replace_text(dialogue, replacements):
    for old, new in replacements.items():
        dialogue = re.sub(re.escape(old), new, dialogue)
    return dialogue

def process_file(input_path, output_path, replacements):
    df = pd.read_csv(input_path)
    df['dialogue'] = df['dialogue'].apply(lambda x: replace_text(x, replacements))
    df.to_csv(output_path, index=False)
    print(f"Processed file saved to {output_path}")

if __name__ == "__main__":
    # Define the replacements
    replacements = {
        'ㅋㅋ': '웃겨',
        '배경ㅇ로': '배경으로',
        '제ㅏ': '제가',
        '아직ㅍ알맞는': '아직 알맞는',
        '척했ㄷ거든': '척 했거든'
    }

    # Define file paths
    input_files = [TRAIN_NEW_PATH]
    output_files = [TRAIN_NEW_PATH]

    # Process each file
    for input_path, output_path in zip(input_files, output_files):
        process_file(input_path, output_path, replacements)

Processed file saved to /dj/data/train_kkh_new.csv


In [7]:
incomplete_hangul_results = find_incomplete_hangul(TRAIN_NEW_PATH)

# 결과 출력
if incomplete_hangul_results:
    for fname, utterance in incomplete_hangul_results:
        print(f"File: {fname}")
        print(f"Utterance: {utterance}")
        print("-" * 40)
else:
    print("No incomplete Hangul characters found.")

File: train_6942
Utterance: #Person2#: 'ㅣ'로 끝나는 이탈리아 이름 같네요. 
----------------------------------------


In [8]:
def find_repeated_hangul(file_path):
    df = pd.read_csv(file_path)
    if 'dialogue' not in df.columns:
        raise ValueError("'dialogue' 열이 CSV 파일에 없습니다.")
    repeated_hangul_pattern = re.compile(r'([가-힣])\1{2,}')  # 동일 한글 글자가 3번 이상 연속하는 패턴
    
    results = []
    for _, row in df.iterrows():
        fname = row['fname']
        dialogue = row['dialogue']
        
        sentences = dialogue.split('\n')  # 각 문장은 줄바꿈으로 구분된다고 가정
        for sentence in sentences:
            repeated_hangul = re.findall(repeated_hangul_pattern, sentence)
            if repeated_hangul:
                results.append((fname, sentence))
    return results

repeated_hangul_results = find_repeated_hangul(TRAIN_NEW_PATH)

# 결과 출력
if repeated_hangul_results:
    for fname, sentence in repeated_hangul_results:
        print(f"File: {fname}")
        print(f"Sentence: {sentence}")
        print("-" * 40)
else:
    print("No repeated Hangul characters found.")

File: train_276
Sentence: #Person1#: 헤이, 그게 뭐예요? [아아아!]
----------------------------------------
File: train_460
Sentence: #Person2#: 아아아아아아
----------------------------------------
File: train_901
Sentence: #Person1#: (고통 속에서 울며) 아아아!
----------------------------------------
File: train_998
Sentence: #Person2#: 하하하, 너 피곤하다고 했잖아. 
----------------------------------------
File: train_1732
Sentence: #Person2#: 아아아아, 아아아아.
----------------------------------------
File: train_1907
Sentence: #Person1#: 아아아악!
----------------------------------------
File: train_2464
Sentence: #Person1#: 그냥 똑똑똑 떨어지는 정도입니다. 그것도 물이 아니죠.
----------------------------------------
File: train_2727
Sentence: #Person1#: 하하하, 아마 그게 너에게 체중 감량에 도움이 될지도 몰라. 
----------------------------------------
File: train_4271
Sentence: #Person2#: 잭, 너의 유머 감각이 그립다. 하하하! 세상에 너처럼 사는 사람은 처음 봤다. 넌 정말 천부적이야.
----------------------------------------
File: train_4401
Sentence: #Person2#: 아아아아악! 침이 고이기 시작하던 참인데!
----------------------------

In [9]:
repeated_hangul_results = find_repeated_hangul(DEV_NEW_PATH)

# 결과 출력
if repeated_hangul_results:
    for fname, sentence in repeated_hangul_results:
        print(f"File: {fname}")
        print(f"Sentence: {sentence}")
        print("-" * 40)
else:
    print("No repeated Hangul characters found.")

File: dev_334
Sentence: #Person1#: 아아아. 아직. 내가 식습관을 바꾸려고 결정했어.
----------------------------------------
File: dev_405
Sentence: #Person2#: 제제제... 여자들이란!
----------------------------------------


In [10]:
repeated_hangul_results = find_repeated_hangul(TEST_NEW_PATH)

# 결과 출력
if repeated_hangul_results:
    for fname, sentence in repeated_hangul_results:
        print(f"File: {fname}")
        print(f"Sentence: {sentence}")
        print("-" * 40)
else:
    print("No repeated Hangul characters found.")

No repeated Hangul characters found.


In [11]:
def replace_text(dialogue, replacements):
    for old, new in replacements.items():
        dialogue = re.sub(re.escape(old), new, dialogue)
    return dialogue

def process_file(input_path, output_path, replacements):
    df = pd.read_csv(input_path)
    df['dialogue'] = df['dialogue'].apply(lambda x: replace_text(x, replacements))
    df.to_csv(output_path, index=False)
    print(f"Processed file saved to {output_path}")

if __name__ == "__main__":
    # Define the replacements
    replacements = {
        '...': '.',
        '!!!': '!',
        '하하하': '하하',
        '아아아아아아': '아아',
        '아아아아아': '아아',
        '아아아아': '아아',
        '아아아': '아아',
        '똑똑똑': '똑똑',
        '키스스스스스': '키스',
        '허허허': '허허',
        '너어어어무': '너무',
        '헤헤헤': '헤헤',
        '으으으으': '으으',
        '제제제': '',
    }

    # Define file paths
    input_files = [TRAIN_NEW_PATH, DEV_NEW_PATH]
    output_files = [TRAIN_NEW_PATH, DEV_NEW_PATH]

    # Process each file
    for input_path, output_path in zip(input_files, output_files):
        process_file(input_path, output_path, replacements)

Processed file saved to /dj/data/train_kkh_new.csv
Processed file saved to /dj/data/dev_kkh_new.csv


In [12]:
repeated_hangul_results = find_repeated_hangul(TRAIN_NEW_PATH)

# 결과 출력
if repeated_hangul_results:
    for fname, sentence in repeated_hangul_results:
        print(f"File: {fname}")
        print(f"Sentence: {sentence}")
        print("-" * 40)
else:
    print("No repeated Hangul characters found.")

No repeated Hangul characters found.


In [13]:
repeated_hangul_results = find_repeated_hangul(DEV_NEW_PATH)

# 결과 출력
if repeated_hangul_results:
    for fname, sentence in repeated_hangul_results:
        print(f"File: {fname}")
        print(f"Sentence: {sentence}")
        print("-" * 40)
else:
    print("No repeated Hangul characters found.")

No repeated Hangul characters found.


In [14]:
def extract_odd_sharp_sentence(text):
    # 개행으로 문장을 분리
    sentences = text.split('\n')
    
    # 샵(#)이 홀수 개수로 있는 문장을 추출
    odd_sharp_sentences = [sentence for sentence in sentences if sentence.count('#') % 2 == 1]
    
    return odd_sharp_sentences

def extract_odd_sharp_from_file(file_path):
    df = pd.read_csv(file_path)
    
    extracted_texts = []
    for index, row in df.iterrows():
        fname = row['fname']
        text = row['dialogue']
        odd_sharp_sentences = extract_odd_sharp_sentence(text)
        
        for sentence in odd_sharp_sentences:
            extracted_texts.append(f"{fname}: {sentence.strip()}")
    
    return extracted_texts

odd_sharp_texts = extract_odd_sharp_from_file(TRAIN_NEW_PATH)
for text in odd_sharp_texts:
    print(text)

train_420: #Person2#: 제 사무실 번호는 #PhoneNumber이고, 휴대폰 번호는 #PhoneNumber#입니다. 오늘 하루 종일 휴대폰으로 언제든지 연락하실 수 있고, 사무실 번호로는 오후 6시 이전에 연락하실 수 있습니다.
train_839: #사람1만기 시 계정 갱신 서비스는 만기일이 다가오면 자동으로 갱신되며, 고객님이 직접 이곳에 오셔서 정리하실 필요가 없다는 뜻입니다. 여기에 서명만 하시면 저희가 모든 것을 설정해 드립니다.
train_1125: 사람1#: 제니, 이번 금요일에, 음. 바쁘세요?
train_1142: 사람1#: 실례합니다. 저는 STM에서 왔어요. 우리 도시의 교통에 대한 설문 조사를 하고 있는데, 몇 가지 질문해도 괜찮을까요?
train_1213: #하지만 장기간의 무중력 상태, 음식 저장, 일련의 생리적 영향 등 해결해야 할 다른 큰 문제들이 아직 남아 있습니다.
train_1236: #고객님, 크루즈 컨트롤에 대해 우려하는 고객들이 있다는 것을 알고 있습니다. 하지만 혼다는 크루즈 컨트롤 오작동으로 인한 사고가 단 한 건도 발생하지 않았습니다.
train_1250: #여기 있습니다. 스티븐스 씨가 준비되었습니다. 이쪽 사무실로 안내해 드리겠습니다.
train_1266: #고객님, 저희는 고객이 화나거나 불행한 상태로 머무는 것을 원치 않습니다.
train_1278: #고객님, 죄송합니다만 계산대에서 계산하셔야 합니다. 저기 있습니다.
train_1281: #잠깐만요, 버전 7 요구 사항을 불러올게요. . . 네, 저희의 예상이 고객님이 생각하신 것과 조금 다른 것은 당연하죠. 버전 7에는 버전 12에는 없던 호스티스 6명과 칵테일 셀프 서비스 바가 추가로 포함되어 있습니다. 이 프로젝트의 비용이 확실히 추가될 것입니다. . .
train_1283: #어디 보자. 네, 그런 방이 두 개 남았습니다. 성함이 어떻게 되시나요?
train_1301: #샐러드용 드레싱은 세 가지 종류가 있습니다. 이탈리안, 프렌치, 사

In [15]:
odd_sharp_texts = extract_odd_sharp_from_file(DEV_NEW_PATH)
for text in odd_sharp_texts:
    print(text)

dev_48: #다음 주 금요일 오전 10시에 베이징에서 출발하는 캐나다항공 30편이 있습니다. 좌석이 3개 있습니다. 괜찮을까요?
dev_63: #B형 계좌는 거래에 직접 관여할 수 없고 외부 출금 서비스도 이용할 수 없습니다.


In [16]:
odd_sharp_texts = extract_odd_sharp_from_file(TEST_NEW_PATH)
for text in odd_sharp_texts:
    print(text)

test_28: #Person2#: 6자리의 개인 식별 번호를 입력하고 #키를 눌러 주세요. 감사합니다. 옵션을 선택해 주세요. 감사합니다. 인출을 선택하셨습니다.


In [17]:
def replace_text(dialogue, replacements):
    for old, new in replacements.items():
        dialogue = re.sub(re.escape(old), new, dialogue)
    return dialogue

def process_file(input_path, output_path, replacements):
    df = pd.read_csv(input_path)
    df['dialogue'] = df['dialogue'].apply(lambda x: replace_text(x, replacements))
    df.to_csv(output_path, index=False)
    print(f"Processed file saved to {output_path}")

if __name__ == "__main__":
    # Define the replacements
    replacements = {
        '#사람1만기 시': '#Person1#: 만기 시',
        '사람1#:': '#Person1#:',
        '#하지만 장기간의': '하지만 장기간의',
        '#고객님, 크루즈': '고객님, 크루즈',
        '#여기 있습니다.': '여기 있습니다.',
        '#고객님,': '고객님,',
        '#잠깐만요,': '잠깐만요,',
        '#어디 보자.': '어디 보자.',
        '#샐러드용': '샐러드용',
        '#페리에와': '페리에와',
        '#나 부엌에 있어.': '나 부엌에 있어.',
        '#여기서 만나서': '여기서 만나서',
        '#작은 걸로': '작은 걸로',
        '#여기 있습니다.': '여기 있습니다.',
        '#Person1:': '#Person1#:',
        '#Person2:': '#Person2#:',
        'Person1#:': '#Person1#:',
        '#다음 주 금요일': '다음 주 금요일',
        '#B형 계좌는': 'B형 계좌는',
        '#PhoneNumber이고': '#PhoneNumber#이고',
        '회사 #에서': '회사에서',
        '##Person1#': '#Person1#',
        '##': '#'
    }

    # Define file paths
    input_files = [TRAIN_NEW_PATH, DEV_NEW_PATH]
    output_files = [TRAIN_NEW_PATH, DEV_NEW_PATH]

    # Process each file
    for input_path, output_path in zip(input_files, output_files):
        process_file(input_path, output_path, replacements)

Processed file saved to /dj/data/train_kkh_new.csv
Processed file saved to /dj/data/dev_kkh_new.csv


In [18]:
odd_sharp_texts = extract_odd_sharp_from_file(TRAIN_NEW_PATH)
for text in odd_sharp_texts:
    print(text)

train_8318: #Person1#: 그건 그냥 긴장 때문이야. 지금은 오른손만 연주해봐. 하나 둘 셋 넷 다섯 여섯, 타 티 트리플티. 좋아, 좋아. 변주를 잊지 마! 악보에 그 음표는 G#이라고 써있어.
train_8722: #Person1#: 그건 그냥 긴장해서 그래. 지금은 오른손만 연주해봐. 하나 둘 셋 넷 다섯 여섯, 타 티 트리플티. 좋아, 좋아. 변주를 잊지 마! 악보에는 그 음이 G#이어야 한다고 적혀있지만, 지금은 G이야. 이제 베이스 클레프를 추가해. 너무 빨리 가. 이 곡의 템포는 안단테야.


In [19]:
odd_sharp_texts = extract_odd_sharp_from_file(DEV_NEW_PATH)
for text in odd_sharp_texts:
    print(text)

In [20]:
train_df = pd.read_csv(TRAIN_NEW_PATH)

# List of target fname values
target_fnames = ['train_830', 'train_6812', 'train_7529', 'train_7551', 'train_7557', 'train_10062', 'train_10896', 'train_10897', 'train_10900']
print(train_df[train_df['fname'].isin(target_fnames)])

             fname                                           dialogue  \
830      train_830  #Person1#: 내일이 제 첫 출근인데, 어떤 옷을 입는 게 좋을까요?\n#Pe...   
6812    train_6812  #Person1#: 안녕하세요, 할머니. 다시 만나서 정말 좋아요.\n#Person...   
7529    train_7529  #Person1#: 안녕하세요, 저는 다니엘입니다. 저는 매니저 직책에 지원하고 있...   
7551    train_7551  #Person1#: 좋아, 최신 지도를 가지고 있어. 여기서 공항까지의 경로를 확인...   
7557    train_7557  #Person1#: 딩 씨, 안녕하세요? 저는 존 브라운입니다.\n#Person2#...   
10062  train_10062  #Person1#: 안녕하세요, 그린입니다.\n#Person2#: 아, 그린씨, 제...   
10896  train_10896  #Person1#: 기분이 어때?\r\n#Person2#: 나빠. 코가 계속 흐르고...   
10897  train_10897  #Person1#: 유럽 투어에 대한 정보를 좀 주실 수 있나요?\n#Person2...   
10900  train_10900  #Person1#: 좋아요, 테일러 씨, 시작해봅시다. 먼저, 마지막 직장에 대해 ...   

                                                 summary        topic  
830     #Person1#은 빌과 함께 졸업식에 참석한다. 그들은 졸업에 대한 감정을 표현한다.        복장 규정  
6812   Grandma gives Jack a racing car as a gift. The...  할머니를 데리러 가다  
7529   #Person1#은 자신이 MP3 플레이어와 스테레오 헤드폰을 가지고 있기 때문에 

In [21]:
train_df = train_df[~train_df['fname'].isin(target_fnames)]

In [22]:
print(train_df[train_df['fname'].isin(target_fnames)])

Empty DataFrame
Columns: [fname, dialogue, summary, topic]
Index: []


In [23]:
train_df.to_csv(TRAIN_NEW_PATH, index=False)

In [24]:
import warnings
warnings.filterwarnings('ignore', category=FutureWarning)

# Replacements to be checked
replacements = {
    'B :: 미아오 앙!': '미아오 앙!',
    ' 나는 **야.': ''
}

for old_text in replacements.keys():
    mask = train_df.applymap(lambda x: old_text in str(x))
    if mask.any().any():
        print(f"찾음:  {old_text}")
    else:
        print(f"없음:  {old_text}")

찾음:  B :: 미아오 앙!
찾음:   나는 **야.


In [25]:
for old_text, new_text in replacements.items():
    train_df = train_df.applymap(lambda x: str(x).replace(old_text, new_text))

In [26]:
for old_text in replacements.keys():
    mask = train_df.applymap(lambda x: old_text in str(x))
    if mask.any().any():
        print(f"찾음:  {old_text}")
    else:
        print(f"없음:  {old_text}")

없음:  B :: 미아오 앙!
없음:   나는 **야.


In [27]:
train_df.to_csv(TRAIN_NEW_PATH, index=False)