## 모음 또는 자음만 적힌 경우(train)

In [4]:
import pandas as pd
import re

def find_incomplete_hangul(file_path):
    df = pd.read_csv(file_path)
    
    if 'dialogue' not in df.columns:
        raise ValueError("'dialogue' 열이 CSV 파일에 없습니다.")
    
    # 한글 자음과 모음의 유니코드 범위 정의
    consonants_and_vowels_pattern = re.compile(r'[ㄱ-ㅎㅏ-ㅣ]+')
    
    results = []

    for _, row in df.iterrows():
        fname = row['fname']
        dialogue = row['dialogue']
        
        # 발화 단위로 분리
        utterances = dialogue.split('\n')  # 각 발화는 줄바꿈으로 구분된다고 가정

        for utterance in utterances:
            # 자음과 모음으로만 이루어진 문자열을 찾기 위한 정규 표현식
            incomplete_hangul = re.findall(consonants_and_vowels_pattern, utterance)
            
            if incomplete_hangul:
                results.append((fname, utterance))
    
    return results

if __name__ == "__main__":
    import platform
    
    os_name = platform.system()
    if os_name == 'Windows':
        PRE_PATH = ''
    elif os_name == 'Linux':
        PRE_PATH = '/kkh/'
    elif os_name == 'Darwin': # 맥
        PRE_PATH = '/kkh/'

    DATA_PATH = PRE_PATH + "data/"
    file_path = DATA_PATH + 'train.csv'  # 또는 'dev.csv'로 변경 가능
    
    # 불완전한 한글 찾기
    incomplete_hangul_results = find_incomplete_hangul(file_path)
    
    # 결과 출력
    if incomplete_hangul_results:
        for fname, utterance in incomplete_hangul_results:
            print(f"File: {fname}")
            print(f"Utterance: {utterance}")
            print("-" * 40)
    else:
        print("No incomplete Hangul characters found.")


File: train_3154
Utterance: #Person1#: 속았어! ㅋㅋ.. 완전 속았어. 
----------------------------------------
File: train_5385
Utterance: #Person2#: 먼저, 이것은 19세기 초 배경ㅇ로 설정된 로맨스 소설이에요.
----------------------------------------
File: train_5429
Utterance: #Person2#: ㅋㅋ
----------------------------------------
File: train_6942
Utterance: #Person2#: 'ㅣ'로 끝나는 이탈리아 이름 같네요. 
----------------------------------------
File: train_7201
Utterance: #Person1#: 편집장이 제ㅏ 다른 잡지에서 편집자로 일했던 경험이 있다는 걸 듣고, 그가 도우미 편집자가 되고 싶냐고 물어봤어요.
----------------------------------------
File: train_9677
Utterance: #Person1#: 이제 그만. 너는 아직ㅍ알맞는 사람을 만나지 못했을 뿐이고, 너는 너무 많이 일하는 것 같아. 너는 어떻게 즐기고 삶을 즐기는 법을 배워야 해.
----------------------------------------
File: train_12181
Utterance: #Person1#: 아무것도 안 했어. 그는 결국 나갔어. 그런데 오늘 또 그를 봤어. 신발 가게 밖에서. 카페 근처에서. 나는 CD 가게에 들어가서 CD를 보는 척했ㄷ거든. 그런데 그도 들어왔어.
----------------------------------------


## 모음 또는 자음만 적힌 경우(dev)

In [3]:
import pandas as pd
import re

def find_incomplete_hangul(file_path):
    df = pd.read_csv(file_path)
    
    if 'dialogue' not in df.columns:
        raise ValueError("'dialogue' 열이 CSV 파일에 없습니다.")
    
    # 한글 자음과 모음의 유니코드 범위 정의
    consonants_and_vowels_pattern = re.compile(r'[ㄱ-ㅎㅏ-ㅣ]+')
    
    results = []

    for _, row in df.iterrows():
        fname = row['fname']
        dialogue = row['dialogue']
        
        # 발화 단위로 분리
        utterances = dialogue.split('\n')  # 각 발화는 줄바꿈으로 구분된다고 가정

        for utterance in utterances:
            # 자음과 모음으로만 이루어진 문자열을 찾기 위한 정규 표현식
            incomplete_hangul = re.findall(consonants_and_vowels_pattern, utterance)
            
            if incomplete_hangul:
                results.append((fname, utterance))
    
    return results

if __name__ == "__main__":
    import platform
    
    os_name = platform.system()
    if os_name == 'Windows':
        PRE_PATH = ''
    elif os_name == 'Linux':
        PRE_PATH = '/kkh/'
    elif os_name == 'Darwin': # 맥
        PRE_PATH = '/kkh/'

    DATA_PATH = PRE_PATH + "data/"
    file_path = DATA_PATH + 'dev.csv'  # 또는 'dev.csv'로 변경 가능
    
    # 불완전한 한글 찾기
    incomplete_hangul_results = find_incomplete_hangul(file_path)
    
    # 결과 출력
    if incomplete_hangul_results:
        for fname, utterance in incomplete_hangul_results:
            print(f"File: {fname}")
            print(f"Utterance: {utterance}")
            print("-" * 40)
    else:
        print("No incomplete Hangul characters found.")


No incomplete Hangul characters found.
