## 연속된 두 글자(train)

- 멀쩡한 '연속된 두 글자'는 예외 리스트에 추가하면서 계속 찾고 있지만, 너무 많고, 잘 못되어 보이는 '연속된 두 글자'가 없는 듯 하여, '연속된 세 글자'로 넘어감.

In [2]:
import pandas as pd
import re

def find_repeated_hangul(file_path, excluded_words):
    df = pd.read_csv(file_path)
    
    if 'dialogue' not in df.columns:
        raise ValueError("'dialogue' 열이 CSV 파일에 없습니다.")
    
    # 한글 자음과 모음의 유니코드 범위 정의
    repeated_hangul_pattern = re.compile(r'([가-힣])\1{1,}')
    
    results = []

    for _, row in df.iterrows():
        fname = row['fname']
        dialogue = row['dialogue']
        
        # 문장 단위로 분리
        sentences = dialogue.split('\n')  # 각 문장은 줄바꿈으로 구분된다고 가정

        for sentence in sentences:
            # 연속된 동일 한글 글자를 찾기 위한 정규 표현식
            repeated_hangul = re.findall(repeated_hangul_pattern, sentence)
            
            # 연속된 한글이 발견되었고, 제외할 단어가 포함되지 않은 경우
            if repeated_hangul and not any(excluded_word in sentence for excluded_word in excluded_words):
                results.append((fname, sentence))
    
    return results

if __name__ == "__main__":
    import platform
    
    os_name = platform.system()
    if os_name == 'Windows':
        PRE_PATH = ''
    elif os_name == 'Linux':
        PRE_PATH = '/kkh/'
    elif os_name == 'Darwin': # 맥
        PRE_PATH = '/kkh/'

    DATA_PATH = PRE_PATH + "data/"
    file_path = DATA_PATH + 'train.csv'  # 또는 'dev.csv'로 변경 가능
    
    excluded_words = ["몇몇", "멋지지", "각각", "내내", "천천히", "다다른", "종종", "뭔가가", "누군가가", "일일", "때때로", "축하하는지", "다가가면", "상상도", "상상해", "점점", "똑똑한", "뻣뻣", "부부", "강의의", "사업가가", "돌아서서", "방해해서", "튼튼", "이해해", "아니니", "지지력"]
    
    # 연속된 동일 한글 찾기
    repeated_hangul_results = find_repeated_hangul(file_path, excluded_words)
    
    # 결과 출력
    if repeated_hangul_results:
        for fname, sentence in repeated_hangul_results:
            print(f"File: {fname}")
            print(f"Sentence: {sentence}")
            print("-" * 40)
    else:
        print("No repeated Hangul characters found.")


File: train_92
Sentence: #Person1#: 썬샤인 호텔입니다. 좋은 아침입니다, 바바라입니다.
----------------------------------------
File: train_93
Sentence: #Person1#: 안녕하세요, 바바라님. 다시 오신 것을 환영합니다. 정말 멋져 보입니다.
----------------------------------------
File: train_93
Sentence: #Person1#: 바바라님, 가방 안에 뭐가 들어있나요? 책이나 돌이라도?
----------------------------------------
File: train_96
Sentence: #Person2#: 하하, 친구를 위해서라면 언제든 시간을 내줄 수 있어, 오늘 밤 어때?
----------------------------------------
File: train_141
Sentence: #Person1#: 매우 즐거웠어요. 이번이 제가 가본 여행 중에서 가장 흥미진진했던 여행 중 하나였어요. 이번이 중국에 오신 첫 여행이었나요?
----------------------------------------
File: train_172
Sentence: #Person1#: 린다, 그건 완벽한 추가가 될 것 같아요.
----------------------------------------
File: train_177
Sentence: #Person2#: 흥분하지 마세요, 제 개인적인 상상일 뿐입니다!
----------------------------------------
File: train_192
Sentence: #Person1#: 네, 그것은 21%를 차지합니다. 또한 외국어를 쓸모없다고 생각하고 전혀 관심을 가지지 않는 사람들도 약 15% 있습니다.
----------------------------------------
File: train_201
Sentence: #Person2#: 당신의 나라에서는 자

## 연속된 세 글자(train)

In [3]:
import pandas as pd
import re

def find_repeated_hangul(file_path, excluded_words):
    df = pd.read_csv(file_path)
    
    if 'dialogue' not in df.columns:
        raise ValueError("'dialogue' 열이 CSV 파일에 없습니다.")
    
    # 한글 자음과 모음의 유니코드 범위 정의
    repeated_hangul_pattern = re.compile(r'([가-힣])\1{2,}')  # 동일 한글 글자가 3번 이상 연속하는 패턴
    
    results = []

    for _, row in df.iterrows():
        fname = row['fname']
        dialogue = row['dialogue']
        
        # 문장 단위로 분리
        sentences = dialogue.split('\n')  # 각 문장은 줄바꿈으로 구분된다고 가정

        for sentence in sentences:
            # 연속된 동일 한글 글자를 찾기 위한 정규 표현식
            repeated_hangul = re.findall(repeated_hangul_pattern, sentence)
            
            # 연속된 한글이 발견되었고, 제외할 단어가 포함되지 않은 경우
            if repeated_hangul and not any(excluded_word in sentence for excluded_word in excluded_words):
                results.append((fname, sentence))
    
    return results

if __name__ == "__main__":
    import platform
    
    os_name = platform.system()
    if os_name == 'Windows':
        PRE_PATH = ''
    elif os_name == 'Linux':
        PRE_PATH = '/kkh/'
    elif os_name == 'Darwin': # 맥
        PRE_PATH = '/kkh/'

    DATA_PATH = PRE_PATH + "data/"
    file_path = DATA_PATH + 'train.csv'  # 또는 'dev.csv'로 변경 가능
    
    excluded_words = ["몇몇", "멋지지", "각각"]
    
    # 연속된 동일 한글 찾기
    repeated_hangul_results = find_repeated_hangul(file_path, excluded_words)
    
    # 결과 출력
    if repeated_hangul_results:
        for fname, sentence in repeated_hangul_results:
            print(f"File: {fname}")
            print(f"Sentence: {sentence}")
            print("-" * 40)
    else:
        print("No repeated Hangul characters found.")


File: train_276
Sentence: #Person1#: 헤이, 그게 뭐예요? [아아아!]
----------------------------------------
File: train_460
Sentence: #Person2#: 아아아아아아
----------------------------------------
File: train_901
Sentence: #Person1#: (고통 속에서 울며) 아아아!
----------------------------------------
File: train_998
Sentence: #Person2#: 하하하, 너 피곤하다고 했잖아. 
----------------------------------------
File: train_1732
Sentence: #Person2#: 아아아아, 아아아아.
----------------------------------------
File: train_1907
Sentence: #Person1#: 아아아악!
----------------------------------------
File: train_2464
Sentence: #Person1#: 그냥 똑똑똑 떨어지는 정도입니다. 그것도 물이 아니죠.
----------------------------------------
File: train_2727
Sentence: #Person1#: 하하하, 아마 그게 너에게 체중 감량에 도움이 될지도 몰라. 
----------------------------------------
File: train_4271
Sentence: #Person2#: 잭, 너의 유머 감각이 그립다. 하하하! 세상에 너처럼 사는 사람은 처음 봤다. 넌 정말 천부적이야.
----------------------------------------
File: train_4401
Sentence: #Person2#: 아아아아악! 침이 고이기 시작하던 참인데!
----------------------------

## 연속된 세 글자(dev)

In [4]:
import pandas as pd
import re

def find_repeated_hangul(file_path, excluded_words):
    df = pd.read_csv(file_path)
    
    if 'dialogue' not in df.columns:
        raise ValueError("'dialogue' 열이 CSV 파일에 없습니다.")
    
    # 한글 자음과 모음의 유니코드 범위 정의
    repeated_hangul_pattern = re.compile(r'([가-힣])\1{2,}')  # 동일 한글 글자가 3번 이상 연속하는 패턴
    
    results = []

    for _, row in df.iterrows():
        fname = row['fname']
        dialogue = row['dialogue']
        
        # 문장 단위로 분리
        sentences = dialogue.split('\n')  # 각 문장은 줄바꿈으로 구분된다고 가정

        for sentence in sentences:
            # 연속된 동일 한글 글자를 찾기 위한 정규 표현식
            repeated_hangul = re.findall(repeated_hangul_pattern, sentence)
            
            # 연속된 한글이 발견되었고, 제외할 단어가 포함되지 않은 경우
            if repeated_hangul and not any(excluded_word in sentence for excluded_word in excluded_words):
                results.append((fname, sentence))
    
    return results

if __name__ == "__main__":
    import platform
    
    os_name = platform.system()
    if os_name == 'Windows':
        PRE_PATH = ''
    elif os_name == 'Linux':
        PRE_PATH = '/kkh/'
    elif os_name == 'Darwin': # 맥
        PRE_PATH = '/kkh/'

    DATA_PATH = PRE_PATH + "data/"
    file_path = DATA_PATH + 'dev.csv'  # 또는 'dev.csv'로 변경 가능
    
    excluded_words = ["몇몇", "멋지지", "각각"]
    
    # 연속된 동일 한글 찾기
    repeated_hangul_results = find_repeated_hangul(file_path, excluded_words)
    
    # 결과 출력
    if repeated_hangul_results:
        for fname, sentence in repeated_hangul_results:
            print(f"File: {fname}")
            print(f"Sentence: {sentence}")
            print("-" * 40)
    else:
        print("No repeated Hangul characters found.")


File: dev_334
Sentence: #Person1#: 아아아. 아직. 내가 식습관을 바꾸려고 결정했어.
----------------------------------------
File: dev_405
Sentence: #Person2#: 제제제... 여자들이란!
----------------------------------------
