In [None]:
################################################################################################
# 입력 폴더에 말뭉치들을 regular express 처리하는 예제
################################################################################################

import os

# 입력 폴더 말뭉치 파일명들을 리스트로 얻어옴
in_folder_path = '../../../korpora/moco/txt'
file_list = os.listdir(in_folder_path)
print(file_list)

# 출력 폴더 지정. 없으면 폴더 생성
out_folder_path = '../../../korpora/moco/re-txt'
os.makedirs(out_folder_path, exist_ok=True)

In [None]:
#############################################################################
# regular express를 이용한 말뭉치 정재하기
#
#############################################################################
# 정규화할 인자들
alphabetP=True           # False=알바벳 제거
numberP=True             # False=숫자제거
punctuationP=False       # False=특수문자 (, . ? !) 제거
symbolP=False            # False=괄호((), [], {}, ], ')등 제거
repeat_numP=True        # False=반복되는 숫자+공백 제거 
remove_start_stringP=False     # False=해당 패턴으로 시작하는 문장 제거
remove_search_stringP=False     # False=해당 패턴 포함하는 문장 제거

# 4번이상 반복되는 단어 중복 제거 (remove_repeat_wordP=2 : 2번만 호출)
# => 예: 안녕안녕안녕안녕 => 안녕안녕, 안녕 안녕 안녕 안녕 => 그대로(*띄어쓰기한 단어는 중복제거 안됨)
remove_repeat_wordP=2     

# 4번이상 반복되는 문자 중복 제거 (nremove_repeat_charP=2 : 2번만 호출)
# => 예: aaaaa => aa, aaa aaa aaa aaa => 그대로(*띄어쓰기한 문자는 중복제거 안됨)
remove_repeat_charP=2

# 정규화할 입력 text
in_txt_path = '../../data11/my_corpus/kowiki-202206.txt'
#in_txt_path = '../../../korpora/moco/test-60.txt'

# 출력 text
out_txt_path = '../../data11/my_corpus/re-kowiki-202206.txt'

# 삭제할 최대 길이 문장
remove_min_len = 30 # 20이면 20보다 작은문장은 제거함

remove_max_len = 600 # 1000자 보다 큰 문장은 제거함

print_count = 100000 # 10000번째마다 문장 출력해봄

In [None]:
# reqular 함수들 정의 

# \d	숫자 [0-9]와 같다.
# \D	비숫자 [^0-9]와 같다.
# \w	숫자 + 문자 [a-zA-Z0-9]와 같다.
# \W	숫자 + 문자가 아닌 것 [^a-zA-Z0-9]와 같다.
# \s	공백 [ \t\n\r\f\v]와 같다.
# \S	비공백 [^ \t\n\r\f\v]와 같다.
# \b	단어 경계 (`\w`와 `\W`의 경계)
# \B	비단어 경계

import re

doublespace_pattern = re.compile('\s+')
repeatchars_pattern = re.compile('(\w)\\1{3,}')
number_pattern = re.compile('[0-9]')
punctuation_pattern = re.compile('[,\.\?\!]')
symbol_pattern = re.compile('[()\[\]\{\}`]')
hangle_pattern = re.compile('[ㄱ-ㅎㅏ-ㅣ가-힣]')
alphabet_pattern = re.compile('[a-zA-Z]')

hangle_filter = re.compile('[^ㄱ-ㅎㅏ-ㅣ가-힣]')
hangle_number_filter = re.compile('[^ㄱ-ㅎㅏ-ㅣ가-힣0-9]')
text_filter = re.compile('[^ㄱ-ㅎㅏ-ㅣ가-힣a-zA-Z0-9,\.\?\!\"\'-()\[\]\{\}]')

# 반복되는 숫자+띄어쓰기 패턴 제거 => 예: 12 13 14 11, 1 2 3 4 
repeat_number_pattern = [
    re.compile('\d\d\s\d\s'),
    re.compile('\d\s\d\d\s'),
    re.compile('\d\d\s\d\d\s'),
    re.compile('\d\s\d\s'),
]

# 아래 패턴으로 시작하는 문장은 제거함
# => 시작 문장이 아래 패턴이어야 함, 중간에 있는 경우 제거 안됨
# => match 사용
start_string_list = [
    re.compile("UPDATE ", re.IGNORECASE),
    re.compile("ALTER ", re.IGNORECASE),
    re.compile("CREATE ", re.IGNORECASE),  
    re.compile("IX A F", re.IGNORECASE), 
    re.compile("INPUTQM ", re.IGNORECASE), 
    re.compile('echo " ', re.IGNORECASE), 
    re.compile('MQCMD " ', re.IGNORECASE), 
    re.compile('COMMENT ON " ', re.IGNORECASE), 
    re.compile('FCFD'),
    re.compile('FFLD'),
    re.compile('ELSIF'),
    re.compile('ELEMENT ERR'),
    re.compile('BMSUSER IX'),
    re.compile('PK A ADJ'),
    re.compile('WMQ File'),
    re.compile('IBM SMART ANALYTICS'),
    re.compile('KHUB KIC'),  
    re.compile('V 0x'),   
    re.compile('PK A '),    
    re.compile('N4 A '),    
   
    
]

# 아래 패턴을 포함하는 문장은 제거함
# => search 사용
search_string_list = [
    re.compile("SQL SELECT ", re.IGNORECASE), # re.IGNORECASE = 대.소문자 구분 안함
    re.compile('SELECT COUNT ', re.IGNORECASE),
    re.compile("INSERT INTO ", re.IGNORECASE), 
    re.compile("SELECT FROM ", re.IGNORECASE),
    re.compile("SELECT LOG ", re.IGNORECASE),
    re.compile("SELECT STR ", re.IGNORECASE),
    re.compile("DELETE FROM ", re.IGNORECASE),
    re.compile('CString ', re.IGNORECASE), 
    re.compile('ULONG ', re.IGNORECASE), 
    re.compile('ULONGLONG " ', re.IGNORECASE), 
    re.compile('PUCHAR " ', re.IGNORECASE), 
    re.compile('VARCHAR ', re.IGNORECASE), 
    re.compile('ONLTEAISO ', re.IGNORECASE), 
    re.compile('EAI TRNS ', re.IGNORECASE), 
    re.compile('COMMENT ON ', re.IGNORECASE), 
    re.compile('DEFINE PROCESS ', re.IGNORECASE), 
    re.compile('EXEC SQL ', re.IGNORECASE), 
    re.compile('REPLACE DTL ', re.IGNORECASE), 
    re.compile(' Exception e ', re.IGNORECASE), 
    re.compile(' CASE WHEN ', re.IGNORECASE),  
    re.compile('public void ', re.IGNORECASE),  
    re.compile('DWORD ', re.IGNORECASE),  
    re.compile('DEBUG ', re.IGNORECASE),    
]

##========================================================================
# 4번이상 반복되는 단어 중복 제거 (num_repeat=2 : 2번만 호출)
# => 예: 안녕안녕안녕안녕 => 안녕안녕, 안녕 안녕 안녕 안녕 => 그대로(*띄어쓰기한 단어는 중복제거 안됨)
repeatchars_patterns = [
    re.compile('(\w\w\w\w)\\1{3,}'),
    re.compile('(\w\w\w)\\1{3,}'),
    re.compile('(\w\w)\\1{3,}'),
    re.compile('(\w)\\1{3,}')
]

def normalizetoken(sentence, num_repeat=2):
    tokens = sentence.split()
    return ' '.join(_normalize_korean_token(token, num_repeat) for token in tokens)

def _normalize_korean_token(token, num_repeat=2):
    #print(token)
    #token = _normalize_emoji(token)
    token = _remove_repeat(token, num_repeat)
    return token

def _remove_repeat(token, num_repeat=2):
    if num_repeat > 0:
        for pattern in repeatchars_patterns:
            #print(pattern)
            token = pattern.sub('\\1' * num_repeat, token)
    return token
##========================================================================


def normalize(sentence, 
              alphabet=False, 
              number=False,
              punctuation=False, 
              symbol=False, 
              repeat_num=False,
              remove_start_string=False,
              remove_search_string=False,
              remove_repeat_word=0, 
              remove_repeat_char=0):

    sentence = text_filter.sub(' ', sentence)
    
    # 패턴으로 시작하는 문장은 제거함
    # =>**만약 시작패턴이 아니라 중간에 있는 패턴도 제거하려면 match=>search 사용
    if not remove_start_string:
        for pattern in start_string_list:
            result = pattern.match(sentence)
            if result != None:
                 return None
    
    # 패턴이 포함된 문장은 제거함=>search 사용
    if not remove_search_string:
        for pattern in search_string_list:
            result = pattern.search(sentence)
            if result != None:
                 return None
                
    if not alphabet:
        sentence = alphabet_pattern.sub(' ', sentence)
        
    if not number:
        sentence = number_pattern.sub(' ', sentence)
        
    if not punctuation:
        sentence = punctuation_pattern.sub(' ', sentence)
        
    if not symbol:
        sentence = symbol_pattern.sub(' ', sentence)
        
    if not repeat_num:
        for num_pattern in repeat_number_pattern:
             sentence = num_pattern.sub(' ', sentence)
            
    if remove_repeat_char > 0:
        sentence = repeatchars_pattern.sub('\\1' * remove_repeat_char, sentence)
        
    if remove_repeat_word > 0:
        sentence = normalizetoken(sentence, num_repeat=remove_repeat_word)
        
    return doublespace_pattern.sub(' ', sentence).strip()

In [None]:
## yield 를 이용하여 generator 함수 정의    
def get_generator_corpus(data, max_len: int=100000):
    
    #dataset = data
    dataset = list(set(data)) # ****중복 문장 제거(*순서 유지 안함)
    
    for start_idx in range(0, len(dataset), max_len):
        samples = dataset[start_idx : start_idx + max_len]
        yield samples

In [None]:
from tqdm.notebook import tqdm

for filename in file_list:
    in_txt_path = in_folder_path+'/'+filename  # 입력 말뭉치 파일 풀경로 
    out_txt_path = out_folder_path+'/'+filename# 출력 파일 풀경로 
    
    # 1.분석할 text 읽어오기(한줄씩 읽어오기)
    with open(in_txt_path, 'r', encoding='utf8') as f:
        #lines = f.read()
        lines = f.readlines()
        #print(lines)

    training_corpus = get_generator_corpus(lines)

    result=[]
    count = 0
    for lines in training_corpus:
        for line in tqdm(lines):

            #print(line)
            # false=제거함.
            clearline = normalize(line, 
                              alphabet=alphabetP, number=numberP, punctuation=punctuationP, 
                              symbol=symbolP, repeat_num=repeat_numP, remove_start_string=remove_start_stringP,
                              remove_search_string = remove_search_stringP,
                              remove_repeat_word=remove_repeat_wordP, remove_repeat_char=remove_repeat_charP)

            if clearline != None:
                clearline1=clearline.strip()
                count += 1
                if count % print_count == 0:  # print_count 째마다 출력해봄
                    print(f'[{count}]{clearline1}')

                #if clearline1 not in result: # ****순서유지 중복 제거(*순서유지하는 경우 시간 오래걸림)

                # remove_min_len 보가 크고, remove_max_len 보다 작은 경우에만 저장
                if clearline1 != None:
                    clearline1_len = len(clearline1)
                    if clearline1_len > remove_min_len and clearline1_len < remove_max_len: # 20자 이상인 경우에만 출력
                        #print(clearline1)
                        result.append(clearline1)

    # 중복 문장 제거(*순서 유지 안함)
    #result = list(set(clearlinelist))

    print(f'*len:{len(result)}')
            
   # 리스트를 파일로 저장
    with open(out_txt_path, 'w', encoding='utf8') as f:
        f.write('\n'.join(result)) 

In [2]:
# OUT 파일들을 병합하여 하나의 파일로 만듬.
import os
#out_folder_path = '../../../korpora/moco/re-txt'

# 입력 폴더 말뭉치 파일명들을 리스트로 얻어옴
file_list = os.listdir(out_folder_path)
print(file_list)

out_file = '../../../korpora/moco/re-txt/0-moco-corpus2-t.txt'

with open(out_file, 'w', encoding='utf8') as outfile:
    for filename in file_list:
        in_txt_path = out_folder_path+'/'+filename  # 출력 파일 풀경로 
        with open(in_txt_path, 'r', encoding='utf8') as file:
            for line in file:
                outfile.write(line)

['moco (1).txt', 'moco (10).txt', 'moco (100).txt', 'moco (101).txt', 'moco (102).txt', 'moco (103).txt', 'moco (104).txt', 'moco (105).txt', 'moco (106).txt', 'moco (107).txt', 'moco (108).txt', 'moco (109).txt', 'moco (11).txt', 'moco (110).txt', 'moco (111).txt', 'moco (112).txt', 'moco (113).txt', 'moco (114).txt', 'moco (115).txt', 'moco (116).txt', 'moco (117).txt', 'moco (118).txt', 'moco (119).txt', 'moco (12).txt', 'moco (120).txt', 'moco (121).txt', 'moco (122).txt', 'moco (123).txt', 'moco (124).txt', 'moco (125).txt', 'moco (126).txt', 'moco (127).txt', 'moco (128).txt', 'moco (129).txt', 'moco (13).txt', 'moco (130).txt', 'moco (131).txt', 'moco (132).txt', 'moco (133).txt', 'moco (134).txt', 'moco (135).txt', 'moco (136).txt', 'moco (137).txt', 'moco (138).txt', 'moco (139).txt', 'moco (14).txt', 'moco (140).txt', 'moco (141).txt', 'moco (142).txt', 'moco (143).txt', 'moco (144).txt', 'moco (145).txt', 'moco (146).txt', 'moco (147).txt', 'moco (148).txt', 'moco (149).txt'