In [1]:
#############################################################################
# regular express를 이용한 말뭉치 정재하기
#
#############################################################################
# 정규화할 인자들
alphabetP=True            # False=알바벳 제거
numberP=True             # False=숫자제거
punctuationP=False       # False=특수문자 (, . ? !) 제거
symbolP=False            # False=괄호((), [], {}, ], ')등 제거

# 4번이상 반복되는 단어 중복 제거 (remove_repeat_wordP=2 : 2번만 호출)
# => 예: 안녕안녕안녕안녕 => 안녕안녕, 안녕 안녕 안녕 안녕 => 그대로(*띄어쓰기한 단어는 중복제거 안됨)
remove_repeat_wordP=2     

# 4번이상 반복되는 문자 중복 제거 (nremove_repeat_charP=2 : 2번만 호출)
# => 예: aaaaa => aa, aaa aaa aaa aaa => 그대로(*띄어쓰기한 문자는 중복제거 안됨)
remove_repeat_charP=2

# 정규화할 입력 text
in_txt_path = '../../../korpora/kowiki/kowiki-202206-nlp-corpus.txt'
#in_txt_path = '../../../korpora/moco/test-60.txt'

# 출력 text
out_txt_path = '../../../korpora/kowiki/re-kowiki-202206-nlp-corpus.txt'

# 삭제할 최대 길이 문장
remove_min_len = 30 # 20이면 20보다 작은문장은 제거함

remove_max_len = 600 # 1000자 보다 큰 문장은 제거함

print_count = 100000 # 10000번째마다 문장 출력해봄

In [2]:
# reqular 함수들 정의 
import re

doublespace_pattern = re.compile('\s+')
repeatchars_pattern = re.compile('(\w)\\1{3,}')
number_pattern = re.compile('[0-9]')
punctuation_pattern = re.compile('[,\.\?\!]')
symbol_pattern = re.compile('[()\[\]\{\}`]')
hangle_pattern = re.compile('[ㄱ-ㅎㅏ-ㅣ가-힣]')
alphabet_pattern = re.compile('[a-zA-Z]')

hangle_filter = re.compile('[^ㄱ-ㅎㅏ-ㅣ가-힣]')
hangle_number_filter = re.compile('[^ㄱ-ㅎㅏ-ㅣ가-힣0-9]')
text_filter = re.compile('[^ㄱ-ㅎㅏ-ㅣ가-힣a-zA-Z0-9,\.\?\!\"\'-()\[\]\{\}]')

##========================================================================
# 4번이상 반복되는 단어 중복 제거 (num_repeat=2 : 2번만 호출)
# => 예: 안녕안녕안녕안녕 => 안녕안녕, 안녕 안녕 안녕 안녕 => 그대로(*띄어쓰기한 단어는 중복제거 안됨)
repeatchars_patterns = [
    re.compile('(\w\w\w\w)\\1{3,}'),
    re.compile('(\w\w\w)\\1{3,}'),
    re.compile('(\w\w)\\1{3,}'),
    re.compile('(\w)\\1{3,}')
]

def normalizetoken(sentence, num_repeat=2):
    tokens = sentence.split()
    return ' '.join(_normalize_korean_token(token, num_repeat) for token in tokens)

def _normalize_korean_token(token, num_repeat=2):
    #print(token)
    #token = _normalize_emoji(token)
    token = _remove_repeat(token, num_repeat)
    return token

def _remove_repeat(token, num_repeat=2):
    if num_repeat > 0:
        for pattern in repeatchars_patterns:
            #print(pattern)
            token = pattern.sub('\\1' * num_repeat, token)
    return token
##========================================================================


def normalize(sentence, 
              alphabet=False, 
              number=False,
              punctuation=False, 
              symbol=False, 
              remove_repeat_word=0, 
              remove_repeat_char=0):

    sentence = text_filter.sub(' ', sentence)
    
    if not alphabet:
        sentence = alphabet_pattern.sub(' ', sentence)
    if not number:
        sentence = number_pattern.sub(' ', sentence)
    if not punctuation:
        sentence = punctuation_pattern.sub(' ', sentence)
    if not symbol:
        sentence = symbol_pattern.sub(' ', sentence)
    if remove_repeat_char > 0:
        sentence = repeatchars_pattern.sub('\\1' * remove_repeat_char, sentence)
        
    if remove_repeat_word > 0:
        sentence = normalizetoken(sentence, num_repeat=remove_repeat_word)
        
    return doublespace_pattern.sub(' ', sentence).strip()

In [3]:
## yield 를 이용하여 generator 함수 정의    
def get_generator_corpus(data, max_len: int=100000):
    
    #dataset = data
    dataset = list(set(data)) # ****중복 문장 제거(*순서 유지 안함)
    
    for start_idx in range(0, len(dataset), max_len):
        samples = dataset[start_idx : start_idx + max_len]
        yield samples

In [4]:
from tqdm.notebook import tqdm

# 1.분석할 text 읽어오기(한줄씩 읽어오기)
with open(in_txt_path, 'r', encoding='utf8') as f:
    #lines = f.read()
    lines = f.readlines()
    #print(lines)
        
training_corpus = get_generator_corpus(lines)
        
result=[]
count = 0
for lines in training_corpus:
    for line in tqdm(lines):
        
        #print(line)
        # false=제거함.
        clearline = normalize(line, 
                              alphabet=alphabetP, number=numberP, punctuation=punctuationP, symbol=symbolP, 
                              remove_repeat_word=remove_repeat_wordP, remove_repeat_char=remove_repeat_charP)
        
        clearline1=clearline.strip()
        count += 1
        if count % print_count == 0:  # print_count 째마다 출력해봄
            print(f'[{count}]{clearline1}')

        #if clearline1 not in result: # ****순서유지 중복 제거(*순서유지하는 경우 시간 오래걸림)

        # remove_min_len 보가 크고, remove_max_len 보다 작은 경우에만 저장
        clearline1_len = len(clearline1)
        if clearline1_len > remove_min_len and clearline1_len < remove_max_len: # 20자 이상인 경우에만 출력
            #print(clearline1)
            result.append(clearline1)
    
# 중복 문장 제거(*순서 유지 안함)
#result = list(set(clearlinelist))

print('\r\n===[out]====')
print(f'*len:{len(result)}')
count = 0
for line1 in result:
    print(line1)
    count += 1
    if count > 10:
        break

  0%|          | 0/100000 [00:00<?, ?it/s]

[100000]종전 패자조 결승과 최종 결승에 적용되었던 5전 3선승제를 패자 준결승전 승자결승부터 적용했다


  0%|          | 0/100000 [00:00<?, ?it/s]

[200000]또 2006년 12월에 내부를 다시 개장했다


  0%|          | 0/100000 [00:00<?, ?it/s]

[300000]1896년에 빛에 대한 자장의 영향을 연구하여 제이만 효과를 발견했다


  0%|          | 0/100000 [00:00<?, ?it/s]

[400000]처음 200대는 첫 번째 차량이 인도되기 전에 매진되었다


  0%|          | 0/100000 [00:00<?, ?it/s]

[500000]14세기에 들어 하프스 왕조는 침체를 겪는다


  0%|          | 0/100000 [00:00<?, ?it/s]

[600000]Channel MQZAO CREATE 2 on page 73


  0%|          | 0/100000 [00:00<?, ?it/s]

[700000]Ensure that the scrolling settings the maximum number ofcategories and the maximum number of series are large enough to cover thescope of the entire report results


  0%|          | 0/100000 [00:00<?, ?it/s]

[800000]소속기관 관리자는 소속기관 이하 부서의 문서 목록만을 조회 가능하다


  0%|          | 0/100000 [00:00<?, ?it/s]

[900000]일본 국내 최초의 프로 야구 리그 일본 야구 연맹 가 시작된 1936년 나고야군의 총감독으로 있던 고노 아쓰시가 스즈키 소타로에게 외국인 선수 소개를 부탁했는데 스즈키는 1934년에 대전했던 해리스를 고노에게 권했다 스즈키는 1934년에 구단 대표 자격으로 미국에 동행했다


  0%|          | 0/100000 [00:00<?, ?it/s]

[1000000]기호는 정보 전달이나 사고 감정 예술 등 정신 행위의 기능을 돕는 매체이다


  0%|          | 0/100000 [00:00<?, ?it/s]

[1100000]아테나고라스는 1886년 4월 6일 오스만 제국 당시 이오아니나 인근의 바실리콘에서 태어났다


  0%|          | 0/100000 [00:00<?, ?it/s]

[1200000]Tambourine Man은 뛰어난 딜런의 곡 해석과 피트 시거의 선율을 강렬하고 낭만적이며 다분히 팝 적인 오리지널과 섞은 그리고 밴드 초기에 진 클락이 만든 환상적인 음반이었다


  0%|          | 0/100000 [00:00<?, ?it/s]

[1300000]고속도로는 인천과 강릉을 연결해 주는 영동고속도로와 속초시와 삼척시를 연결해주는 동해고속도로가 있다


  0%|          | 0/100000 [00:00<?, ?it/s]

[1400000]Increasing the waiting time allows time for a large file to be sent across a network before the program putting the messages times out


  0%|          | 0/100000 [00:00<?, ?it/s]

[1500000]말이 굉장히 어려운 것 같아서 쉽게 풀어보면 1초에 몇 번 떨리는 지를 나타낸 것 이라고 할 수 있으며 단위는 헤르츠 Hz 를 사용한다


  0%|          | 0/100000 [00:00<?, ?it/s]

[1600000]물론 평화는 한시적인 것이었고 16세기 말부터 다시 상업적 이유로 포르투갈과의 분쟁이 재개되었다


  0%|          | 0/100000 [00:00<?, ?it/s]

[1700000]하지만 신정부군은 오즈와 미후네에서 사쓰마군 본진의 기야마를 협격하는 형세를 취했다


  0%|          | 0/100000 [00:00<?, ?it/s]

[1800000]CD 역시 초기판은 일련 번호가 적혀 있었으나 후에 발매된 CD들은 이것이 없어졌고 제목은 "The BEATLES"를 검은색 혹은 회색으로 표기하게 되었다


  0%|          | 0/100000 [00:00<?, ?it/s]

[1900000]"정형 미인"은 한국에서 제작된 장일호 감독의 1975년 영화이다


  0%|          | 0/100000 [00:00<?, ?it/s]

[2000000]In either case the manual page is agood place to start


  0%|          | 0/100000 [00:00<?, ?it/s]

[2100000]윈도우 XP의 경우 이상 트래픽 경고창 이 나타날 수 있습니다


  0%|          | 0/100000 [00:00<?, ?it/s]

[2200000]황족 출신 구니노미야 가문의 적출 소생으로 신위가 여왕 이었던 며느리에 대한 시기 데이메이 황후 자신은 고셋케인 구조 집안 출신이지만 적통이 아닌 서출이었다 같은 것으로 여겨지기도 한다 구니노미야 가문도 외척이라는 점을 내세워 제멋대로 구는 일이 많았으므로 이 점도 데이메이 황태후가 나가코 황후를 좋게 봐주지 않았던 요인으로 여겨지고 있다


  0%|          | 0/100000 [00:00<?, ?it/s]

[2300000]그러나 또 미국이 개입하면서 아르벤스 정권이 무너지자 사임하고 다시 멕시코로 돌아가 교육과 출판에 관련된 일에 전념했다


  0%|          | 0/100000 [00:00<?, ?it/s]

[2400000]1591년 31세에 예조참판 으로서 조선시대 최연소의 나이로 대제학이 되었다


  0%|          | 0/100000 [00:00<?, ?it/s]

[2500000]학교 내 전체 학생을 대표하는 학생기구다


  0%|          | 0/100000 [00:00<?, ?it/s]

[2600000]" 라고 입장을 밝히며 현재 아모레퍼시픽은 "동해" 표시 지도로 교체한 상황이다


  0%|          | 0/100000 [00:00<?, ?it/s]

[2700000]다른 콩과 식물과 마찬가지로 열매는 협과이다


  0%|          | 0/100000 [00:00<?, ?it/s]

[2800000]그러나 이 부등식은 마르코프의 스승인 파프누티 체비쇼프가 먼저 발견하였다


  0%|          | 0/100000 [00:00<?, ?it/s]

[2900000]주전 3루수로 활동하면서 1994년 LG 트윈스의 2번째 우승에 기여하고 골든 글러브도 받았다


  0%|          | 0/100000 [00:00<?, ?it/s]

[3000000]2013년 10월 17일 로스차일드는 양키스와 남아있는 데 1년 계약을 맺었다


  0%|          | 0/100000 [00:00<?, ?it/s]

[3100000]라고 평가하고 율곡이야말로 만세토록 태평성대의 나라를 세우려 했으니 그 공로가 원대하다 말하겠다며 극찬하였다


  0%|          | 0/100000 [00:00<?, ?it/s]

[3200000]Dynatrace는 Google Amazon Twitter 및 LinkedIn을 포함한 1 000 개 이상의 타사 컨텐츠 공급자를 자동으로 인식합니다


  0%|          | 0/100000 [00:00<?, ?it/s]

[3300000]A process should describe which activities are performed together and the order in which activities are performed


  0%|          | 0/100000 [00:00<?, ?it/s]

[3400000]반면 형 이론이나 새 기초 등의 체계에서는 이 정의를 그대로 사용할 수 있다


  0%|          | 0/100000 [00:00<?, ?it/s]

[3500000]Set up region 1 with a shared lock from bytes 10 to 30


  0%|          | 0/100000 [00:00<?, ?it/s]

[3600000]1992년 공산정권이 붕괴하자 칼리스는 아프가니스탄 이슬람국 정부수립에 참여했다


  0%|          | 0/100000 [00:00<?, ?it/s]

[3700000]파이어폭스 3은 웹 페이지를 보여주기 위해 모질라 게코 레이아웃 엔진 버전 1


  0%|          | 0/100000 [00:00<?, ?it/s]

[3800000]For more information about the properties of a destination and the methods used to set its properties see Properties of WebSphere MQ classes for JMS objects on page 171


  0%|          | 0/100000 [00:00<?, ?it/s]

[3900000]We consider a transition to be atomic although we allow switches between different transition networks ifan object has more than one


  0%|          | 0/100000 [00:00<?, ?it/s]

[4000000]청주 신항서원 과 청안 의 구계서원 에 제향되어 있다


  0%|          | 0/100000 [00:00<?, ?it/s]

[4100000]If you are using a file system this can be the local file system or a shared drive


  0%|          | 0/100000 [00:00<?, ?it/s]

[4200000]2 는 큐 관리자가 현재 종료되었다가 재시작된 경우 페이지 세트 매체 복원과 관련됩니다


  0%|          | 0/100000 [00:00<?, ?it/s]

[4300000]이 곳에는 선사시대의 많은 그림들이 남아있으며 이러한 선사시대의 유적을 보호하기 위해 국립공원으로 지정되어 관리되고 있다


  0%|          | 0/100000 [00:00<?, ?it/s]

[4400000]사업범위 및 사용자 요구분석 내용을 요구분석 정의서에 모두 포함할 것


  0%|          | 0/100000 [00:00<?, ?it/s]

[4500000]모든 것을 집어삼키는 욕망의 프리마돈나 VS 상류사회 입성을 향해 질주하는 여자들의 채워질 수 없는 일그러진 욕망으로 집값 1번지 교육 1번지에서 벌이는 부동산과 교육 스토리를 담은 작품


  0%|          | 0/100000 [00:00<?, ?it/s]

[4600000]그 때문인지 할머니와 어린 남동생 등 세 사람이 생활하고 있던 유년 시절의 에노모토는 가난 때문에 고생하게 됐다


  0%|          | 0/100000 [00:00<?, ?it/s]

[4700000]A publish subscribe topology consists of the brokers the Collectives and the connections between them that support publish subscribe applications in the broker domain


  0%|          | 0/100000 [00:00<?, ?it/s]

[4800000]1931년 그의 아들 Richard Morszeck이 이 기업에서 활동을 시작하여 베를린의 독일 특허 사무소에서 RIMOWA 상표를 등록하였다


  0%|          | 0/100000 [00:00<?, ?it/s]

[4900000]일부 연방은 헌법을 비준할 때 이러한 수정안을 구체적으로 요구하였고 다른 연방은 권리 장전이 곧 추가된다는 조건으로 헌법을 비준했다


  0%|          | 0/100000 [00:00<?, ?it/s]

[5000000]2012년 7월부터 현재까지 꾸준히 쓰고 있는 '한 초선 일지'를 통해 자신의 생각을 자주 드러내고 있다


  0%|          | 0/100000 [00:00<?, ?it/s]

[5100000]시민연대사회 civil solidary society 란 시민적 연대가 확고히 자리 잡은 사회 즉 높은 수준의 시민적 연대를 특징으로 하는 사회를 뜻한다


  0%|          | 0/100000 [00:00<?, ?it/s]

[5200000]웃긴대학의 불공정약관 심사청구가 계기였다


  0%|          | 0/100000 [00:00<?, ?it/s]

[5300000]판톤 의자 는 덴마크의 디자이너 베르너 판톤이 1960년대에 제작한 S 모양 플라스틱 의자이다


  0%|          | 0/100000 [00:00<?, ?it/s]

[5400000]This procedure describes how to determine if a BFILE LOB locator is initialized


  0%|          | 0/100000 [00:00<?, ?it/s]

[5500000]In order to preserve the contents of one page to the next there are a number of approaches that can work


  0%|          | 0/100000 [00:00<?, ?it/s]

[5600000]Your implementation would also need to create a Transaction implementation which is also a very simple interface


  0%|          | 0/100000 [00:00<?, ?it/s]

[5700000]The message was sent succesfully but an incomplete message group has been sent and the message was not the next message in the group


  0%|          | 0/100000 [00:00<?, ?it/s]

[5800000]If REC TYPE is SPACES DATA REC and LEN areignored no application data is passed to the conversational service


  0%|          | 0/100000 [00:00<?, ?it/s]

[5900000]It arranges for the command to ignore TERM signals


  0%|          | 0/100000 [00:00<?, ?it/s]

[6000000]2012년 하계 올림픽 감비아 선수단은 영국 런던에서 개최된 2012년 하계 올림픽에 참가한 올림픽 감비아 선수단이다


  0%|          | 0/57204 [00:00<?, ?it/s]


===[out]====
*len:5334644
인쇄 차단 알림 인쇄 차단된 경우 차단된 프로그램과 파일명 등을 알림 메시지로 보여줍니다
예를 들어 아오 역에서 오사카난바 역까지의 연락 승차권은 구입할 수 없기 때문에 고베 전철 쪽에서 니시쿠조를 지나 승차하는 경우에는 일단 승차역에서 니시쿠조까지의 연락 승차권을 구입해 내리는 역의 정산기에서 부족한 운임을 정산해야 한다
수리논리학에서 2차 논리 는 임의의 다항 관계 및 다항 연산에 대한 변수 및 이에 대한 전칭 존재 기호를 사용할 수 있는 논리이다
이러한 애트리뷰트를 작성한 후 선택한 애트리뷰트에 대해 다음 설명 양식을 작성하십시오
또한 단일 로그인 기능은 기존 인증 서비스와 통합되어야 하기 때문에 인증 Authentication 서비스와 긴밀하게 관련되어 있습니다
2015년 기준으로 이 시리즈는 199억 달러의 가치가 있는 것으로 추정된다
그녀는 단체 종합에서 금메달을 획득했고 개인 종합에서 동메달을 땄다
여전히 공연 무대에 서고 새 음반도 녹음에 들어갔지만 1990년 11월 1일 김현식은 서울 동부이촌동 자택에서 간경화로 사망했다
몸 때문에 생긴 그림자의 부재 가는 선으로 테두리가 둘러쳐진 '얕게' 채색된 화면 이례적인 원근법 풍경 속에서 아주 작게 묘사된 인물들이 그런 원칙들이었다
2부리그에서 1위로 13년 만에 1부리그 복귀에 성공시켰다
AMQ7902 The data conversion exit 3 was notloaded


In [5]:
# 리스트를 파일로 저장
with open(out_txt_path, 'w', encoding='utf8') as f:
    f.write('\n'.join(result))