# Preprocess for Language Model

수집한 Corpus를 통합하여 일련의 규칙으로 전처리

* 필요한 라이브러리 import

In [1]:
import pandas as pd
import numpy as np
import random
import pickle

* 수집한 corpus 통합

In [2]:
kor_corpus = pd.read_csv('../data/OpenSubtitles.csv', encoding='utf-8')
sub_corpus = pd.read_csv('../data/new_kor.csv', encoding='cp949')
kor_corpus = pd.concat([kor_corpus, sub_corpus])

sub_corpus = pd.read_csv('../data/tatoeba.csv', encoding='utf-8')
kor_corpus = pd.concat([kor_corpus, sub_corpus])

sub_corpus = pd.read_csv('../data/네이버 해커톤 데이터셋.csv', encoding='utf-8', engine='python')
kor_corpus = pd.concat([kor_corpus, sub_corpus])

for i in range(10):
    sub_corpus = pd.read_csv('../data/AI Hub 한-영 데이터셋[%s].csv' % i, encoding='utf-8', engine='python')
    kor_corpus = pd.concat([kor_corpus, sub_corpus])

* corpus 크기 확인

In [3]:
len(kor_corpus)

3048264

* 코퍼스 내용 확인

In [4]:
kor_corpus.head()

Unnamed: 0,ko
0,"폭설이 내리고 우박, 진눈깨비가 퍼부어도 눈보라가 몰아쳐도 강풍이 불고 비바람이 휘..."
1,우리의 한결같은 심부름꾼 황새 아저씨 가는 길을 그 누가 막으랴!
2,황새 아저씨를 기다리세요
3,찾아와 선물을 주실 거예요
4,가난하든 부자이든 상관이 없답니다


* list로 변환 및 shuffle (기존에는 그냥 concatenate 했기 때문에 섞어줌)

In [5]:
kor_corpus = list(kor_corpus['ko'])
random.shuffle(kor_corpus)
kor_corpus[:20]

['아직 렉서스 카지노에 있어',
 '우리는 엄마의 생일 파티를 오늘 밤에 할 예정이에요.',
 '정부 프로그램이기에 사립 유학 프로그램에 비하면 영어 테스트와 성적을 중시하므로 선발 기준은 높은 편이나 단점보다는 장점이 도드라지게 높은 프로그램이다.',
 '이것은 첫 번째 지불 전에 연금 1주기의 값입니다.',
 '서울특별시 관악구청장(이하 “구청장”이라 한다)은 서울특별시 관악구(이하 “구”라 한다) 대형유통기업과 중소유통기업(이하 “유통기업”이라 한다) 간의 균형 있는 발전과 건전한 상거래질서의 유지를 위하여 유통기업이 상생 발전할 수 있는 기반을 조성한다.',
 '식품의약품안전처는 지난해 8월부터 궐련형 전자담배에 포함된 니코틴과 타르 등 11개 유해성분을 분석한 결과, 벤젠 등 1급 발암물질 5종이 검출됐다고 밝혔다.',
 '너무 암울한 생각이야',
 '청와대 개편을 포함한 전면적인 분위기 쇄신이 필요해 보인다.',
 '성관계 동영상 불법 촬영 및 유포 의혹이 제기된 가수 정준영이 “죄송하고 국민 여러분께 심려 끼쳐드려 죄송하다”며 고개를 숙였다.',
 '밥을 먹고 난 후에 우리는 가족들과 시간을 보냈습니다.',
 '그러나 대형출판사들은 여전히 정가제 강화를 주장하고 있습니다.',
 '사전 신청자 중 선착순 100명을 대상으로 12월 14일 금요일 오후 1시부터 6시까지 서울 강남역 비트캠프 서초지점에서 교육이 진행될 예정이다.',
 '사연이 알려지자 스페인 베니도름 주민들은 영국 관광객들을 비난하고 나섰다.',
 '세부 공약으로 ‘성폭력 피해자 보호조치 미흡 시 계약해지 조항 신설’, ‘계약한 사업기관의 성평등·인권 교육 의무화 추진’ 등이 있었다.',
 '엘라랑 엄마 집에서 지낼 거야',
 '당신이 만약 다음 주 화요일에 쉰다면 그때 만나자.',
 '그동안 은행들은 주담대 채권에 대한 깐깐한 건전성 분류 기준 탓에 채무조정보다는 담보권을 조기에 행사하는 것이 유리했다.',
 '멤버 최성용은 “앞선 배우그룹 선배님들과 큰 차이점이 있다고 하기보다는 

* ( ) 와 같이 괄호 처리된 내용들을 필터링한다. (Speech-To-Text에 사용할 언어모델이기 때문에 괄호 및 괄호 내용은 필요없음)

In [6]:
new_corpus = list()
flag = False

for sentence in kor_corpus:
    new_sentence = str()
    for ch in sentence:
        if ch == '(':
            flag = True
            continue
        elif ch == ')':
            flag = False
            continue
        elif flag == False:
            new_sentence += ch
        else:
            continue
            
    new_corpus.append(new_sentence)

* ()가 잘 필터링 됐는지 확인

In [7]:
kor_corpus = new_corpus
kor_corpus[:20]

['아직 렉서스 카지노에 있어',
 '우리는 엄마의 생일 파티를 오늘 밤에 할 예정이에요.',
 '정부 프로그램이기에 사립 유학 프로그램에 비하면 영어 테스트와 성적을 중시하므로 선발 기준은 높은 편이나 단점보다는 장점이 도드라지게 높은 프로그램이다.',
 '이것은 첫 번째 지불 전에 연금 1주기의 값입니다.',
 '서울특별시 관악구청장은 서울특별시 관악구 대형유통기업과 중소유통기업 간의 균형 있는 발전과 건전한 상거래질서의 유지를 위하여 유통기업이 상생 발전할 수 있는 기반을 조성한다.',
 '식품의약품안전처는 지난해 8월부터 궐련형 전자담배에 포함된 니코틴과 타르 등 11개 유해성분을 분석한 결과, 벤젠 등 1급 발암물질 5종이 검출됐다고 밝혔다.',
 '너무 암울한 생각이야',
 '청와대 개편을 포함한 전면적인 분위기 쇄신이 필요해 보인다.',
 '성관계 동영상 불법 촬영 및 유포 의혹이 제기된 가수 정준영이 “죄송하고 국민 여러분께 심려 끼쳐드려 죄송하다”며 고개를 숙였다.',
 '밥을 먹고 난 후에 우리는 가족들과 시간을 보냈습니다.',
 '그러나 대형출판사들은 여전히 정가제 강화를 주장하고 있습니다.',
 '사전 신청자 중 선착순 100명을 대상으로 12월 14일 금요일 오후 1시부터 6시까지 서울 강남역 비트캠프 서초지점에서 교육이 진행될 예정이다.',
 '사연이 알려지자 스페인 베니도름 주민들은 영국 관광객들을 비난하고 나섰다.',
 '세부 공약으로 ‘성폭력 피해자 보호조치 미흡 시 계약해지 조항 신설’, ‘계약한 사업기관의 성평등·인권 교육 의무화 추진’ 등이 있었다.',
 '엘라랑 엄마 집에서 지낼 거야',
 '당신이 만약 다음 주 화요일에 쉰다면 그때 만나자.',
 '그동안 은행들은 주담대 채권에 대한 깐깐한 건전성 분류 기준 탓에 채무조정보다는 담보권을 조기에 행사하는 것이 유리했다.',
 '멤버 최성용은 “앞선 배우그룹 선배님들과 큰 차이점이 있다고 하기보다는 앞선 그룹과 멤버수에서 확실히 차이가 난다"고 밝혔다.',
 '커스텐 닐슨 미

* 현재 corpus에 어떤 특수문자들이 있는지 확인

In [8]:
special_ch = list()

for sentence in kor_corpus:
    for ch in sentence:
        if ch.isdigit() == False and ch.isalpha() == False and ch not in special_ch:
            special_ch.append(ch)

* corpus에 등장한 특수문자 개수 확인

In [9]:
len(special_ch)

209

* 등장한 특수문자를 csv 파일로 저장하여 적절한 발음전사로 매핑

In [10]:
special_df = pd.read_csv('special.csv', encoding='utf-8')
special_df = special_df.fillna('')
special_df.head()

Unnamed: 0,special,replace
0,,
1,.,.
2,“,
3,"""",
4,-,


* special_dict 생성 (special => replace로 변환)

In [11]:
special_dict = dict()

for (special, replace) in zip(special_df['special'], special_df['replace']):
    special_dict[special] = replace

special_dict[' '] = ' '

* in 연산자로 체크를 위해 list 형식으로 저장

In [12]:
specials = list(special_df['special'])
replaces = list(special_df['replace'])

* 특수문자들을 원하는 발음전사로 변환

In [13]:
new_corpus = list()

for sentence in kor_corpus:
    new_sentence = str()
    for ch in sentence:
        if ch in specials:
            new_sentence += special_dict[ch]
        else:
            new_sentence += ch
            
    new_corpus.append(new_sentence)

* 특수문자가 적절히 변경되었는지 확인

In [17]:
new_corpus[:20]

['김동윤 광주광역시관광협회장은 광주시민들이 민선7기에 바라는 것은 광주 관광역동성을 찾아 달라는 당부가 아닐까 한다고 전제한 뒤 광주를 상징하는 랜드마크가 필요한 시기가 됐다고 이 교수의 주장에 힘을 실었다.',
 '다음 지하실!',
 '먼저 어느 날짜로 변경하시려는지 말씀해 주세요.',
 '아뇨',
 '올림픽 메달리스트와 아시안 게임 금메달리스트는 군 복무를 면제받아야 한다고 생각합니다.',
 '심사의 구체적인 방법 등에 대해서는 서울특별시 강남구 법제사무처리 규칙으로 정한다.',
 '그는 너무나도 잘생겨서 눈부실 지경이에요.',
 '랍스타 메뉴가 런치 메뉴에도 있나요? ',
 '청주 제2순환로를 통해 산업단지 출퇴근이 수월하며 중부고속도로 서청주IC와 경부고속도로 청주IC를 통해 수도권 및 다른 권역으로 쉽게 이동할 수 있다.',
 '그는 여전히 데드맨 네트워크를 통해',
 '워싱턴 DC는 과거 1790년대에 국가의 중심이었습니다',
 '각운동량 보전 법칙은 각운동량이 시간에 대해 일정하다는 것을 말합니다.',
 '주관부서라 함은 자치법규.중요문서 또는 질의문서 등의 입법 또는 입안에 대한 권한과 책임이 있거나 주민의 조례제정.개폐청구 내용과 관련된 업무를 담당하는 부서를 말한다.',
 '극장에 매일 가시면 연극을 이해하기 위해 열심히 노력하게 되니 당신 포르투갈 실력이 향상될 거에요 그렇지 않아요?',
 '사실 친구들 기다리느라 늦었어',
 '마무리 해주겠나?',
 '1',
 '그냥 밀어버려',
 '지금이라도 공부를 등한시하고 운동에만 매몰될 우려가 큰 정책을 재고하고 최소한의 학교생활에 충실하면서 운동에도 참여하여 소질과 적성을 키우는 정책으로 전환되길 기대한다.',
 '이 규칙은 인천광역시 미추홀구 청소년 통행금지구역.통행제한구역 지정 및 운영에 관한 조례의 시행에 관하여 필요한 사항을 규정함을 목적으로 한다.']

* corpus 업데이트

In [14]:
kor_corpus = new_corpus

* 알파벳 필터링 (소문자)

In [19]:
alphabet = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z']
new_corpus = list()

for sentence in kor_corpus:
    new_sentence = str()
    for ch in sentence:
        if ch in alphabet:
            continue
        else:
            new_sentence += ch
            
    new_corpus.append(new_sentence)

In [20]:
kor_corpus = new_corpus
kor_corpus[:20]

['김동윤 광주광역시관광협회장은 광주시민들이 민선7기에 바라는 것은 광주 관광역동성을 찾아 달라는 당부가 아닐까 한다고 전제한 뒤 광주를 상징하는 랜드마크가 필요한 시기가 됐다고 이 교수의 주장에 힘을 실었다.',
 '다음 지하실!',
 '먼저 어느 날짜로 변경하시려는지 말씀해 주세요.',
 '아뇨',
 '올림픽 메달리스트와 아시안 게임 금메달리스트는 군 복무를 면제받아야 한다고 생각합니다.',
 '심사의 구체적인 방법 등에 대해서는 서울특별시 강남구 법제사무처리 규칙으로 정한다.',
 '그는 너무나도 잘생겨서 눈부실 지경이에요.',
 '랍스타 메뉴가 런치 메뉴에도 있나요? ',
 '청주 제2순환로를 통해 산업단지 출퇴근이 수월하며 중부고속도로 서청주IC와 경부고속도로 청주IC를 통해 수도권 및 다른 권역으로 쉽게 이동할 수 있다.',
 '그는 여전히 데드맨 네트워크를 통해',
 '워싱턴 DC는 과거 1790년대에 국가의 중심이었습니다',
 '각운동량 보전 법칙은 각운동량이 시간에 대해 일정하다는 것을 말합니다.',
 '주관부서라 함은 자치법규.중요문서 또는 질의문서 등의 입법 또는 입안에 대한 권한과 책임이 있거나 주민의 조례제정.개폐청구 내용과 관련된 업무를 담당하는 부서를 말한다.',
 '극장에 매일 가시면 연극을 이해하기 위해 열심히 노력하게 되니 당신 포르투갈 실력이 향상될 거에요 그렇지 않아요?',
 '사실 친구들 기다리느라 늦었어',
 '마무리 해주겠나?',
 '1',
 '그냥 밀어버려',
 '지금이라도 공부를 등한시하고 운동에만 매몰될 우려가 큰 정책을 재고하고 최소한의 학교생활에 충실하면서 운동에도 참여하여 소질과 적성을 키우는 정책으로 전환되길 기대한다.',
 '이 규칙은 인천광역시 미추홀구 청소년 통행금지구역.통행제한구역 지정 및 운영에 관한 조례의 시행에 관하여 필요한 사항을 규정함을 목적으로 한다.']

* 대문자 필터링 (발음으로 전사 ex) K리그 => 케이리그)

In [21]:
new_corpus = list()
upper = ['A', 'B', 'C','D','E','F','G','H','I','J','K','L','M','N','O','P','Q','R','S','T','U','V','W','X','Y','Z']
upper_dict = {'A' : '에이', 'B' : '비', 'C' : '씨','D' : '디','E' : '이','F' : '에프','G' : '쥐',
              'H' : '에이취','I' : '아이','J' : '제이','K' : '케이','L' : '엘','M' : '엠','N' : '엔',
              'O' : '오','P' : '피','Q' : '큐','R' : '알','S' : '에스','T' : '티','U' : '유','V' : '브이','W' : '떠블유',
              'X' : '엑스','Y' : '와이','Z' : '지'}

for sentence in kor_corpus:
    new_sentence = str()
    for idx, ch in enumerate(sentence):
        if ch in upper:
            if idx == 0 and (idx == len(sentence) - 1 or sentence[idx + 1] == ' '):
                continue
                
            elif idx != 0 and idx < len(sentence) - 1 and sentence[idx + 1] == ' ' and sentence[idx - 1] == ' ':
                continue
                
            elif idx != 0 and sentence[idx -1] == ' ' and idx + 1 == len(sentence):
                continue
                
            else:
                new_sentence += upper_dict[ch]
            
        else:
            new_sentence += ch
            
    new_corpus.append(new_sentence)

In [22]:
new_corpus[:20]

['김동윤 광주광역시관광협회장은 광주시민들이 민선7기에 바라는 것은 광주 관광역동성을 찾아 달라는 당부가 아닐까 한다고 전제한 뒤 광주를 상징하는 랜드마크가 필요한 시기가 됐다고 이 교수의 주장에 힘을 실었다.',
 '다음 지하실!',
 '먼저 어느 날짜로 변경하시려는지 말씀해 주세요.',
 '아뇨',
 '올림픽 메달리스트와 아시안 게임 금메달리스트는 군 복무를 면제받아야 한다고 생각합니다.',
 '심사의 구체적인 방법 등에 대해서는 서울특별시 강남구 법제사무처리 규칙으로 정한다.',
 '그는 너무나도 잘생겨서 눈부실 지경이에요.',
 '랍스타 메뉴가 런치 메뉴에도 있나요? ',
 '청주 제2순환로를 통해 산업단지 출퇴근이 수월하며 중부고속도로 서청주아이씨와 경부고속도로 청주아이씨를 통해 수도권 및 다른 권역으로 쉽게 이동할 수 있다.',
 '그는 여전히 데드맨 네트워크를 통해',
 '워싱턴 디씨는 과거 1790년대에 국가의 중심이었습니다',
 '각운동량 보전 법칙은 각운동량이 시간에 대해 일정하다는 것을 말합니다.',
 '주관부서라 함은 자치법규.중요문서 또는 질의문서 등의 입법 또는 입안에 대한 권한과 책임이 있거나 주민의 조례제정.개폐청구 내용과 관련된 업무를 담당하는 부서를 말한다.',
 '극장에 매일 가시면 연극을 이해하기 위해 열심히 노력하게 되니 당신 포르투갈 실력이 향상될 거에요 그렇지 않아요?',
 '사실 친구들 기다리느라 늦었어',
 '마무리 해주겠나?',
 '1',
 '그냥 밀어버려',
 '지금이라도 공부를 등한시하고 운동에만 매몰될 우려가 큰 정책을 재고하고 최소한의 학교생활에 충실하면서 운동에도 참여하여 소질과 적성을 키우는 정책으로 전환되길 기대한다.',
 '이 규칙은 인천광역시 미추홀구 청소년 통행금지구역.통행제한구역 지정 및 운영에 관한 조례의 시행에 관하여 필요한 사항을 규정함을 목적으로 한다.']

* 데이터셋 업데이트

In [23]:
kor_corpus = new_corpus

* 긴 공백 => ' '

In [24]:
new_corpus = list()

for sentence in kor_corpus:
    new_sentence = str()
    tokens = sentence.split()
    for idx, token in enumerate(tokens):
        if idx == 0:
            new_sentence += token + ' '
        elif idx == len(tokens) - 1:
            new_sentence += token
        else:
            new_sentence += token + ' '
            
    new_corpus.append(new_sentence)

In [25]:
new_corpus[:20]

['김동윤 광주광역시관광협회장은 광주시민들이 민선7기에 바라는 것은 광주 관광역동성을 찾아 달라는 당부가 아닐까 한다고 전제한 뒤 광주를 상징하는 랜드마크가 필요한 시기가 됐다고 이 교수의 주장에 힘을 실었다.',
 '다음 지하실!',
 '먼저 어느 날짜로 변경하시려는지 말씀해 주세요.',
 '아뇨 ',
 '올림픽 메달리스트와 아시안 게임 금메달리스트는 군 복무를 면제받아야 한다고 생각합니다.',
 '심사의 구체적인 방법 등에 대해서는 서울특별시 강남구 법제사무처리 규칙으로 정한다.',
 '그는 너무나도 잘생겨서 눈부실 지경이에요.',
 '랍스타 메뉴가 런치 메뉴에도 있나요?',
 '청주 제2순환로를 통해 산업단지 출퇴근이 수월하며 중부고속도로 서청주아이씨와 경부고속도로 청주아이씨를 통해 수도권 및 다른 권역으로 쉽게 이동할 수 있다.',
 '그는 여전히 데드맨 네트워크를 통해',
 '워싱턴 디씨는 과거 1790년대에 국가의 중심이었습니다',
 '각운동량 보전 법칙은 각운동량이 시간에 대해 일정하다는 것을 말합니다.',
 '주관부서라 함은 자치법규.중요문서 또는 질의문서 등의 입법 또는 입안에 대한 권한과 책임이 있거나 주민의 조례제정.개폐청구 내용과 관련된 업무를 담당하는 부서를 말한다.',
 '극장에 매일 가시면 연극을 이해하기 위해 열심히 노력하게 되니 당신 포르투갈 실력이 향상될 거에요 그렇지 않아요?',
 '사실 친구들 기다리느라 늦었어',
 '마무리 해주겠나?',
 '1 ',
 '그냥 밀어버려',
 '지금이라도 공부를 등한시하고 운동에만 매몰될 우려가 큰 정책을 재고하고 최소한의 학교생활에 충실하면서 운동에도 참여하여 소질과 적성을 키우는 정책으로 전환되길 기대한다.',
 '이 규칙은 인천광역시 미추홀구 청소년 통행금지구역.통행제한구역 지정 및 운영에 관한 조례의 시행에 관하여 필요한 사항을 규정함을 목적으로 한다.']

* 데이터셋 업데이트

In [26]:
kor_corpus = new_corpus

* 데이터셋 크기 확인

In [27]:
len(kor_corpus)

3048264

* 필터링 되면서 빈문자열만 남은 데이터 제외

In [28]:
new_corpus = list()

for sentence in kor_corpus:
    if len(sentence) == 0:
        continue
    new_corpus.append(sentence)

* 약 15,000개 필터링

In [29]:
len(new_corpus)

3023640

* 데이터셋 업데이트

In [30]:
kor_corpus = new_corpus

* 아무지점이나 찍어서 중간확인

In [32]:
kor_corpus[6000:6020]

['테드의 아내가 만들었죠',
 '가톨릭대학교 서울성모병원은 장기육 심뇌혈관센터 순환기내과 교수팀이 올해 경피적 대동맥판막 이식술 100례를 돌파했다고 17일 밝혔다.',
 '네. ',
 '이곳은 과거 증심천 기슭을 따라 부곡 한일 태광 광주 광일 보해 중앙식당 등이 있던 곳으로 2009년 쉼터 및 팽나무 가로수길로 조성 완료하였습니다.',
 '선수들이 상대의 기에 눌려 있다는 생각이 들었다.',
 '어르신들이 자주 찾는 메뉴가 있나요?',
 '왜냐하면 엘리자베스가 당신을 원하지 않아서?',
 '. ',
 '기사의 제목인 서양 정복은 세계적인 음악 잡지인 롤링 스톤이 케이팝 관련 보도를 하면서 사용했던 표현을 그대로 따 왔다.',
 '빨리 시작해야돼',
 '진주남강축제가 유료화 과정을 거치며 경제적 효과가 불어든 것은 물론 지역사회에 갈등의 골도 커졌다는 지적이 나왔다.',
 '또 수술하는데도 돈이 많이 들어요.',
 '그래서 혼자 떠난댔잖아',
 '아무것도 ',
 '발언 사실이 알려지자 민주당은 긴급히 진화에 나섰다.',
 '입 다물어',
 '좋아요 ',
 '음 괜찮으시면',
 '실제 지난해 1차 북미정상회담을 개최한 싱가포르는 정상회담 개최를 위해 약 2000만 싱가포르 달러를 투자하고 이의 40배가 넘는 경제적 투자를 받았다.',
 '그를 얻었습니다!']

* 뒤에가 공백으로 끝나는 문자열 공백 제거

In [33]:
for idx, sentence in enumerate(kor_corpus):
    if sentence[-1] == ' ':
        kor_corpus[idx] = sentence[:-1] 

In [34]:
kor_corpus[6000:6020]

['테드의 아내가 만들었죠',
 '가톨릭대학교 서울성모병원은 장기육 심뇌혈관센터 순환기내과 교수팀이 올해 경피적 대동맥판막 이식술 100례를 돌파했다고 17일 밝혔다.',
 '네.',
 '이곳은 과거 증심천 기슭을 따라 부곡 한일 태광 광주 광일 보해 중앙식당 등이 있던 곳으로 2009년 쉼터 및 팽나무 가로수길로 조성 완료하였습니다.',
 '선수들이 상대의 기에 눌려 있다는 생각이 들었다.',
 '어르신들이 자주 찾는 메뉴가 있나요?',
 '왜냐하면 엘리자베스가 당신을 원하지 않아서?',
 '.',
 '기사의 제목인 서양 정복은 세계적인 음악 잡지인 롤링 스톤이 케이팝 관련 보도를 하면서 사용했던 표현을 그대로 따 왔다.',
 '빨리 시작해야돼',
 '진주남강축제가 유료화 과정을 거치며 경제적 효과가 불어든 것은 물론 지역사회에 갈등의 골도 커졌다는 지적이 나왔다.',
 '또 수술하는데도 돈이 많이 들어요.',
 '그래서 혼자 떠난댔잖아',
 '아무것도',
 '발언 사실이 알려지자 민주당은 긴급히 진화에 나섰다.',
 '입 다물어',
 '좋아요',
 '음 괜찮으시면',
 '실제 지난해 1차 북미정상회담을 개최한 싱가포르는 정상회담 개최를 위해 약 2000만 싱가포르 달러를 투자하고 이의 40배가 넘는 경제적 투자를 받았다.',
 '그를 얻었습니다!']

* 현대 데이터셋 크기 확인

In [35]:
len(kor_corpus)

3023640

* '?', '!', '.'만 남은 문자열 필터링

In [36]:
new_corpus = list()

for sentence in kor_corpus:
    if sentence == '?' or sentence == '!' or sentence == '.':
        continue
        
    else:
        new_corpus.append(sentence)
        
len(new_corpus)

3001793

* 약 2만개 필터링 후 데이터셋 업데이트

In [37]:
kor_corpus = new_corpus

* import **KoNPron** (Korean Number Pronunciaion) => 숫자를 발음전사로 변환

In [9]:
from konpron import KoNPron

kpr = KoNPron()

* **KoNPron** 테스트

In [21]:
sentence = "1234랑, 12.34랑, 1,234랑, 123^4랑, 1²³⁴랑, 1.23^4랑, 12.3⁴랑, 12·34랑, 293301300.55301⁴"

ret = kpr.read(kpr.preprocess(kpr.detect(sentence)))
if ret is not None:
    print(ret)

천이백삼십사랑, 십이 점 삼사랑, 천이백삼십사랑, 백이십삼의 사 승랑, 일의 이백삼십사 승랑, 일 점 이삼의 사 승랑, 십이 점 삼의 사 승랑, 일이삼사랑, 이억 구천삼백삼십만 천삼백 점 오오삼영일의 사 승


* **KoNPron**으로 숫자 => 발음전사로 변환

In [26]:
new_corpus = list()
count = 0

for sentence in corpus:
    try:
        ret = kpr.read(kpr.preprocess(kpr.detect(sentence)))
        if ret is not None:
            new_corpus.append(ret)
            count += 1
        else:
            new_corpus.append(sentence)
    except:
        print(sentence)
        
count

트래킹 번호 420076049241990172380904740935로 택배가 나에게 18일에 도착했는데 책이 1권만 있습니다.


3001787

In [47]:
kor_corpus = new_corpus

* 음향모델에서 사용하는 2,040개의 문자 레이블로만 이루어진 문장 수 확인

In [48]:
acoustic_labels = list(pd.read_csv('train_labels.csv')['char'])
count = 0

for sentence in kor_corpus:
    for ch in sentence:
        if ch not in acoustic_labels:
            count += 1
            break

print(len(kor_corpus) - count)

2992468


* 데이터셋 피클로 저장

In [39]:
import pickle

with open('kor_corpus.bin', 'wb') as f:
    pickle.dump(kor_corpus, f)