# Preprocess for Language Model

수집한 Corpus를 통합하여 일련의 규칙으로 전처리

* 필요한 라이브러리 import

In [3]:
import pandas as pd
import numpy as np
import random
import pickle

* 수집한 corpus 통합

In [4]:
dataset = pd.read_csv('../data/OpenSubtitles.csv', encoding='utf-8')
sub_dataset = pd.read_csv('../data/new_kor.csv', encoding='cp949')
dataset = pd.concat([dataset, sub_dataset])

sub_dataset = pd.read_csv('../data/tatoeba.csv', encoding='utf-8')
dataset = pd.concat([dataset, sub_dataset])

sub_dataset = pd.read_csv('../data/네이버 해커톤 데이터셋.csv', encoding='utf-8', engine='python')
dataset = pd.concat([dataset, sub_dataset])

for i in range(10):
    sub_dataset = pd.read_csv('../data/AI Hub 한-영 데이터셋[%s].csv' % i, encoding='utf-8', engine='python')
    dataset = pd.concat([dataset, sub_dataset])

* corpus 크기 확인

In [5]:
len(dataset)

3048264

* 데이터셋 내용 확인

In [6]:
dataset.head()

Unnamed: 0,ko
0,"폭설이 내리고 우박, 진눈깨비가 퍼부어도 눈보라가 몰아쳐도 강풍이 불고 비바람이 휘..."
1,우리의 한결같은 심부름꾼 황새 아저씨 가는 길을 그 누가 막으랴!
2,황새 아저씨를 기다리세요
3,찾아와 선물을 주실 거예요
4,가난하든 부자이든 상관이 없답니다


* list로 변환 및 shuffle (기존에는 그냥 concatenate 했기 때문에 섞어줌)

In [7]:
dataset = list(dataset['ko'])
random.shuffle(dataset)
dataset[:5]

['부산은행이 지난 7월부터 52시간 근무제를 도입한 적은 있지만 시중은행이 근무단축제도 시행에 나선 것은 이번이 처음이다.',
 '스미스 씨는 지금 실험실에 있습니다.',
 '이밖에 K리그1 베스트 11에는 조현우(대구), 홍철(수원), 리차드(울산), 김민재(전북), 이용(전북), 네게바(경남), 최영준(경남), 아길라르(인천), 로페즈(전북), 말컹(경남), 주니오(울산)가 선정됐다.',
 '이젠 내 것을 빼앗는군',
 '특히 디스플레이 일체형 지문인식센서 시장의 성장세가 두드러져 수혜가 기대된다.']

* ( ) 와 같이 괄호 처리된 내용들을 필터링한다. (Speech-To-Text에 사용할 언어모델이기 때문에 괄호 및 괄호 내용은 필요없음)

In [8]:
new_dataset = list()
flag = False

for sentence in dataset:
    new_sentence = str()
    for ch in sentence:
        if ch == '(':
            flag = True
            continue
        elif ch == ')':
            flag = False
            continue
        elif flag == False:
            new_sentence += ch
        else:
            continue
            
    new_dataset.append(new_sentence)

* ()가 잘 필터링 됐는지 확인

In [9]:
dataset = new_dataset
dataset[:10]

['부산은행이 지난 7월부터 52시간 근무제를 도입한 적은 있지만 시중은행이 근무단축제도 시행에 나선 것은 이번이 처음이다.',
 '스미스 씨는 지금 실험실에 있습니다.',
 '이밖에 K리그1 베스트 11에는 조현우, 홍철, 리차드, 김민재, 이용, 네게바, 최영준, 아길라르, 로페즈, 말컹, 주니오가 선정됐다.',
 '이젠 내 것을 빼앗는군',
 '특히 디스플레이 일체형 지문인식센서 시장의 성장세가 두드러져 수혜가 기대된다.',
 '아무것도 산 게 없어',
 '그런데 알렉스',
 '이 조례는 세정발전과 세입증대에 이바지한 공무원 및 민간인에 대한 포상금 지급에 관하여 필요한 사항을 규정함을 목적으로 한다.',
 '전년대비 산업별 실질성장률은 제조업과 서비스업이 각각 13.7%, 2.2% 성장한 반면 농림어업과 건설업이 각각 11.8%, 6.2% 감소한 것으로 나타났다.',
 '기업은행은 올 상반기 자회사를 포함한 연결기준으로 한 당기순이익이 전년 동기 와 비교해 17.2%나 늘어난 9372억원을 기록했다고 26일 밝혔다.']

* 현재 corpus에 어떤 특수문자들이 있는지 확인

In [10]:
special_ch = list()

for sentence in dataset:
    for ch in sentence:
        if ch.isdigit() == False and ch.isalpha() == False and ch not in special_ch:
            special_ch.append(ch)

* corpus에 등장한 특수문자 개수 확인

In [11]:
len(special_ch)

209

* 등장한 특수문자를 csv 파일로 저장하여 적절한 발음전사로 매핑

In [25]:
special_df = pd.read_csv('special.csv', encoding='utf-8')
special_df = special_df.fillna('')
special_df.head()

Unnamed: 0,special,replace
0,,
1,.,.
2,“,
3,"""",
4,-,


* special_dict 생성 (special => replace로 변환)

In [29]:
special_dict = dict()

for (special, replace) in zip(special_df['special'], special_df['replace']):
    special_dict[special] = replace

special_dict[' '] = ' '

* in 연산자로 체크를 위해 list 형식으로 저장

In [30]:
specials = list(special_df['special'])
replaces = list(special_df['replace'])

* 특수문자들을 원하는 발음전사로 변환

In [31]:
new_dataset = list()

for sentence in dataset:
    new_sentence = str()
    for ch in sentence:
        if ch in specials:
            new_sentence += special_dict[ch]
        else:
            new_sentence += ch
            
    new_dataset.append(new_sentence)

* 특수문자가 적절히 변경되었는지 확인

In [32]:
new_dataset[:10]

['부산은행이 지난 7월부터 52시간 근무제를 도입한 적은 있지만 시중은행이 근무단축제도 시행에 나선 것은 이번이 처음이다.',
 '스미스 씨는 지금 실험실에 있습니다.',
 '이밖에 K리그1 베스트 11에는 조현우 홍철 리차드 김민재 이용 네게바 최영준 아길라르 로페즈 말컹 주니오가 선정됐다.',
 '이젠 내 것을 빼앗는군',
 '특히 디스플레이 일체형 지문인식센서 시장의 성장세가 두드러져 수혜가 기대된다.',
 '아무것도 산 게 없어',
 '그런데 알렉스',
 '이 조례는 세정발전과 세입증대에 이바지한 공무원 및 민간인에 대한 포상금 지급에 관하여 필요한 사항을 규정함을 목적으로 한다.',
 '전년대비 산업별 실질성장률은 제조업과 서비스업이 각각 13.7퍼센트 2.2퍼센트 성장한 반면 농림어업과 건설업이 각각 11.8퍼센트 6.2퍼센트 감소한 것으로 나타났다.',
 '기업은행은 올 상반기 자회사를 포함한 연결기준으로 한 당기순이익이 전년 동기 와 비교해 17.2퍼센트나 늘어난 9372억원을 기록했다고 26일 밝혔다.']

* dataset 업데이트

In [33]:
dataset = new_dataset

* 알파벳 필터링 (소문자)

In [34]:
alphabet = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z']
new_dataset = list()

for sentence in dataset:
    new_sentence = str()
    for ch in sentence:
        if ch in alphabet:
            continue
        else:
            new_sentence += ch
            
    new_dataset.append(new_sentence)

In [36]:
dataset = new_dataset
dataset[:20]

['부산은행이 지난 7월부터 52시간 근무제를 도입한 적은 있지만 시중은행이 근무단축제도 시행에 나선 것은 이번이 처음이다.',
 '스미스 씨는 지금 실험실에 있습니다.',
 '이밖에 K리그1 베스트 11에는 조현우 홍철 리차드 김민재 이용 네게바 최영준 아길라르 로페즈 말컹 주니오가 선정됐다.',
 '이젠 내 것을 빼앗는군',
 '특히 디스플레이 일체형 지문인식센서 시장의 성장세가 두드러져 수혜가 기대된다.',
 '아무것도 산 게 없어',
 '그런데 알렉스',
 '이 조례는 세정발전과 세입증대에 이바지한 공무원 및 민간인에 대한 포상금 지급에 관하여 필요한 사항을 규정함을 목적으로 한다.',
 '전년대비 산업별 실질성장률은 제조업과 서비스업이 각각 13.7퍼센트 2.2퍼센트 성장한 반면 농림어업과 건설업이 각각 11.8퍼센트 6.2퍼센트 감소한 것으로 나타났다.',
 '기업은행은 올 상반기 자회사를 포함한 연결기준으로 한 당기순이익이 전년 동기 와 비교해 17.2퍼센트나 늘어난 9372억원을 기록했다고 26일 밝혔다.',
 '그룹 여자친구가 타이틀곡 해야를 비롯한 새 앨범 T  를 통해 국내외 차트 최상위권을 기록 소위 갓자친구의 해를 만들고 있다.',
 '이번에 새롭게 합류한다는 배우 때문이라는 거니?',
 '아직 학생증이 나오지 않아서 빌릴 수 없는 거로 알고 있어요.',
 '그래 맞다',
 '이에 과거사위와 조사단은 소속 검사가 대검찰청에 항명하는 것으로 비춰지지 않도록 제3의 방식을 고민해보자는 취지에서 답장을 보낸 것이지 출국금지 자체를 철회하겠다는 입장은 전혀 아니었다는 설명이다.',
 '한 경제전문가는 국내 소비 기여도가 꺾였다는 것은 내국인의 허리띠 졸라매기가 그만큼 심각하다는 것을 단적으로 보여준다고 말했다.',
 '수요일에는 쉬잖아?',
 '내겐 훔쳐갈 게 없다',
 '모두 같은 목표를 가지고 있었다 나 달린 모블리 트렌튼 로메로 세상을 바꾸자는 목표',
 '새로 작업해서 다음 주 금요일까지 발송해도 괜찮을까요?']

* 대문자 필터링 (발음으로 전사 ex) K리그 => 케이리그)

In [38]:
new_dataset = list()
upper = ['A', 'B', 'C','D','E','F','G','H','I','J','K','L','M','N','O','P','Q','R','S','T','U','V','W','X','Y','Z']
upper_dict = {'A' : '에이', 'B' : '비', 'C' : '씨','D' : '디','E' : '이','F' : '에프','G' : '쥐',
              'H' : '에이취','I' : '아이','J' : '제이','K' : '케이','L' : '엘','M' : '엠','N' : '엔',
              'O' : '오','P' : '피','Q' : '큐','R' : '알','S' : '에스','T' : '티','U' : '유','V' : '브이','W' : '떠블유',
              'X' : '엑스','Y' : '와이','Z' : '지'}

for sentence in dataset:
    new_sentence = str()
    for idx, ch in enumerate(sentence):
        if ch in upper:
            if idx == 0 and (idx == len(sentence) - 1 or sentence[idx + 1] == ' '):
                continue
                
            elif idx != 0 and idx < len(sentence) - 1 and sentence[idx + 1] == ' ' and sentence[idx - 1] == ' ':
                continue
                
            elif idx != 0 and sentence[idx -1] == ' ' and idx + 1 == len(sentence):
                continue
                
            else:
                new_sentence += upper_dict[ch]
            
        else:
            new_sentence += ch
            
    new_dataset.append(new_sentence)

In [39]:
new_dataset[:20]

['부산은행이 지난 7월부터 52시간 근무제를 도입한 적은 있지만 시중은행이 근무단축제도 시행에 나선 것은 이번이 처음이다.',
 '스미스 씨는 지금 실험실에 있습니다.',
 '이밖에 케이리그1 베스트 11에는 조현우 홍철 리차드 김민재 이용 네게바 최영준 아길라르 로페즈 말컹 주니오가 선정됐다.',
 '이젠 내 것을 빼앗는군',
 '특히 디스플레이 일체형 지문인식센서 시장의 성장세가 두드러져 수혜가 기대된다.',
 '아무것도 산 게 없어',
 '그런데 알렉스',
 '이 조례는 세정발전과 세입증대에 이바지한 공무원 및 민간인에 대한 포상금 지급에 관하여 필요한 사항을 규정함을 목적으로 한다.',
 '전년대비 산업별 실질성장률은 제조업과 서비스업이 각각 13.7퍼센트 2.2퍼센트 성장한 반면 농림어업과 건설업이 각각 11.8퍼센트 6.2퍼센트 감소한 것으로 나타났다.',
 '기업은행은 올 상반기 자회사를 포함한 연결기준으로 한 당기순이익이 전년 동기 와 비교해 17.2퍼센트나 늘어난 9372억원을 기록했다고 26일 밝혔다.',
 '그룹 여자친구가 타이틀곡 해야를 비롯한 새 앨범   를 통해 국내외 차트 최상위권을 기록 소위 갓자친구의 해를 만들고 있다.',
 '이번에 새롭게 합류한다는 배우 때문이라는 거니?',
 '아직 학생증이 나오지 않아서 빌릴 수 없는 거로 알고 있어요.',
 '그래 맞다',
 '이에 과거사위와 조사단은 소속 검사가 대검찰청에 항명하는 것으로 비춰지지 않도록 제3의 방식을 고민해보자는 취지에서 답장을 보낸 것이지 출국금지 자체를 철회하겠다는 입장은 전혀 아니었다는 설명이다.',
 '한 경제전문가는 국내 소비 기여도가 꺾였다는 것은 내국인의 허리띠 졸라매기가 그만큼 심각하다는 것을 단적으로 보여준다고 말했다.',
 '수요일에는 쉬잖아?',
 '내겐 훔쳐갈 게 없다',
 '모두 같은 목표를 가지고 있었다 나 달린 모블리 트렌튼 로메로 세상을 바꾸자는 목표',
 '새로 작업해서 다음 주 금요일까지 발송해도 괜찮을까요?']

* 데이터셋 업데이트

In [40]:
dataset = new_dataset

* 긴 공백 => ' '

In [54]:
new_dataset = list()

for sentence in dataset:
    new_sentence = str()
    tokens = sentence.split()
    for idx, token in enumerate(tokens):
        if idx == 0:
            new_sentence += token + ' '
        elif idx == len(tokens) - 1:
            new_sentence += token
        else:
            new_sentence += token + ' '
    new_dataset.append(new_sentence)

In [55]:
new_dataset[:20]

['부산은행이 지난 7월부터 52시간 근무제를 도입한 적은 있지만 시중은행이 근무단축제도 시행에 나선 것은 이번이 처음이다.',
 '스미스 씨는 지금 실험실에 있습니다.',
 '이밖에 케이리그1 베스트 11에는 조현우 홍철 리차드 김민재 이용 네게바 최영준 아길라르 로페즈 말컹 주니오가 선정됐다.',
 '이젠 내 것을 빼앗는군',
 '특히 디스플레이 일체형 지문인식센서 시장의 성장세가 두드러져 수혜가 기대된다.',
 '아무것도 산 게 없어',
 '그런데 알렉스',
 '이 조례는 세정발전과 세입증대에 이바지한 공무원 및 민간인에 대한 포상금 지급에 관하여 필요한 사항을 규정함을 목적으로 한다.',
 '전년대비 산업별 실질성장률은 제조업과 서비스업이 각각 13.7퍼센트 2.2퍼센트 성장한 반면 농림어업과 건설업이 각각 11.8퍼센트 6.2퍼센트 감소한 것으로 나타났다.',
 '기업은행은 올 상반기 자회사를 포함한 연결기준으로 한 당기순이익이 전년 동기 와 비교해 17.2퍼센트나 늘어난 9372억원을 기록했다고 26일 밝혔다.',
 '그룹 여자친구가 타이틀곡 해야를 비롯한 새 앨범 를 통해 국내외 차트 최상위권을 기록 소위 갓자친구의 해를 만들고 있다.',
 '이번에 새롭게 합류한다는 배우 때문이라는 거니?',
 '아직 학생증이 나오지 않아서 빌릴 수 없는 거로 알고 있어요.',
 '그래 맞다',
 '이에 과거사위와 조사단은 소속 검사가 대검찰청에 항명하는 것으로 비춰지지 않도록 제3의 방식을 고민해보자는 취지에서 답장을 보낸 것이지 출국금지 자체를 철회하겠다는 입장은 전혀 아니었다는 설명이다.',
 '한 경제전문가는 국내 소비 기여도가 꺾였다는 것은 내국인의 허리띠 졸라매기가 그만큼 심각하다는 것을 단적으로 보여준다고 말했다.',
 '수요일에는 쉬잖아?',
 '내겐 훔쳐갈 게 없다',
 '모두 같은 목표를 가지고 있었다 나 달린 모블리 트렌튼 로메로 세상을 바꾸자는 목표',
 '새로 작업해서 다음 주 금요일까지 발송해도 괜찮을까요?']

* 데이터셋 업데이트

In [57]:
dataset = new_dataset

* 데이터셋 크기 확인

In [58]:
len(dataset)

3033873

* 필터링 되면서 빈문자열만 남은 데이터 제외

In [59]:
new_dataset = list()

for sentence in dataset:
    if len(sentence) == 0:
        continue
    new_dataset.append(sentence)

* 약 15,000개 필터링

In [60]:
len(new_dataset)

3022429

* 데이터셋 업데이트

In [61]:
dataset = new_dataset

* 아무지점이나 찍어서 중간확인

In [62]:
dataset[5000:5010]

['서로 협력하는 교육이 필요한데 협력해본 적도 없고 논쟁에서 이겨본 적도 없이 혼자만 노력해서 1등하면 되는 교육이 문제다.',
 '바로 어제는 엘쥐필립스 엘씨디 파주공장 준공식이 있었고 그저께는 나노특화팹센터 준공식이 있었다.',
 '말레이시아 장기거주비자 발급 순위를 국적별로 살펴보면 중국이 1위 일본이 2위 그리고 한국이 5위이다.',
 '귀엽네요 ',
 '혼수 상태예요.',
 '반동분자를 처단한 박동무의 과감성을 찬양해야 옳지 않을까요?',
 '추적 경보를 내보내야 하지 않나요?',
 '그래서 자말을 마지막에 넣는거야?',
 '완전히 건강이 회복된 것처럼 보이는구나',
 '금융투자업계 관계자는 일반투자자 참여 규모를 지켜봐야겠지만 지주회사 체제 전환에는 큰 무리가 없을 것으로 본다고 말했다.']

* 뒤에가 공백으로 끝나는 문자열 공백 제거

In [63]:
for idx, sentence in enumerate(dataset):
    if sentence[-1] == ' ':
        dataset[idx] = sentence[:-1] 

In [64]:
dataset[5000:5010]

['서로 협력하는 교육이 필요한데 협력해본 적도 없고 논쟁에서 이겨본 적도 없이 혼자만 노력해서 1등하면 되는 교육이 문제다.',
 '바로 어제는 엘쥐필립스 엘씨디 파주공장 준공식이 있었고 그저께는 나노특화팹센터 준공식이 있었다.',
 '말레이시아 장기거주비자 발급 순위를 국적별로 살펴보면 중국이 1위 일본이 2위 그리고 한국이 5위이다.',
 '귀엽네요',
 '혼수 상태예요.',
 '반동분자를 처단한 박동무의 과감성을 찬양해야 옳지 않을까요?',
 '추적 경보를 내보내야 하지 않나요?',
 '그래서 자말을 마지막에 넣는거야?',
 '완전히 건강이 회복된 것처럼 보이는구나',
 '금융투자업계 관계자는 일반투자자 참여 규모를 지켜봐야겠지만 지주회사 체제 전환에는 큰 무리가 없을 것으로 본다고 말했다.']

* 현대 데이터셋 크기 확인

In [66]:
len(dataset)

3022429

* '?', '!', '.'만 남은 문자열 필터링

In [67]:
new_dataset = list()

for sentence in dataset:
    if sentence == '?' or sentence == '!' or sentence == '.':
        continue
        
    else:
        new_dataset.append(sentence)
        
len(new_dataset)

3000608

* 약 2만개 필터링 후 데이터셋 업데이트

In [69]:
dataset = new_dataset

* 음향모델에서 사용하는 2,040개의 문자 레이블로만 이루어진 문장 수 확인

In [71]:
acoustic_labels = list(pd.read_csv('train_labels.csv')['char'])
count = 0

for sentence in dataset:
    for ch in sentence:
        if ch not in acoustic_labels:
            count += 1
            break

print(len(dataset) - count)

2860589


* 데이터셋 피클로 저장

In [68]:
import pickle

with open('dataset.bin', 'wb') as f:
    pickle.dump(dataset, f)