### 분석을 위한 tokenize
1단계를 통해 기초적인 전처리만을 거친 raw data를 txt 파일로 확보하였다. 분석과 활용을 위해 토큰화를 실시하였다.  
다양한 라이브러리 가운데, 트윗 데이터에선 줄임말이나 축약어가 많이 나올 것이라 생각해 비지도학습이 사용된 [soynlp](https://github.com/lovit/soynlp)를 사용하였다.
셋 모두 같은 과정을 거치기 때문에 함수나 py파일로 작성해 실행하는 것도 방법이지만, 하나씩 과정을 보이고자 풀어 진행하였다.

In [42]:
#pip install soynlp를 통해 설치함
from soynlp.noun import LRNounExtractor
from soynlp.word import WordExtractor
from soynlp.tokenizer import LTokenizer
from soynlp.normalizer import repeat_normalize
import re #정규화 처리를 위해

##### 성경에 대한 토큰화 진행

In [30]:
#변수에 이름 저장
edited_bible = 'edited_bible.txt'
#raw의 문장을 리스트 안에 넣음
with open(edited_bible, encoding='cp949') as f:
    bible_sentences = [re.sub(r'[\n]','',doc) for doc in f] 
print('num sentences of bible = %d' % len(bible_sentences))

num sentences of bible = 31116


In [32]:
#raw를 학습해서 사전 테이블에 넣기
bible_word_extractor = WordExtractor()
bible_word_extractor.train(bible_sentences)
bible_word_score_table = bible_word_extractor.extract()

training was done. used memory 0.284 Gbory 0.250 Gb
all cohesion probabilities was computed. # words = 26435
all branching entropies was computed # words = 42652
all accessor variety was computed # words = 42652


In [51]:
#토크나이저를 적용함
bible_scores = {word:score.cohesion_forward for word, score in bible_word_score_table.items()}
bible_l_tokenizer = LTokenizer(scores=bible_scores)
#리스트에 담아서, 성경엔 없으나 중복되는 문구(ex: ㅋㅋㅋ와 ㅋㅋㅋㅋ는 동일함)를 제거해서 토큰화함
bible_tokenized = [bible_l_tokenizer.tokenize((repeat_normalize(i, num_repeats=3)), flatten=True) for i in bible_sentences]
bible_tokenized[0]

['태초에', '하나님', '이', '천지를', '창조하', '시니라']

##### 판결문에 대한 토큰화 진행

In [55]:
#변수에 이름 저장
edited_judgement = 'edited_judgement.txt'
#raw의 문장을 리스트 안에 넣음
with open(edited_judgement, encoding='cp949') as f:
    judge_sentences = [re.sub('[,.\n]','',doc) for doc in f] 
print('num sentences of judgement = %d' % len(judge_sentences))

num sentences of judgement = 24329


In [56]:
#raw를 학습해서 사전 테이블에 넣기
judge_word_extractor = WordExtractor()
judge_word_extractor.train(judge_sentences)
judge_word_score_table = judge_word_extractor.extract()

training was done. used memory 0.858 Gbory 0.745 Gb
all cohesion probabilities was computed. # words = 104816
all branching entropies was computed # words = 177672
all accessor variety was computed # words = 177672


In [57]:
#토크나이저를 적용함
judge_scores = {word:score.cohesion_forward for word, score in judge_word_score_table.items()}
judge_l_tokenizer = LTokenizer(scores=judge_scores)
#리스트에 담아서, 판결문엔 없으나 중복되는 문구(ex: ㅋㅋㅋ와 ㅋㅋㅋㅋ는 동일함)를 제거해서 토큰화함
judge_tokenized = [judge_l_tokenizer.tokenize((repeat_normalize(i, num_repeats=3)), flatten=True) for i in judge_sentences]
judge_tokenized[0]

['원고가',
 '소속회사',
 '의',
 '노동조합',
 '에서',
 '분규가',
 '발생',
 '하자',
 '노조활동',
 '을',
 '구실로',
 '정상적인',
 '근무',
 '를',
 '해태하고',
 '노조조합장이',
 '사임한',
 '경우',
 '노동조합',
 '규약에',
 '동',
 '조합',
 '장의',
 '직무',
 '를',
 '대행할',
 '자를',
 '규정',
 '해',
 '두고',
 '있음에도',
 '원고',
 '자신이',
 '주동하여',
 '노조자치수습대책위원회를',
 '구성',
 '하여',
 '그',
 '위원장으로',
 '피선되어',
 '근무시간',
 '중에도',
 '노조활동',
 '을',
 '벌여',
 '운수업체인',
 '소속회사',
 '의',
 '업무',
 '에',
 '지장을',
 '초래하',
 '고',
 '종업원들에게',
 '도',
 '나쁜',
 '영향을',
 '끼쳐',
 '소속회사',
 '가',
 '취업규칙',
 '을',
 '위반하',
 '고',
 '고의로',
 '회사',
 '업무능률을',
 '저해하',
 '였으며',
 '회사',
 '업무상의',
 '지휘명령',
 '에',
 '위반하였음을',
 '이유로',
 '원고',
 '를',
 '징계',
 '해고',
 '하였다면',
 '이는',
 '원고',
 '의',
 '노동조합',
 '활동',
 '과는',
 '관계없이',
 '회사',
 '취업규칙에',
 '의하여',
 '사내질서를',
 '유지하기',
 '위한',
 '사용자',
 '고유의',
 '징계',
 '권에',
 '기하여',
 '이루어진',
 '정당한',
 '징계',
 '권의',
 '행사',
 '로',
 '보아야',
 '한다']

##### 트윗에 대한 토큰화 진행

In [73]:
#변수에 이름 저장
edited_twit = 'edited_twit.txt'
#raw의 문장을 리스트 안에 넣음
with open(edited_twit, encoding='utf-8') as f: #이건 이상하게 인코딩이 다름
    twit_sentences = [re.sub('[/,\n[\]]','',doc) for doc in f] 
print('num sentences of twit = %d' % len(twit_sentences))

num sentences of twit = 14907


In [74]:
#raw를 학습해서 사전 테이블에 넣기
twit_word_extractor = WordExtractor()
twit_word_extractor.train(twit_sentences)
twit_word_score_table = twit_word_extractor.extract()

training was done. used memory 0.886 Gbory 0.886 Gb
all cohesion probabilities was computed. # words = 8277
all branching entropies was computed # words = 14428
all accessor variety was computed # words = 14428


In [75]:
#토크나이저를 적용함
twit_scores = {word:score.cohesion_forward for word, score in twit_word_score_table.items()}
twit_l_tokenizer = LTokenizer(scores=twit_scores)
#리스트에 담아서, 중복되는 문구(ex: ㅋㅋㅋ와 ㅋㅋㅋㅋ는 동일함)를 제거해서 토큰화함
twit_tokenized = [twit_l_tokenizer.tokenize((repeat_normalize(i, num_repeats=3)), flatten=True) for i in twit_sentences]
twit_tokenized[0]

['최민정',
 '선수',
 '어케',
 '저럼...',
 '세계',
 '신기록',
 '올림픽',
 '신기록',
 '둘',
 '다',
 '가진',
 '여자',
 '어때',
 'ㄴ',
 '갖고',
 '싶어...']

##### 토큰화 끝난 것들을 txt로 저장
딥 러닝에 적용하기 위해 우선 파일 형태로 저장하였다.

In [80]:
#성경
with open('tokenized_bible.txt', 'w', encoding='UTF8') as f:
    for line in bible_tokenized:
        f.write(str(line) + '\n')

#판결문
with open('tokenized_judge.txt', 'w', encoding='UTF8') as f:
    for line in judge_tokenized:
        f.write(str(line) + '\n')
        
#트윗
with open('tokenized_twit.txt', 'w', encoding='UTF8') as f:
    for line in twit_tokenized:
        f.write(str(line) + '\n')