# 02. 텍스트 전처리
- 풀고자 하는 문제의 용도에 맞게 텍스트를 사전에 처리하는 작업


## 02-01 토큰화(Tokenization)
- 토큰화(tokenization) : 주어진 코퍼스(corpus)에서 토큰(token) 이라 불리는 단위로 나누는 작업을 토큰화라고 한다.
- 보통 의미 있는 단위로 트큰을 정의.
- NLTK, KoNLPY를 통해 토큰화 수행

### 2-1-1 단어 토큰화(Word Tokenization)
- 토큰의 기준을 단어로 하는 경우, 단어 토큰화라고 한다.
- 여기서 단어는 단어 단위 외에도 단어구, 의미를 갖는 문자열로도 간주된다.


### 2-1-2 토큰화 중 생기는 선택의 순간
- 토큰화를 하다보면, 예상하지 못한 경우가 있어서 토큰화의 기준을 생각해봐야 한다.
- NLTK는 영어 코퍼스를 토큰화하기 위한 도구들을 제공한다. 그중 word_tokenize와 WordPuncTokenizer를 사용해서 '를 어떻게 처리하는지 확인해보자.


In [3]:
from nltk.tokenize import word_tokenize
from nltk.tokenize import WordPunctTokenizer
from tensorflow.keras.preprocessing.text import text_to_word_sequence

In [7]:
import nltk
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

In [8]:
# 우선 word_tokenize
print('단어 토큰화1 :',word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화1 : ['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


- word_tokenize는 Don't를 Do와 n't로 분리하였으며, 반면 Jone's는 Hone과 's로 분리한 것을 확인할 수 있다.
- 그렇다면, wordPunctTokenizer는 어포스트로피가 들어간 코퍼스를 어떻게 처리할까

In [9]:
print('단어 토큰화2 :',WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화2 : ['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


- WordPunctTokenizer는 구두점을 별도로 분류하는 특징을 갖고 있기 때문에, 앞서 확인했던 word_tokenize와 달리 Don't를 Dont과 '와 t로 분리.
- 케라스 또한 토큰화 도구로서 test_to_word_sequence를 지원한다.

In [10]:
print('단어 토큰화3 :',text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화3 : ["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


- 케라스의 text_to_word_sequence는 기본적으로 모든 알파벳을 소문자로 바꾸면서 마침표나 컴마, 느낌표 등의 구두점을 제거한다.
- 하지만 don't나 jone's와 같은 경우 어포스트로피는 보존하는 것을 볼 수 있다.

### 2-1-3 토큰화에서 고려해야할 사항
- 토큰화 작업을 단순하게 코퍼스에서 구두점을 제외하고 공백 기준으로 잘라내는 작업이라고 간주할 수 없다.

1) 구두점이나 특수 문자를 단순 제외해서는 안 된다.
- 코퍼스에 대한 정제 작업을 진행하다보면, 구두점 조차도 하나의 토큰으로 분류하기도 한다.
- 예를 들자면 마침표(.)와 같은 경우는 문장의 경계를 알 수 있는데 도움이 되므로 단어를 뽑아낼 때, 마침표(.)를 제외하지 않을 수 있다.

2) 줄임말과 단어 내에 띄어쓰기가 있는 경우
- 단어가 줄임말로 쓰일 때 생기는 형태 -> 접어
- new york처럼 하나의 단어이지만 중간에 띄어쓰기가 존재하는 경우.
- 토큰화 작업은 이러한 단어를 하나로 인식할 수 있는 능력을 가져야한다.

3) 표준 토큰화 예제
- 표준으로 쓰이고 있는 토큰화 방법 중 하나인 Penn Treebank Tokenization의 규칙에 대해서 소개하고, 토큰화의 결과 확인

In [12]:
# 규칙 1. 하이푼으로 구성된 단어는 하나로 유지한다.
# 규칙 2. doesn't와 같이 아포스트로피로 '접어'가 함께하는 단어는 분리해준다.
from nltk.tokenize import TreebankWordTokenizer

tokenizer = TreebankWordTokenizer()

text = "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print('트리뱅크 워드토크나이저 :',tokenizer.tokenize(text))

트리뱅크 워드토크나이저 : ['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


### 2-1-4 문장 토큰화(Sentence Tokenization)
- 갖고있는 코퍼스 내에서 문장 단위로 구분하는 작업으로 때로는 문장 분류(sentence segmentation)라고 부른다.
- 보통 갖고있는 코퍼스가 정제되지 않은 상태라면, 코퍼스는 문장 단위로 구분되어 있지 않아서 이를 사용하고자 하는 용도에 맞게 문장 토큰화가 필요하다.


In [13]:
# NLTK에서는 영어 문장의 토큰화를 수행하는 sent_tokenize를 지원한다.
from nltk.tokenize import sent_tokenize

text = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print('문장 토큰화1 :',sent_tokenize(text))

문장 토큰화1 : ['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


- 위 코드는 text에 저장된 여러개의 문장들로부터 문장을 구분하는 코드.
- 출력 결과를 보면 성공적으로 모든 문장을 구분해내었음을 볼 수 있다.

In [14]:
text = "I am actively looking for Ph.D. students. and you are a Ph.D student."
print('문장 토큰화2 :',sent_tokenize(text))

문장 토큰화2 : ['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


- NLTK는 단순히 마침표를 구분자로 하여 문장을 구분하지 않았기 때문에, ph.D를 문장 내의 단어로 인식하여 성종적으로 인식하는 것을 볼 수 있다.
- 한국어의 경우 박상길님이 개발한 KSS(korean Sentence Splitter)를 추천한다.

In [15]:
import kss

text = '딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다. 이제 해보면 알걸요?'
print('한국어 문장 토큰화 :',kss.split_sentences(text))

[Kss]: Because there's no supported C++ morpheme analyzer, Kss will take pecab as a backend. :D
For your information, Kss also supports mecab backend.
We recommend you to install mecab or konlpy.tag.Mecab for faster execution of Kss.
Please refer to following web sites for details:
- mecab: https://cleancode-ws.tistory.com/97
- konlpy.tag.Mecab: https://uwgdqo.tistory.com/363



한국어 문장 토큰화 : ['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다.', '이제 해보면 알걸요?']


### 2-1-5 한국어에서의 토큰화의 어려움
- 영어는 New York과 같은 합성어나 he's와 같이 줄임말에 대한 예외처리만 한다면, 띄어쓰기를 기준으로 하는 띄어쓰기 토큰화를 수행해도 단어 토큰화가 잘 작동한다.
- 하지만 한국어는 영어와는 달리 띄어쓰기만으로는 토큰화를 하기에 부족하다. 한국어의 경우에는 띄어쓰기 단위가 되는 단위를 '어절'이라고 하는데 어절 토큰화는 한국어 NLP에서 지양되고 있다. 어절 토큰화와 단어 토큰화는 같지 않기 때문이다.
- 그 근본적인 이유는 한국어가 영어와는 다른 형태를 갖는 언어인 교착어라는 점에서 기인한다. 교착어란 조사, 어미 등을 붙여서 말을 만드는 언어를 말한다.


### 2-1-6 품사 태킹(part - of - speech tagging)
- 단어는 표기는 같지만 품사에 따라서 단어의 의미가 달라지기도 한다.
- 결국 단어의 의미를 제대로 파악하기 위해서는 해당 단어가 어떤 품사로 쓰였는지 보는 것이 주요 지표가 될 수 있다.
- 그에 따라 단어 토큰화 과정에서 각 단어가 어떤 품사로 쓰였는지를 구분해놓기도 하는데, 이 작업을 품사 태깅이라고 한다.

### 2-1-7 NLTK와 KoNLPy를 이용한 영어, 한국어 토큰화 실습

In [16]:
# NLTK에서는 Penn Treebank POS Tags라는 기준을 사용하여 품사를 태깅한다.

from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag

text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."
tokenized_sentence = word_tokenize(text)

print('단어 토큰화 :',tokenized_sentence)
print('품사 태깅 :',pos_tag(tokenized_sentence))

단어 토큰화 : ['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']
품사 태깅 : [('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('Ph.D.', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('Ph.D.', 'NNP'), ('student', 'NN'), ('.', '.')]


In [2]:
import os
print('JAVA_HOME' in os.environ)

os.environ['JAVA_HOME'] = r'C:\Program Files\Java\jdk-17\bin\server'

print('JAVA_HOME' in os.environ)

False
True


In [3]:
from konlpy.tag import Okt
from konlpy.tag import Kkma

okt = Okt()
kkma = Kkma()

print('OKT 형태소 분석 :',okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('OKT 품사 태깅 :',okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('OKT 명사 추출 :',okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요")) 

OKT 형태소 분석 : ['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']
OKT 품사 태깅 : [('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]
OKT 명사 추출 : ['코딩', '당신', '연휴', '여행']


- morphs : 형태소 추출
- pos : 품사 태깅
- nouns : 명사추출
- 앞서 언근한 코엔엘파이의 형태소 분석기들은 공통적으로 이 메소드들을 제공하고 있다.
- 형태소 추출과 품사 태깅 메소드의 결과를 보면 조사를 기본적으로 분리하고 있음을 확인할 수 있다.
- 한국어 NLP에서 전처리에 형태소 분석기를 사용하는 것은 유용하다.


In [4]:
print('꼬꼬마 형태소 분석 :',kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('꼬꼬마 품사 태깅 :',kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('꼬꼬마 명사 추출 :',kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

꼬꼬마 형태소 분석 : ['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']
꼬꼬마 품사 태깅 : [('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]
꼬꼬마 명사 추출 : ['코딩', '당신', '연휴', '여행']


- 앞서 사용한 Okt 형태소 분석기와 결과가 다른 것을 볼 수 있다.
- 각 형태소 분석기는 성능과 결과가 다르게 나오기 때문에, 형태소 분석기의 선택은 사용하고자 하는 필요 용도에 어떤 형태소 분석기가 가장 적절한지를 판단하고 사용하면 된다.
- 속도를 중시한다면 메캅을 사용할 수 있다.

## 02-02 정제(Cleaning) and 정규화(Normalization)
- 코퍼스에서 용도에 맞게 토큰을 분류하는 작업을 토큰화라고 하며, 토큰화 작업 전, 후에는 텍스트 데이터를 용도에 맞게 정제 및 정규화하는 일이 함께한다.
- 정제(cleaning) : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거한다.
- 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다.


### 02-03 어간 추출(Stemming) and 표제어 추출(Lemmatization)
- 눈으로 봤을 때는 서로 다른 단어들이지만, 하나의 단어로 일반화시킬 수 있다면 하나의 단어로 일반화시켜서 문서 내의 단어 수를 줄이겠다는 것이다.
- 단어의 빈도수를 기반으로 문제를 풀고자 하는 뒤에서 학습하게 될 BoW(Bag of Words) 표현을 사용하는 자연어 처리 문제에서 주로 사용

### 2-3-1 표제어 추출(Lemmatization)
- 표제어 추출은 단어들로부터 표제어를 찾아가는 과정.
- 단어들이 다른 형태를 갖더라도, 그 뿌리 단어를 찾아가서 단어의 개수를 줄일 수 있는지 판단.
- 예를 들어 am, are, is는 서로 다른 스펠링이지만 그 뿌리 단어는 be라고 볼 수 있다. 이때 이 단어들의 표제어는 be라고 한다.
- 표제어 추출을 하는 가장 섬세한 방법은 단어의 형태학적 파싱을 먼저 진행하는 것. 형태학(morphology)이란 형태소로부터 단어들을 만들어가는 학문. 형태소의 종류로 어간(stem)과 접사(affix)가 존재.

1) 어간(stem) : 단어의 의미를 담고 있는 단어의 핵심 부분
2) 접사(affix) : 단어에 추가적인 의미를 주는 부분
- 형태학적 파싱은 이 두 가지 구성요소를 분리하는 작업.

In [1]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

print('표제어 추출 전 :', words)
print('표제어 추출 후 :', [lemmatizer.lemmatize(word) for word in words])

표제어 추출 전 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
표제어 추출 후 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


- 위를 보면 적절하지 못한 단어를 출력하고 있다. 이는 표제어 추출기(lemmatizer)가 본래 단어의 품사 정보를 알아야만 정확한 결과를 얻을 수 있기 때문이다.
- WordNetLemmatizer는 입력으로 단어가 동사 품사라는 사실을 알려줄 수 있다.
- 즉, dies, watched, has가 문장에서 동사로 쓰였다는 것을 알려준다면 표제어 추출기는 품사의 정보를 보존하면서 정확한 Lemma를 출력하게 된다.

In [3]:
lemmatizer.lemmatize('dies', 'v')

'die'

In [4]:
lemmatizer.lemmatize('watched','v')

'watch'

In [5]:
lemmatizer.lemmatize('has', 'v')

'have'

### 2-3-2 어간 추출(Stemming)
- 어간(Stem)을 추출하는 작업을 어간 추출(stemming)이라고 한다.
- 아래 예시는 어간 추출 알고리즘 중 하나인 포터 알고리즘(Porter Algorithm) 적용한 경우

In [6]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

stemmer = PorterStemmer()

sentence = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."

tokenized_sentence = word_tokenize(sentence)

print('어간 추출 전 : ',tokenized_sentence)
print('어간 추출 후 : ',[stemmer.stem(word) for word in tokenized_sentence])

어간 추출 전 :  ['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']
어간 추출 후 :  ['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


- 규칙 기반의 접근을 하고 있으므로 어간 추출 후의 결과에는 사전에 없는 단어들도 포함되어 있다.
- 포터 알고리즘의 어간 추출은 이러한 규칙들을 갖는다.

- ALIZE -> AL
- ANCE -> 제거
- ICAL -> IC

- 위 규칙에 따르면 좌측의 단어는 우측의 겨로가를 얻게 된다.
- formalize -> formal
- allowance -> allow
- electrical -> electric

In [7]:
words = ['formalize', 'allowance', 'electrical']

print('어간 추출 전 :', words)
print('어간 추출 후 :', [stemmer.stem(word) for word in words])

어간 추출 전 : ['formalize', 'allowance', 'electrical']
어간 추출 후 : ['formal', 'allow', 'electr']


In [8]:
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer

porter_stemmer = PorterStemmer()
lancaster_stemmer = LancasterStemmer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

print('어간 추출 전 :', words)
print('포터 스테머의 어간 추출 후:', [porter_stemmer.stem(w) for w in words])
print('랭커스터 스테머의 어간 추출 후:', [lancaster_stemmer.stem(w) for w in words])

어간 추출 전 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
포터 스테머의 어간 추출 후: ['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']
랭커스터 스테머의 어간 추출 후: ['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


- 동일한 단어들의 나열에 대해서 두 스태머는 전혀 다른 결과를 보여준다.
- 두 스태머 알고리즘은 서로 다른 알고리즘을 사용.


### 2-3-3 한국어에서의 어간 추출
- 동사와 형용사는 어간(stem)과 어미(ending)의 결합으로 구성된다.
- (1) 활용(conjugation) : 용언의 어간(stem)이 어미(ending)를 갖는 일.
- 어간 : 용언(동사, 형용사)을 활용할 때, 원칙적으로 모양이 변하지 않는 부분. 활용에서 어미에 선행하는 부분. 때론 어간의 모양도 바뀔 수 있음
- 어미 : 용언의 어간 뒤에 붙어서 활용하면서 변하는 부분이며, 여러 문법적 기능을 수행


## 02-04 불용어(Stopword)
- 큰 의미가 없는 단어 토큰을 제거

In [9]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from konlpy.tag import Okt

In [10]:
### 2-4-1 NLTK에서 불용어 확인하기
stop_words_list = stopwords.words('english')
print('불용어 개수 : ', len(stop_words_list))
print('불용어 10개 출력 : ', stop_words_list[:10])

불용어 개수 :  179
불용어 10개 출력 :  ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]


### 2-4-2 NLTK를 통해서 불용어 제거하기

In [11]:
example = "Family is not an importance thing. It's everything."
stop_words = set(stopwords.words('english'))

word_tokens = word_tokenize(example)

result = []
for word in word_tokens:
    if word not in stop_words:
        result.append(word)

print('불용어 제거 전 :',word_tokens)
print('불용어 제거 후 :', result)


불용어 제거 전 : ['Family', 'is', 'not', 'an', 'importance', 'thing', '.', 'It', "'s", 'everything', '.']
불용어 제거 후 : ['Family', 'importance', 'thing', '.', 'It', "'s", 'everything', '.']


### 2-4-2 한국어에서 불용어 제거하기
- 한국어에서 불용어를 제거하는 방법으로는 간단하게 토큰화 후에 조사, 접속사 등을 제거하는 방법.
- 불용어를 제거하려고 하다보면 조사나 접속사와 같은 단어들뿐만 아니라 명사, 형용사와 같은 단어들 중에서 불용어로서 제거하고 싶은 단어들이 생긴다.
- 결국 사용자가 직접 불용어 사전을 만들게 되는 경우가 많다.
- 직접 불용어를 정의해보고, 불용어를 제거해보자

In [12]:
okt = Okt()

example =  "고기를 아무렇게나 구우려고 하면 안 돼. 고기라고 다 같은 게 아니거든. 예컨대 삼겹살을 구울 때는 중요한 게 있지."
stop_words = "를 아무렇게나 구 우려 고 안 돼 같은 게 구울 때 는"

stop_words = set(stop_words.split(' '))
word_tokens = okt.morphs(example)

result = [word for word in word_tokens if not word in stop_words]

print('불용어 제거 전 : ', word_tokens)
print('불용어 제거 후 : ',result)

불용어 제거 전 :  ['고기', '를', '아무렇게나', '구', '우려', '고', '하면', '안', '돼', '.', '고기', '라고', '다', '같은', '게', '아니거든', '.', '예컨대', '삼겹살', '을', '구울', '때', '는', '중요한', '게', '있지', '.']
불용어 제거 후 :  ['고기', '하면', '.', '고기', '라고', '다', '아니거든', '.', '예컨대', '삼겹살', '을', '중요한', '있지', '.']


## 02-05 정규 표현식(Regular Expression)
- 파이썬에서는 정규 표현식 모듈 re를 지원하므로, 이를 이용하면 특정 규칙이 있는 텍스트 데이터를 빠르게 정제할 수 있다.


<pre>
특수 문자	설명
.	한 개의 임의의 문자를 나타냅니다. (줄바꿈 문자인 \n는 제외)
?	앞의 문자가 존재할 수도 있고, 존재하지 않을 수도 있습니다. (문자가 0개 또는 1개)
*	앞의 문자가 무한개로 존재할 수도 있고, 존재하지 않을 수도 있습니다. (문자가 0개 이상)
+	앞의 문자가 최소 한 개 이상 존재합니다. (문자가 1개 이상)
^	뒤의 문자열로 문자열이 시작됩니다.
$	앞의 문자열로 문자열이 끝납니다.
{숫자}	숫자만큼 반복합니다.
{숫자1, 숫자2}	숫자1 이상 숫자2 이하만큼 반복합니다. ?, *, +를 이것으로 대체할 수 있습니다.
{숫자,}	숫자 이상만큼 반복합니다.
[ ]	대괄호 안의 문자들 중 한 개의 문자와 매치합니다. [amk]라고 한다면 a 또는 m 또는 k 중 하나라도 존재하면 매치를 의미합니다. [a-z]와 같이 범위를 지정할 수도 있습니다. [a-zA-Z]는 알파벳 전체를 의미하는 범위이며, 문자열에 알파벳이 존재하면 매치를 의미합니다.
[^문자]	해당 문자를 제외한 문자를 매치합니다.
l	AlB와 같이 쓰이며 A 또는 B의 의미를 가집니다.

In [14]:
import re

1) .기호
- .은 한 개의 임의의 문자를 나타낸다. 예를 들어서 정규 표현식이 a.c라고 하자. a와 c 사이에는 어떤 1개의 문자라도 올 수 있다. akc, azc, avc, a5c, a!c와 같은 형태는 모두 a.c의 정규표현식과 매치된다.

In [15]:
r = re.compile('a.c')
r.search('kkk')

In [16]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

2) ? 기호
- ?는 ?앞의 문자가 존재할 수 있고 존재하지 않을 수도 있는 경우
- 정규 표현식이 ab?c라고 할 경우, 정규 표현식에서의 b는 있다고 취급할 수도 있고, 없다고 취급할 수도 있다.
- 즉 abc와 ac 모두 매치할 수 있다.

In [17]:
r = re.compile('ab?c')
r.search('abbc') # 아무런 결과도 출력되지 않는다.

In [18]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

In [19]:
r.search('ac')

<re.Match object; span=(0, 2), match='ac'>

<pre>
3) * 기호
- *은 바로 앞의 문자가 0개 이상일 경우를 나타낸다
- 앞의 문자는 존재하지 않을수도 있으며, 또는 여러 개일 수도 있다.
- 정규 표현식이 ab*c라면 ac, abc, abbc, abbbc 등과 매치할 수 있으며 b의 개수는 무수히 많을 수 있다.

In [21]:
r = re.compile('ab*c')
r.search('a') # 아무런 결과도 출력되지 않는다.

In [22]:
r.search('ac')

<re.Match object; span=(0, 2), match='ac'>

In [23]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

In [25]:
r.search('abbbc')

<re.Match object; span=(0, 5), match='abbbc'>

<pre>
4) +기호
+는 *와 유사하다. 다른 점은 앞의 문자가 최소 1개 이상이어야 한다.


In [26]:
r = re.compile('ab+c')
r.search('ac') # 아무런 결과도 출력되지 않는다.

In [27]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

In [28]:
r.search('abbbc')

<re.Match object; span=(0, 5), match='abbbc'>

<pre>
5) ^기호
^는 시작되는 문자열을 지정한다. 정규표현식이 ^ab라면 문자열 ab로 시작되는 경우 매치한다.


In [29]:
r = re.compile('^ab')

# 아무련 결과도 출력되지 않는다.
r.search('bbc')
r.search('zab')

In [30]:
r.search('abz')

<re.Match object; span=(0, 2), match='ab'>

<pre>
6) {숫자} 기호
- 문자에 해당 기호를 붙이면, 해당 문자를 숫자만큼 반복한 것을 나타낸다.
- 예를 들어 정규 표현식이 ab{2}c라면 a와 c 사이에 b가 존재하면서 b가 2개인 문자열 매치

In [31]:
r = re.compile('ab{2}c')

# 아무런 결과도 출력되지 않는다.
r.search('ac')
r.search('abc')
r.search('abbbbbc')

In [32]:
r.search('abbc')

<re.Match object; span=(0, 4), match='abbc'>

<pre>
7) {숫자1, 숫자2} 기호
- 문자에 해당 기호를 붙이면, 해당 문자를 숫자1 이상 숫자2 이하만큼 반복한다.
- 정규 표현식이 ab{2,8}c라면 a와 c 사이에 b가 존재하면서 b는 2개 이상 8개 이하인 문자열에 대해 매치

In [33]:
r = re.compile('ab{2,8}c')

# 아무런 결과도 출력되지 않는다.
r.search('ac')
r.search('abc')
r.search('abbbbbbbbbbbc')

In [34]:
r.search('abbc')

<re.Match object; span=(0, 4), match='abbc'>

In [35]:
r.search('abbbbbbbbc')

<re.Match object; span=(0, 10), match='abbbbbbbbc'>

<pre>
8) {숫자,} 기호
문자에 해당 기호를 붙이면 해당 문자를 숫자 이상만큼 반복
예를 들어 정규 표현식이 a{2,}bc라면 뒤에 bc가 붙으면서 a의 개수가 2개 이상인 경우인 문자열과 매치.
만약 {0,}을 쓴다면 *와 동일한 의미가 되며, {1,}을 쓴다면 +와 같은 의미

In [36]:
r = re.compile('a{2,}bc')

# 아무런 결과도 출력되지 않는다.
r.search('bc')
r.search('aa')

In [37]:
r.search('aabc')

<re.Match object; span=(0, 4), match='aabc'>

In [38]:
r.search('aaaaaaaabc')

<re.Match object; span=(0, 10), match='aaaaaaaabc'>

<pre>
9) [] 기호
[]안에 문자들을 넣으면 그 문자들 중 한개의 문자와 매치라는 의미를 갖는다.
예를 들어 정규 표현식이 [abc]라면, a 또는 b 또는 c가 들어가있는 문자열과 매치된다.
범위를 지정하는 것도 가능하다. [a-zA-Z]는 알파벳 전부를 의미하며, [0-9]는 숫자 전부를 의마한다.


In [39]:
r = re.compile('[abc]') # [abc]는 [a-c]와 같다.
r.search('zzz') # 아무런 결과도 출력되지 않는다.

In [40]:
r.search('a')

<re.Match object; span=(0, 1), match='a'>

In [41]:
r.search('aaaaaaaa')

<re.Match object; span=(0, 1), match='a'>

In [42]:
r.search('baac')

<re.Match object; span=(0, 1), match='b'>

In [43]:
r = re.compile('[a-z]')

# 아무런 결과도 출력되지 않는다.
r.search('AAA')
r.search('111')

In [44]:
r.search('aBC')

<re.Match object; span=(0, 1), match='a'>

<pre>
10) [^문자] 기호
[^문자]는 ^기호 뒤에 붙은 문자들을 제외한 모든 문자를 매치하는 역할
[^abc]라는 정규 표현식이 있다면, a 또는 b 또는 c가 들어간 문자열을 제외한 모든 문자열을 매치한다.


In [45]:
r = re.compile('[^abc]')

# 아무런 결과도 출력되지 않는다.
r.search('a')
r.search('ab')
r.search('b')

In [46]:
r.search('d')

<re.Match object; span=(0, 1), match='d'>

In [47]:
r.search('1')

<re.Match object; span=(0, 1), match='1'>

### 2-5-3 정규 표현식 모듈 함수 예제


<pre>
(1) re.match()와 re.search()의 차이
- search()가 정규 표현식 전체에 대해서 문자열이 매치하는지를 본다면, 
match()는 문자열의 첫 부분부터 정규 표현식과 매치하는지를 본다.
- 문자열 중간에 찾을 패턴이 있더라도 match 함수는 문자열의 시작에서 패턴이 일치하지 않으면 찾지 않는다.

In [50]:
r = re.compile('ab.')
r.match('kkkabc') # 아무런 결과도 출력되지 않는다.

In [51]:
r.search('kkkabc')

<re.Match object; span=(3, 6), match='abc'>

In [52]:
r.match('abckkk')

<re.Match object; span=(0, 3), match='abc'>

<pre>
(2) re.split()
- split() 함수는 입력된 정규 표현식을 기준으로 문자열들을 분리하여 리스트로 리턴한다.
- 토큰화에 유용하게 쓰일 수 있다.
- 공백을 기준으로 문자열 분리를 수행하고 결과로서 리스트를 리턴

In [53]:
# 공백 기준 분리
text = '사과 딸기 수박 메론 바나나'
re.split(' ', text)

['사과', '딸기', '수박', '메론', '바나나']

In [54]:
# 줄바꿈 기준 분리
text = """사과
딸기
수박
메론
바나나"""

re.split("\n", text)

['사과', '딸기', '수박', '메론', '바나나']

In [57]:
# '+'를 기준으로 분리
text = "사과+딸기+수박+메론+바나나"

re.split("\+", text)

['사과', '딸기', '수박', '메론', '바나나']

<pre>
(3) re.findall()
- findall() 함수는 정규 표현식과 매치되는 모든 문자열들을 리스트로 리턴.
- 단, 매치되는 문자열이 없다면 빈 리스트를 리턴.


In [58]:
text = """이름 : 김철수
전화번호 : 010 - 1234 - 1234
나이 : 30
성별 : 남"""

re.findall("\d+", text)

['010', '1234', '1234', '30']

In [59]:
# 하지만 만약 입력 텍스트에 숫자가 없다면 빈 리스트를 리턴
re.findall("\d+", "문자열입니다.")

[]

<pre>
(4) re.sub()
- sub() 함수는 정규 표현식 패턴과 일치하는 문자열을 찾아 다른 문자열로 대체할 수 있다.

In [60]:
text = "Regular expression : A regular expression, regex or regexp[1] (sometimes called a rational expression)[2][3] is, in theoretical computer science and formal language theory, a sequence of characters that define a search pattern."

preprocessed_text = re.sub('[^a-zA-Z]', ' ', text)
print(preprocessed_text)

Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern 


### 2-5-4 정규표현식 텍스트 전처리 예제

In [61]:
text = """100 John    PROF
101 James   STUD
102 Mac   STUD"""

In [62]:
re.split('\s+', text) 

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

In [63]:
re.findall('\d+',text)  

['100', '101', '102']

In [64]:
re.findall('[A-Z]',text)

['J', 'P', 'R', 'O', 'F', 'J', 'S', 'T', 'U', 'D', 'M', 'S', 'T', 'U', 'D']

In [65]:
re.findall('[A-Z]{4}',text)  

['PROF', 'STUD', 'STUD']

In [66]:
re.findall('[A-Z][a-z]+',text)

['John', 'James', 'Mac']

### 2-5-5 정규 표현식을 이용한 토큰화
- RegexpTokenizer()에서 괄호 안에 하나의 토큰으로 규정하기를 원하는 정규 표현식을 넣어서 토큰화를 수행합니다. tokenizer1에 사용한 \w+는 문자 또는 숫자가 1개 이상인 경우를 의미합니다.

- tokenizer2에서는 공백을 기준으로 토큰화. gaps=true는 해당 정규 표현식을 토큰으로 나누기 위한 기준으로 사용한다는 의미입니다. 만약 gaps=True라는 부분을 기재하지 않는다면, 토큰화의 결과는 공백들만 나오게 됩니다. tokenizer2의 결과는 위의 tokenizer1의 결과와는 달리 아포스트로피나 온점을 제외하지 않고 토큰화가 수행된 것을 확인할 수 있습니다.

In [67]:
from nltk.tokenize import RegexpTokenizer

text = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"

tokenizer1 = RegexpTokenizer("[\w]+")
tokenizer2 = RegexpTokenizer("\s+", gaps=True)

print(tokenizer1.tokenize(text))
print(tokenizer2.tokenize(text))

['Don', 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'Mr', 'Jone', 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']
["Don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name,', 'Mr.', "Jone's", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


## 02-06 정수 인코딩(Integer Encoding)


<pre>
1) dictinary 사용하기



In [69]:
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords


In [70]:
raw_text = "A barber is a person. a barber is good person. a barber is huge person. he Knew A Secret! The Secret He Kept is huge secret. Huge secret. His barber kept his word. a barber kept his word. His barber kept his secret. But keeping and keeping such a huge secret to himself was driving the barber crazy. the barber went up a huge mountain."

In [71]:
# 여러 문장이 함께 있는 텍스트 데이터로부터 문장 토큰화 수행

# 문장 토큰화
sentences = sent_tokenize(raw_text)
print(sentences)

['A barber is a person.', 'a barber is good person.', 'a barber is huge person.', 'he Knew A Secret!', 'The Secret He Kept is huge secret.', 'Huge secret.', 'His barber kept his word.', 'a barber kept his word.', 'His barber kept his secret.', 'But keeping and keeping such a huge secret to himself was driving the barber crazy.', 'the barber went up a huge mountain.']


In [72]:
vocab = {}
preprocessed_sentences = []
stop_words = set(stopwords.words('english'))

for sentence in sentences:
    # 단어 토큰화
    tokenized_sentence = word_tokenize(sentence)
    result = []

    for word in tokenized_sentence: 
        word = word.lower() # 모든 단어를 소문자화하여 단어의 개수를 줄인다.
        if word not in stop_words: # 단어 토큰화 된 결과에 대해서 불용어를 제거한다.
            if len(word) > 2: # 단어 길이가 2이하인 경우에 대하여 추가로 단어를 제거한다.
                result.append(word)
                if word not in vocab:
                    vocab[word] = 0 
                vocab[word] += 1
    preprocessed_sentences.append(result) 
print(preprocessed_sentences)

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [73]:
# 현재 vocab에는 각 단어에 대한 빈도수가 기록되어있다.
print('단어 집합 :', vocab)

단어 집합 : {'barber': 8, 'person': 3, 'good': 1, 'huge': 5, 'knew': 1, 'secret': 6, 'kept': 4, 'word': 2, 'keeping': 2, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1}


In [74]:
# 'barber'라는 단어의 빈도수 출력
print(vocab["barber"])

8


In [75]:
vocab_sorted = sorted(vocab.items(), key = lambda x:x[1], reverse = True)
print(vocab_sorted)

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3), ('word', 2), ('keeping', 2), ('good', 1), ('knew', 1), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)]


In [76]:
word_to_index = {}
i = 0
for (word, frequency) in vocab_sorted :
    if frequency > 1 : # 빈도수가 작은 단어는 제외.
        i = i + 1
        word_to_index[word] = i

print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7}


In [77]:
vocab_size = 5

# 인덱스가 5 초과인 단어 제거
words_frequency = [word for word, index in word_to_index.items() if index >= vocab_size + 1]

# 해당 단어에 대한 인덱스 정보를 삭제
for w in words_frequency:
    del word_to_index[w]
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


In [78]:
word_to_index['OOV'] = len(word_to_index) + 1
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'OOV': 6}


In [79]:
encoded_sentences = []
for sentence in preprocessed_sentences:
    encoded_sentence = []
    for word in sentence:
        try:
            # 단어 집합에 있는 단어라면 해당 단어의 정수를 리턴.
            encoded_sentence.append(word_to_index[word])
        except KeyError:
            # 만약 단어 집합에 없는 단어라면 'OOV'의 정수를 리턴.
            encoded_sentence.append(word_to_index['OOV'])
    encoded_sentences.append(encoded_sentence)
print(encoded_sentences)

[[1, 5], [1, 6, 5], [1, 3, 5], [6, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [6, 6, 3, 2, 6, 1, 6], [1, 6, 3, 6]]


<pre>
2) Counter 사용하기

In [80]:
from collections import Counter
print(preprocessed_sentences)

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [81]:
# words = np.hstack(preprocessed_sentences)으로도 수행 가능.
all_words_list = sum(preprocessed_sentences, [])
print(all_words_list)

['barber', 'person', 'barber', 'good', 'person', 'barber', 'huge', 'person', 'knew', 'secret', 'secret', 'kept', 'huge', 'secret', 'huge', 'secret', 'barber', 'kept', 'word', 'barber', 'kept', 'word', 'barber', 'kept', 'secret', 'keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy', 'barber', 'went', 'huge', 'mountain']


In [82]:
# 파이썬의 Counter 모듈을 이용하여 단어의 빈도수 카운트
vocab = Counter(all_words_list)
print(vocab)

Counter({'barber': 8, 'secret': 6, 'huge': 5, 'kept': 4, 'person': 3, 'word': 2, 'keeping': 2, 'good': 1, 'knew': 1, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1})


In [83]:
vocab_size = 5
vocab = vocab.most_common(vocab_size) # 등장 빈도수가 높은 상위 5개의 단어만 저장
vocab

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]

In [84]:
word_to_index = {}
i = 0
for (word, frequency) in vocab :
    i = i + 1
    word_to_index[word] = i

print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


<pre>
3) NLTK의 FreqDist 사용하기
- NLTK에서는 빈도수 계산 도구인 FreqDist()를 지원합니다. 위에서 사용한 Counter()랑 같은 방법으로 사용할 수 있습니다.

In [86]:
from nltk import FreqDist
import numpy as np

In [88]:
# np.hstack으로 문장 구분을 제거
vocab = FreqDist(np.hstack(preprocessed_sentences))
vocab

FreqDist({'barber': 8, 'secret': 6, 'huge': 5, 'kept': 4, 'person': 3, 'word': 2, 'keeping': 2, 'good': 1, 'knew': 1, 'driving': 1, ...})

- 단어를 키(key)로, 단어에 대한 빈도수가 값(value)로 저장. vocab에 단어를 입력하면 빈도수를 리턴.

In [89]:
print(vocab["barber"]) # 'barber'라는 단어의 빈도수 출력

8


In [90]:
vocab_size = 5
vocab = vocab.most_common(vocab_size) # 등장 빈도수가 높은 상위 5개의 단어만 저장
print(vocab)

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]


- 앞서 Counter()를 사용했을 때와 결과가 같다.

In [91]:
word_to_index = {word[0] : index + 1 for index, word in enumerate(vocab)}
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


### 2-6-2 케라스의 텍스트 전처리
- 케라스는 기본적인 전처리를 위한 도구들을 제공한다.
- 때로는 정수 인코딩을 위해서 케라스의 전처리 도구인 토크나이저를 사용하기도 한다.

In [92]:
from tensorflow.keras.preprocessing.text import Tokenizer

preprocessed_sentences = [['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]

In [93]:
tokenizer = Tokenizer()

# fit_on_texts()안에 코퍼스를 입력으로 하면 빈도수를 기준으로 단어 집합을 생성.
tokenizer.fit_on_texts(preprocessed_sentences) 

In [94]:
print(tokenizer.word_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7, 'good': 8, 'knew': 9, 'driving': 10, 'crazy': 11, 'went': 12, 'mountain': 13}


In [95]:
{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7, 'good': 8, 'knew': 9, 'driving': 10, 'crazy': 11, 'went': 12, 'mountain': 13}

{'barber': 1,
 'secret': 2,
 'huge': 3,
 'kept': 4,
 'person': 5,
 'word': 6,
 'keeping': 7,
 'good': 8,
 'knew': 9,
 'driving': 10,
 'crazy': 11,
 'went': 12,
 'mountain': 13}

In [96]:
print(tokenizer.word_counts)

OrderedDict([('barber', 8), ('person', 3), ('good', 1), ('huge', 5), ('knew', 1), ('secret', 6), ('kept', 4), ('word', 2), ('keeping', 2), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)])


texts_to_sequences()는 입력으로 들어온 코퍼스에 대해서 각 단어를 이미 정해진 인덱스로 변환합니다.

In [98]:
print(tokenizer.texts_to_sequences(preprocessed_sentences))

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


앞서 빈도수가 가장 높은 단어 n개만을 사용하기 위해서 most_common()을 사용했었습니다. 케라스 토크나이저에서는 tokenizer = Tokenizer(num_words=숫자)와 같은 방법으로 빈도수가 높은 상위 몇 개의 단어만 사용하겠다고 지정할 수 있습니다. 여기서는 1번 단어부터 5번 단어까지만 사용하겠습니다. 상위 5개 단어를 사용한다고 토크나이저를 재정의 해보겠습니다.

In [99]:
vocab_size = 5
tokenizer = Tokenizer(num_words = vocab_size + 1) # 상위 5개 단어만 사용
tokenizer.fit_on_texts(preprocessed_sentences)

In [100]:
print(tokenizer.word_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7, 'good': 8, 'knew': 9, 'driving': 10, 'crazy': 11, 'went': 12, 'mountain': 13}


In [101]:
print(tokenizer.word_counts)

OrderedDict([('barber', 8), ('person', 3), ('good', 1), ('huge', 5), ('knew', 1), ('secret', 6), ('kept', 4), ('word', 2), ('keeping', 2), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)])


In [102]:
print(tokenizer.texts_to_sequences(preprocessed_sentences))

[[1, 5], [1, 5], [1, 3, 5], [2], [2, 4, 3, 2], [3, 2], [1, 4], [1, 4], [1, 4, 2], [3, 2, 1], [1, 3]]


In [103]:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(preprocessed_sentences)

In [104]:
vocab_size = 5
words_frequency = [word for word, index in tokenizer.word_index.items() if index >= vocab_size + 1] 

# 인덱스가 5 초과인 단어 제거
for word in words_frequency:
    del tokenizer.word_index[word] # 해당 단어에 대한 인덱스 정보를 삭제
    del tokenizer.word_counts[word] # 해당 단어에 대한 카운트 정보를 삭제

print(tokenizer.word_index)
print(tokenizer.word_counts)
print(tokenizer.texts_to_sequences(preprocessed_sentences))

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}
OrderedDict([('barber', 8), ('person', 3), ('huge', 5), ('secret', 6), ('kept', 4)])
[[1, 5], [1, 5], [1, 3, 5], [2], [2, 4, 3, 2], [3, 2], [1, 4], [1, 4], [1, 4, 2], [3, 2, 1], [1, 3]]
