# 토큰화(Tokenization)

## 1. Tensorflow

In [1]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing import sequence

In [3]:
samples = ['The cat sits on the mat','The other cat % $ # @ runs over the mats']

tokenizer = Tokenizer(num_words = 12)
tokenizer.fit_on_texts(samples)

tokenizer

<keras_preprocessing.text.Tokenizer at 0x7ffaa91b1650>

In [5]:
# 단어와 각 단어에 부여된 index를 dictionary 형태로 출력
word_idx = tokenizer.word_index
print(word_idx)

{'the': 1, 'cat': 2, 'sits': 3, 'on': 4, 'mat': 5, 'other': 6, 'runs': 7, 'over': 8, 'mats': 9}


In [16]:
# 단어로 토큰화한 텍스트를 word_idx의 인덱스로 바꿈
seq = tokenizer.texts_to_sequences(samples)
print(seq)
print('\n')

# sequence 길이 맞추기 위해 zero-padding
pad_seq = sequence.pad_sequences(seq, maxlen = 7)
print(pad_seq)
print('\n')

# sequence를 binary(단어 있으면 1, 아니면 0)으로 바꿈
mat1 = tokenizer.sequences_to_matrix(seq, mode = 'binary')
print(mat1)
print('\n')

# sequence를 해당 단어의 빈도수로 바꿈
mat2 = tokenizer.sequences_to_matrix(seq, mode = 'count')
print(mat2)

[[1, 2, 3, 4, 1, 5], [1, 6, 2, 7, 8, 1, 9]]


[[0 1 2 3 4 1 5]
 [1 6 2 7 8 1 9]]


[[0. 1. 1. 1. 1. 1. 0. 0. 0. 0. 0. 0.]
 [0. 1. 1. 0. 0. 0. 1. 1. 1. 1. 0. 0.]]


[[0. 2. 1. 1. 1. 1. 0. 0. 0. 0. 0. 0.]
 [0. 2. 1. 0. 0. 0. 1. 1. 1. 1. 0. 0.]]


## 2. NLTK

In [22]:
from nltk import sent_tokenize, word_tokenize
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [23]:
# 문장단위 토큰화
sample_sent = 'I love dogs. I also like cats. I really like animals'
sentences = sent_tokenize(text = sample_sent)
print(sentences)

['I love dogs.', 'I also like cats.', 'I really like animals']


In [24]:
# 단어단위 토큰화
sample_sent = 'I have been raising a cute maltese dog since 2011.'
words = word_tokenize(sample_sent)
print(words)

['I', 'have', 'been', 'raising', 'a', 'cute', 'maltese', 'dog', 'since', '2011', '.']


### 스톱워드(Stop word)
정의: 텍스트 분석에 큰 의미가 없는 단어를 말하는 것으로, 영어로 치면 'a, the, is, am, were, been' 등 문법적인 구성요소를 포함한다. 이 단어들은 문장에 많이 포함되어 있기 때문에 제거하지 않으면 이 단어들을 중요한 단어로 인식하여 텍스트분석의 정확도를 떨어뜨릴 수 있다.

In [25]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [26]:
# 영어 스톱워드 목록 생성
stopwords = nltk.corpus.stopwords.words('english')

new_words = []
for word in words:
  word = word.lower()
  if word not in stopwords:
    new_words.append(word)
  
print(new_words)

['raising', 'cute', 'maltese', 'dog', 'since', '2011', '.']
