# Tokenize

In [None]:
import numpy as np
from konlpy.tag import *
from sklearn.feature_extraction.text import CountVectorizer
posToUse=["NNP","NNG","MAG","NP","VV","VV+EF",'XSV+EC']

def getTokens(s):
    global posToUse
    return " ".joi

n([ i[0] for i in  Mecab().pos(s) if i[1] in posToUse ] )


## 1. Simple Version by NLTK

In [2]:
from nltk.tokenize import word_tokenize  
s="나는 너를 사랑한다"

print(word_tokenize("나는 나를 사랑한다"))  
print(word_tokenize(getTokens(s)))

['나는', '나를', '사랑한다']
['나', '너', '사랑', '한다']


## 2. Keras Tokenizer

In [3]:
corpus = [
    "고인물은 게임을 즐긴다.",
    "남중호는 게임을 잘한다.",
    "남중구는 게임을 못한다.",
    "나는 나란 놈 사랑한다.18",
    "너의 게임 나의 게임 사랑하라"
]
s=" ".join(corpus)
print('All string :' ,s)

All string : 고인물은 게임을 즐긴다. 남중호는 게임을 잘한다. 남중구는 게임을 못한다. 나는 나란 놈 사랑한다.18 너의 게임 나의 게임 사랑하라


In [4]:
from tensorflow.keras.preprocessing.text import Tokenizer
tokenizer = Tokenizer()
sentences=[getTokens(r) for r in corpus]
tokenizer.fit_on_texts (sentences)
print(tokenizer.texts_to_sequences(sentences))

[[5, 1, 6], [7, 8, 1, 9, 2], [10, 1, 11, 2], [3, 3, 4, 2], [12, 1, 3, 1, 4]]


In [5]:
tokenizer.word_index

{'게임': 1,
 '한다': 2,
 '나': 3,
 '사랑': 4,
 '인물': 5,
 '즐긴다': 6,
 '남': 7,
 '중호': 8,
 '잘': 9,
 '남중구': 10,
 '못': 11,
 '너': 12}

## 3. Keras pad_sequence

In [6]:
from tensorflow.keras.preprocessing.sequence import pad_sequences
sentences=[getTokens(r) for r in corpus]
encoded = tokenizer.texts_to_sequences(sentences)
pad_sequences(encoded)

array([[ 0,  0,  5,  1,  6],
       [ 7,  8,  1,  9,  2],
       [ 0, 10,  1, 11,  2],
       [ 0,  3,  3,  4,  2],
       [12,  1,  3,  1,  4]], dtype=int32)

In [7]:
pad_sequences(encoded,padding = 'post')

array([[ 5,  1,  6,  0,  0],
       [ 7,  8,  1,  9,  2],
       [10,  1, 11,  2,  0],
       [ 3,  3,  4,  2,  0],
       [12,  1,  3,  1,  4]], dtype=int32)

## cf) Sentence Tokenizer

In [8]:
from nltk.tokenize import sent_tokenize
text="Mr. Nam은 게임을 즐긴다. 남중호는 게임을 잘한다...그런가 보다."
print(sent_tokenize(text))

['Mr. Nam은 게임을 즐긴다.', '남중호는 게임을 잘한다...그런가 보다.']


In [9]:
?tokenizer.texts_to_sequences

[0;31mSignature:[0m [0mtokenizer[0m[0;34m.[0m[0mtexts_to_sequences[0m[0;34m([0m[0mtexts[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Transforms each text in texts to a sequence of integers.

Only top `num_words-1` most frequent words will be taken into account.
Only words known by the tokenizer will be taken into account.

# Arguments
    texts: A list of texts (strings).

# Returns
    A list of sequences.
[0;31mFile:[0m      /usr/local/lib/python3.6/dist-packages/keras_preprocessing/text.py
[0;31mType:[0m      method
