In [5]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence

In [6]:
text = "해보지 않으면 해낼 수 없다."

result = text_to_word_sequence(text)
print("\n원문:\n" , text)
print("\n토큰화:\n" , result)


원문:
 해보지 않으면 해낼 수 없다.

토큰화:
 ['해보지', '않으면', '해낼', '수', '없다']


In [8]:
import numpy as np
import tensorflow as tf
from numpy import array
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense , Flatten , Embedding

docs = ["먼저 텍스트의 각 단어를 나누어 토큰화 합니다." ,
       "텍스트의 단어로 토큰화 해야 딥러닝에서 인식됩니다.",
       "토큰화 한 결과는 딥러닝에서 사용 할수 있습니다."]
token = Tokenizer()
token.fit_on_texts(docs)

# word.count는 단어의 빈도수를 측정해주는 함수 
print("\n단어 카운트 : \n" , token.word_counts)

# document.count는 총 몇개의 문장이 들어있는지 확인
print("\n문장 카운트 :" , token.document_count)

# word_docs 단어들이 몇개의 문장에 나오는가를 세어볼수 있음
print("\n각 단어가 몇개의 문장에 포함되어 있는가 : \n" , token.word_docs)

# word_index 각 단어의 매겨진 인덱스 값을 출력할수 있음
print("\n각 단어에 매겨진 인덱스 값 : \n" , token.word_index)




단어 카운트 : 
 OrderedDict([('먼저', 1), ('텍스트의', 2), ('각', 1), ('단어를', 1), ('나누어', 1), ('토큰화', 3), ('합니다', 1), ('단어로', 1), ('해야', 1), ('딥러닝에서', 2), ('인식됩니다', 1), ('한', 1), ('결과는', 1), ('사용', 1), ('할수', 1), ('있습니다', 1)])

문장 카운트 : 3

각 단어가 몇개의 문장에 포함되어 있는가 : 
 defaultdict(<class 'int'>, {'텍스트의': 2, '나누어': 1, '각': 1, '먼저': 1, '합니다': 1, '단어를': 1, '토큰화': 3, '해야': 1, '딥러닝에서': 2, '단어로': 1, '인식됩니다': 1, '사용': 1, '결과는': 1, '한': 1, '있습니다': 1, '할수': 1})

각 단어에 매겨진 인덱스 값 : 
 {'토큰화': 1, '텍스트의': 2, '딥러닝에서': 3, '먼저': 4, '각': 5, '단어를': 6, '나누어': 7, '합니다': 8, '단어로': 9, '해야': 10, '인식됩니다': 11, '한': 12, '결과는': 13, '사용': 14, '할수': 15, '있습니다': 16}


In [13]:
# 원 핫 인코딩 = 각 단어를 모두 0으로 바꿔주고 원하는 단어만 1로 바꾸어 줌 

text = "오랫동안 꿈꾸는 이는 그 꿈을 닮아간다."

# 토큰화
token = Tokenizer()
token.fit_on_texts([text])
print(token.word_index)

x = token.texts_to_sequences([text])
print("\n텍스트 , 토큰화 결과 : \n" , x)

from tensorflow.keras.utils import to_categorical

word_size = len(token.word_index) + 1
x = to_categorical(x , num_classes = word_size)

print(x)

{'오랫동안': 1, '꿈꾸는': 2, '이는': 3, '그': 4, '꿈을': 5, '닮아간다': 6}

텍스트 , 토큰화 결과 : 
 [[1, 2, 3, 4, 5, 6]]
[[[0. 1. 0. 0. 0. 0. 0.]
  [0. 0. 1. 0. 0. 0. 0.]
  [0. 0. 0. 1. 0. 0. 0.]
  [0. 0. 0. 0. 1. 0. 0.]
  [0. 0. 0. 0. 0. 1. 0.]
  [0. 0. 0. 0. 0. 0. 1.]]]


In [20]:
# 임베딩은 최소2개의 매개변수를 필요로함 , 입력과 출력 

from numpy import array

# 텍스트 리뷰 자료를 지정합니다.
docs = ["너무 재밌네요" , "최고에요" , "참 잘 만든 영화에요" , "추천하고 싶은 영화입니다.",
       "한번 더 보고싶네요" , "글쎄요" , "별로에요" , "생각보다 지루하네요" , "연기가 어색해요" , "재미없어요"]

# 긍정리뷰는 1 , 부정 리뷰는 0으로 클래스를 지정합니다.
classes = array([1,1,1,1,1,0,0,0,0,0])

from tensorflow.keras.preprocessing.text import Tokenizer

# 토큰화
token = Tokenizer()
token.fit_on_texts(docs)
print(token.word_index)
x = token.texts_to_sequences(docs)
print("\n리뷰 텍스트 , 토큰화 결과 : \n" , x)

from tensorflow.keras.preprocessing.sequence import pad_sequences
# 패딩 , 서로 다른 길이의 데이터를 4로 맞추어 준다.
padded_x = pad_sequences(x , 4)
print("\n패딩 결과 : \n" , padded_x)

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense , Flatten , Embedding

# 임베딩 = 단어와 단어와의 관계를 벡터를 통해서 드러내는것

{'너무': 1, '재밌네요': 2, '최고에요': 3, '참': 4, '잘': 5, '만든': 6, '영화에요': 7, '추천하고': 8, '싶은': 9, '영화입니다': 10, '한번': 11, '더': 12, '보고싶네요': 13, '글쎄요': 14, '별로에요': 15, '생각보다': 16, '지루하네요': 17, '연기가': 18, '어색해요': 19, '재미없어요': 20}

리뷰 텍스트 , 토큰화 결과 : 
 [[1, 2], [3], [4, 5, 6, 7], [8, 9, 10], [11, 12, 13], [14], [15], [16, 17], [18, 19], [20]]

패딩 결과 : 
 [[ 0  0  1  2]
 [ 0  0  0  3]
 [ 4  5  6  7]
 [ 0  8  9 10]
 [ 0 11 12 13]
 [ 0  0  0 14]
 [ 0  0  0 15]
 [ 0  0 16 17]
 [ 0  0 18 19]
 [ 0  0  0 20]]


In [41]:
text = "I am a boy. My name is Daivd"

token = Tokenizer(
    # 단어 빈도수가 많은 순서로 num_words개의 단어를 보존한다.
    num_words = None ,
    # 걸러낼 문자 리스트를 적어준다. 
    filters = '!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n',
    # 입력받은 문자열을 소문자로 변환할지를 True , False로 적어준다.
    lower = False,
    # 문자열을 적어 줘야 하고 , 단어를 분리하는 기준을 적어준다.
    split = " " ,
    # True인 경우 모든 문자가 토큰으로 처리된다.
    char_level = False ,
    # 값이 지정된 경우 text_to_sequence 호출 과정에서 
    # word_index에 추가되어 out_of_vocabulary words를 대처한다.
    oov_token = None ,
    document_count = 0,
)

token.fit_on_texts([text])
print(token.word_index)

import numpy as np

samples = ["The cat sat on the mat." , "The dog ate my homework"]

token_index = {}

for sample in samples:
    print(sample)
    for word in sample.replace("," , " ").split():
        if word not in token_index:
            token_index[word] = len(token_index) + 1
print(token_index)

max_length = 10

results = np.zeros((len(samples) , max_length , max(token_index.values()) + 1))
for i , sample in enumerate(samples):
    print(sample)
    for j , word in list(enumerate(sample.replace("." , " ").split()))[:max_length]:
        index = token_index.get(word)
        results[i , j , index] = 1.
print(results)

{'I': 1, 'am': 2, 'a': 3, 'boy': 4, 'My': 5, 'name': 6, 'is': 7, 'Daivd': 8}
The cat sat on the mat.
The dog ate my homework
{'The': 1, 'cat': 2, 'sat': 3, 'on': 4, 'the': 5, 'mat.': 6, 'dog': 7, 'ate': 8, 'my': 9, 'homework': 10}
The cat sat on the mat.
The dog ate my homework
[[[0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
  [1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]]

 [[0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0

In [44]:
import string

samples = ["The cat sat in the mat." , "The dog ate my homework"]
characters = string.printable # 출력 가능한 모든 아스키문자
token_index = dict(zip(characters , range(1 , len(characters) + 1)))
print(token_index) # 출력 가능한 모든 아스키 문자를 print하면 아래와 같음

max_length = 50

results = np.zeros((len(samples) , max_length ,max(token_index.values()) + 1))
for i , sample in enumerate(samples):
    for j , charater in enumerate(sample[:max_length]):
        index = token_index.get(charater)
        results[i , j , index] = 1
import sys
np.set_printoptions(threshold = sys.maxsize)
print(results)

{'0': 1, '1': 2, '2': 3, '3': 4, '4': 5, '5': 6, '6': 7, '7': 8, '8': 9, '9': 10, 'a': 11, 'b': 12, 'c': 13, 'd': 14, 'e': 15, 'f': 16, 'g': 17, 'h': 18, 'i': 19, 'j': 20, 'k': 21, 'l': 22, 'm': 23, 'n': 24, 'o': 25, 'p': 26, 'q': 27, 'r': 28, 's': 29, 't': 30, 'u': 31, 'v': 32, 'w': 33, 'x': 34, 'y': 35, 'z': 36, 'A': 37, 'B': 38, 'C': 39, 'D': 40, 'E': 41, 'F': 42, 'G': 43, 'H': 44, 'I': 45, 'J': 46, 'K': 47, 'L': 48, 'M': 49, 'N': 50, 'O': 51, 'P': 52, 'Q': 53, 'R': 54, 'S': 55, 'T': 56, 'U': 57, 'V': 58, 'W': 59, 'X': 60, 'Y': 61, 'Z': 62, '!': 63, '"': 64, '#': 65, '$': 66, '%': 67, '&': 68, "'": 69, '(': 70, ')': 71, '*': 72, '+': 73, ',': 74, '-': 75, '.': 76, '/': 77, ':': 78, ';': 79, '<': 80, '=': 81, '>': 82, '?': 83, '@': 84, '[': 85, '\\': 86, ']': 87, '^': 88, '_': 89, '`': 90, '{': 91, '|': 92, '}': 93, '~': 94, ' ': 95, '\t': 96, '\n': 97, '\r': 98, '\x0b': 99, '\x0c': 100}
[[[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
   0. 0. 0. 0. 0. 0. 0. 0

In [45]:
samples = ["The cat sat on the mat." , "The dog ate my homework"]

dimensionality = 1000
max_length = 10

results = np.zeros((len(samples) , max_length , dimensionality))
for i , sample in enumerate(samples):
    for j , word in list(enumerate(sample.split()))[:max_length]:
        index = abs(hash(word)) % dimensionality
        results[i , j , index] = 1.
print(results)

[[[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
   0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
   0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
   0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
   0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
   0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
   0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
   0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
   0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
   0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
   0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
   0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
   0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
   0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0

In [50]:
from tensorflow.keras.datasets import imdb
from tensorflow.keras import preprocessing

max_features = 10000

maxlen = 20 

(x_train , y_train) , (x_test , y_test) = imdb.load_data(num_words = max_features)
x_train = preprocessing.sequence.pad_sequences(x_train , maxlen = maxlen)
x_test = preprocessing.sequence.pad_sequences(x_test , maxlen = maxlen)

print(x_train.shape , y_train.shape)
print(x_test.shape , y_test.shape)
print(x_train[0])

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Flatten , Dense , Embedding
print(x_train.shape)

model = Sequential()
# 나중에 임베딩된 입력을 Flatten 층에서 펼치기 위해 Embedding 층에 input_length를 지정합니다.
model.add(Embedding(10000 , 8 , input_length = maxlen))

# 3D 임베딩 텐서를 1D 텐서로 펼칩니다.
model.add(Flatten())

# 분류기를 추가합니다.
model.add(Dense(1 , activation = "sigmoid"))
model.compile(optimizer = "rmsprop" , loss = "binary_crossentropy" , metrics = ["acc"])
model.summary()

history = model.fit(x_train , y_train ,
                   epochs = 10 ,
                   batch_size = 32 ,
                   validation_split = 0.2)

(25000, 20) (25000,)
(25000, 20) (25000,)
[  65   16   38 1334   88   12   16  283    5   16 4472  113  103   32
   15   16 5345   19  178   32]
(25000, 20)
Model: "sequential_2"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_2 (Embedding)      (None, 20, 8)             80000     
_________________________________________________________________
flatten_2 (Flatten)          (None, 160)               0         
_________________________________________________________________
dense_2 (Dense)              (None, 1)                 161       
Total params: 80,161
Trainable params: 80,161
Non-trainable params: 0
_________________________________________________________________
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
