In [1]:
#주어진 문장을 "단어"로 토큰화 하기

#케라스의 텍스트 전처리와 관련한 함수중 text_to_word_seqience함수를 불러옴니다.

from tensorflow.keras.preprocessing.text import text_to_word_sequence

#전처리할 텍스트를 정합니다.

text = "해보지 않으면 해낼 수 없다"

#해당 텍스트를 토큰화 합니다.
result = text_to_word_sequence(text)
print("\n원문 : \n", text)
print("\n토큰화 : \n",result)


원문 : 
 해보지 않으면 해낼 수 없다

토큰화 : 
 ['해보지', '않으면', '해낼', '수', '없다']


In [2]:
import numpy
import tensorflow as tf
from numpy import array
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense,Flatten,Embedding

docs = ["먼저 텍스트의 각 단어를 나누너 토큰화 합니다.",
       "텍스트의 단어로 토큰화 해야 딥러닝에서 인식됩니다.",
       "토큰화 한 결과는 딥러닝에서 사용 할 수 있습니다."
       ]

token = Tokenizer()
token.fit_on_sequences(docs)

print("\n단어카운트:\n", token.word_counts)

print("\n문장카운트:\n",token.document_count)
print("\n각 단어가 몇개의 문장에 포함되어 있는가:\n",token.word_docs)
print("\n각 단어에 매겨진 인덱스 값:\n",token.word_index)


단어카운트:
 OrderedDict()

문장카운트:
 3

각 단어가 몇개의 문장에 포함되어 있는가:
 defaultdict(<class 'int'>, {})

각 단어에 매겨진 인덱스 값:
 {}


In [3]:
from tensorflow.keras.preprocessing.text import Tokenizer

text = "오랫동안 꿈꾸는 이는 그 꿈을 닮아간다"

#토큰화
token = Tokenizer()
token.fit_on_texts([text])
print(token.word_index)

x = token.texts_to_sequences([text])
print("\n텍스트,토큰화 결과:\n",x)



{'오랫동안': 1, '꿈꾸는': 2, '이는': 3, '그': 4, '꿈을': 5, '닮아간다': 6}

텍스트,토큰화 결과:
 [[1, 2, 3, 4, 5, 6]]


In [4]:
from tensorflow.keras.utils import to_categorical

#인덱스 수에 하나를 추가해서 원-핫 인코딩 배열 만들기

word_size = len(token.word_index)+1

x = to_categorical(x, num_classes = word_size)
print(x)

[[[0. 1. 0. 0. 0. 0. 0.]
  [0. 0. 1. 0. 0. 0. 0.]
  [0. 0. 0. 1. 0. 0. 0.]
  [0. 0. 0. 0. 1. 0. 0.]
  [0. 0. 0. 0. 0. 1. 0.]
  [0. 0. 0. 0. 0. 0. 1.]]]


In [5]:
from numpy import array

#텍스트 리뷰 자료를 지정합니다.
docs = ["너무 재밌네요","최고예요","참 잘 만든 영화에요","추천하고 싶은 영화입니다",
        "한번 더 보고싶네요", "글쎄요","별로예요","생각보다 지루하네요",
        "연기가 어색해요","재미 없어요"
       ]

#긍정 리뷰는 1, 부정 리뷰는 0으로 클래스를 지정합니다.
classes = array([1, 1, 1, 1, 1, 0, 0, 0, 0, 0 ])

from tensorflow.keras.preprocessing.text import Tokenizer
#토큰화 
token = Tokenizer()
token.fit_on_texts(docs)
print(token.word_index)
x = token.texts_to_sequences(docs)
print("\n리뷰 텍스트,토큰화 결과:\n", x)

from tensorflow.keras.preprocessing.sequence import pad_sequences
#패딩, 서로 다른 길이의 데이터를 4로 맟추어 줍니다.
padded_x = pad_sequences(x,  4)
print("\n패딩 결과:\n",padded_x)

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense,Flatten,Embedding

#딥러닝 모델
print("\n딥러닝 모델 시작:")



{'너무': 1, '재밌네요': 2, '최고예요': 3, '참': 4, '잘': 5, '만든': 6, '영화에요': 7, '추천하고': 8, '싶은': 9, '영화입니다': 10, '한번': 11, '더': 12, '보고싶네요': 13, '글쎄요': 14, '별로예요': 15, '생각보다': 16, '지루하네요': 17, '연기가': 18, '어색해요': 19, '재미': 20, '없어요': 21}

리뷰 텍스트,토큰화 결과:
 [[1, 2], [3], [4, 5, 6, 7], [8, 9, 10], [11, 12, 13], [14], [15], [16, 17], [18, 19], [20, 21]]

패딩 결과:
 [[ 0  0  1  2]
 [ 0  0  0  3]
 [ 4  5  6  7]
 [ 0  8  9 10]
 [ 0 11 12 13]
 [ 0  0  0 14]
 [ 0  0  0 15]
 [ 0  0 16 17]
 [ 0  0 18 19]
 [ 0  0 20 21]]

딥러닝 모델 시작:


In [6]:
#token은 생성시 option에 따라 다양한 기능을 가짐
#아래 코드에서 lower char_level 옵션을 변경해 가면 실습해보기
text = "I am a boy. My name is David"

#토큰화
token = Tokenizer(
    num_words=None,  #단어빈도가 많은 순서로 num_words개의 단어를 보존
    filters= '!"#$%()*+,-./:;<=>?@[\\]&_`{|}~\t\n', #걸러낼 문자 리스트를 적어줌
    lower = False, #입력받은 문자열을 소문자로 변환할지 True,False로 적어줌
    split=" ",  #문자열을 적어 줘야 하고, 단어를 분리하는 기준을 적어준다.
    char_level = False, #True 인 경우 모든 문자가 토큰으로 처리된다.
    oov_token=None, #값이 지정된 경우, text_to_sequence 호출과정에서 word_index에추가되어out_of_vocabulary words를 대체한다.
    document_count=0,
)
token.fit_on_texts([text])
print(token.word_index)

{'I': 1, 'am': 2, 'a': 3, 'boy': 4, 'My': 5, 'name': 6, 'is': 7, 'David': 8}


In [7]:
import numpy as np
samples = ["The cat sat on the mat.", "The dog ate my homework."]

token_index= {}
for sample in samples:
    print(sample)
    
    #split()메서드를 사용해 샘플을 토큰으로 나눕니다.
    #split()에서는 구둣점과 특수문자도 사용
    #"mat","homework"과 같이 "."을 포함하는 문자를 위해 replace("."," ")를 사용
    for word in sample.replace("."," ").split():
        
        if word not in token_index:
            #단어마다 고유한 인덱스를 할당합니다.
            token_index[word] = len(token_index) + 1
            #인덱스 0은 사용하지 않습니다.
print(token_index)

#==================================================================
#=====================================================================


#샘플을 벡터로 변환합니다.
#각 샘플에서 max_length까지 단어만 사용합니다.
max_length = 10
#결과를 저장할 배열입니다.

results = np.zeros((len(samples), max_length, max(token_index.values())+1))
                   
for i,sample in enumerate(samples):
    print(sample)
    for j,word in list(enumerate(sample.replace(".","").split()))[:max_length]:
        #token_index(위에 말들어진 토큰의 인덱스 딕셔너리)
        index = token_index.get(word)
        results[i, j, index] = 1.
    print(results)
#1차원 요소11개, 2차원요소 10개, 3차원요소2개인 벡터가 만들어짐

The cat sat on the mat.
The dog ate my homework.
{'The': 1, 'cat': 2, 'sat': 3, 'on': 4, 'the': 5, 'mat': 6, 'dog': 7, 'ate': 8, 'my': 9, 'homework': 10}
The cat sat on the mat.
[[[0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]]

 [[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]]]
The dog ate my homework.
[[[0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 1. 0. 0

In [8]:
import string
import sys
np.set_printoptions(threshold=sys.maxsize)
samples = ["The cat sat on the mat","The dog ate my homework"]
characters = string.printable #출력 가능한 모슨 아스키(ASCII)문자
token_index = dict(zip(characters, range(1, len(characters)+1)))
print(token_index)  #출력 가능한 모든 아스키 문자를 print하면 아래와 같음


#============================================================================
#============================================================================

max_length = 50
#결과를 담을 3차원 배열을 0으로 초기화하여 생성
results = np.zeros((len(samples),max_length,max(token_index.values())+1)) #2, 50, 101
for l,sample in enumerate(samples):
    for j, character in enumerate(sample[:max_length]):
        index = token_index.get(character)
        results[l,j,index] = 1. #해당되는 아스키 코드의 index만 1로
import sys
np.set_printoptions(threshold=sys.maxsize) #print에서 생략하지 않고 모든행/열표시
print(results)


{'0': 1, '1': 2, '2': 3, '3': 4, '4': 5, '5': 6, '6': 7, '7': 8, '8': 9, '9': 10, 'a': 11, 'b': 12, 'c': 13, 'd': 14, 'e': 15, 'f': 16, 'g': 17, 'h': 18, 'i': 19, 'j': 20, 'k': 21, 'l': 22, 'm': 23, 'n': 24, 'o': 25, 'p': 26, 'q': 27, 'r': 28, 's': 29, 't': 30, 'u': 31, 'v': 32, 'w': 33, 'x': 34, 'y': 35, 'z': 36, 'A': 37, 'B': 38, 'C': 39, 'D': 40, 'E': 41, 'F': 42, 'G': 43, 'H': 44, 'I': 45, 'J': 46, 'K': 47, 'L': 48, 'M': 49, 'N': 50, 'O': 51, 'P': 52, 'Q': 53, 'R': 54, 'S': 55, 'T': 56, 'U': 57, 'V': 58, 'W': 59, 'X': 60, 'Y': 61, 'Z': 62, '!': 63, '"': 64, '#': 65, '$': 66, '%': 67, '&': 68, "'": 69, '(': 70, ')': 71, '*': 72, '+': 73, ',': 74, '-': 75, '.': 76, '/': 77, ':': 78, ';': 79, '<': 80, '=': 81, '>': 82, '?': 83, '@': 84, '[': 85, '\\': 86, ']': 87, '^': 88, '_': 89, '`': 90, '{': 91, '|': 92, '}': 93, '~': 94, ' ': 95, '\t': 96, '\n': 97, '\r': 98, '\x0b': 99, '\x0c': 100}
[[[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
   0. 0. 0. 0. 0. 0. 0. 0

In [9]:
import numpy as np

samples = ["The cat sat on the mat","The dog ate my homework"]

#단어를 크기가 1,000인 벡터로 저장합니다.
#1,000개 (또는 그 이상)의 단어가 있다면 해싱 충돌이 늘어나고
#인코딩의 정확도가 감소될 것 입니다.

dimensionality = 1000
max_length = 10

results = np.zeros((len(samples), max_length, dimensionality))
for i, sample in enumerate(samples):
    for j,word in list(enumerate(sample.split()))[:max_length]:
        #단어를 해싱하여 0과 1,000사이의 랜덤한 정수 인덱스로 변환합니다.
        index = abs(hash(word)) % dimensionality
        results[i, j, index] = 1.
print(result)

['해보지', '않으면', '해낼', '수', '없다']


In [10]:
from tensorflow.keras.datasets import imdb
from tensorflow.keras import preprocessing

#특성으로 사용할 단어의 수
max_features = 10000

#사용할 텍스트의 길이(가장 빈번한 max_features 개의 단어만 사용합니다.)
maxlen = 20

#정수 리스트로 데이터를 로드합니다.
(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=max_features)

#리스트를 (samples, maxlen)크기의 2D 정수 텐서로 변환합니다.
x_train = preprocessing.sequence.pad_sequences(x_train, maxlen = maxlen)
x_test = preprocessing.sequence.pad_sequences(x_test, maxlen = maxlen)

print(x_train.shape, y_train.shape)
print(x_test.shape, y_test.shape)
print(x_train[0])


#===================================================================
#===================================================================


from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense,Flatten,Embedding
print(x_train.shape)

model = Sequential()
#나중에 임베딩된 입력을 Flatten층에서  펼치기 위해 Embedding 층에 input_length를 지정
model.add(Embedding(10000, 8, input_length=maxlen))

#3D 임베딩 텐서를 (samples, maxlen * 8)크기의 2D텐서로 펼칩니다.
model.add(Flatten())

#분류기를 추갛바니다.

model.add(Dense(1, activation="sigmoid"))
model.compile(optimizer="rmsprop", loss="binary_crossentropy", metrics="acc")
model.summary()

historu = model.fit(x_train,y_train,
                   epochs = 10,
                   batch_size = 32,
                   validation_split = 0.2)

(25000, 20) (25000,)
(25000, 20) (25000,)
[  65   16   38 1334   88   12   16  283    5   16 4472  113  103   32
   15   16 5345   19  178   32]
(25000, 20)
Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding (Embedding)        (None, 20, 8)             80000     
_________________________________________________________________
flatten (Flatten)            (None, 160)               0         
_________________________________________________________________
dense (Dense)                (None, 1)                 161       
Total params: 80,161
Trainable params: 80,161
Non-trainable params: 0
_________________________________________________________________
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


In [11]:
import os

#local OS인 경우 colap인 경우 디렉토리  설정은 각각 다음과 같음.
imdb_dir = "C:/000/aclImdb/aclImdb"

train_dir = os.path.join(imdb_dir, "train")

labels = []
texts = []

#===================================================================
#===================================================================

for label_type in ["neg", "pos"]:
    dir_name = os.path.join(train_dir, label_type)
    print(dir_name)
    for fname in os.listdir(dir_name): #확장자가 text면
        if fname[-4:] == ".txt": 
            f = open(os.path.join(dir_name, fname), encoding="utf8")
            texts.append(f.read()) #내용은 순서대로 리스트에 집어 넣음
            f.close()
            #부정이면 0 , 긍정이면 1 을 texts[]리스트와 동일한 index에 집어넣음
            if label_type == "neg":
                labels.append(0)
            else:
                labels.append(1)

print(texts[0]) #부정의 첫번째 문장
print(labels[0])  ##부정의 첫번째 label
print(texts[12500])  #긍정의 첫번째문장
print(labels[12500]) # #긍정의 첫번째label

#===================================================================
#===================================================================


from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
import numpy as np

maxlen = 100  #100개 단어 이후는 버립니다.
training_samples = 3000   #훈련 샘플은 200개입니다.
validation_samples = 10000   #검증 샘플은 10,000개 입니다.
max_words = 10000   #데이터셋에서 가장 빈도 높은 10,000개의 단어만 

#사용 tokenizer.fit_on_texts(texts)단어 인덱스를 구축
#앞서 만들어진 토큰의 인덱스로만 채워진 새로운 배열을 만들어 줌


#앞서 만들어진 토큰의 인덱스로만 채워진 새로운 배열을 만들어 줌

tokenizer = Tokenizer(num_words = max_words)
tokenizer.fit_on_texts(texts)
sequences = tokenizer.texts_to_sequences(texts)

word_index = tokenizer.word_index #문장 전체의 딕셔너리
print("%s개의 고유한 토큰을 찾았습니다." % len(word_index))
#패딩과정 : 길이를 똑같이 맟춰주는 작업
data = pad_sequences(sequences, maxlen=maxlen)


#===================================================================
#===================================================================

labels = np.asarray(labels)
print("데이터 텐서의 크기 :", data.shape)
print("레이블 텐서의 크기 :", labels.shape)

#데이터를 훈련 세트와 검증 세트로 분할합니다.
#샘플이 순서대로 있기 때문에 (부정 샘플이 모두 나온 후에 긍정 샘플이 옵니다)
#먼저 데이터를 섞습니다.
#data의 전체 수량 만큼의 배열을 indices에 생성 합니다. data.shape[0]: 25000

indices = np.arange(data.shape[0])
np.random.shuffle(indices) #긍정 부정을 섞음
data = data[indices]   #데이터가 섞임
labels = labels[indices]  #label이 섞임

x_train = data[:training_samples]
y_train = labels[:training_samples]
# x_val = data[training_samples: training_samples+validation_samples]
# y_val = labels[training_samples: training_samples+validation_samples]

#===================================================================
#===================================================================

glove_dir = "C:/000/glove.6B"

embeddings_index = {}
f = open(os.path.join(glove_dir, "glove.6B.100d.txt"), encoding = "utf8")
for line in f:
    values = line.split()
    word = values[0] #단어
    #1번 인덱스 이후 마지막까지 100차원의 임베딩 벡터 정보
    coefs = np.asarray(values[1:], dtype="float32")
    embeddings_index[word] = coefs

f.close()
print("%s개의 단어 벡터를 찾았습니다." % len(embeddings_index))

#===================================================================
#===================================================================

embedding_dim = 100
#max_words 는 사용하는 10000개의 단어
embedding_matrix = np.zeros((max_words, embedding_dim))
for word,i in word_index.items():
    #emberddings_index 는 문자열 과 100개의 벡터가 연결된 딕셔너리
    embedding_vector = embeddings_index.get(word)
    if i < max_words:
        if embedding_vector is not None:
            #임베딩 인덱스에 없는 단어는 모두 0이 됩니다. 위 0초기화 유지
            embedding_matrix[i] = embedding_vector
            
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense,Flatten,Embedding

model = Sequential()
model.add(Embedding(max_words, embedding_dim, input_length=maxlen))
model.add(Flatten())
model.add(Dense(32, activation="relu"))
model.add(Dense(1, activation="sigmoid"))
model.summary()
model.layers[0].set_weights([embedding_matrix])
model.layers[0].trainable = False

model.compile(optimizer="rmsprop",
             loss = "binary_crossentropy",
             metrics=["acc"])

history = model.fit(x_train, y_train,
                   epochs=10,
                   batch_size = 32,
                   validation_data=(x_val, y_val))
model.save_weights("pre_trained_glove_model.h5")

import matplotlib.pyplot as plt
acc = history.history["acc"]
val_acc = history.history["val_acc"]
loss = history.history["loss"]
val_loss = history.history["val_loss"]

epochs = range(1, len(acc) + 1)

plt.plot(epochs, acc, "bo", label="Training acc")
plt.plot(epochs, val_acc, "b", label="Validation acc")
plt.title("Training and validation accuracy")
plt.legend()
plt.figure()

plt.plot(epochs, loss, "bo", label="Training loss")
plt.plot(epochs, val_loss, "b", label = "Validation loss")
plt.title("Training and validation loss")
plt.legend()
plt.show()

C:/000/aclImdb/aclImdb\train\neg
C:/000/aclImdb/aclImdb\train\pos
Story of a man who has unnatural feelings for a pig. Starts out with a opening scene that is a terrific example of absurd comedy. A formal orchestra audience is turned into an insane, violent mob by the crazy chantings of it's singers. Unfortunately it stays absurd the WHOLE time with no general narrative eventually making it just too off putting. Even those from the era should be turned off. The cryptic dialogue would make Shakespeare seem easy to a third grader. On a technical level it's better than you might think with some good cinematography by future great Vilmos Zsigmond. Future stars Sally Kirkland and Frederic Forrest can be seen briefly.
0
Bromwell High is a cartoon comedy. It ran at the same time as some other programs about school life, such as "Teachers". My 35 years in the teaching profession lead me to believe that Bromwell High's satire is much closer to reality than is "Teachers". The scramble to survive

NameError: name 'x_val' is not defined