In [14]:
import numpy as np
import pandas as pd
import re
import os
import pickle
from konlpy.tag import Okt
from gensim import models
from gensim.models import Word2Vec
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [15]:
def tokenize(sentence):
    okt = Okt()
    tokenized_sentence = []
    # 우선 단어의 기본형으로 모두 살리고, 명사, 동사, 영어만 담는다.
    # 그냥 nouns로 분리하는 것보다 좀 더 정확하고 많은 데이터를 얻을 수 있다.
    for line in sentence:
        result = []
        temp_sentence = okt.pos(line, norm=True, stem=True) # 먼저 형태소 분리해서 리스트에 담고

        for i in temp_sentence:                             
            if (i[1] == 'Noun' or i[1] == 'Adjective' or i[1] == 'Alpha'):                  
                result.append(i[0])
            
        tokenized_sentence.append(result)

    return tokenized_sentence

In [9]:
def input_preprocessing(sentences):
    tokens = tokenize(sentences)
    ######tokenizer 불러오기 vocab size = 20000으로 되어있는 거임
    with open('tokenizer.pickle','rb') as f:
        tokenizer = pickle.load(f)

    sequences = tokenizer.texts_to_sequences(tokens)
    sequences_padded = pad_sequences(
        sequences, maxlen=30, padding='post', truncating='post')

    return sequences_padded

In [10]:


doc = [
    '좋은게 하나도 없네',
    '돈아깝다 개같은거',
    '별점 0점짜리 쓰레기',
    '시간이 아깝다',
    '아주 재미지네요 하하하ㅏ',
    '완전 헛소리하고 있네',
    '오늘 밥을 먹었다',
    '잠이 잘오는 영화네',
    '세번째 다시 봅니다',
    '어쭙잖은 부성애 vs 명분없는 형제애',
    '박정민 진짜 열일한다',
    '마틸다 기출변형 의상을 앞에 두고 감독은 설득한다. 이 영화의 휴머니즘은 당신의 천진난만한 뱃살에서 나온다고, 물색없이 아메리카노만 마시며',
    '개노잼인데 이정재가 송민호처럼 입고다닌는 것만 좀웃기다',
    '세 사람의 테이큰'
]
# y= [0,0,0,0,1,0,0,0,1,0,1,1,0,1]

X = input_preprocessing(doc)
print(X)

[[    5   434    49     3     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0]
 [   62    26    77     9     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0]
 [   12    12    43     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0]
 [   35    26     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0]
 [  162    36  2681   995     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0]
 [   56  4012     4     0     0     0     0     0     0     0    

In [16]:
tok_padded = input_preprocessing(doc)


In [17]:
tok_padded

array([[    5,   434,    49,     3,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0],
       [   62,    26,    77,     9,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0],
       [   12,    12,    43,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0],
       [   35,    26,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0],
       [  162,    36,  2681,