In [1]:
import pandas as pd
import nltk
import re
import tensorflow as tf


# 데이터 로드
df=pd.read_csv("./data/train.csv")

In [2]:
#  NLTK(Natural Language Toolkit)
#     : 말뭉치(corpus), 토큰 생성, 형태소 분석, 품사 태깅등의 자연어처리 및 문서 분석 패키지이다
#  불용어(stopword) 제거
#     : 불용어(stopword)는 분석에 큰 의미가 없는 단어를 지칭한다
#     - is, the, a, will등 빈번하게 텍스테 나타나지만 분석을 하는 것에 있어서 큰 도움이 되지 않는 단어들을 뜻한다
#     - 이러한 불용어들을 제거하지 않으면 그 빈번함으로 인해 오히려 중요한 단어로 인지될 수 있다

# 데이터 전처리
def rmove_word(test_list):
    stop_words=set(nltk.corpus.stopwords.words("english"))
    result=[]
    for text in test_list:
        # 특수 문자 제거
        text=re.sub("[-=+,#/\?:';^$.@*\"※~&%ㆍ!』\\‘|\(\)\[\]\<\>`\'…》]","",text)
        words=text.split(" ")
        # 불용어 제거
        text=" ".join([w for w in words if w not in stop_words])
        result.append(text)
    return result

# 해당 text를 ndarray형태로 변형시켜 전처리 작업을 해준다
test_list=df["excerpt"].to_numpy()
result=rmove_word(test_list)

In [4]:
# Tokenizer()
#     : 텍스트 corpus를 벡터화시킨다
#     - 기본적으로 모든 구두점은 제거되어 텍스트가 공백으로 구분된 단어 시퀀스로 바뀐다
#     - 그런 다음 이러한 시퀀스는 토큰 목록으로 분할되어 인덱싱 되거나 벡터화된다

# 모든 인지를 기본으로 하여 텍스트 corpus를 벡터화시킨다
tok=tf.keras.preprocessing.text.Tokenizer()

# fit_on_texts() 
#     : 텍스트 목록을 기반으로 내부 어휘를 업데이트한다
#     - 텍스트에 목록이 포함된 경우 목록의 각 항목은 토큰으로 가정함
#     - texts_to_sequences 또는 texts_to_matrix를 사용하기 전에 필요하다.


# 텍스트 데이터를 입력받아 리스트이 형태로 변환한다
tok.fit_on_texts(result)
# word_index 속성은 텍스트 데이터를 입력받아 해당 단어와 숫자의 딕셔너리를 반환한다
word_index =tok.word_index

word_index

{'the': 1,
 'i': 2,
 'one': 3,
 'it': 4,
 'he': 5,
 'little': 6,
 'would': 7,
 'said': 8,
 'could': 9,
 'time': 10,
 'like': 11,
 'two': 12,
 'made': 13,
 'in': 14,
 'people': 15,
 'but': 16,
 'they': 17,
 'this': 18,
 'great': 19,
 'many': 20,
 'first': 21,
 'called': 22,
 'a': 23,
 'water': 24,
 'day': 25,
 'also': 26,
 'came': 27,
 'old': 28,
 'went': 29,
 'way': 30,
 'she': 31,
 'see': 32,
 'long': 33,
 'much': 34,
 'when': 35,
 'upon': 36,
 'may': 37,
 'go': 38,
 'well': 39,
 'used': 40,
 'every': 41,
 'make': 42,
 'good': 43,
 'man': 44,
 'there': 45,
 'new': 46,
 'come': 47,
 'back': 48,
 'found': 49,
 'get': 50,
 'away': 51,
 'us': 52,
 'even': 53,
 'and': 54,
 'years': 55,
 'different': 56,
 'must': 57,
 'know': 58,
 'house': 59,
 'still': 60,
 'then': 61,
 'we': 62,
 'home': 63,
 'saw': 64,
 'never': 65,
 'work': 66,
 'thought': 67,
 'mother': 68,
 'world': 69,
 'place': 70,
 'three': 71,
 'without': 72,
 'another': 73,
 'around': 74,
 'things': 75,
 'use': 76,
 'large': 77,


In [5]:
# 총 단어의 길이
word_size=len(tok.get_config()["word_counts"])-1

# texts_to_sequences()
#    : 텍스트의 각 텍스트를 정수 시퀀스로 변환한다
#    - 최상위 num_words-1 단어만 고려된다, tokenizer 에서 알고 있는 단어만 고려된다

# 텍스트 안의 단어들을 정수형태로 변환한다
sequences=tok.texts_to_sequences(result)
sequences

# for s in sequences[:10]:
#     print(len(s))


[[35,
  93,
  15,
  810,
  16166,
  2113,
  5853,
  989,
  1211,
  509,
  2649,
  1879,
  430,
  3557,
  1,
  460,
  451,
  7718,
  4467,
  728,
  5264,
  11746,
  6686,
  16167,
  11,
  552,
  623,
  320,
  1,
  1468,
  5854,
  11747,
  4111,
  153,
  5265,
  4820,
  9230,
  11748,
  2521,
  11,
  623,
  26,
  3788,
  794,
  2785,
  16168,
  3325,
  2786,
  9231,
  1147,
  1212,
  98,
  181,
  153,
  584,
  1147,
  209,
  16169,
  9232,
  129,
  7719,
  7720,
  3,
  308,
  3,
  195,
  54,
  675,
  1,
  308,
  1316,
  3,
  181,
  153,
  195,
  3,
  181,
  22,
  410,
  1469,
  419,
  1469,
  894,
  2951,
  230,
  83,
  2414,
  496,
  1880,
  1469,
  18,
  7,
  715,
  174,
  5855,
  2114,
  2115,
  16170],
 [206,
  572,
  10,
  312,
  11749,
  1391,
  1625,
  112,
  2650,
  4112,
  16171,
  3789,
  1881,
  31,
  281,
  123,
  296,
  1063,
  11750,
  175,
  66,
  563,
  314,
  9233,
  11751,
  98,
  90,
  104,
  1882,
  363,
  2116,
  6,
  811,
  8,
  206,
  146,
  4112,
  37,
  38,
  278

In [7]:
# pad_sequences()
#     : 시퀀스를 입력하면 숫자 0을 이용해서 같은 길이의 시퀀스로 변환시킨다
#     - 가장 긴 시퀀스를 기준으로 모두 같은 길이의 시퀀스를 포함하는 numpy array로 변환한다
#    - 파라미터
#         - sequences : 리스트의 리스트로, 각 성분이 시퀀스이다
#         - maxlen : 정수, 모든 시퀀스의 최대 길이를 설정하여 제한한다.

# 딥러닝 모델에 입력 하려면 학습 데이터의 길이가 통일되어야 한다
# pad_sequences()로 리스트의 길이를 120으로 통일 시킨다 (이 과정을 패딩 (padding)이라고 한다.)
sequences=tf.keras.preprocessing.sequence.pad_sequences(sequences,maxlen=120)
print(sequences)

y_train=df["target"].to_numpy()


[[    0     0     0 ...  2114  2115 16170]
 [    0     0     0 ...  6688   363 16173]
 [    0     0     0 ...   202  2524   845]
 ...
 [    0     0     0 ...   397  1144   877]
 [    0     0     0 ...   750   102   885]
 [    0     0     0 ...  4966  7923  7062]]


- Embedding layer\
    : 단어를 벡터화 한다

<img src="./image/embedding2.png" height="200px" width="300px" >

In [8]:
# 모델 생성
inputs=tf.keras.Input((120,))
# 입력될 총 단어의 수는 get_config로 구해준 길이, 출력되는 벡터의 크기는 64로 지정한다
emb=tf.keras.layers.Embedding(input_dim=word_size,output_dim=64)(inputs)
# Bidirectional LSTM은 이후 데이터의 time step가 이전 데이터의 time step에 영향을 주는 layer이다
b1=tf.keras.layers.Bidirectional(tf.keras.layers.LSTM(64))(emb)
dens=tf.keras.layers.Dense(64,activation="relu")(b1)
outputs=tf.keras.layers.Dense(1)(dens)

model=tf.keras.Model(inputs,outputs)
model.summary()

Model: "model"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_1 (InputLayer)         [(None, 120)]             0         
_________________________________________________________________
embedding (Embedding)        (None, 120, 64)           28879616  
_________________________________________________________________
bidirectional (Bidirectional (None, 128)               66048     
_________________________________________________________________
dense (Dense)                (None, 64)                8256      
_________________________________________________________________
dense_1 (Dense)              (None, 1)                 65        
Total params: 28,953,985
Trainable params: 28,953,985
Non-trainable params: 0
_________________________________________________________________


In [9]:
# 모델 학습과정 설정

model.compile(loss=tf.keras.losses.MeanSquaredError(),
             optimizer=tf.keras.optimizers.Adam(lr=0.001),
             metrics=["mse"])

# 모델 학습
model.fit(sequences,y_train,batch_size=32,epochs=10)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<tensorflow.python.keras.callbacks.History at 0x1cba2f71070>

In [10]:
# 테스트 데이터 로드
test_df=pd.read_csv("./data/test.csv")

# 테스트 데이터도 해당 text를 ndarray형태로 변형시켜 전처리 작업을 해준다
test2_list=test_df["excerpt"].to_numpy()
result2=rmove_word(test2_list)

# 텍스트 데이터를 입력받아 리스트이 형태로 변환한다
tok.fit_on_texts(result2)

# 테스트 데이터의 모든 단어의 길이
word_size2=len(tok.get_config()["word_counts"])-1

# 텍스트 안의 단어들을 정수형 시퀀스의 형태로 변환한다
sequences2=tok.texts_to_sequences(result2)

# 테스트 데이터도 동일하게 리스트의 길이를 120으로 통일 시킨다
sequences2=tf.keras.preprocessing.sequence.pad_sequences(sequences2,maxlen=120)

# 모델 예측
prd=model.predict(sequences2)
print(prd)

[[-0.5119372 ]
 [-1.0460308 ]
 [-0.80656344]
 [-1.5082572 ]
 [-1.4880606 ]
 [-0.7524263 ]
 [-0.8238032 ]]


In [None]:
# https://codetorial.net/tensorflow/natural_language_processing_in_tensorflow_01.html
# https://www.tensorflow.org/text/guide/word_embeddings?hl=ko
# https://wikidocs.net/33520