In [1]:
import pandas as pd
import tensorflow as tf
from tensorflow.keras import preprocessing
from tensorflow.keras.models import Model
from tensorflow.keras.layers import Input, Embedding, Dense, Dropout, Conv1D, GlobalMaxPool1D, concatenate

pandas: pd로 별칭 지정한 패키지로, 데이터 조작과 분석에 유용한 기능을 제공하는 라이브러리입니다. 주로 표 형태의 데이터를 다룰 때 사용되며, 데이터프레임(DataFrame)이라는 자료구조를 제공합니다.

tensorflow: tf로 별칭 지정한 딥러닝 프레임워크로, 기계 학습과 딥러닝 모델을 구축하고 학습시키는 데 사용됩니다. TensorFlow는 텐서(Tensor)라는 다차원 배열을 다루는 라이브러리로, 그래프 기반의 연산을 수행합니다.

tensorflow.keras: TensorFlow에서 제공하는 고수준 딥러닝 API로, Keras API를 TensorFlow에 통합한 것입니다. 딥러닝 모델을 쉽게 구축하고 학습시킬 수 있는 편리한 인터페이스를 제공합니다.

preprocessing: tensorflow.keras.preprocessing 모듈은 데이터 전처리에 사용됩니다. 주로 텍스트, 이미지, 시계열 데이터 등을 신경망 모델에 입력하기 전에 사전 처리하는 데 사용됩니다. 예를 들어, 텍스트 데이터의 토큰화, 정수 인코딩, 패딩 등의 작업을 처리할 수 있습니다.

tensorflow.keras.models: TensorFlow에서 제공하는 모델 구성을 위한 모듈입니다. 주요 모델 구성 요소인 층(layer)들을 조합하여 모델을 생성하고 관리하는 기능을 제공합니다.

tensorflow.keras.layers: TensorFlow에서 제공하는 다양한 종류의 층(layer)들을 포함하는 모듈입니다. 예를 들어, Dense 층은 완전 연결 신경망(fully connected neural network)을 구성하는 데 사용되며, Conv1D 층은 1차원 합성곱 신경망(convolutional neural network)을 구성하는 데 사용됩니다. Embedding 층은 텍스트나 범주형 데이터를 처리하는 데 사용됩니다.

In [2]:
# 데이터 읽어오기
train_file = "total_train_data.csv"

In [3]:
data = pd.read_csv(train_file, delimiter = ',')
queries = data['query'].tolist()
intents = data['intent'].tolist()

In [36]:
import os, sys    # 다른 폴더에 있는것들 가져오기 위함

module_paths = [
    'C:\\Users\\ledu2\\NLP\\chatbot_study\\utils',
    'C:\\Users\\ledu2\\NLP\\chatbot_study\\config'
]

for path in module_paths:
    abs_path = os.path.abspath(path)
    if abs_path not in sys.path:
        sys.path.append(abs_path)

In [15]:
from Preprocess import Preprocess
p = Preprocess(word2index_dic = '../../train_tools/dict/chatbot_dict.bin', 
              userdic = '../../utils/user_dic.tsv')

In [7]:
# 데이터 시퀀스 생성
sequences = []
for sentence in queries:
    pos = p.pos(sentence)
    keywords = p.get_keywords(pos, without_tag = True)
    seq = p.get_wordidx_sequence(keywords)
    sequences.append(seq)

In [38]:
# 단어 인덱스 시퀀스 벡터 생성
# 단어 시퀀스 백터 크기
from GlobalParams import MAX_SEQ_LEN
padded_seqs = preprocessing.sequence.pad_sequences(sequences, maxlen = MAX_SEQ_LEN,
                                                  padding = 'post')

ImportError: cannot import name 'MAX_SEQ_LEN' from 'GlobalParams' (C:\Users\ledu2\NLP\chatbot_study\config\GlobalParams.py)

In [None]:
# 학습용, 검증용, 테스트용 데이터셋 생성
# 학습셋:검증셋:테스트셋 = 7:2:1
ds = tf.data.Dataset.from_tensor_slices((padded_seqs, intents))
ds = ds.shuffle(len(queries))

tran_size = int(len(padded_seqs) * 0.7)
val_size = int(len(padded_seqs) * 0.2)
test_size = int(len(padded_seqs) * 0.1)

train_ds = ds.take(train_size).batch(20)
val_ds = ds.skip(train_size).take(val_size).batch(20)
test_ds = ds.skip(train_size + val_size).take(test_size).batch(20)


tf.data.Dataset.from_tensor_slices((padded_seqs, intents)):

padded_seqs: 패딩된 시퀀스 데이터를 담고 있는 텐서입니다. 시퀀스 데이터는 문장이나 문서를 숫자로 변환한 것을 말합니다.
intents: 각 시퀀스 데이터에 대응하는 의도(라벨) 정보를 담고 있는 텐서입니다.
from_tensor_slices() 메서드를 사용하여 텐서를 슬라이스하고 데이터셋을 생성합니다. 이렇게 하면 시퀀스 데이터와 의도 정보가 쌍으로 매칭된 데이터셋이 생성됩니다.
ds.shuffle(len(queries)):

ds: 생성한 데이터셋 객체입니다.
shuffle(len(queries)) 메서드를 사용하여 데이터셋을 섞습니다. len(queries)는 데이터셋의 총 개수를 의미합니다. 데이터셋을 섞는 것은 모델이 데이터의 순서를 기억하지 못하도록 하고, 더 좋은 학습 결과를 얻기 위해 데이터를 무작위로 배치하는데 도움을 줍니다.
이 코드들을 실행하면 입력 데이터를 TensorFlow의 데이터셋으로 구성하고, 데이터셋을 섞어서 모델에 사용할 준비를 완료합니다. 이후에는 데이터셋을 배치하거나 반복하여 모델에 입력으로 제공할 수 있습니다.