In [1]:
pwd

'/Users/ledu1017/python/FINAL-AI/chatbot/models/intent'

In [2]:
cd ../../

/Users/ledu1017/python/FINAL-AI/chatbot


In [3]:
import pandas as pd
import tensorflow as tf
from tensorflow.keras import preprocessing
from tensorflow.keras.models import Model
from tensorflow.keras.layers import Input, Embedding, Dense, Dropout, Conv1D, GlobalMaxPool1D, concatenate

pandas: pd로 별칭 지정한 패키지로, 데이터 조작과 분석에 유용한 기능을 제공하는 라이브러리입니다. 주로 표 형태의 데이터를 다룰 때 사용되며, 데이터프레임(DataFrame)이라는 자료구조를 제공합니다.

tensorflow: tf로 별칭 지정한 딥러닝 프레임워크로, 기계 학습과 딥러닝 모델을 구축하고 학습시키는 데 사용됩니다. TensorFlow는 텐서(Tensor)라는 다차원 배열을 다루는 라이브러리로, 그래프 기반의 연산을 수행합니다.

tensorflow.keras: TensorFlow에서 제공하는 고수준 딥러닝 API로, Keras API를 TensorFlow에 통합한 것입니다. 딥러닝 모델을 쉽게 구축하고 학습시킬 수 있는 편리한 인터페이스를 제공합니다.

preprocessing: tensorflow.keras.preprocessing 모듈은 데이터 전처리에 사용됩니다. 주로 텍스트, 이미지, 시계열 데이터 등을 신경망 모델에 입력하기 전에 사전 처리하는 데 사용됩니다. 예를 들어, 텍스트 데이터의 토큰화, 정수 인코딩, 패딩 등의 작업을 처리할 수 있습니다.

tensorflow.keras.models: TensorFlow에서 제공하는 모델 구성을 위한 모듈입니다. 주요 모델 구성 요소인 층(layer)들을 조합하여 모델을 생성하고 관리하는 기능을 제공합니다.

tensorflow.keras.layers: TensorFlow에서 제공하는 다양한 종류의 층(layer)들을 포함하는 모듈입니다. 예를 들어, Dense 층은 완전 연결 신경망(fully connected neural network)을 구성하는 데 사용되며, Conv1D 층은 1차원 합성곱 신경망(convolutional neural network)을 구성하는 데 사용됩니다. Embedding 층은 텍스트나 범주형 데이터를 처리하는 데 사용됩니다.

Input 레이어는 신경망 모델의 입력 데이터를 정의하는 역할을 합니다. 신경망은 데이터를 입력받아 여러 계층을 거쳐 출력을 생성하는 구조로 이루어져 있습니다. Input 레이어는 이러한 입력 데이터를 정의하고, 모델의 첫 번째 레이어로 사용됩니다.
여기서 shape은 입력 데이터의 형태를 정의하는 매개변수입니다. 입력 데이터의 모양(shape)은 일반적으로 (batch_size, input_shape)의 형태를 갖습니다. input_shape은 데이터의 차원(dimension)을 나타내는 튜플이며, 예를 들어 이미지의 경우 (height, width, channels)와 같은 형태가 될 수 있습니다.

In [4]:
# 데이터 읽어오기
train_file = "data/new_train_data_intent_v2.csv"

In [5]:
data = pd.read_csv(train_file, delimiter = ',', encoding = 'utf-8')
queries = data['query'].tolist()
intents = data['intent'].tolist()

In [6]:
queries

['스크린타임이 뭐야?',
 '스크린타임이 뭐지?',
 '스크린타임이 무슨 뜻이야?',
 '스크린타임이 뭔지 모르겠어',
 '스크린타임의 정의는 뭐야?',
 '스크린타임에 대해서 설명해줘',
 '스크린타임에 대해서 설명해줄래?',
 '스크린타임에 관해서 설명해줘',
 '스크린타임에 관해서 설명해줄래?',
 '스크린타임의 뜻을 모르겠어',
 '스크린타임의 정확한 뜻이 궁금해',
 '스크린타임은 무슨 말이야?',
 '스크린타임이 뭘 의미하는 거야?',
 '스크린타임에 대해서 설명해줘',
 '스크린타임에 대해서 설명해줄래?',
 '스크린타임에 대해서 설명해줄 수 있어?',
 '스크린타임에 대해 자세히 알고 싶어',
 '스크린타임이 어떤 것을 나타내는 거야?',
 '스크린타임이 뭔지 궁금해',
 '그런데 스크린타임이 뭐야?',
 '근데 스크린타임이 뭐야?',
 '스크린타임이라는 걸 들어본 적이 없는데 뭐야?',
 '스크린타임에 대해 잘 몰라. 알려줄 수 있어?',
 '스크린타임 설명 좀',
 '스크린타임이라는 말이 나왔는데 그게 뭐야?',
 '스크린타임이 뭔지 알려줘',
 '그럼 스크린타임은 뭐야?',
 '스크린타임의 뜻',
 '스크린타임의 정의',
 '스크린타임의 의미',
 '스크린타임 뜻',
 '스크린타임 정의',
 '스크린타임 의미',
 '스크린타임이 뭔지 설명해줘',
 '스크린타임이란 뭔가요?',
 '스크린타임이란 어떤거야?',
 '스크린타임이란 뭘 뜻하는 거야?',
 '스크린타임이란 뭘 말하는 거야?',
 '스크린타임이 뭘까?',
 '스크린타임?',
 '스크린 타임이 뭐야?',
 '스크린 타임이 뭐지?',
 '스크린 타임이 무슨 뜻이야?',
 '스크린 타임이 뭔지 모르겠어',
 '스크린 타임의 정의는 뭐야?',
 '스크린 타임에 대해서 설명해줘',
 '스크린 타임에 대해서 설명해줄래?',
 '스크린 타임에 관해서 설명해줘',
 '스크린 타임에 관해서 설명해줄래?',
 '스크린 타임의 뜻을 모르겠어',
 '스크린 타임의 정확한 뜻이 궁금해',
 '스크린 타임은

In [7]:
intents

[0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,


In [8]:
from utils.Preprocess import Preprocess
p = Preprocess(word2index_dic = 'train_tools/dict/chatbot_dict.bin',
              userdic = 'utils/user_dic.tsv')

In [9]:
for idx, sentence in enumerate(queries):
    if type(sentence) != str:
        print(idx, type(sentence))

In [10]:
# 데이터 시퀀스 생성
sequences = []
for sentence in queries:
    pos = p.pos(sentence)
    keywords = p.get_keywords(pos, without_tag = True)
    seq = p.get_wordidx_sequence(keywords)
    sequences.append(seq)

In [11]:
# 단어 인덱스 시퀀스 벡터 생성
# 단어 시퀀스 백터 크기
from config.GlobalParams import MAX_SEQ_LEN
padded_seqs = preprocessing.sequence.pad_sequences(sequences, maxlen = MAX_SEQ_LEN,
                                                  padding = 'post')

In [12]:
# 학습용, 검증용, 테스트용 데이터셋 생성
# 학습셋:검증셋:테스트셋 = 7:2:1
ds = tf.data.Dataset.from_tensor_slices((padded_seqs, intents))
ds = ds.shuffle(len(queries))

train_size = int(len(padded_seqs) * 0.7)
val_size = int(len(padded_seqs) * 0.2)
test_size = int(len(padded_seqs) * 0.1)

train_ds = ds.take(train_size).batch(20)
val_ds = ds.skip(train_size).take(val_size).batch(20)
test_ds = ds.skip(train_size + val_size).take(test_size).batch(20)


tf.data.Dataset.from_tensor_slices((padded_seqs, intents)):

padded_seqs: 패딩된 시퀀스 데이터를 담고 있는 텐서입니다. 시퀀스 데이터는 문장이나 문서를 숫자로 변환한 것을 말합니다.
intents: 각 시퀀스 데이터에 대응하는 의도(라벨) 정보를 담고 있는 텐서입니다.
from_tensor_slices() 메서드를 사용하여 텐서를 슬라이스하고 데이터셋을 생성합니다. 이렇게 하면 시퀀스 데이터와 의도 정보가 쌍으로 매칭된 데이터셋이 생성됩니다.
ds.shuffle(len(queries)):

ds: 생성한 데이터셋 객체입니다.
shuffle(len(queries)) 메서드를 사용하여 데이터셋을 섞습니다. len(queries)는 데이터셋의 총 개수를 의미합니다. 데이터셋을 섞는 것은 모델이 데이터의 순서를 기억하지 못하도록 하고, 더 좋은 학습 결과를 얻기 위해 데이터를 무작위로 배치하는데 도움을 줍니다.
이 코드들을 실행하면 입력 데이터를 TensorFlow의 데이터셋으로 구성하고, 데이터셋을 섞어서 모델에 사용할 준비를 완료합니다. 이후에는 데이터셋을 배치하거나 반복하여 모델에 입력으로 제공할 수 있습니다.

In [13]:
# 하이퍼파라미터 설정
dropout_prob = 0.5
EMB_SIZE = 128
EPOCH = 5
VOCAB_SIZE = len(p.word_index)+1    # 전체 단어 수

In [14]:
# CNN 모델 정의
input_layer = Input(shape=(MAX_SEQ_LEN,))
embedding_layer = Embedding(VOCAB_SIZE, EMB_SIZE, input_length=MAX_SEQ_LEN)(input_layer)
dropout_emb = Dropout(rate=dropout_prob)(embedding_layer)

In [15]:
conv1 = Conv1D(
        filters = 128,
        kernel_size = 3,
        padding = 'valid',    # valid 패딩을 하면 결과는 항상 입력보다 작아짐
        activation = tf.nn.relu)(dropout_emb)
pool1 = GlobalMaxPool1D()(conv1)

In [16]:
conv2 = Conv1D(
        filters = 128,
        kernel_size = 4,
        padding = 'valid',
        activation = tf.nn.relu)(dropout_emb)
pool2 = GlobalMaxPool1D()(conv2)

In [17]:
conv3 = Conv1D(
        filters = 128,
        kernel_size = 5,
        padding = 'valid',
        activation = tf.nn.relu)(dropout_emb)
pool3 = GlobalMaxPool1D()(conv3)

In [18]:
# 3, 4, 5-gram 이후 합치기
concat = concatenate([pool1, pool2, pool3])

In [19]:
hidden = Dense(128, activation = tf.nn.relu)(concat)
dropout_hidden = Dropout(rate=dropout_prob)(hidden)
logits = Dense(4, name='logits')(dropout_hidden)
predictions = Dense(4, activation = tf.nn.softmax)(logits)

In [20]:
# 모델 생성
#이진 분류의 문제에서는 주로 binary_crossentropy를 사용하고,
#다중 분류에서는 categorical_crossentropy,
#수치형 변수를 예측할 때는 mean_squared_error를 주로 사용
model = Model(inputs = input_layer, outputs = predictions)
model.compile(optimizer = 'adam',
             loss = 'sparse_categorical_crossentropy',
             metrics = ['accuracy'])

In [21]:
# 모델 학습
# verbose 0 은 출력하지 않고, 1은 자세히, 2는 함축적인 정보

model.fit(train_ds, validation_data = val_ds, epochs = EPOCH, verbose = 1)

Epoch 1/5


Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.src.callbacks.History at 0x2db759de0>

In [22]:
# 모델 평가(테스트 데이터셋 이용)
loss, accuracy = model.evaluate(test_ds, verbose = 1)
print('Accuracy: %f' % (accuracy  * 100))
print('loss: %f' % (loss))

Accuracy: 100.000000
loss: 0.000586


In [23]:
# 모델 저장
model.save('intent_model_v2.h5')

  saving_api.save_model(


In [29]:
from models.intent.IntentModel import IntentModel

query = '우울증의 원인이 뭐야?'

intent = IntentModel(model_name = './models/intent/intent_model_v2.h5', proprocess = p)
predict = intent.predict_class(query)
intent_name = intent.labels[predict]
print(intent_name)

용어설명
