In [1]:
# !pip install pyvi

In [1]:
import tensorflow as tf
from pyvi import ViTokenizer
import string
import numpy as np
import pickle
from function.text_generator import TextGenerator




In [3]:
# from google.colab import drive
# drive.mount('/content/drive')

In [4]:
# %cd /content/drive/My Drive/Colab Notebooks/Text_Generator

In [5]:
# %ls -la

## **Load pre-trained model**

In [2]:
with open('./model/tokenizer.pkl', 'rb') as f:
  tokenizer = pickle.load(f)

with open('./model/sequences_digit.pkl', 'rb') as f:
  sequences_digit = pickle.load(f)

model = tf.keras.models.load_model('./model/51_acc_language_model.h5')




## **Data processing functions**

In [7]:
def clean_document(doc):
  doc = ViTokenizer.tokenize(doc) #Pyvi Vitokenizer library
  doc = doc.lower() #Lower
  tokens = doc.split() #Split in_to words
  table = str.maketrans('', '', string.punctuation.replace("_", "")) #Remove all punctuation
  tokens = [w.translate(table) for w in tokens]
  tokens = [word for word in tokens if word]

  return tokens

In [12]:
def preprocess_input(doc):
  tokens = clean_document(doc)
  tokens = tokenizer.texts_to_sequences(tokens)

  for digit in tokens:
    if not digit:
      raise Exception("Từ vựng không tồn tại trong kho")
    
  tokens = tf.keras.preprocessing.sequence.pad_sequences([tokens], maxlen=50, truncating='pre')
  return np.reshape(tokens, (1,50))

In [9]:
def top_n_words(text_input, top_n=3):
  tokens = preprocess_input(text_input)
  predictions = model.predict(tokens)[0]

  # Lấy top k dự đoán cao nhất
  top_indices = np.argpartition(predictions, -top_n)[-top_n:]

  top_words = []
  for index in top_indices:
    for word, idx in tokenizer.word_index.items():
      if idx == index:
        top_words.append(word)
        break

  return top_words

In [10]:
def generate_sentences(text_input, n_words):
  tokens = preprocess_input(text_input)
  for _ in range(n_words):
    next_digit = np.argmax(model.predict(tokens, verbose=0))
    tokens = np.append(tokens, next_digit)
    tokens = np.delete(tokens, 0)
    tokens = np.reshape(tokens, (1, 50))

  # Mapping to text
  tokens = np.reshape(tokens, (50))
  # print(tokens)
  out_word = []
  for token in tokens:
    for word, index in tokenizer.word_index.items():
      if index == token:
        out_word.append(word)
        break

  return ' '.join(out_word)


## **Generate a sentence with n words**

In [3]:
generator = TextGenerator(model=model, tokenizer=tokenizer)

text = generator.generate_sentences('phó_giám_đốc phụ_trách kinh_doanh', 20)
print(text)

phó_giám_đốc phụ_trách kinh_doanh ngoại_hối một ngân_hàng biết muốn vội_vàng kết_hôn muốn một đứa con tuy_nhiên cô muốn ân_hận khó_khăn đường con_cái lấy chồng


## **Generate top 3 possible texts**

In [4]:
text_input = "phó_giám_đốc phụ_trách kinh_doanh"

generator.generate_possible_sentences(text_input, top_n=3, n_words=20)

Generated sentence 1 : phó_giám_đốc phụ_trách kinh_doanh đắt_giá nhau mời một hơn tiếp_theo an rạn bụng chồng áp tai bụng kể con nghe chồng viện khám định_kỳ suốt
Generated sentence 2 : phó_giám_đốc phụ_trách kinh_doanh lễ_đường một sinh bạn_đời trong hôn_nhân ảnh_hưởng tuổi mạnh_mẽ biết người trẻ ngày_nay dịch_vụ hạnh_phúc chồng tôn bảo mạng xã_hội buồn
Generated sentence 3 : phó_giám_đốc phụ_trách kinh_doanh ngoại_hối một ngân_hàng biết muốn vội_vàng kết_hôn muốn một đứa con tuy_nhiên cô muốn ân_hận khó_khăn đường con_cái lấy chồng muộn


In [None]:
# Khởi tạo danh sách để lưu các câu
generated_sentences = []

# Với mỗi text_input, gọi top_n_words để lấy 3 từ có khả năng.
text_input = "phó_giám_đốc phụ_trách kinh_doanh"
top_words = top_n_words(text_input, top_n=3)

# Với mỗi từ trong top_words, tạo ra một câu và lưu vào danh sách generated_sentences
for word in top_words:
  new_text_input = text_input + " " + word
  generated_sentence = generate_sentences(new_text_input, n_words=20)
  generated_sentences.append(generated_sentence)

# In ra các câu đã được tạo ra
for i, sentence in enumerate(generated_sentences, start=1):
  print("Generated sentence", i, ":", sentence)

Generated sentence 1 : phó_giám_đốc phụ_trách kinh_doanh đắt_giá nhau mời một hơn tiếp_theo an rạn bụng chồng áp tai bụng kể con nghe chồng viện khám định_kỳ suốt
Generated sentence 2 : phó_giám_đốc phụ_trách kinh_doanh lễ_đường một sinh bạn_đời trong hôn_nhân ảnh_hưởng tuổi mạnh_mẽ biết người trẻ ngày_nay dịch_vụ hạnh_phúc chồng tôn bảo mạng xã_hội buồn
Generated sentence 3 : phó_giám_đốc phụ_trách kinh_doanh ngoại_hối một ngân_hàng biết muốn vội_vàng kết_hôn muốn một đứa con tuy_nhiên cô muốn ân_hận khó_khăn đường con_cái lấy chồng muộn


## **Evaluate the result**

In [None]:
# test_loss, test_acc = model.evaluate(X, y, verbose=1)

In [None]:
# !pip install sequence-evaluate
# !pip install rouge
# !pip install sentence-transformers

In [None]:
# from seq_eval import SeqEval
# evaluator = SeqEval()

In [None]:
# scores = evaluator.evaluate(candidates, references, verbose=True)