In [None]:
!pip install pyvi

Collecting pyvi
  Downloading pyvi-0.1.1-py2.py3-none-any.whl (8.5 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.5/8.5 MB[0m [31m34.5 MB/s[0m eta [36m0:00:00[0m
Collecting sklearn-crfsuite (from pyvi)
  Downloading sklearn_crfsuite-0.3.6-py2.py3-none-any.whl (12 kB)
Collecting python-crfsuite>=0.8.3 (from sklearn-crfsuite->pyvi)
  Downloading python_crfsuite-0.9.10-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.1/1.1 MB[0m [31m40.1 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: python-crfsuite, sklearn-crfsuite, pyvi
Successfully installed python-crfsuite-0.9.10 pyvi-0.1.1 sklearn-crfsuite-0.3.6


In [None]:
import tensorflow as tf
from pyvi import ViTokenizer, ViPosTagger
import string
import os
from tqdm import tqdm
import numpy as np
import pickle

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
%cd /content/drive/My Drive/Colab Notebooks/Text_Generator

/content/drive/My Drive/Colab Notebooks/Text_Generator


In [None]:
%ls -la

total 233
drwx------ 2 root root  4096 Apr 14 03:53 [0m[01;34mdata[0m/
-rw------- 1 root root 63670 Apr 26 11:00 data_processing.ipynb
drwx------ 2 root root  4096 Apr 14 04:17 [01;34mmodel[0m/
-rw------- 1 root root  4482 Apr 26 04:26 scrape_news.ipynb
-rw------- 1 root root 21702 May  3 03:54 search_generate_text.ipynb
drwx------ 2 root root  4096 Apr 26 03:59 [01;34msrc[0m/
drwx------ 2 root root  4096 Apr 14 09:19 [01;34mtemp[0m/
-rw------- 1 root root 53276 May  3 03:53 text_generator.ipynb
-rw------- 1 root root 77160 Apr 26 12:23 word_embedding.ipynb


## **Load pre-trained model**

In [None]:
with open('./model/tokenizer.pkl', 'rb') as f:
  tokenizer = pickle.load(f)

with open('./model/sequences_digit.pkl', 'rb') as f:
  sequences_digit = pickle.load(f)

model = tf.keras.models.load_model('./model/51_acc_language_model.h5')

## **Data processing functions**

In [None]:
def clean_document(doc):
  doc = ViTokenizer.tokenize(doc) #Pyvi Vitokenizer library
  doc = doc.lower() #Lower
  tokens = doc.split() #Split in_to words
  table = str.maketrans('', '', string.punctuation.replace("_", "")) #Remove all punctuation
  tokens = [w.translate(table) for w in tokens]
  tokens = [word for word in tokens if word]

  return tokens

In [None]:
def preprocess_input(doc):
  tokens = clean_document(doc)
  tokens = tokenizer.texts_to_sequences(tokens)
  tokens = tf.keras.preprocessing.sequence.pad_sequences([tokens], maxlen=50, truncating='pre')

  return np.reshape(tokens, (1,50))

In [None]:
def top_n_words(text_input, top_n=3):
  tokens = preprocess_input(text_input)
  predictions = model.predict(tokens)[0]

  # Lấy top k dự đoán cao nhất
  top_indices = np.argpartition(predictions, -top_n)[-top_n:]

  top_words = []
  for index in top_indices:
    for word, idx in tokenizer.word_index.items():
      if idx == index:
        top_words.append(word)
        break

  return top_words

In [None]:
def generate_sentences(text_input, n_words):
  tokens = preprocess_input(text_input)
  generated_sentences = []
  for _ in range(n_words):
    next_digit = np.argmax(model.predict(tokens, verbose=0))
    tokens = np.append(tokens, next_digit)
    tokens = np.delete(tokens, 0)
    tokens = np.reshape(tokens, (1, 50))

  # Mapping to text
  tokens = np.reshape(tokens, (50))
  # print(tokens)
  out_word = []
  for token in tokens:
    for word, index in tokenizer.word_index.items():
      if index == token:
        out_word.append(word)
        break

  return ' '.join(out_word)


## **Generate a sentence with n words**

In [None]:
text = generate_sentences('phó_giám_đốc phụ_trách kinh_doanh', 20)
print(text)

phó_giám_đốc phụ_trách kinh_doanh ngoại_hối một ngân_hàng biết muốn vội_vàng kết_hôn muốn một đứa con tuy_nhiên cô muốn ân_hận khó_khăn đường con_cái lấy chồng


## **Generate top 3 possible texts**

In [None]:
# Khởi tạo danh sách để lưu các câu
generated_sentences = []

# Với mỗi text_input, gọi top_n_words để lấy 3 từ có khả năng.
text_input = "phó_giám_đốc phụ_trách kinh_doanh"
top_words = top_n_words(text_input, top_n=3)

# Với mỗi từ trong top_words, tạo ra một câu và lưu vào danh sách generated_sentences
for word in top_words:
  new_text_input = text_input + " " + word
  generated_sentence = generate_sentences(new_text_input, n_words=20)
  generated_sentences.append(generated_sentence)

# In ra các câu đã được tạo ra
for i, sentence in enumerate(generated_sentences, start=1):
  print("Generated sentence", i, ":", sentence)

Generated sentence 1 : phó_giám_đốc phụ_trách kinh_doanh đắt_giá nhau mời một hơn tiếp_theo an rạn bụng chồng áp tai bụng kể con nghe chồng viện khám định_kỳ suốt
Generated sentence 2 : phó_giám_đốc phụ_trách kinh_doanh lễ_đường một sinh bạn_đời trong hôn_nhân ảnh_hưởng tuổi mạnh_mẽ biết người trẻ ngày_nay dịch_vụ hạnh_phúc chồng tôn bảo mạng xã_hội buồn
Generated sentence 3 : phó_giám_đốc phụ_trách kinh_doanh ngoại_hối một ngân_hàng biết muốn vội_vàng kết_hôn muốn một đứa con tuy_nhiên cô muốn ân_hận khó_khăn đường con_cái lấy chồng muộn


## **Evaluate the result**

In [None]:
# test_loss, test_acc = model.evaluate(X, y, verbose=1)

In [None]:
# !pip install sequence-evaluate
# !pip install rouge
# !pip install sentence-transformers

In [None]:
# from seq_eval import SeqEval
# evaluator = SeqEval()

In [None]:
# scores = evaluator.evaluate(candidates, references, verbose=True)