# Implementing a Text a Generator Using Recurrent Neural Networkd (RNNs)

Trong phần này, chúng ta tạo một bộ tạo văn bản dựa trên ký tự bằng Mạng Neural tài diễn (RNN) trong TensorFlow và Keras. Chúng ta sẽ triển khai một RNN học các mẫu từ một chuỗi văn bản để tạo văn bản mới từng ký tự một

### Nhập thư viện

In [None]:
# Step 1: Imoport Necessary Libraries
import numpy as np
import tensorflow as tf
from tensorflow.keras.layers import Dense, SimpleRNN
from tensorflow.keras.models import Sequential

- numpy: Xử lý dữ liệu dạng mảng.
- tensorflow & keras: xây dựng và huấn luyện mô hình học sâu.
- SimpleRNN: Lớp RNN đơn giản dùng cho dữ liệu chuỗi.
Dense: Lớp fully connected (Liên kết đầy đủ).

In [None]:
#Step 2: Define the Input Text and Prepare Character Set.
text = "This is GeeksforGeeks a software training institute"
chars = sorted(list(set(text))) # Lấp tập hợp các ký tự duy nhất và sắp xếp.
char_to_index = {char: i for i, char in enumerate(chars)} # Ánh xạ ký tự -> số
index_to_char = {i: char for i, char in enumerate(chars)} # Ánh xạ số -> ký tự

### Ý nghĩa:
- chars: Danh sách các ký tự duy nhất.
- char_to_indexL ví dụ 'a': 0, 'e':1, ...
- index_to_char: Ngược lại của char_to_index.

## Tạo tập dữ liệu đầu vào và nhãn

In [None]:
seq_length = 3
sequences = []
labels = []

for i in range(len(text) - seq_length):
    seq = text[i:i + seq_length] # Chuỗi con 3 ký tự
    label = text[i + seq_length] # Ký tự tiếp theo (mục tiêu dự đoán)
    sequences.append([char_to_index[char] for char in seq]) # Đổi ký tự -> chỉ số
    labels.append(char_to_index[label])

X = np.array(sequences)
y = np.array(labels)

### Ví dụ:
- Chuỗi: "This"
  - Đầu vào (seq): "Thi" -> [char_to_index['T']],...
  - Đầu ra (label) : 's'
- Kết quả:
  - sequences: Danh sách các chuỗi con được ánh xạ.
  - labels: ký tự tiếp theo tương ứng với mỗi chuỗi con.

## chuyển đổi thành mảng NumPy & one-hot encoding.

In [None]:
# Step 4: Convert Sequences and Labels to One-Hot Encoding
X_one_hot = tf.one_hot(X, len(chars))
y_one_hot = tf.one_hot(y, len(chars))

### One-hot encoding biến mỗi chỉ số thành một vector:
- Nếu len(chars) = 10 và ký tự a là 0, one-hot: [1,0,0,0,0,0,0,0].
## 3. Xây dựng mô hình RNN:

In [None]:
# Step 5: Build the RNN Model
# Chúng ta sẽ tạo một RNN đơn giản với một lớp ẩn với 50 phần tử,
# Lớp đầu ra dầy đặc với hàm softmax.
model = Sequential()
model.add(SimpleRNN(50, input_shape=(seq_length, len(chars)), activation='relu')) # Lớp RNN với 50 nút.
model.add(Dense(len(chars), activation='softmax')) # Lớp đầu ra: Phân phối xác xuất cho các ký tự

  super().__init__(**kwargs)


### Cấu trúc mô hình:
- Input shape: (seq_length, len(chars)) -> chuỗi dài 3 với vector one-hot.
- SimpleRNN(50): Lớp RNN có 50 nút ẩn, kích hoạt ReLU.
- Dense(len(chars)): Dự đoán ký tự tiếp theo (softmatx-> xác xuất).

## 4. Huấn luyện mô hình

In [None]:
# Step 6 : Compile and Train the Model
# Chúng ta sẽ sử dụng categorical_crossentropy để loss function
# và train nó cho 100 epochs.
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])
model.fit(X_one_hot, y_one_hot, epochs=100)

Epoch 1/100
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 25ms/step - accuracy: 0.0249 - loss: 2.8598
Epoch 2/100
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 27ms/step - accuracy: 0.0498 - loss: 2.8427
Epoch 3/100
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 26ms/step - accuracy: 0.0394 - loss: 2.8273
Epoch 4/100
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 25ms/step - accuracy: 0.0643 - loss: 2.8110
Epoch 5/100
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 24ms/step - accuracy: 0.0892 - loss: 2.7865
Epoch 6/100
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 25ms/step - accuracy: 0.0996 - loss: 2.7703
Epoch 7/100
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 25ms/step - accuracy: 0.0788 - loss: 2.7663
Epoch 8/100
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 30ms/step - accuracy: 0.0747 - loss: 2.7382
Epoch 9/100
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[3

<keras.src.callbacks.history.History at 0x7ff5eef10a10>

- Optimmizer: adam (tối ưu hóa tốc độ hội tụ).
- Loss: categorical_crossentropy (dự đoán phân loại đa lớp).
- Epochs: Lawpk 100 lần để mô hình học tốt hơn.

## Sinh văn bản mới

In [None]:
start_seq = "This is G"
generated_text = start_seq

for i in range(30):
    x = np.array([[char_to_index[char] for char in generated_text[-seq_length:]]])
    print(x)
    x_one_hot = tf.one_hot(x, len(chars)) # One-hot hóa
    prediction = model.predict(x_one_hot) # Dự đoán xác xuất ký tự tiếp theo
    next_index = np.argmax(prediction)    # Lấy chỉ số có xác suất cao nhất.
    next_char = index_to_char[next_index] # Chuyển sang ký tự
    generated_text += next_char           # Thêm vào chuỗi đã sinh

print("Generated Text:")
print(generated_text)

[[ 0  8 13  0  1]]
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 47ms/step
[[ 8 13  0  1  4]]
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 101ms/step
[[13  0  1  4  4]]
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 178ms/step
[[0 1 4 4 9]]
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 110ms/step
[[ 1  4  4  9 13]]
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 49ms/step
[[ 4  4  9 13  0]]
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 57ms/step
[[ 4  9 13  0  3]]
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 35ms/step
[[ 9 13  0  3  0]]
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 37ms/step
[[13  0  3  0 13]]
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 34ms/step
[[ 0  3  0 13 11]]
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 35ms/step
[[ 3  0 13 11  5]]
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 36ms/step
[

### Cách hoạt động:
- Lấy 3 ký tự cuối cùng làm đầu vào.
- Mô hình dự đoán ký tự tiếp theo.
- Cập nhật chuỗi sinh ra và lặp tiếp.