# Part 2: Creating a training dataset

## Extracting pairs from inputs and labels

In [3]:
# Create inputs and labels
inputs = ["Hôm", "nay", "thời", "tiết", "khá"]
labels = ["nay", "thời", "tiết", "khá", "tốt"]

In [4]:
for i in range(len(inputs)):
    current_input = inputs[:i+1]
    current_label = labels[i]
    print(f"Current input: {current_input} ---- Current label: {current_label}")

Current input: ['Hôm'] ---- Current label: nay
Current input: ['Hôm', 'nay'] ---- Current label: thời
Current input: ['Hôm', 'nay', 'thời'] ---- Current label: tiết
Current input: ['Hôm', 'nay', 'thời', 'tiết'] ---- Current label: khá
Current input: ['Hôm', 'nay', 'thời', 'tiết', 'khá'] ---- Current label: tốt


In [5]:
from utils.tokeniser import ENCODER

In [6]:
inputs = ENCODER.encode("Hôm nay thời tiết khá")
labels = ENCODER.encode("nay thời tiết khá tốt")
print(inputs, labels)

[412, 3235, 4550, 4587, 2576, 0] [3235, 4550, 4587, 2576, 4924, 0]


In [7]:
for i in range(len(inputs)):
    current_input = inputs[:i+1]
    current_label = labels[i]
    print(f"Current input: {current_input} ---- Current label: {current_label}")

Current input: [412] ---- Current label: 3235
Current input: [412, 3235] ---- Current label: 4550
Current input: [412, 3235, 4550] ---- Current label: 4587
Current input: [412, 3235, 4550, 4587] ---- Current label: 2576
Current input: [412, 3235, 4550, 4587, 2576] ---- Current label: 4924
Current input: [412, 3235, 4550, 4587, 2576, 0] ---- Current label: 0


## Creating a training dataset from our entire data

In [11]:
with open('../rawdata/data.txt', 'r', encoding='utf-8') as file:
    text = file.read()
print(text)

Tập 1: Nhà ảo thuật

Chương 1

Tháng tư bao giờ cũng bắt đầu bằng những ngày oi bức khó chịu. Hằng năm, vào mùa này mọi cư dân trong thành phố thường trằn trọc khó ngủ. Dù nhà mở toang cửa sổ, suốt đêm cũng chỉ đón được dăm ba làn gió nhẹ thoảng qua và cứ đến gần sáng là mọi người thiếp đi trong giấc ngủ mê mệt.
Quý ròm dĩ nhiên không thể là một ngoại lệ, nhất là tối hôm qua nó thức khuya lơ khuya lắc ráng đọc cho xong cuốn "Toán học ứng dụng trong đời sống" mà nó vừa mua được chiều hôm trước.
Như thường lệ, đúng sáu giờ rưỡi sáng, chuông báo thức đổ hồi. Nhưng Quý ròm không buồn nhỏm dậy. Nó cựa quậy và lăn một vòng trên giường trong khi mắt vẫn nhắm tịt.
Ðang mơ mơ màng màng, Quý ròm cảm thấy có ai đó đang nắm lấy chân nó. Rồi tiếng bà gọi khẽ:
- Nào, dậy đi cháu!
Quý ròm không trả lời, thậm chí không cả nhúc nhích. Tất nhiên nó không dại gì hé môi để bà biết là nó đã thức.
- Dậy đi! Cháu cứ nằm ườn ra như thế này không khéo trễ học mất!
Lần này không chỉ lay, bà còn cù vào cả lòng b

In [12]:
encoded_text = ENCODER.encode(text)
print(encoded_text)

[1061, 15, 62, 693, 5783, 4401, 0, 189, 15, 0, 919, 4845, 1198, 2130, 1756, 1352, 5661, 1353, 3621, 3330, 3777, 1424, 2597, 1620, 10, 427, 3687, 8, 5004, 3121, 3645, 3193, 1762, 1916, 4634, 4410, 3869, 4474, 4706, 4717, 2597, 3427, 10, 311, 3471, 3217, 4599, 1867, 4297, 8, 4206, 5601, 1756, 1616, 5616, 5640, 1947, 1193, 2794, 2090, 3579, 4387, 3899, 4999, 1860, 5692, 2191, 4216, 2792, 3193, 3367, 4365, 5533, 4634, 2107, 3427, 3094, 3185, 10, 0, 811, 4056, 1949, 3450, 2606, 4519, 2792, 3211, 3299, 2956, 8, 3554, 2792, 4920, 2357, 3899, 3674, 4564, 2556, 2881, 2556, 2929, 4029, 5708, 1466, 5177, 1686, 1180, 979, 2437, 5858, 2028, 4634, 5738, 4295, 3, 3061, 3674, 5148, 3053, 5640, 1465, 2357, 4688, 10, 0, 702, 4474, 2956, 8, 5626, 4220, 2130, 4088, 4216, 8, 1488, 1246, 4564, 5724, 2451, 10, 703, 811, 4056, 2606, 1224, 3595, 1984, 10, 736, 1869, 3967, 4999, 2875, 3211, 5039, 4657, 2100, 4634, 2517, 3170, 5091, 3566, 4910, 10, 0, 5330, 3130, 3130, 3063, 3063, 8, 811, 4056, 1782, 4491, 1728,

In [14]:
all_inputs = []
all_labels = []

CHUNK_SIZE = 256

for i in range(len(encoded_text) - CHUNK_SIZE):
    inputs = encoded_text[i:i + CHUNK_SIZE]
    labels = encoded_text[i+1:i + CHUNK_SIZE + 1]
    all_inputs.append(inputs)
    all_labels.append(labels)
    
print(len(all_labels))
print(len(all_inputs))

302656
302656
