# Tạo bộ dữ liệu 36 file .wav bằng Google TTS

Notebook này dùng Google Text-to-Speech (gTTS) để sinh 36 file âm thanh sạch:
- 10 file cho thẻ `0-9`
- 26 file cho thẻ `A-Z`

Bạn có thể chỉnh ngôn ngữ (Việt / Anh) và nội dung đọc cho từng thẻ trong cell cấu hình bên dưới.


In [5]:
# Cài gói cần thiết (chạy một lần)
# Nếu đã cài gTTS và pydub trong môi trường rồi thì có thể bỏ qua cell này

import sys
!{sys.executable} -m pip install -q gTTS pydub


In [6]:
# Cấu hình tập ký tự và tham số TTS

import os

# Thư mục lưu file .wav
OUTPUT_DIR = "tts_dataset_vi"

# Ngôn ngữ giọng đọc:
#   "en"  -> tiếng Anh
#   "vi"  -> tiếng Việt
LANG = "vi"  # đổi thành "vi" nếu bạn muốn dùng tiếng Việt

# Tần số lấy mẫu mong muốn (Hz)
SAMPLE_RATE = 16000

# Tập thẻ cần sinh
DIGITS = [str(i) for i in range(10)]               # "0" đến "9"
LETTERS = [chr(ord("A") + i) for i in range(26)]  # "A" đến "Z"

os.makedirs(OUTPUT_DIR, exist_ok=True)

print("Thư mục lưu dữ liệu:", os.path.abspath(OUTPUT_DIR))
print("Số lượng thẻ số:", len(DIGITS))
print("Số lượng thẻ chữ:", len(LETTERS))


Thư mục lưu dữ liệu: /Users/kotori/1_Project_XLTN/tts_dataset_vi
Số lượng thẻ số: 10
Số lượng thẻ chữ: 26


In [7]:
# Hàm sinh file .wav từ Google TTS
# Lưu ý: pydub cần ffmpeg trên hệ thống (brew install ffmpeg trên macOS)

from gtts import gTTS
from pydub import AudioSegment


def text_to_wav(text: str, base_filename: str):
    """Sinh một file .wav từ chuỗi text bằng Google TTS.

    - Tạo file .mp3 tạm bằng gTTS
    - Chuyển sang .wav mono, SAMPLE_RATE Hz bằng pydub
    """
    mp3_path = os.path.join(OUTPUT_DIR, base_filename + ".mp3")
    wav_path = os.path.join(OUTPUT_DIR, base_filename + ".wav")

    # Sinh file mp3 bằng gTTS
    tts = gTTS(text=text, lang=LANG, slow=False)
    tts.save(mp3_path)

    # Đọc mp3 và chuyển sang wav
    audio = AudioSegment.from_mp3(mp3_path)
    audio = audio.set_frame_rate(SAMPLE_RATE).set_channels(1)
    audio.export(wav_path, format="wav")

    # Xoá file mp3 tạm
    os.remove(mp3_path)

    return wav_path


print("Hàm text_to_wav đã sẵn sàng.")


Hàm text_to_wav đã sẵn sàng.


In [8]:
# Sinh 36 file .wav: 10 số (0-9) và 26 chữ (A-Z)

# Bạn có thể tuỳ chỉnh nội dung đọc cho từng thẻ ở đây.
# Ví dụ với tiếng Việt:
#   - cho số:  mapping_digit_text = {"0": "số không", "1": "số một", ...}
#   - cho chữ: mapping_letter_text = {"A": "chữ a", "B": "chữ bê", ...}

# Mặc định: đọc đúng ký tự (phù hợp nếu để LANG="en")

mapping_digit_text = {d: d for d in DIGITS}
mapping_letter_text = {ch: ch for ch in LETTERS}

# Sinh file cho tập số 0-9
for d in DIGITS:
    text = mapping_digit_text[d]
    filename = f"digit_{d}"
    wav_path = text_to_wav(text, filename)
    print(f"Đã sinh: {wav_path} (text='{text}')")

# Sinh file cho tập chữ A-Z
for ch in LETTERS:
    text = mapping_letter_text[ch]
    filename = f"letter_{ch}"
    wav_path = text_to_wav(text, filename)
    print(f"Đã sinh: {wav_path} (text='{text}')")

print("Hoàn tất sinh 36 file .wav trong thư mục:", os.path.abspath(OUTPUT_DIR))


Đã sinh: tts_dataset_vi/digit_0.wav (text='0')
Đã sinh: tts_dataset_vi/digit_1.wav (text='1')
Đã sinh: tts_dataset_vi/digit_2.wav (text='2')
Đã sinh: tts_dataset_vi/digit_3.wav (text='3')
Đã sinh: tts_dataset_vi/digit_4.wav (text='4')
Đã sinh: tts_dataset_vi/digit_5.wav (text='5')
Đã sinh: tts_dataset_vi/digit_6.wav (text='6')
Đã sinh: tts_dataset_vi/digit_7.wav (text='7')
Đã sinh: tts_dataset_vi/digit_8.wav (text='8')
Đã sinh: tts_dataset_vi/digit_9.wav (text='9')
Đã sinh: tts_dataset_vi/letter_A.wav (text='A')
Đã sinh: tts_dataset_vi/letter_B.wav (text='B')
Đã sinh: tts_dataset_vi/letter_C.wav (text='C')
Đã sinh: tts_dataset_vi/letter_D.wav (text='D')
Đã sinh: tts_dataset_vi/letter_E.wav (text='E')
Đã sinh: tts_dataset_vi/letter_F.wav (text='F')
Đã sinh: tts_dataset_vi/letter_G.wav (text='G')
Đã sinh: tts_dataset_vi/letter_H.wav (text='H')
Đã sinh: tts_dataset_vi/letter_I.wav (text='I')
Đã sinh: tts_dataset_vi/letter_J.wav (text='J')
Đã sinh: tts_dataset_vi/letter_K.wav (text='K')
Đã