In [1]:
import os
from pydub import AudioSegment
from concurrent.futures import ThreadPoolExecutor

def convert_file(mp3_path, wav_path):
    """Hàm chuyển đổi một file từ mp3 sang wav."""
    try:
        audio = AudioSegment.from_mp3(mp3_path)
        audio.export(wav_path, format="wav")
        print(f"Chuyển đổi thành công: {mp3_path} -> {wav_path}")
    except Exception as e:
        print(f"Lỗi khi chuyển đổi {mp3_path}: {e}")

def convert_mp3_to_wav(input_folder, output_folder, num_workers=4):
    # Tạo folder đầu ra nếu chưa tồn tại
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)
    
    # Lấy danh sách các file mp3 trong thư mục
    tasks = []
    for file_name in os.listdir(input_folder):
        if file_name.endswith(".mp3"):
            mp3_path = os.path.join(input_folder, file_name)
            wav_file_name = os.path.splitext(file_name)[0] + ".wav"
            wav_path = os.path.join(output_folder, wav_file_name)
            tasks.append((mp3_path, wav_path))
    
    # Chuyển đổi bằng ThreadPoolExecutor
    with ThreadPoolExecutor(max_workers=num_workers) as executor:
        executor.map(lambda args: convert_file(*args), tasks)

# Đường dẫn thư mục đầu vào và đầu ra
input_folder = "/home/jovyan/ai-core/speech_to_text/data/datasets_public/cv-corpus-19.0-2024-09-13/vi/clips/"  # Thay bằng đường dẫn folder chứa file mp3
output_folder = "/home/jovyan/ai-core/speech_to_text/data/datasets_public/cv-corpus-19.0-2024-09-13/vi/clips_wav/"  # Thay bằng đường dẫn folder để lưu file wav

# Số lượng luồng xử lý song song
num_workers = 32

# Gọi hàm chuyển đổi
convert_mp3_to_wav(input_folder, output_folder, num_workers)

Chuyển đổi thành công: /home/jovyan/ai-core/speech_to_text/data/datasets_public/cv-corpus-19.0-2024-09-13/vi/clips/common_voice_vi_26977665.mp3 -> /home/jovyan/ai-core/speech_to_text/data/datasets_public/cv-corpus-19.0-2024-09-13/vi/clips_wav/common_voice_vi_26977665.wav
Chuyển đổi thành công: /home/jovyan/ai-core/speech_to_text/data/datasets_public/cv-corpus-19.0-2024-09-13/vi/clips/common_voice_vi_27648837.mp3 -> /home/jovyan/ai-core/speech_to_text/data/datasets_public/cv-corpus-19.0-2024-09-13/vi/clips_wav/common_voice_vi_27648837.wav
Chuyển đổi thành công: /home/jovyan/ai-core/speech_to_text/data/datasets_public/cv-corpus-19.0-2024-09-13/vi/clips/common_voice_vi_30857050.mp3 -> /home/jovyan/ai-core/speech_to_text/data/datasets_public/cv-corpus-19.0-2024-09-13/vi/clips_wav/common_voice_vi_30857050.wav
Chuyển đổi thành công: /home/jovyan/ai-core/speech_to_text/data/datasets_public/cv-corpus-19.0-2024-09-13/vi/clips/common_voice_vi_25260778.mp3 -> /home/jovyan/ai-core/speech_to_text/d