In [1]:
from pathlib import Path
from pydub import AudioSegment
from concurrent.futures import ThreadPoolExecutor
from pydub.utils import which


# Hàm chuyển đổi một file từ .webm sang .wav
def convert_to_wav(file: Path, output_dir: Path) -> str:
    try:
        print(f"Đang xử lý file: {file.name}")
        # Kiểm tra file tồn tại
        if not file.exists():
            return f"File không tồn tại: {file.name}"
        
        # Đọc file .webm và chuyển đổi
        audio = AudioSegment.from_file(file, format="webm")
        output_file = output_dir / f"{file.stem}.wav"
        audio.export(output_file, format="wav")
        
        # Kiểm tra file đầu ra
        if output_file.exists():
            return f"Chuyển đổi thành công: {file.name} -> {output_file.name}"
        else:
            return f"Lỗi: Không thể tạo file đầu ra cho {file.name}"
    except Exception as e:
        return f"Lỗi khi xử lý file {file.name}: {e}"

def main():
    # Đường dẫn đến thư mục chứa file .webm
    input_dir = Path('Dataset/cleaned_webm')
    audio_files = list(input_dir.glob('*.webm'))

    if not audio_files:
        print("Không tìm thấy file .webm nào trong thư mục!")
        return
    
    # Thư mục đích để lưu file .wav
    output_dir = Path('Dataset/converted_wav')
    output_dir.mkdir(parents=True, exist_ok=True)

    # Sử dụng ThreadPoolExecutor để xử lý song song
    print("Bắt đầu chuyển đổi file...")
    with ThreadPoolExecutor() as executor:
        results = executor.map(convert_to_wav, audio_files, [output_dir] * len(audio_files))
    
    # Hiển thị kết quả
    for result in results:
        print(result)

if __name__ == "__main__":
    main()


Bắt đầu chuyển đổi file...
Đang xử lý file: recorded_audio.webm
Đang xử lý file: recorded_audio_02jmPGL.webm
Đang xử lý file: recorded_audio_03k88ok.webm
Đang xử lý file: recorded_audio_08AxQ5T.webm
Đang xử lý file: recorded_audio_08oFo0W.webm
Đang xử lý file: recorded_audio_0bJpmSM.webm
Đang xử lý file: recorded_audio_0cAbXnW.webm
Đang xử lý file: recorded_audio_0CQyKuq.webm
Đang xử lý file: recorded_audio_0gNmgd9.webm
Đang xử lý file: recorded_audio_0J52MEJ.webm
Đang xử lý file: recorded_audio_0kxS3Qd.webm
Đang xử lý file: recorded_audio_0myWVxZ.webm
Đang xử lý file: recorded_audio_0NKAqN3.webm
Đang xử lý file: recorded_audio_0od48Xz.webm
Đang xử lý file: recorded_audio_0qU1vGN.webm
Đang xử lý file: recorded_audio_0rJ1um4.webm
Đang xử lý file: recorded_audio_0sXcBMX.webm
Đang xử lý file: recorded_audio_0UbW71l.webm
Đang xử lý file: recorded_audio_0uf1UXQ.webm
Đang xử lý file: recorded_audio_0VeK4SK.webm
Đang xử lý file: recorded_audio_0W65we5.webm
Đang xử lý file: recorded_audio_12Z4