In [1]:
import os
import subprocess
from pydub import AudioSegment
import speech_recognition as sr

In [2]:
def convert_mp3_to_wav(file_path):
    # Get the file name from the file path
    file_name = os.path.basename(file_path)

    # Extract the file name without the extension
    file_name_without_ext = os.path.splitext(file_name)[0]

    # Convert the mp3 file to wav using pydub
    audio = AudioSegment.from_file(file_path, format="mp3")
    audio.export(f"{file_name_without_ext}.wav", format="wav")



# Convert all mp3 files in the current directory

In [3]:
for filename in os.listdir("."):
    if filename.endswith(".mp3"):
        file_path = os.path.join(".", filename)
        convert_mp3_to_wav(file_path)

In [4]:
def transcribe_wav(file_path):
    # Load the audio file
    recognizer = sr.Recognizer()
    with sr.AudioFile(file_path) as audio_file:
        audio_duration = audio_file.DURATION

    chunks = []
    chunk_size = 120  # Set the desired chunk size in seconds

    #for start_time in range(0, recognizer.adjust_for_ambient_noise(audio_file, duration=1), chunk_size):
    for start_time in range(0, int(audio_duration), chunk_size):
        end_time = min(start_time + chunk_size, audio_duration)
        with sr.AudioFile(file_path) as audio_file:
            audio_chunk = recognizer.record(audio_file, offset=start_time, duration=end_time - start_time)
        try:
            text = recognizer.recognize_google(audio_chunk, language = 'th')
            confidence = recognizer.recognize_google(audio_chunk, show_all=True, language = 'th').get('alternative', [])[0].get('confidence', 0)
            chunks.append(text)
        except sr.UnknownValueError:
            print(f"Speech Recognition could not understand the audio in the chunk starting at {start_time} seconds")

    full_transcription = ' '.join(chunks)
    return full_transcription



In [5]:
folder_path = '/Users/amiunair/Downloads/ถาม ตอบ'  # Change this to the path of your folder

for filename in os.listdir(folder_path):
    if filename.endswith('.wav'):
        print("Running on File: ", filename, "\n")
        file_path = os.path.join(folder_path, filename)
        transcription = transcribe_wav(file_path)
        transcription_file_path = os.path.splitext(file_path)[0] + '.txt'
        with open(transcription_file_path, 'w') as f:
            f.write(transcription)
        print(f"Transcription saved to {transcription_file_path}")

Running on File:  27 ความกลัวแฝงด้วยอัตตา.wav 

Transcription saved to /Users/amiunair/Downloads/ถาม ตอบ/27 ความกลัวแฝงด้วยอัตตา.txt
Running on File:  39 ถ้าเราหยุดพูดเราจะได้ยินเสียงที่ออกมาจากใจ.wav 

Speech Recognition could not understand the audio in the chunk starting at 360 seconds
Transcription saved to /Users/amiunair/Downloads/ถาม ตอบ/39 ถ้าเราหยุดพูดเราจะได้ยินเสียงที่ออกมาจากใจ.txt
Running on File:  43 ทิ้งรู้ ทิ้งแก้ มุ่งที่รู้สึกตัวแล้วจะเจอตัวจริง.wav 

Transcription saved to /Users/amiunair/Downloads/ถาม ตอบ/43 ทิ้งรู้ ทิ้งแก้ มุ่งที่รู้สึกตัวแล้วจะเจอตัวจริง.txt
Running on File:  24 ขันธ์ 5 จริงๆ เป็นยังไง ทำยังไงจะเห็นการทำงานของขันธ์ .wav 

Transcription saved to /Users/amiunair/Downloads/ถาม ตอบ/24 ขันธ์ 5 จริงๆ เป็นยังไง ทำยังไงจะเห็นการทำงานของขันธ์ .txt
Running on File:  38 ตัณหา เกิดจากอะไร.wav 

Transcription saved to /Users/amiunair/Downloads/ถาม ตอบ/38 ตัณหา เกิดจากอะไร.txt
Running on File:  28 ความคิดที่ใช้พิจารณากับจิตที่ปรุงแต่ง ต่างกันไหม.wav 

Transcript