In [1]:
import speech_recognition as sr
import os
from pydub import AudioSegment
from pydub.silence import split_on_silence


In [2]:
def get_large_audio_transcription(path):
    """
    Splitting the large audio file into chunks
    and apply speech recognition on each of these chunks
    """
    # open the audio file using pydub
    sound = AudioSegment.from_wav(path)  
    # min_silence_len 기준으로 소리를 자른다
    chunks = split_on_silence(sound,

        # 갭 1000 == 1초 
        min_silence_len = 1500,

        # -16dBFS (=defaul) 보다 작으면 침묵이라고 간주
        silence_thresh = sound.dBFS-16,

#         # 말을 끌때 쓰는 소리 길이 (0.2초)
#         keep_silence=700,
    )
    folder_name = "audio-chunks"
    # create a directory to store the audio chunks
    if not os.path.isdir(folder_name):
        os.mkdir(folder_name)
    whole_text = ""
    # process each chunk 
    for i, audio_chunk in enumerate(chunks):
        # export audio chunk and save it in
        # the `folder_name` directory.
        chunk_filename = os.path.join(folder_name, f"chunk{i}.wav")
        audio_chunk.export(chunk_filename, format="wav")
        # recognize the chunk
        with sr.AudioFile(chunk_filename) as source:
            audio_listened = r.record(source)
            # try converting it to text
            try:
                text = r.recognize_google(audio_listened, language="ko-KR")
            except sr.UnknownValueError as e:
                print("Error:", str(e))
            else:
                text = f"{text.capitalize()}. "
                print(chunk_filename, ":", text)
                whole_text += text
    # return the text for all chunks detected
    return whole_text


def descriptive_stats(file_name):

    audio_segment = AudioSegment.from_file(file_name)
    
    print(f"- 채널수: {audio_segment.channels}")
    print(f"- 샘플 길이: {audio_segment.sample_width}")
    print(f"- 프레임율(frame rate): {audio_segment.frame_rate}")
    print(f"- 프레임폭(frame width): {audio_segment.frame_width}")
    print(f"- 길이 (ms): {len(audio_segment)}")
    



In [4]:
file_name = 'Speech_to_Text.wav'
r = sr.Recognizer()


In [5]:
descriptive_stats(file_name)

- 채널수: 1
- 샘플 길이: 2
- 프레임율(frame rate): 48000
- 프레임폭(frame width): 2
- 길이 (ms): 598548


In [6]:
get_large_audio_transcription("Speech_to_Text.wav") 

audio-chunks/chunk0.wav : 오늘 이렇게 여러 국가의 귀중한 손님들 앞에서 베베 영광입니다 특히 저희 오늘의 만남이 성성한 문화적 영감과 저는 그 가장 좋은 예가 라이브 에이드 공연이라고 생각합니다 1985년 웸블리스타디움 당대 최고의 들었습니다 오면은 지금까지도. 
Error: 
audio-chunks/chunk2.wav : 그러면 또 많은 시간이 지났습니다 전 세계인이 동시에 갖춘 공연을 보던 경험은 이제 손바닥 위해서 전세계인과 채널을 통해 실시간으로 소통하고 같은 컨텐츠 같은 감독 같은 열광을 하는 것으로 바뀌었음. 
audio-chunks/chunk3.wav : 그리고 바로 그런 기술을 이용해 나라의 작은 기획사에서 출발한 방탄소년단이 세계적인 단양을 있고. 
audio-chunks/chunk4.wav : 한국인들이 한국어로 노래하고 춤추는 뮤직비디오에 전 세계인들이 열광했습니다 전 세계인들이 방탄소년단 노래를 대화를 메시지를. 
audio-chunks/chunk5.wav : 거꾸로 말하면 방탄소년단의 성공이 유튜브 기술의 존재 가치를 파급력을 증명한 것이죠 그럼 여기서 이런 질문을 해 볼 수 있을 것 같습니다 왜 왜 방탄소년단. 
audio-chunks/chunk6.wav : 답은 간단합니다 그것이 좋은 컨텐츠이기 때문입니다 라이베리아 방탄소년단 줄은 기록 다른 시대에 태어났고 서로 다른 종류의 컨텐츠 모두 좋은 컨텐츠입니다 시대와 세대를 과감하고 적극적인. 
audio-chunks/chunk7.wav : 사실 모든 컨텐츠는 일종의 발언입니다 중요한 것은 그 발언이 얼마나 보편적이고 동시대적인 올림을 가졌나. 
audio-chunks/chunk8.wav : 처음 컨텐츠를 접할 때 우리는 대부분 내용의 독창성과 우수함에 내려갑니다 보고들은 적 없는 퍼포먼스 기상천외한 스토리 어마어마한 같은 거. 
audio-chunks/chunk9.wav : 그런데 그렇게 이야기가 퍼포먼스가 바로 창작자의 발언을 듣게 되는 순간이죠 그리고 느끼게 됩

'오늘 이렇게 여러 국가의 귀중한 손님들 앞에서 베베 영광입니다 특히 저희 오늘의 만남이 성성한 문화적 영감과 저는 그 가장 좋은 예가 라이브 에이드 공연이라고 생각합니다 1985년 웸블리스타디움 당대 최고의 들었습니다 오면은 지금까지도. 그러면 또 많은 시간이 지났습니다 전 세계인이 동시에 갖춘 공연을 보던 경험은 이제 손바닥 위해서 전세계인과 채널을 통해 실시간으로 소통하고 같은 컨텐츠 같은 감독 같은 열광을 하는 것으로 바뀌었음. 그리고 바로 그런 기술을 이용해 나라의 작은 기획사에서 출발한 방탄소년단이 세계적인 단양을 있고. 한국인들이 한국어로 노래하고 춤추는 뮤직비디오에 전 세계인들이 열광했습니다 전 세계인들이 방탄소년단 노래를 대화를 메시지를. 거꾸로 말하면 방탄소년단의 성공이 유튜브 기술의 존재 가치를 파급력을 증명한 것이죠 그럼 여기서 이런 질문을 해 볼 수 있을 것 같습니다 왜 왜 방탄소년단. 답은 간단합니다 그것이 좋은 컨텐츠이기 때문입니다 라이베리아 방탄소년단 줄은 기록 다른 시대에 태어났고 서로 다른 종류의 컨텐츠 모두 좋은 컨텐츠입니다 시대와 세대를 과감하고 적극적인. 사실 모든 컨텐츠는 일종의 발언입니다 중요한 것은 그 발언이 얼마나 보편적이고 동시대적인 올림을 가졌나. 처음 컨텐츠를 접할 때 우리는 대부분 내용의 독창성과 우수함에 내려갑니다 보고들은 적 없는 퍼포먼스 기상천외한 스토리 어마어마한 같은 거. 그런데 그렇게 이야기가 퍼포먼스가 바로 창작자의 발언을 듣게 되는 순간이죠 그리고 느끼게 됩니다 아 이건 내 이야기구나 우리 시대 우리 세대에 대한 이야기구나 비로소 우리는 자신을 돌아보게 됩니다 하나의 컨텐츠가 그런데 한 가지 더 중요한 점이 있습니다. 보편성 가축 수원 취향공동체 어떤 면에서 이율배반적으로 들릴 수 있습니다 과거에도 세상은 복잡했고 사람들은 다양했습니다 하지만 지금은 그 다양성을. 서로 다른 취향과 개성을 지닌 사람들이 좁고 깊은 공동체를 이루고. 이 모든 서로 다른 취향과 개성을 지닌 사람들의 이목을 집중시키고