In [10]:
import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
from datasets import load_dataset


device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32

model_id = "openai/whisper-large-v3-turbo"

model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
)
model.to(device)

processor = AutoProcessor.from_pretrained(model_id)

pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    torch_dtype=torch_dtype,
    device=device,
)

Device set to use cuda:0


In [40]:
import io
import base64
from openai import OpenAI
import time
import soundfile as sf
import librosa

# base64 문자열 예시
with open("eo_05.mp3", "rb") as f:
    b64_audio = base64.b64encode(f.read()).decode()

audio_bytes = base64.b64decode(b64_audio)
stt = time.time()
data, sr = sf.read(io.BytesIO(audio_bytes), dtype="float32", always_2d=True)
mono = data.mean(axis=1)  # 모노 변환
mono_16k = librosa.resample(mono, orig_sr=sr, target_sr=16000)
print(time.time() - stt)

0.02082967758178711


In [44]:
import time

params = dict(
    beam_size=1,                # 1이면 그리디; 빔서치(>=2)는 느림. 보통 1~2 추천
    best_of=1,                  # 그리디일 때는 의미 없음. 작게.
    temperature=0.0,            # 안정/속도↑. (불확실 시 fallback으로 [0.0, 0.2, 0.4] 등 가능)
    vad_filter=True,            # 무음 제거 → 디코딩량 ↓
    vad_parameters=dict(min_silence_duration_ms=500),
    chunk_length=15,            # 초 단위. 10~20초 권장(긴 문맥 필요하면 20~30)
    no_speech_threshold=0.6,    # 무음 판단 강화로 낭비 줄이기
    log_prob_threshold=-1.0,    # 너무 낮으면 실패로 간주하고 temperature fallback 고려
    word_timestamps=False,      # 단어 타임스탬프 끄면 속도↑ (필요 시만 True)
    condition_on_previous_text=False,  # 청크 간 의존 줄여 속도/안정 ↑
)

st = time.time()
result = pipe(mono_16k, generate_kwargs={"language": "korean"})
print(result, "\n", time.time() - st)

{'text': ' 이런 얘기들을 되게 많이 하시는데 저는 사실 그렇게 생각하지 않았어요. 당시의 KBT는 매출'} 
 0.3383030891418457


In [20]:
from pydub import AudioSegment

# m4a 불러오기
audio = AudioSegment.from_file("dong.m4a", format="m4a")

# mp3로 저장
audio.export("eo.mp3", format="mp3")

print("변환 완료: output.mp3")

변환 완료: output.mp3
