In [1]:
from faster_whisper import WhisperModel

# device: "cuda" | "cpu" | "auto", compute_type: "float16" | "int8_float16" | "int8" | "fp32"
# 권장: GPU 있으면 "cuda"+"float16" (최고 속도/정확도 균형)
# VRAM이 빠듯하면 "int8_float16" (속도↑, 정확도 거의 유지)
model = WhisperModel(
    "large-v3-turbo",                 # turbo 대신 large-v3 원본 가중치도 CT2로 매우 빠름
    device="cuda",              # 없으면 "auto"
    compute_type="float16",     # 또는 "int8_float16"
    cpu_threads=0,              # CPU용일 때만 의미. 0=자동
    num_workers=1               # 디코더 스레드 (GPU에선 크게 의미없음)
)

# 추론 파라미터
params = dict(
    beam_size=1,                # 1이면 그리디; 빔서치(>=2)는 느림. 보통 1~2 추천
    best_of=1,                  # 그리디일 때는 의미 없음. 작게.
    temperature=0.0,            # 안정/속도↑. (불확실 시 fallback으로 [0.0, 0.2, 0.4] 등 가능)
    vad_filter=True,            # 무음 제거 → 디코딩량 ↓
    vad_parameters=dict(min_silence_duration_ms=500),
    chunk_length=15,            # 초 단위. 10~20초 권장(긴 문맥 필요하면 20~30)
    no_speech_threshold=0.6,    # 무음 판단 강화로 낭비 줄이기
    log_prob_threshold=-1.0,    # 너무 낮으면 실패로 간주하고 temperature fallback 고려
    word_timestamps=False,      # 단어 타임스탬프 끄면 속도↑ (필요 시만 True)
    condition_on_previous_text=False,  # 청크 간 의존 줄여 속도/안정 ↑
)

preprocessor_config.json:   0%|          | 0.00/340 [00:00<?, ?B/s]

config.json: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

vocabulary.json: 0.00B [00:00, ?B/s]

model.bin:   0%|          | 0.00/1.62G [00:00<?, ?B/s]

In [11]:

# 실행
import io
import base64
from openai import OpenAI
import time
import soundfile as sf
import librosa

# base64 문자열 예시
with open("eo_05.mp3", "rb") as f:
    b64_audio = base64.b64encode(f.read()).decode()

audio_bytes = base64.b64decode(b64_audio)
stt = time.time()
data, sr = sf.read(io.BytesIO(audio_bytes), dtype="float32", always_2d=True)
mono = data.mean(axis=1)  # 모노 변환
mono_16k = librosa.resample(mono, orig_sr=sr, target_sr=16000)
print(time.time() - stt)

st = time.time()

segments, info = model.transcribe(mono_16k, **params)

print(time.time() - st)

print(info.language, info.duration)
for seg in segments:
    print(f"[{seg.start:.2f} → {seg.end:.2f}] {seg.text}")

0.022420644760131836
0.14162087440490723
ko 5.0
[0.00 → 1.46]  이런 얘기들을 되게 많이 하시는데
[1.46 → 3.18]  저는 사실 그렇게 생각하지 않았어요
[3.18 → 4.98]  당시의 KBT는 매출
