In [1]:
from openai import OpenAI
from dotenv import load_dotenv
import os

load_dotenv()
api_key = os.getenv("OPEN_API_KEY")

client = OpenAI(api_key=api_key)

### STT (Speech To Text)

In [2]:
file_path = "C://Users//fursew//project//open_ai//ch05//음성녹음.mp3"

with open(file_path,"rb") as f:
    response = client.audio.transcriptions.create(
        file=f,
        model="whisper-1",
    )

response.text

'다시 말해봐 일단 내가 2천원 먼저 보내줄테니까 12,000원 나중에 보내줄게 왜 또 줄어? 가격이? 그만 그렇게 말하는거지 너 왔다며 아니 그냥 10,000원 보내주고 5,000원 나중에 대 12,000원 2,000원 하자 12,000원 2,000원 아니 1,000원은 뭐 그렇게 아쉬워 야 그럼 12,000원 12,000원 그냥 12,000원 두고 3,000원 그냥 아쉬워 나는 지금 많이 희생했잖아 나는 3,000원 내 버스비긴 해 내 교통비라서 미치겠네 아쉬워라 3,000원이 그걸 나중에 내면 된다니까 지금 내라는게 아니냐 몇번을 말해 언제 내가 보려면 계속 두사람 기다려야되는데 그건 니가 그냥 일을 안하는거네 돈없다고 찡찡대면서 돈은 아니잖아 일단 머리 자르고 돈은 보내주던 연락을 할게 있는 돈부터 계산을 해봐야 될거 아니야 막냉이 얼마인지 계산 안될 수 있잖아 일단 뭐 뭐가 됐든 일단 이따 말해 그래 업보가 되겠네 엥? 업보는 아니고'

In [4]:
# translation을 통한 영어 번역
with open(file_path,"rb") as f:
    response = client.audio.translations.create(
    file = f,
    model = "whisper-1"
)

response.text

"I'll cut my hair. Say that again. I'll send you 2,000 won first. I'll send you 12,000 won later. Why is the price going down? Stop talking like that. You said you were here. No, I'll just send you 10,000 won. I'll pay you 5,000 won later. Let's do 12,000 won, 2,000 won. 12,000 won, 2,000 won. 1,000 won is not enough. Then 12,000 won. You're not gonna give me 3,000 won? No, I've sacrificed a lot right now. I'll pay you 3,000 won later. It's my bus fare. It's my transportation fee. I'm sorry. I'll pay you 3,000 won later. I'll pay you 3,000 won later. I'm not asking you to pay me now. How many times do I have to tell you? When? I have to wait two more months to see you. You're just not working. You're complaining that you don't have money. I don't have money. I'll cut my hair first. I'll send you the money. I'll call you later. You have to pay me first. I don't know how much you have. I can't pay you. Whatever it is, I'll tell you later. Yeah, I'll give you a kiss. What?"

### 로컬에서 사용하기

In [4]:
os.environ["PATH"] += os.pathsep + "C://PMPG//ffmpeg-2025-07-23-git-829680f96a-full_build//bin"

import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline


device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32

model_id = "openai/whisper-large-v3-turbo"

model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
)
model.to(device)

processor = AutoProcessor.from_pretrained(model_id)

pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    torch_dtype=torch_dtype,
    device=device,
    return_timestamps=True,
    chunk_length_s=5,
    stride_length_s=1,
)

sample = "C://Users//fursew//project//open_ai//ch05//음성녹음.mp3"

result = pipe(sample)
print(result)

Device set to use cuda:0
Using custom `forced_decoder_ids` from the (generation) config. This is deprecated in favor of the `task` and `language` flags/config options.
Transcription using a multilingual Whisper will default to language detection followed by transcription instead of translation to English. This might be a breaking change for your use case. If you want to instead always translate your audio to English, make sure to pass `language='en'`. See https://github.com/huggingface/transformers/pull/28687 for more details.


{'text': ' 다시 말해봐 일단 내가 이천원 먼저 보내줄테니깐 1만 2천원 나중에 보내줄게 왜 또 줄어 가격이 그만 그렇게 말하면 하지 너 왔다며 아니 그냥 만원 보내주고 오천원 나중에 돼 12,000원 12,000원 12,000원 아니 천 원이 하자 12,000원에 2,000원 아니 천원이 뭐 그 자조 저건 많이 터러 12,000원은 그냥 12,000원에 3해 너도 삼촌은 그게 아쉬워? 아니 나는 지금 많이 희생했잖아 나는 3천은 내 버스비긴 해가지고 내 교통비라서 아쉬워놔 3천원이 그걸 나중에 내면 된다니까 지금 내라는 게 아니냐 몇 번을 말해? 언제? 한 보려면 계속 두 달은 기다려야 되는데 그건 니가 그냥 일을 안 하는 거네 돈 없다고 찡찡대면서 일단 머리 자르고 돈을 보내주던 연락을 할게 있는 돈부터 계산을 해봐야 될 거 아니야 남는 돈이 얼마인지 계산 안될 수 있잖아 일단 뭐 뭐가 됐든 이따 말해 그래, 오뽀가 되겠네 엇? 엇보는 아니고', 'chunks': [{'timestamp': (0.0, 2.0), 'text': ' 다시 말해봐'}, {'timestamp': (2.0, 5.0), 'text': ' 일단 내가 이천원 먼저 보내줄테니깐'}, {'timestamp': (5.0, 9.08), 'text': ' 1만 2천원 나중에 보내줄게 왜 또 줄어 가격이'}, {'timestamp': (9.08, 10.54), 'text': ' 그만 그렇게 말하면 하지'}, {'timestamp': (10.54, 11.66), 'text': ' 너 왔다며'}, {'timestamp': (11.66, 14.0), 'text': ' 아니 그냥 만원 보내주고'}, {'timestamp': (14.0, 17.7), 'text': ' 오천원 나중에 돼 12,000원'}, {'timestamp': (17.7, 18.02), 'text': ' 12,000원'}, {'timestamp': (18.02, 18.72), 'text': ' 12,000원'}, {'timestam

In [7]:
df_list = []
for chunk in result["chunks"]:
    start = chunk["timestamp"][0]
    end = chunk["timestamp"][1]
    text = chunk["text"]
    df_list.append([start,end,text])

import pandas as pd

df = pd.DataFrame(df_list,columns=["start","end","text"])
df

Unnamed: 0,start,end,text
0,0.0,2.0,다시 말해봐
1,2.0,5.0,일단 내가 이천원 먼저 보내줄테니깐
2,5.0,9.08,1만 2천원 나중에 보내줄게 왜 또 줄어 가격이
3,9.08,10.54,그만 그렇게 말하면 하지
4,10.54,11.66,너 왔다며
5,11.66,14.0,아니 그냥 만원 보내주고
6,14.0,17.7,"오천원 나중에 돼 12,000원"
7,17.7,18.02,"12,000원"
8,18.02,18.72,"12,000원"
9,18.72,19.3,"아니 천 원이 하자 12,000원에 2,000원"


In [3]:
# instantiate the pipeline
from dotenv import load_dotenv
import os
import torch
from pyannote.audio import Pipeline

load_dotenv()
token = os.getenv("Hugging_API_KEY")

pipeline = Pipeline.from_pretrained(
  "pyannote/speaker-diarization-3.1",
  use_auth_token=token)

if torch.cuda.is_available():
    pipeline.to(torch.device("cuda:0"))
    print("cuda is available")
else:
    pipeline.to(torch.device("cpu"))
    print("cuda is not available")

# run the pipeline on an audio file
diarization = pipeline("C://Users//fursew//project//open_ai//ch05//음성녹음.mp3")

# dump the diarization output to disk using RTTM format
with open("audio.rttm", "w",encoding='utf-8') as rttm:
    diarization.write_rttm(rttm)

cuda is available


It can be re-enabled by calling
   >>> import torch
   >>> torch.backends.cuda.matmul.allow_tf32 = True
   >>> torch.backends.cudnn.allow_tf32 = True
See https://github.com/pyannote/pyannote-audio/issues/1370 for more details.

  std = sequences.std(dim=-1, correction=1)
