In [1]:
import ffmpeg as ff
import os
from transformers import Wav2Vec2ForCTC, Wav2Vec2Tokenizer
import torch
import librosa
import time  # 시간을 측정하기 위해 추가
import tqdm


# Wav2Vec 2.0 모델로 오디오 처리
def transcribe_audio(audio_path):
    # Wav2Vec 2.0 모델과 토크나이저 로드 (한국어 모델 사용)
    print("토크나이저와 모델 로드 시작")
    start_time = time.time()
    tokenizer = Wav2Vec2Tokenizer.from_pretrained("kresnik/wav2vec2-large-xlsr-korean")
    model = Wav2Vec2ForCTC.from_pretrained("kresnik/wav2vec2-large-xlsr-korean")
    print(f"토크나이저와 모델 로드 완료: {time.time() - start_time} 초 소요")
    
    # 오디오 파일 로드 (librosa 사용)
    print("오디오 로드 시작")
    start_time = time.time()
    audio, rate = librosa.load(audio_path, sr=16000)  # 16000Hz로 샘플링
    print(f"오디오 로드 완료: {time.time() - start_time} 초 소요")
    
    # 오디오 데이터를 모델 입력 형태로 변환
    print("오디오 데이터 변환 시작")
    start_time = time.time()
    input_values = tokenizer(audio, return_tensors="pt", padding="longest").input_values
    print(f"오디오 데이터 변환 완료: {time.time() - start_time} 초 소요")
    
    # 모델에 입력하여 텍스트로 변환
    print("모델에 입력하여 변환 시작")
    start_time = time.time()
    with torch.no_grad():
        logits = model(input_values).logits
    print(f"텍스트 변환 완료: {time.time() - start_time} 초 소요")
    
    # 가장 높은 확률의 예측 값 추출
    print("예측 값 추출 시작")
    start_time = time.time()
    predicted_ids = torch.argmax(logits, dim=-1)
    print(f"예측 값 추출 완료: {time.time() - start_time} 초 소요")
    
    # 텍스트로 변환
    transcription = tokenizer.batch_decode(predicted_ids)[0]
    return transcription

# 예시 사용
audio_path = './audio_output1.wav'  

# 추출된 오디오를 Wav2Vec 2.0으로 처리
transcript = transcribe_audio(audio_path)
print(transcript)


  from .autonotebook import tqdm as notebook_tqdm


토크나이저와 모델 로드 시작


To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to see activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization. 
The tokenizer class you load from this checkpoint is 'Wav2Vec2CTCTokenizer'. 
The class this function is called from is 'Wav2Vec2Tokenizer'.
Some weights of the model checkpoint at kresnik/wav2vec2-large-xlsr-korean were not used when initializing Wav2Vec2ForCTC: ['wav2vec2.encoder.pos_conv_embed.conv.weight_g', 'wav2vec2.encoder.pos_conv_embed.conv.weight_v']
- This IS expected if you are initializing Wav2Vec2ForCTC from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPr

토크나이저와 모델 로드 완료: 13.646920442581177 초 소요
오디오 로드 시작
오디오 로드 완료: 7.066583156585693 초 소요
오디오 데이터 변환 시작
오디오 데이터 변환 완료: 2.6021485328674316 초 소요
모델에 입력하여 변환 시작
텍스트 변환 완료: 19.682043313980103 초 소요
예측 값 추출 시작
예측 값 추출 완료: 0.015625 초 소요
문 자녀 나 뜻자 식도 생절하게 알려지는 생절한 양향 새  우리 지금지 각 에 리 리끼에 따라서 분 았 이번  간에는 이 가지 기준는 두 사용에서 산각경을 리해 볼거예요 온늘인 진나번 배는 내용이 많이 나오니까 다 자신을 꼭 재미께 부부 볼까우리 생각경 누가지 기준에 따라서 분를를 했고 천번째 기준는 사각을리 에 기리에 따라서 분리려는 것이었습니결에 길리 따라손는  려할 수 있어나 리 기서  한각기 세 는  보고 여기서 리가 생호 여빼마 있는 지를 살 왔리고 거기서 세면의 리 모두 달른  있고 동변의 끼가 같면 일  살같 세명의 끼가 모두같면 각경이라고 돌렀그리고 세 에 끼가 같면 당연히 두변의 계도 같니까  면 산각경라고도 한나고 했그래서 선 생임 여기에 있는 이 산각를 보고 이 등면 사감경과 세명의 끼리가 모두 른 산각으로 분리를 해 볼거예요먼서 단호떤 단는 어가요 른 떠니 여기에 있는 이 인병의 계리까 습니그렇다 이 생면 산각경이라고  수 있겠 나 어나는 세 에 끼리가 모두 달라따라서 두번째인 간에 써 주면 되겠네음단는 어떤가  여기   주변의 계가 같은으니까 이 등면 산각경라고 할 수 있고 는 세명 끼리가 모두 달라그래서 렇게 어고또  어가 많도 니요
