# Example code of Whisper

Colab 환경에서 Whisper 모델을 사용해 음성을 인식하여 자막을 만듭니다.

## 패키지 및 예제 데이터 다운로드하기
예제를 실행시키기 위해 python package들을 설치합니다. 예제로 사용할 음성 데이터도 다운로드 받습니다. Colab에서 실행하지 않는 경우 이 셀은 실행하지 않습니다.

In [None]:
!wget https://raw.githubusercontent.com/mrsyee/dl_apps/main/speech_recognition/requirements-colab.txt
!pip install -r requirements-colab.txt

# 예제 다운로드
!mkdir examples
!cd examples && wget https://raw.githubusercontent.com/mrsyee/dl_apps/main/speech_recognition/examples/example.wav
!cd examples && wget https://raw.githubusercontent.com/mrsyee/dl_apps/main/speech_recognition/examples/example2.wav
!cd examples && wget https://raw.githubusercontent.com/mrsyee/dl_apps/main/speech_recognition/examples/example3.wav

## 패키지 불러오기

In [None]:
from IPython.display import Audio

from openai import OpenAI
import whisper

## 사전 학습 모델 불러오기
[Whisper 라이브러리](https://github.com/openai/whisper)의 `load_model()` 함수를 이용해 whisper 모델을 불러옵니다.

In [None]:
model = whisper.load_model("large")

## 예제 음성 데이터 확인하기

In [None]:
audio_path = "examples/example.wav"
Audio(audio_path)

## 위스퍼 모델 추론하기

모델의 `transcribe()` 함수를 이용해 음성을 인식해 자막을 만듭니다.

In [None]:
result = model.transcribe(audio_path)
result["text"]

## 위스퍼 모델 API 실행하기
OpenAI Platform의 계정에 연결된 API 키를 사용합니다. 그리고 어떤 모델을 사용할 지 설정합니다. 이 예제에서는 `whisper-1`를 사용합니다.

In [None]:
# openai API 키 인증
client = OpenAI(api_key="<OPENAI_API_KEY>")

In [None]:
# 모델 - GPT 3.5 Turbo 선택
model_name = "whisper-1"

In [None]:
with open(audio_path, "rb") as audio_file:
    transcription = client.audio.transcriptions.create(
        model=model_name,
        file=audio_file,
        response_format="text"
    )

In [None]:
print(transcription)

## 유튜브 영상 정보 가져오기

In [None]:
# 24.10.01 youtube 링크 형식 변경 등 서비스들이 변경된 사항이 있어
# 기존 pytube로는 대응이 안되는 경우가 생겼습니다.
# 이에 대응하기 위해 pytube -> pytubefix 로 변경합니다.
from pytubefix import YouTube

In [None]:
youtube_link = "https://youtu.be/Or6zvOnSDXA?si=pVZvl2yAc9K8KJm6"

In [None]:
yt = YouTube(youtube_link)

## 유튜브 영상 정보 확인하기

In [None]:
print(
    f"""
    Title: {yt.title}
    Description: {yt.description}
    Author: {yt.author}
    """
)

## 유튜브 음성 정보 가져오기

In [None]:
audio_streams = yt.streams.filter(type="audio").order_by("abr").desc()
for stream in audio_streams:
    print(stream)

In [None]:
youtube_audio_path = f"{yt.title}.webm"
audio_streams[0].download(filename=youtube_audio_path)

In [None]:
Audio(youtube_audio_path)

In [None]:
result = model.transcribe(youtube_audio_path)
result["text"]