# Example code of Whisper

Colab 환경에서 Whisper 모델을 사용해 음성을 인식하여 자막을 만듭니다.

## Colab 환경 설정
예제를 실행시키기 위해 python package들을 설치합니다. 예제로 사용할 음성 데이터도 다운로드 받습니다.

In [None]:
# Local에서 Run하는 경우 False로 변경
using_colab = True

In [None]:
if using_colab:
    !wget https://raw.githubusercontent.com/mrsyee/dl_apps/main/speech_recognition/requirements.txt
    !pip install -r requirements.txt

    # Download examples
    !mkdir examples
    !cd examples && wget https://raw.githubusercontent.com/mrsyee/dl_apps/main/speech_recognition/examples/example.wav
    !cd examples && wget https://raw.githubusercontent.com/mrsyee/dl_apps/main/speech_recognition/examples/example2.wav
    !cd examples && wget https://raw.githubusercontent.com/mrsyee/dl_apps/main/speech_recognition/examples/example3.wav

## Import dependency

In [None]:
from IPython.display import Audio

import whisper

## Initailize Model
[Whisper 라이브러리](https://github.com/openai/whisper)의 `load_model()` 함수를 이용해 whisper 모델을 불러옵니다.

In [None]:
model = whisper.load_model("large")

## Inference Model

모델의 `transcribe()` 함수를 이용해 음성을 인식해 자막을 만듭니다.

### 예제 음성 데이터 확인

In [None]:
audio_path = "examples/example.wav"

In [None]:
Audio(audio_path)

### Whisper 모델 추론

In [None]:
result = model.transcribe(audio_path)
result["text"]

## pytube 라이브러리로 Youtube 영상 정보 가져오기

In [None]:
from pytube import YouTube

In [None]:
youtube_link = "https://youtu.be/Or6zvOnSDXA"

In [None]:
yt = YouTube(youtube_link)

### 영상 정보 확인

In [None]:
print(f"""
    Title: {yt.title}
    Description: {yt.description}
    Author: {yt.author}
""")

### 영상 데이터 가져오기

In [None]:
streams = yt.streams.filter(progressive=True, file_extension="mp4", type="video").order_by("resolution").desc()
for stream in streams:
    print(stream)

In [None]:
youtube_video_path = f"{yt.title}.mp4"
streams[0].download(filename=youtube_video_path)

In [None]:
from IPython.display import HTML
from base64 import b64encode

with open(youtube_video_path,"rb") as f:
    video = f.read()
    data_url = "data:video/mp4;base64," + b64encode(video).decode()

HTML(f"""
<video width=500 controls>
    <source src="{data_url}" type="video/mp4">
</video>
""")

### 음성 데이터 가져오기

In [None]:
audio_streams = yt.streams.filter(type="audio").order_by("abr").desc()
for stream in audio_streams:
    print(stream)

In [None]:
youtube_audio_path = f"{yt.title}.webm"
audio_streams[0].download(filename=youtube_audio_path)

In [None]:
Audio(youtube_audio_path)

### 영상의 음성 정보를 텍스트로 인식하기

In [None]:
result = model.transcribe(youtube_audio_path)
result["text"]