# Example code of Whisper

Colab 환경에서 Whisper 모델을 사용해 음성을 인식하여 자막을 만듭니다.

## 패키지 및 예제 데이터 다운로드하기
예제를 실행시키기 위해 python package들을 설치합니다. 예제로 사용할 음성 데이터도 다운로드 받습니다. Colab에서 실행하지 않는 경우 이 셀은 실행하지 않습니다.

In [1]:
!wget https://raw.githubusercontent.com/mentor1023/dl_apps/main/speech_recognition/requirements-colab.txt
!pip install -r requirements-colab.txt

### OpenAi 버전이 낮아서 아래 API Key 설정시 오류가 발생할 경우
#   - openai 버전을 높여서 설치해야함(아래 설치)
# !pip install --force-reinstall -v openai==1.55.3

# 예제 다운로드
!mkdir examples
!cd examples && wget https://raw.githubusercontent.com/mentor1023/dl_apps/main/speech_recognition/examples/example.wav
!cd examples && wget https://raw.githubusercontent.com/mentor1023/dl_apps/main/speech_recognition/examples/example2.wav
!cd examples && wget https://raw.githubusercontent.com/mentor1023/dl_apps/main/speech_recognition/examples/example3.wav

--2024-12-12 12:37:27--  https://raw.githubusercontent.com/mentor1023/dl_apps/main/speech_recognition/requirements-colab.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.109.133, 185.199.108.133, 185.199.111.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.109.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 151 [text/plain]
Saving to: ‘requirements-colab.txt’


2024-12-12 12:37:28 (2.94 MB/s) - ‘requirements-colab.txt’ saved [151/151]

Collecting openai-whisper==20231117 (from -r requirements-colab.txt (line 1))
  Downloading openai-whisper-20231117.tar.gz (798 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m798.6/798.6 kB[0m [31m18.5 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Collecting openai==1.31.0 (from 

--2024-12-12 12:37:52--  https://raw.githubusercontent.com/mentor1023/dl_apps/main/speech_recognition/examples/example.wav
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 622124 (608K) [audio/wav]
Saving to: ‘example.wav’


2024-12-12 12:37:52 (17.5 MB/s) - ‘example.wav’ saved [622124/622124]

--2024-12-12 12:37:52--  https://raw.githubusercontent.com/mentor1023/dl_apps/main/speech_recognition/examples/example2.wav
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 350732 (343K) [audio/wav]
Saving to: ‘example2.wav’


2024-12-12 12:3

## 패키지 불러오기

In [1]:
from IPython.display import Audio

from openai import OpenAI
import whisper

import os

## 사전 학습 모델 불러오기
[Whisper 라이브러리](https://github.com/openai/whisper)의 `load_model()` 함수를 이용해 whisper 모델을 불러옵니다.

In [3]:
model = whisper.load_model("large")

  checkpoint = torch.load(fp, map_location=device)


## 예제 음성 데이터 확인하기

In [4]:
audio_path = "examples/example.wav"
Audio(audio_path)

In [3]:
audio_path = "examples/example.wav"

## 위스퍼 모델 추론하기

모델의 `transcribe()` 함수를 이용해 음성을 인식해 자막을 만듭니다.

In [5]:
result = model.transcribe(audio_path)
result["text"]

' 그는 괜찮은 척하려고 애쓰는 것 같았다.'

In [None]:
result = model.transcribe(audio_path)
result

{'text': ' 그는 괜찮은 척하려고 애쓰는 것 같았다.',
 'segments': [{'id': 0,
   'seek': 0,
   'start': 0.0,
   'end': 3.52,
   'text': ' 그는 괜찮은 척하려고 애쓰는 것 같았다.',
   'tokens': [50365,
    4296,
    1098,
    18286,
    2124,
    6768,
    247,
    8037,
    18914,
    21459,
    49140,
    108,
    1098,
    4431,
    4385,
    9106,
    1235,
    13,
    50541],
   'temperature': 0.0,
   'avg_logprob': -0.006275069713592529,
   'compression_ratio': 0.8709677419354839,
   'no_speech_prob': 0.006000545807182789}],
 'language': 'ko'}

In [None]:
result["text"]

' 그는 괜찮은 척하려고 애쓰는 것 같았다.'

## 위스퍼 모델 API 실행하기
OpenAI Platform의 계정에 연결된 API 키를 사용합니다. 그리고 어떤 모델을 사용할 지 설정합니다. 이 예제에서는 `whisper-1`를 사용합니다.

In [27]:
### OpenAi 버전이 낮아서 아래 API Key 설정시 오류가 발생할 경우
#   - openai 버전을 높여서 설치해야함(아래 설치)
# !pip install --force-reinstall -v openai==1.55.3

In [6]:
# openai API 키 인증
client = OpenAI(api_key="<OPENAI_API_KEY>")

In [14]:
client

<openai.OpenAI at 0x7e12a6e47190>

In [7]:
# 모델 - whisper-1 선택
model_name = "whisper-1"

In [8]:
with open(audio_path, "rb") as audio_file:
    transcription = client.audio.transcriptions.create(
        model=model_name,
        file=audio_file,
        response_format="text"
    )

In [9]:
print(transcription)

그는 괜찮은 척하려고 애쓰는 것 같았다.



## 유튜브 영상 정보 가져오기

In [10]:
# 24.10.01 youtube 링크 형식 변경 등 서비스들이 변경된 사항이 있어
# 기존 pytube로는 대응이 안되는 경우가 생겼습니다.
# 이에 대응하기 위해 pytube -> pytubefix 로 변경합니다.
# from pytubefix import YouTube

In [28]:
from pytubefix import YouTube

In [11]:
youtube_link = "https://youtu.be/Or6zvOnSDXA?si=pVZvl2yAc9K8KJm6"

In [12]:
yt = YouTube(youtube_link)

In [13]:
yt

<pytubefix.__main__.YouTube object: videoId=Or6zvOnSDXA>

## 유튜브 영상 정보 확인하기

In [15]:
print(
    f"""
    Title: {yt.title}
    Description: {yt.description}
    Author: {yt.author}
    """
)


    Title: 음성인식테스트
    Description: 음성인식테스트

음성 출처: https://youtube.com/shorts/FHe9NSr1H54?si=oPLvDRyFiUaO3WDp
    Author: 김경환
    


## 유튜브 음성 정보 가져오기

In [16]:
audio_streams = yt.streams.filter(type="audio").order_by("abr").desc()
for stream in audio_streams:
    print(stream)

<Stream: itag="251" mime_type="audio/webm" abr="160kbps" acodec="opus" progressive="False" type="audio">
<Stream: itag="140" mime_type="audio/mp4" abr="128kbps" acodec="mp4a.40.2" progressive="False" type="audio">
<Stream: itag="139" mime_type="audio/mp4" abr="48kbps" acodec="mp4a.40.5" progressive="False" type="audio">


In [None]:
audio_streams = yt.streams.filter(type="audio").order_by("abr").desc()

In [17]:
audio_streams = yt.streams.filter(type="audio").order_by("abr").desc()
audio_streams

[<Stream: itag="251" mime_type="audio/webm" abr="160kbps" acodec="opus" progressive="False" type="audio">, <Stream: itag="140" mime_type="audio/mp4" abr="128kbps" acodec="mp4a.40.2" progressive="False" type="audio">, <Stream: itag="139" mime_type="audio/mp4" abr="48kbps" acodec="mp4a.40.5" progressive="False" type="audio">]

In [18]:
for stream in audio_streams:
    print(stream)

<Stream: itag="251" mime_type="audio/webm" abr="160kbps" acodec="opus" progressive="False" type="audio">
<Stream: itag="140" mime_type="audio/mp4" abr="128kbps" acodec="mp4a.40.2" progressive="False" type="audio">
<Stream: itag="139" mime_type="audio/mp4" abr="48kbps" acodec="mp4a.40.5" progressive="False" type="audio">


In [26]:
yt.title

'음성인식테스트'

In [19]:
youtube_audio_path = f"{yt.title}.webm"
audio_streams[0].download(filename=youtube_audio_path)

'/content/음성인식테스트.webm'

In [20]:
youtube_audio_path = f"{yt.title}.webm"
youtube_audio_path

'음성인식테스트.webm'

In [21]:
audio_streams[0].download(filename=youtube_audio_path)

'/content/음성인식테스트.webm'

In [22]:
Audio(youtube_audio_path)

In [23]:
result = model.transcribe(youtube_audio_path)
result["text"]

' 세상에서 가장 아껴야 할 사람은 너 자신이다. 모든 일을 잘하려고 애쓰지 말 것. 어떤 삶을 살든 사랑만큼은 미루지 말 것. 마음대로 되지 않는 마음은 그냥 쉬게 둘 것. 너무 서두르지 말 것. 그리고 천천히 뜨겁게 살아갈 것. 딸에게 보내는 심리학 편지에서 만날 수 있습니다.'

In [24]:
result = model.transcribe(youtube_audio_path)
result

{'text': ' 세상에서 가장 아껴야 할 사람은 너 자신이다. 모든 일을 잘하려고 애쓰지 말 것. 어떤 삶을 살든 사랑만큼은 미루지 말 것. 마음대로 되지 않는 마음은 그냥 쉬게 둘 것. 너무 서두르지 말 것. 그리고 천천히 뜨겁게 살아갈 것. 딸에게 보내는 심리학 편지에서 만날 수 있습니다.',
 'segments': [{'id': 0,
   'seek': 0,
   'start': 0.0,
   'end': 5.46,
   'text': ' 세상에서 가장 아껴야 할 사람은 너 자신이다.',
   'tokens': [50365,
    37990,
    4885,
    20283,
    2216,
    11219,
    1041,
    6612,
    8981,
    12211,
    2124,
    12963,
    31505,
    22158,
    13,
    50638],
   'temperature': 0.0,
   'avg_logprob': -0.2041491176305192,
   'compression_ratio': 1.3943661971830985,
   'no_speech_prob': 0.006797056179493666},
  {'id': 1,
   'seek': 0,
   'start': 6.7,
   'end': 9.16,
   'text': ' 모든 일을 잘하려고 애쓰지 말 것.',
   'tokens': [50700,
    27714,
    7682,
    1638,
    6644,
    8037,
    18914,
    21459,
    49140,
    108,
    1831,
    7058,
    4431,
    13,
    50823],
   'temperature': 0.0,
   'avg_logprob': -0.2041491176305192,
   'compression_ratio': 1.3943661971830985,
   'no_speech_prob': 0.0067

In [25]:
result["text"]

' 세상에서 가장 아껴야 할 사람은 너 자신이다. 모든 일을 잘하려고 애쓰지 말 것. 어떤 삶을 살든 사랑만큼은 미루지 말 것. 마음대로 되지 않는 마음은 그냥 쉬게 둘 것. 너무 서두르지 말 것. 그리고 천천히 뜨겁게 살아갈 것. 딸에게 보내는 심리학 편지에서 만날 수 있습니다.'