## 05-2 로컬에서 음성을 텍스트로 변환하기
- 로컬 환경에서 언어 모델을 내려받아 처리 필요한 경우
    - 회사 밖으로 유출되면 안되는 내용
    - 긴 내용으로 처리 비용 우려

### Hugging Face
- Hugging Face 플랫폼
    - 전세계 수많은 개발자와 연구자가 만든 인공지능 모델, 데이터셋, 문서를 서비스함
- 앞서 실습에서 활용한 OpenAI에서 API로 제공하는 Whisper 모델 역시 Hugging Face에 공개되어 있음
    - https://huggingface.co/openai/whisper-large-v3-turbo
    - MIT License

### 실습. Whisper 모델을 내려받아 로컬에서 사용하기

#### 필요한 패키지 설치하기

In [17]:
%pip install --upgrade pip
%pip install --upgrade transformers datasets[audio] accelerate

Note: you may need to restart the kernel to use updated packages.
zsh:1: no matches found: datasets[audio]
Note: you may need to restart the kernel to use updated packages.


#### FFMPEG 다운로드
- FFMPEG는 오디오와 비디오 파일을 변환해 처리하는 오픈소스 도구
- Hugging Face의 whisper-large-v3-turbo 모델을 사용하려면 FFMPEG가 컴퓨터에 설치되어 있어야 함
- macOS에서는 Homebrew로 설치된 /opt/homebrew/bin/ffmpeg를 PATH에 넣어야 함
- brew install ffmpeg
- which ffmpeg

#### 필요한 패키지 설치하기

In [18]:
import os
os.environ["PATH"] = "/opt/homebrew/bin:" + os.environ.get("PATH", "")

#### Hugging Face의 hisper-large-v3-turbo 모델 안내 페이지에 있는 코드를 복사하여 활용
- https://huggingface.co/openai/whisper-large-v3-turbo
- 복사해온 코드 일부 수정
    - load_dataset 주석 처리: 샘플 데이터 가져와서 사용하지 않고 이전 예제 MP3 파일 활용할 것
    - pipeline 설정 추가
        - return_timestamps=True: 긴 MP3 파일을 청크단위로 나누고 청크 시간 기록(화자 분리 기능 구현 시 유용)
        - chunk_length_s=10: 오디오 파일을 10초씩 나눠 처리, 분석 정확도 높임
        - stride_length_s=2: 각 청크가 2초씩 겹치도록 설정, 분석 정확도 높임
    - print(result): 텍스트만 출력하지 않고 반환되는 값을 모두 출력하도록 수정
- 코드 실행하기 위해 PyTorch 라이브러리 필요
    - PyTorch: Facebook의 AI 리서치 랩 FAIR에서 개발한 오픈소스 딥러닝 라이브러리
    - PyTorch 웹사이트(https://pytorch.org)에서 사용자의 환경에 맞는 설치 명령어를 확인하고 터미널 입력하여 설치
    - Stable(2.9.1) / Mac / Pip / Python / Default
    - pip3 install torch torchvision torchaudio
- 코드 실행 결과
    - 딕셔너리 형태로 반환
        - text: MP3의 모든 내용 들어 있음
        - chunks: 시간대별로 어떤 내용이 있는지를 끊어진 리스트 형태로 정리

In [19]:
import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
# from datasets import load_dataset


device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32

model_id = "openai/whisper-large-v3-turbo"

model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
)
model.to(device)

processor = AutoProcessor.from_pretrained(model_id)

pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    torch_dtype=torch_dtype,
    device=device,
    return_timestamps=True,
    chunk_length_s=10,
    stride_length_s=2,
)

# dataset = load_dataset("distil-whisper/librispeech_long", "clean", split="validation")
# sample = dataset[0]["audio"]
sample = "../audio/lsy_audio_2023_58s.mp3"

result = pipe(sample)
# print(result["text"])

print(result)

Device set to use cpu
Using custom `forced_decoder_ids` from the (generation) config. This is deprecated in favor of the `task` and `language` flags/config options.
Transcription using a multilingual Whisper will default to language detection followed by transcription instead of translation to English. This might be a breaking change for your use case. If you want to instead always translate your audio to English, make sure to pass `language='en'`. See https://github.com/huggingface/transformers/pull/28687 for more details.


{'text': ' 안녕하세요. 이 강의는 GPT-API로 챗봇 만들기 라는 내용을 다루는 강의입니다. GPT-API에 대해서 생소하신 분들도 있을텐데 우리가 잘 알고 있는 ChatGPT, ChatGPT 기능을 이용해서 우리가 원하는 프로그램을 어떻게 만드는지에 대해서 이야기할 거예요. 그래서 이런 강의들이 사실 많이 있습니다. 그래서 여러가지들이 있는데 이 강의 특징이라고 한다면 GPT로 명확한 미션을 달성하는 챕터 프로그램을 만드는게 사실 쉽지는 않은데 이걸 어떻게 해서 구현을 하는지 그리고 그게 왜 필요한지에 대해서 좀 이야기를 할 거고요. 그 예제로 예제는 여러가지가 될 수 있는데 예제로 하는 것은 음악 플레이리스트 동영상을 자동으로 대화를 통해서 생성하는 프로그램을 만드는 것을 다루려고 합니다. 프로그램이 실행되는 모습을 한번 보여드릴게요. 우리가 만들 프로그램은 이런 식으로 이제 나타나게 되고', 'chunks': [{'timestamp': (0.0, 6.3), 'text': ' 안녕하세요. 이 강의는 GPT-API로 챗봇 만들기 라는 내용을 다루는 강의입니다.'}, {'timestamp': (7.18, 10.0), 'text': ' GPT-API에 대해서 생소하신 분들도 있을텐데'}, {'timestamp': (11.0, 17.0), 'text': ' 우리가 잘 알고 있는 ChatGPT, ChatGPT 기능을 이용해서'}, {'timestamp': (17.0, 20.0), 'text': ' 우리가 원하는 프로그램을 어떻게 만드는지에 대해서'}, {'timestamp': (20.0, 22.0), 'text': ' 이야기할 거예요.'}, {'timestamp': (22.0, 24.0), 'text': ' 그래서 이런 강의들이 사실 많이 있습니다.'}, {'timestamp': (24.0, 27.48), 'text': ' 그래서 여러가지들이 있는데 이 강의 특징이라고 한다면'}, {'timestamp': (27.48, 29.58), 'text': ' G

#### chunks에 저장된 값을 CSV 파일로 저장
- 결과는 pandas dataframe을 이용해 저장

In [21]:
# chunks를 CSV 파일로 저장
start_end_text = []

for chunk in result["chunks"]:
    start = chunk["timestamp"][0]
    end = chunk["timestamp"][1]
    text = chunk["text"]
    start_end_text.append([start, end, text])

import pandas as pd
df = pd.DataFrame(start_end_text, columns=["start", "end", "text"])
df.to_csv("lsy_audio_2023_58.csv", index=False, sep="|")
display(df)

Unnamed: 0,start,end,text
0,0.0,6.3,안녕하세요. 이 강의는 GPT-API로 챗봇 만들기 라는 내용을 다루는 강의입니다.
1,7.18,10.0,GPT-API에 대해서 생소하신 분들도 있을텐데
2,11.0,17.0,"우리가 잘 알고 있는 ChatGPT, ChatGPT 기능을 이용해서"
3,17.0,20.0,우리가 원하는 프로그램을 어떻게 만드는지에 대해서
4,20.0,22.0,이야기할 거예요.
5,22.0,24.0,그래서 이런 강의들이 사실 많이 있습니다.
6,24.0,27.48,그래서 여러가지들이 있는데 이 강의 특징이라고 한다면
7,27.48,29.58,GPT로 명확한 미션을 달성하는
8,29.58,31.66,챕터 프로그램을 만드는게 사실
9,31.66,34.32,쉽지는 않은데 이걸 어떻게 해서


#### CSV로 저장된 파일도 열어보면 잘 정리된 것 확인 가능
- lsy_audio_2023_58.csv