## 0. 라이브러리 다운로드

### 라이브러리 설명

- 오디오 처리: numpy, librosa, soundfile, pydub
- 모델 실행: torch, transformers, accelerate
- 응용 프로그램 구성: langchain, sentence-transformers
- 데이터셋: datasets

## 설치한 라이브러리들 설명  

### 핵심 AI 및 NLP 관련 라이브러리
1. `torch`  
PyTorch는 딥러닝 모델을 구축하고 훈련하는 데 사용하는 오픈소스 라이브러리입니다.  
GPU 가속을 지원하며, 특히 자연어 처리와 컴퓨터 비전에서 널리 사용됩니다.  
Transformers 모델을 실행하거나 커스텀 모델을 훈련할 때 사용됩니다.  

2. `transformers`  
Hugging Face에서 제공하는 라이브러리로, 사전 학습된 NLP 모델(BERT, GPT, Whisper 등)을 쉽게 사용할 수 있습니다.  
Whisper 모델도 이 라이브러리를 통해 로드하여 사용합니다.  
Whisper 모델로 음성 데이터를 텍스트로 변환하는 데 사용됩니다.  

3. `accelerate`  
Hugging Face에서 제공하는 라이브러리로, 모델 훈련과 추론을 가속화하고 여러 디바이스(CPU, GPU, TPU 등)를 활용하도록 지원합니다.  
Whisper나 기타 Transformer 기반 모델을 실행 시 성능 최적화에 사용됩니다.  

4. `langchain`  
대규모 언어 모델(LLM)을 활용한 애플리케이션을 구축하는 프레임워크입니다.  
여러 NLP 작업(질의응답, 대화 생성 등)을 연결하는 워크플로우를 구성할 때 사용됩니다.  
LLM 기반 애플리케이션 개발에 사용됩니다. Whisper와 결합하여 음성 인식 후 처리 로직을 작성할 때 유용할 수 있습니다.  

1. `sentence-transformers`  
문장 수준의 임베딩(벡터 표현)을 생성하는 데 사용되는 라이브러리입니다.  
텍스트 데이터의 유사도 측정이나 검색 작업에 널리 사용됩니다.  
Whisper로 변환된 텍스트 데이터를 처리하거나 분석하는 데 사용될 수 있습니다.  


### 오디오 처리 및 데이터 관련 라이브러리  
1. `numpy==1.23.4`  
Python의 대표적인 수치 계산 라이브러리로, 행렬 연산 및 고성능 배열 처리를 지원합니다.  
Whisper 모델 및 오디오 데이터 처리에서 핵심적인 역할을 합니다.  
PCM 데이터를 처리하거나 librosa와 함께 오디오 데이터 배열을 조작할 때 사용됩니다.  
(`librosa`와 호환하기 위해 버전을 지정해주었습니다. 2.0.0 버전도 가능)  

2. `librosa`  
오디오 분석과 신호 처리를 위한 라이브러리입니다.  
오디오 데이터를 주파수 영역(Mel Spectrogram)으로 변환하는 등 Whisper 모델과 직접적으로 연관이 있습니다.  
Whisper 모델에 입력으로 제공되는 데이터를 전처리하거나 변환하는 데 사용됩니다.  

3. `soundfile`  
오디오 파일을 읽고 쓰는 데 사용되는 라이브러리입니다.  
`librosa`가 내부적으로 의존합니다.  
오디오 데이터를 로드하거나 저장할 때 사용됩니다.  

4. `pydub`  
오디오 데이터를 자르거나 합치는 등의 작업을 지원하는 라이브러리입니다.  
ffmpeg와 함께 동작하며, Whisper에 입력으로 제공할 오디오를 준비하는 데 유용합니다.  
긴 오디오 데이터를 30초 단위로 분할하거나 특정 포맷으로 변환할 때 사용됩니다.  

In [2]:
# !pip install torch transformers accelerate langchain sentence-transformers

In [3]:
# !pip install numpy==1.23.4 librosa soundfile pydub

In [4]:
# !pip install librosa

## 1. ASR 구현

### 1.1. Ipython Notebook에서 녹음 버튼 UI 구현하기

In [2]:
import numpy as np
import sounddevice as sd
import soundfile as sf
import threading
import ipywidgets as widgets
import time
from IPython.display import display

In [5]:
# 녹음 관련 변수
device_id = 1 # 확인된 마이크 장치 ID
recording = False
paused = False
audio_data = []
sample_rate = 16000 # Whisper 권장 샘플링 레이트
sample_number = 1
elapsed_time = 0 # 경과 시간 (초)
timer_running = False # 타이머 실행 여부

# 녹음 함수
def record_audio():
    global recording, paused, audio_data
    audio_data = []

    with sd.InputStream(samplerate=sample_rate, channels=1, dtype='int16', device=device_id) as stream:
        while recording:
            if not paused:
                frame, _ = stream.read(1024)
                audio_data.append(frame)

# 타이머 함수
def update_timer():
    global elapsed_time, timer_running
    timer_running = True
    while timer_running:
        time.sleep(1)
        if recording and not paused:
            elapsed_time += 1
            timer_label.value = f"⏳ 경과 시간: {elapsed_time}초"

# 녹음 시작 함수
def start_recording(_):
    global recording, paused, elapsed_time, timer_running
    if not recording:
        recording=True
        paused = False
        elapsed_time = 0 # 타이머 초기화
        threading.Thread(target=record_audio, daemon=True).start()
        threading.Thread(target=update_timer, daemon=True).start()
        status_label.value = "🎙녹음 중..."
        timer_label.value = "경과 시간: 0초"

# 일시정지 함수
def pause_recording(_):
    global paused
    if recording:
        paused = not paused
        status_label.value = "⏸ 녹음 일시정지됨..." if paused else "🎙 녹음 재개됨..."


# 녹음 중지 함수
def stop_recording(_):
    global recording, timer_running
    if recording:
        recording = False
        timer_running = False
        status_label.value = "✅ 녹음 완료!"
        save_audio()
        timer_label.value = "경과 시간: 0초"


# 녹음된 파일 저장 함수
def save_audio():
    global sample_number
    if len(audio_data) > 0:
        audio_array = np.concatenate(audio_data, axis=0)
        audio_name = f"recorded_audio_{sample_number}.wav"
        sf.write(audio_name, audio_array, sample_rate)
        sample_number += 1
        status_label.value = f"🎤 녹음 파일 저장됨: {audio_name}"

In [6]:
# UI 버튼 생성
start_button = widgets.Button(description="녹음 시작", button_style="success")
pause_button = widgets.Button(description="일시정지", button_style="warning")
stop_button = widgets.Button(description="녹음 종료", button_style="danger")
status_label = widgets.Label(value="")
timer_label = widgets.Label(value="경과 시간: 0초")

# 버튼 클릭 이벤트 연결
start_button.on_click(start_recording)
pause_button.on_click(pause_recording)
stop_button.on_click(stop_recording)

# UI 표시
display(start_button, pause_button, stop_button, timer_label, status_label)


Button(button_style='success', description='녹음 시작', style=ButtonStyle())



Button(button_style='danger', description='녹음 종료', style=ButtonStyle())

Label(value='경과 시간: 0초')

Label(value='')

### 1.2. 음성파일 불러오기

In [49]:
import librosa

# 오디오 파일 로드
audio_name = 'recorded_audio_3.wav'
audio_array, sr = librosa.load(audio_name, sr=16000) # Whisper 16kHz 샘플링
print(f'음성 길이: {audio_array.shape[0] / 16000 :.2f}초')

음성 길이: 90.05초


#### 1.2.1 녹음파일 30초씩 청킹하기
기본적으로 Whisper모델은 30초씩 잘라서 처리하는 게 가장 안정적이기에,  
30초 단위로 나누고, 이를 연결하여 transcription을 내놓는 게 일반적인 방법.

In [59]:
from pydub import AudioSegment

# PCM 데이터를 16비트 정수로 변환
audio_data = np.array(audio_array * 32767, dtype=np.int16)

# AudioSegment로 변환
audio = AudioSegment(
    audio_data.tobytes(),
    frame_rate=16000,
    sample_width=audio_data.dtype.itemsize,
    channels=1
)

# 오디오 분할 (30초 단위)
chunk_length_ms = 30 * 1000  # 30초
chunks = [audio[i:i + chunk_length_ms] for i in range(0, len(audio), chunk_length_ms)]

# 각 분할 저장
chunk_audio_list = []
for i, chunk in enumerate(chunks):
    chunk_audio = f"chunk_{i}.wav"
    chunk.export(chunk_audio, format="wav")
    print(f"{chunk_audio} 저장 완료")
    chunk_audio_list.append(chunk_audio)

chunk_0.wav 저장 완료
chunk_1.wav 저장 완료
chunk_2.wav 저장 완료
chunk_3.wav 저장 완료


### 1.3. 모델 불러오기 및 파이프라인 설정

In [None]:
import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
from datasets import load_dataset


import torch
# from transformers.models.whisper import EncoderDecoderCache

# CUDA 사용
device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32

# Whisper 모델 로드
model_id = "openai/whisper-large-v3-turbo"

model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, 
    torch_dtype=torch_dtype,
    # low_cpu_mem_usage=True, 
    use_safetensors=True
)
model.to(device)

# PCM 데이터를 Mel Spectorgram으로 변환 후 진행
processor = AutoProcessor.from_pretrained("openai/whisper-large-v3-turbo") # PCM -> Mel Spectrogram 입력 변환을 위함


Due to a bug fix in https://github.com/huggingface/transformers/pull/28687 transcription using a multilingual Whisper will default to language detection followed by transcription instead of translation to English.This might be a breaking change for your use case. If you want to instead always translate your audio to English, make sure to pass `language='en'`.
Passing a tuple of `past_key_values` is deprecated and will be removed in Transformers v4.43.0. You should pass an instance of `EncoderDecoderCache` instead, e.g. `past_key_values=EncoderDecoderCache.from_legacy_cache(past_key_values)`.


In [54]:
def ASR_generation(audio_array):
    input_features = processor(
        audio_array,
        sampling_rate=16000,
        return_tensors="pt",
    ).input_features


    # 신규 버전 업데이트) 기존 튜플을 EncoderDecoderCache로 변환
    # past_key_values = EncoderDecoderCache.from_legacy_cache(past_key_values)
    attention_mask = torch.ones_like(input_features)  # 모든 입력이 활성화된 상태로 설정

    generates_ids = model.generate(
        input_features,
        # max_length=300,
        temperature=0.1, # 다양성
        num_beams=2, # beam search를 사용한 텍스트 생성
        length_penalty=1.3, # 기본값 1, 긴 텍스트에 조금 더 유리하도록 설정
        attention_mask=attention_mask, # 입력 데이터에 대해 명시적으로 attention_mask 생성 후 전달
    )

    transcription = processor.batch_decode(generates_ids, skip_special_tokens=True)
    return transcription

In [64]:
import librosa

transcriptions = []
# 오디오 파일 로드
for chunk_audio in chunk_audio_list:
    chunk_audio_array, sr = librosa.load(chunk_audio, sr=16000)
    temp_script = ASR_generation(chunk_audio_array)
    transcriptions.append(temp_script[0])



In [65]:
transcriptions

[' 이익을 얼마나 냈는지, 구독자가 얼마나 늘었는지, 내출이 어떻게 됐는지, 팔로워가 늘었는지, 아니면 내가 뭘 배웠는지까지 다 리조트에 들어가요. 그래서 이게 SDAI 스타일맨소드이고, 여기서 제가 아까 말씀드렸던, 취업을 잘하는 학생들의 학교 차이는, 그래서 이 경험으로 내가 이 회사의 이 비정화와 어떻게 매치시킬 건지까지 얘기합니다.',
 ' 아, 면접을 보다 보면 이 정도로 얘기를 하면 사실은 아까 STAR을 얘기하는 동안 쟤는 어떤 애구나 알게 되는 것인데 마지막에 나에게 다 했으니까 당신에서 내가 알고 있어요. 맞아 떨어지는 거지 아는 두 가지가 맞아 떨어지면 진짜 아는 거지 여기서 또 중요한 게 하나 더 있는데 마인드즈시거든요. 마인드즈시 뭐냐면 여기 아니어도 돼.',
 ' 아, 저의 기관은?',
 ' you']

In [66]:
transcription = ''.join(transcriptions)
print(transcription)

 이익을 얼마나 냈는지, 구독자가 얼마나 늘었는지, 내출이 어떻게 됐는지, 팔로워가 늘었는지, 아니면 내가 뭘 배웠는지까지 다 리조트에 들어가요. 그래서 이게 SDAI 스타일맨소드이고, 여기서 제가 아까 말씀드렸던, 취업을 잘하는 학생들의 학교 차이는, 그래서 이 경험으로 내가 이 회사의 이 비정화와 어떻게 매치시킬 건지까지 얘기합니다. 아, 면접을 보다 보면 이 정도로 얘기를 하면 사실은 아까 STAR을 얘기하는 동안 쟤는 어떤 애구나 알게 되는 것인데 마지막에 나에게 다 했으니까 당신에서 내가 알고 있어요. 맞아 떨어지는 거지 아는 두 가지가 맞아 떨어지면 진짜 아는 거지 여기서 또 중요한 게 하나 더 있는데 마인드즈시거든요. 마인드즈시 뭐냐면 여기 아니어도 돼. 아, 저의 기관은? you


In [55]:
# transcriptions = []
# for chunk in chunks:
#     script = ASR_generation(chunk)
#     transcriptions.append(script)

# result = ' '.join(transcriptions)
# print(len(result))
# print(f"Transcription: {result}")

ValueError: setting an array element with a sequence. The requested array would exceed the maximum number of dimension of 64.

### 3. 녹음한 파일로 ASR 테스트

In [44]:
import os
os.getcwd()

'c:\\Users\\win\\Hyuk2Coding\\TIL\\Projects\\AI 영어대화'

In [45]:
file_name = 'self_motivation.m4a'
file_path = os.path.join(os.getcwd(), file_name)
print("파일 존재 여부:", os.path.exists(file_path))

파일 존재 여부: False


In [46]:
# 이미 만들어진 processor, model을 사용

'''
model_id = "openai/whisper-large-v3-turbo"

model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, 
    torch_dtype=torch_dtype,
    # low_cpu_mem_usage=True, 
    use_safetensors=True
)
processor = AutoProcessor.from_pretrained("openai/whisper-large-v3-turbo") # PCM -> Mel Spectrogram 입력 변환을 위함
'''

# Whisper모델은 PCM데이터 or WAV형식 데이터를 필요로 하기 때문에, 변환해줌.
import traceback # 전체 오류 스택 트레이스

# load file
try:
    record_file = AudioSegment.from_file(file_path, format="m4a")
    # convert to WAV format
    record_file.export("self_motivation.wav", format='wav')
    print("WAV 변환 성공")
except Exception as e:
    print("오디오 변환 실패:", e)
    traceback.print_exc()



오디오 변환 실패: name 'AudioSegment' is not defined


Traceback (most recent call last):
  File "C:\Users\win\AppData\Local\Temp\ipykernel_21596\1809049952.py", line 20, in <module>
    record_file = AudioSegment.from_file(file_path, format="m4a")
                  ^^^^^^^^^^^^
NameError: name 'AudioSegment' is not defined


FileNotFoundError가 발생하는 경우  
> traceback.print_exc() 를 사용해서, 전체 오류 스택 트레이스를 출력할 수 있다.    
> 나의 경우 `pydub`이 내부적으로 사용하는 `FFmpeg`가 설치되지 않아서 오류가 발생하는 것 같았음.  
> - `Couldn't find ffprobe or avprobe` warning이 발생했기 때문.  
> 때문에 `FFmpeg`를 아래와 같이 설치해줌.

---
#### 1. FFmpeg 다운로드
- [FFmpeg 공식 웹사이트 접속](https://ffmpeg.org/download.html)
- Windows 빌드 섹션에서 "Windows builds by gyan.dev" 링크 클릭.
#### 2. Windows 빌드 다운로드
- `ffmpeg-git-full.7z` 파일 다운로드
#### 3. 압축 해제 후 환경변수 설정
- 압축한 폴더의 `ffmpeg-bin` 폴더로 가서, 환경변수(시스템변수)로 추가.
- bash창을 다시 닫고 아래의 명령어 실행
- ```bash
    ffmpeg -version  
    ffprobe -version
    ```


In [47]:
# 재도전

# load file
try:
    record_file = AudioSegment.from_file(file_path, format="m4a")
    # convert to WAV format
    record_file.export("self_motivation.wav", format='wav')
    print("WAV 변환 성공")
except Exception as e:
    print("오디오 변환 실패:", e)
    traceback.print_exc()


오디오 변환 실패: name 'AudioSegment' is not defined


Traceback (most recent call last):
  File "C:\Users\win\AppData\Local\Temp\ipykernel_21596\1067670247.py", line 5, in <module>
    record_file = AudioSegment.from_file(file_path, format="m4a")
                  ^^^^^^^^^^^^
NameError: name 'AudioSegment' is not defined


In [48]:
# librosa를 이용한 파일 읽기
audio, sampling_rate = librosa.load(file_path, sr=16000)

print(f'오디오 데이터 길이: {len(audio)}')
print(f'샘플링 속도: {sampling_rate} Hz')



  audio, sampling_rate = librosa.load(file_path, sr=16000)
	Deprecated as of librosa version 0.10.0.
	It will be removed in librosa version 1.0.
  y, sr_native = __audioread_load(path, offset, duration, dtype)


FileNotFoundError: [Errno 2] No such file or directory: 'c:\\Users\\win\\Hyuk2Coding\\TIL\\Projects\\AI 영어대화\\self_motivation.m4a'

#### 3.1) 기본 파라미터로 진행

In [19]:
input_features = processor(
    audio,
    sampling_rate=16000,
    return_tensors='pt'
).input_features

generates_ids = model.generate(input_features)
transcription = processor.batch_decode(generates_ids, skip_special_tokens=True)

print("Transcription: ", transcription[0])

The attention mask is not set and cannot be inferred from input because pad token is same as eos token. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.


Transcription:   어떤 작업이든 지금부터 25분 동안 집중을 하고 5분 동안 휴식을 갖겠습니다. 앞으로 뽀모도로 기법을 활용해서 나의 하루를 바꿔나갈 것입니다. 나는 천재다. 나는 할 수 있다. 나는 좋은 일이 많이 생긴다. 나는 내가 원하는 모든 일을 이룰 수 있는 힘을 갖고 있다. 나는 준비가 되었고 나는 실행할 힘이 있다.


### 3.2) 하이퍼파라미터 튜닝 및 어텐션 마스크 제공

In [20]:
attention_mask = torch.ones_like(input_features)  # 모든 입력이 활성화된 상태로 설정

generates_ids = model.generate(
    input_features,
    temperature=0.7, # 다양성
    length_penalty=1.3, # 기본값 1, 긴 텍스트에 조금 더 유리하도록 설정
    attention_mask=attention_mask, # 입력 데이터에 대해 명시적으로 attention_mask 생성 후 전달
)
transcription = processor.batch_decode(generates_ids, skip_special_tokens=True)
print("Transcription: ", transcription[0])



Transcription:   어떤 작업이든 지금부터 25분 동안 집중을 하고 5분 동안 휴식을 갖겠습니다. 앞으로 뽀모도로 기법을 활용해서 나의 하루를 바꿔나갈 것입니다. 나는 천재다. 나는 할 수 있다. 나는 좋은 일이 많이 생긴다. 나는 내가 원하는 모든 일을 이룰 수 있는 힘을 갖고 있다. 나는 준비가 되었고, 나는 실행할 힘이 있다.


In [22]:
import os
from dotenv import load_dotenv
from huggingface_hub import login

# .env 파일에서 환경 변수 로드
load_dotenv()

# Hugging Face 토큰 가져오기
hf_token = os.getenv("HF_ACCESS_TOKEN")

# Hugging Face Access Token 입력
login(hf_token)

In [23]:
# !pip install bitsandbytes torchvision

In [6]:
from transformers import AutoTokenizer, AutoModelForCausalLM
# import BitsAndBytesConfig
import torch
import torchvision

# 4-bit 양자화된 모델 로드
# Load model directly
from transformers import AutoTokenizer, AutoModelForCausalLM

# bnb_config = BitsAndBytesConfig(
#     _load_in_4bit=True,
#     # quant_method='bnb'
# )

model_name = "bartowski/gemma-2-9b-it-GGUF"
# tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=True)
llm = AutoModelForCausalLM.from_pretrained(
    pretrained_model_name_or_path="TheBloke/Llama-2-9B-GGUF",
    model_file="gemma-2-9b-it-Q3_K_L.gguf", 
    model_type="llama", 
    # gpu_layers=50
    )
# model = AutoModelForCausalLM.from_pretrained(
#     pretrained_model_name_or_path=model_name,
#     device_map='auto',
#     )

# 테스트 입력
# inputs = tokenizer(transcription, return_tensors="pt")
# outputs = model.generate(inputs["input_ids"], max_length=510, num_return_sequences=1)

# 결과 확인
# print(tokenizer.decode(outputs[0], skip_special_tokens=True))


OSError: Can't load tokenizer for 'bartowski/gemma-2-9b-it-GGUF'. If you were trying to load it from 'https://huggingface.co/models', make sure you don't have a local directory with the same name. Otherwise, make sure 'bartowski/gemma-2-9b-it-GGUF' is the correct path to a directory containing all relevant files for a GemmaTokenizerFast tokenizer.

In [7]:
from transformers import pipeline

pipe = pipeline(
    "text-generation", 
    model="bartowski/gemma-2-9b-it-GGUF",
    model_name="gemma-2-9b-it-Q3_K_L.gguf")

ValueError: Could not load model bartowski/gemma-2-9b-it-GGUF with any of the following classes: (<class 'transformers.models.auto.modeling_auto.AutoModelForCausalLM'>,). See the original errors:

while loading with AutoModelForCausalLM, an error is thrown:
Traceback (most recent call last):
  File "c:\Users\dm705\AppData\Local\pypoetry\Cache\virtualenvs\ai_영어대화-UlUCYZce-py3.12\Lib\site-packages\transformers\pipelines\base.py", line 289, in infer_framework_load_model
    model = model_class.from_pretrained(model, **kwargs)
            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "c:\Users\dm705\AppData\Local\pypoetry\Cache\virtualenvs\ai_영어대화-UlUCYZce-py3.12\Lib\site-packages\transformers\models\auto\auto_factory.py", line 564, in from_pretrained
    return model_class.from_pretrained(
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "c:\Users\dm705\AppData\Local\pypoetry\Cache\virtualenvs\ai_영어대화-UlUCYZce-py3.12\Lib\site-packages\transformers\modeling_utils.py", line 3929, in from_pretrained
    raise EnvironmentError(
OSError: bartowski/gemma-2-9b-it-GGUF does not appear to have a file named pytorch_model.bin, model.safetensors, tf_model.h5, model.ckpt or flax_model.msgpack.




In [28]:
import torch

print(torch.cuda.is_available())  # True여야 GPU가 활성화된 상태

False


In [None]:
import torchvision
torchvision.__version__

'0.20.1+cpu'