<a href="https://colab.research.google.com/github/YoungsikMoon/FORS/blob/main/FORS_%EB%AC%B8%EC%98%81%EC%8B%9D.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# PCM 파일 핸들링 코드 모음

## pcm을 wav로 변환하는 코드

PCM 데이터를 WAV로 변환하려는 경우 WAV 파일이 어떻게 쓰였는지 나타내는 Header가 필요하다. Header에는 samplerate나 소리 데이터의 길이 등의 정보가 들어가며, 직접 구현하기보다는 numpy, librosa, soundfile 등의 라이브러리를 사용하면 간단히 해결 가능하다.

In [3]:
import numpy as np
import librosa as lr
import soundfile as sf

target = "/content/KsponSpeech_000001.pcm" # 타깃 파일 경로
destinationPath = "/content/KsponSpeech_000001.wav" #만들 파일 경로
buf = None

with open(target, 'rb') as tf:
    buf = tf.read()
    buf = buf+b'0' if len(buf)%2 else buf    # padding 0 (경우에 따라서 PCM 파일의 길이가 8bit[1byte]로 나누어 떨어지지 않는 경우가 있어 0으로 패딩값을 더해준다, 해당 처리를 하지 않는 경우 numpy나 librosa 라이브러리 사용 시 오류가 날 수 있다)

pcm_data = np.frombuffer(buf, dtype='int16')
wav_data = lr.util.buf_to_float(x=pcm_data, n_bytes=2)
sf.write(destinationPath, wav_data, 16000, format='WAV', endian='LITTLE', subtype='PCM_16')

## wav 파일을 pcm 으로 변환하는 코드

PCM과 WAV의 소리 데이터 부분은 동일하고, Header 부분만 차이가 나므로 WAV 파일에서 (Header를 제외한) 데이터 부분만 읽어서 파일로 만들면 PCM 파일에 해당한다.

In [None]:
target = "{대상파일_경로}"
destinationPath = target[:-4]+".pcm" # {생성파일경로}
buf = None

with open(destinationPath, "wb") as d_file:
    t_file = open(target, "rb")
    t_bin = t_file.read()
    d_file.write(t_bin[44:])    # header 이외의 데이터를 pcm 파일로 저장
    t_file.close()

## pcm 파일 통합 하는 코드

PCM은 파일의 시작에 소리 정보를 담고있는 header가 존재하지 않기 때문에, raw 데이터(Byte Code)를 그대로 읽어서 합치면된다.

In [None]:
targetList = ["{대상파일1_경로}", "{대상파일2_경로}"]
destinationPath = "{생성파일경로}"

buf = bytearray()
for file in targetList:
    f = open(file, 'rb')
    buf += f.read()
    f.close()

wf = open(destinationPath, 'wb')
wf.write(buf)
wf.close()



---



# WhisperAI 로 한국어 STT

위스퍼 설치

In [4]:
pip install openai-whisper

Collecting openai-whisper
  Downloading openai-whisper-20231117.tar.gz (798 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/798.6 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m122.9/798.6 kB[0m [31m3.4 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m [32m788.5/798.6 kB[0m [31m11.3 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m798.6/798.6 kB[0m [31m9.6 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Collecting tiktoken (from openai-whisper)
  Downloading tiktoken-0.6.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.8/1.8 MB[0m [31m51.3 MB/s[

한국어 모델 다운로드하기

In [6]:
!whisper-cli --model ko --download-dir .

/bin/bash: line 1: whisper-cli: command not found


음성 파일 변환하기

변환할 한국어 음성 파일을 준비합니다.
다음 Python 코드를 실행하여 음성 파일을 텍스트로 변환합니다:

In [2]:
import whisper

# 모델 로드
model = whisper.load_model("small")

# 음성 파일 경로 설정
audio_file = "/content/KsponSpeech_000001.wav"

# 음성 파일 변환
result = model.transcribe(audio_file)
print(f"인식 결과: {result['text']}")


100%|████████████████████████████████████████| 461M/461M [00:04<00:00, 112MiB/s]


인식 결과:  아 뭔 소리야 그건 또


결과 확인하기

위 코드를 실행하면 음성 파일의 텍스트 인식 결과가 출력됩니다.
인식 결과는 result['text']에 저장됩니다.

OpenAI Whisper는 다양한 언어를 지원하며, 특히 한국어 모델의 성능이 우수합니다. 이를 활용하면 다양한 음성 기반 애플리케이션을 개발할 수 있습니다.

추가로, Whisper는 다음과 같은 특징이 있습니다:

지원 언어: 총 98개 언어 지원 (한국어 포함)

모델 크기: 작은 모델부터 대형 모델까지 다양한 옵션 제공

사용 요금: 무료로 사용 가능

---



In [3]:

# 음성 파일 경로 설정
audio_file = "/content/KsponSpeech_000001.wav"

# 음성 파일 변환
result = model.transcribe(audio_file)
print(f"인식 결과: {result['text']}")



인식 결과:  아 뭔 소리야 그건 또
