#### WAV read
![wav header](./img/wav_header.jpg)

In [7]:
import numpy as np

sample_rate = 16000
data = np.memmap("./sample.wav", dtype='int8',mode='r')
data = np.array(data)
wav_header = data[0:44]

### FIRST HEADER
![first_header](./img/first_header.jpg)

#### ChunkID (4byte)
- RIFF 라는 문자가 ASCII 값으로 들어감

In [9]:
for i in wav_header[0:4]:
    print(chr(i),end="")

RIFF

#### Chunk Size (4byte)
- 나머지 부분에 대한 Size
- 파일 전체 사이즈에서 Chunk ID 와 자기자신인 Chunk Size 제외한 값
- 전체 파일크기 - 8 byte
- Little Endian 값이기 때문에 파일 사이즈가 0x00 00 00 10 인 경우 10 00 00 00 으로 저장되어 있음

In [10]:
# total size
print("Total Data size: %d bytes" % data.shape[0])

# read chunk_size and check total size - 8 byte
chunk_size = bytearray(data[4:8])
print("Data size: %d bytes" % int.from_bytes(chunk_size,"little"))

Total Data size: 338924 bytes
Data size: 338916 bytes


#### Format (4bytes)
- 파일 형식을 나타냄
- wave인 경우 'WAVE'라는 문자가 ASCII 값으로 들어감

In [83]:
for i in data[8:12]:
    print(chr(i), end="")

WAVE

### SECOND HEADER
![second_header](./img/second_header.jpg)

#### Chunk ID (4bytes)
- 'fmt '(fmt + space) 가 고정으로 들어감

In [84]:
for i in data[12:16]:
    print(chr(i), end="")

fmt 

#### Chunk Size (4bytes) Little Endian
- Header 뒤에 이어지는 값들의 사이즈
- 주황색 전체 크기가 24byte인데, 다음에 이어지는 부분의 크기는 16 bytes
- 따라서 고정값으로 16이 나타남

In [88]:
chunk_size = bytearray(data[16:20])
print("Chunk Size: %d" % int.from_bytes(chunk_size,"little"))

Chunk Size: 16


#### Audio Format (2bytes) Little Endian
- Data 부분이 PCM인 경우 1이 사용됨
- 대부분의 wave file의 경우 pulse coded modulation 되었기 때문에 1
- 01 00 으로 나타남

In [89]:
audio_format = bytearray(data[20:22])
print("audio_format: %d" % int.from_bytes(audio_format, "little"))

audio_format: 1


#### Number Of Channel (2bytes) Little Endian
- 음성파일의 채널 수
![channel](./img/channel.jpg)

In [90]:
channel_num = bytearray(data[22:24])
print("audio_format: %d" % int.from_bytes(channel_num, "little"))

audio_format: 1


#### Sample Rate (4byte) Little Endian
- Number of Samples Per Second
- 현재 데이터는 16,000 Hz

In [93]:
sample_rate = bytearray(data[24:28])
print("sample rate: %d" % int.from_bytes(sample_rate, "little"))

sample rate: 16000


#### Byte Rate (4byte) Little Endian
- Average Bytes Per Second
- 1초 동안 소리를 내는데 필요한 byte 수
- (양자화 된 Sample이 가지는 Byte) * (Sample Rate) * (Channel 수)
- 현재 데이터는 32,000 byte 가 필요하며 이는 2^16개로 양자화 되었음을 알 수 있음
  
  ex) 1개 sample이 256 단위로 양자화 된다면 **샘플 1개당 한 개의 byte (8bit)으로 표현 가능함**을 뜻함

In [94]:
byte_rate = bytearray(data[28:32])
print("byte_rate: %d" % int.from_bytes(byte_rate, "little"))

byte_rate: 32000


#### Block Align (2byte)
- Sample Frame * channel num
- Sample Frame 은 곧 샘플 한 개의 양자화 정도
- mono 이면 sample frame * 1
- stereo 이면 sample frame * 2

In [97]:
block_align = bytearray(data[32:34])
print("block_align: %d" % int.from_bytes(block_align, "little"))

block_align: 2


#### Bit Per Sample (2byte) Little Endian
- Sample 한 개를 몇 bit로 나타내느냐
- Bit Depth 라고도 말함
- 해당 값이 커질 수록 음질이 좋아짐

In [99]:
bit_per_sample = bytearray(data[34:36])
print("bit_per_sample: %d bits" % int.from_bytes(bit_per_sample, "little"))

bit_per_sample: 16 bits


### THIRD HEADER
![third_header](./img/third_header.jpg)

#### Chunk ID (4byte)
- 'data' 라는 문자가 ASCII로 고정

In [100]:
for i in data[36:40]:
    print(chr(i), end="")

data

#### Chunk Size (4byte) Little Endian
- 뒤이어 나올 data의 size
- 소리 정보가 들어있는 data의 실제 size
- .pcm에 해당하는 부분이 여기에 있음
- 파일 전체에서 header 44byte를 제외한 크기

In [102]:
chunk_size = bytearray(data[40:44])
print("sample size: %d bytes" % int.from_bytes(chunk_size, "little"))

sample size: 265216 bytes


#### From WAV
- WAV header로부터 channel 개수 확인 가능
- left channel 과 right channel 을 따로 뽑을 수 있음
- Average Power, Phase Comparing 등을 이용하면 개략적인 위치 정보 파악 등이 가능할 것으로 예상

#### Play audio

In [135]:
pcm_data = np.memmap("./example.pcm", dtype='int16',mode='r')
pcm_data = np.array(pcm_data)
wav_data = np.memmap("./example2.wav",dtype='int16',mode='r')
wav_data = np.array(wav_data)
# test = np.memmap("./test.pcm",dtype='int16', mode='r')

import IPython.display as ipd

# ipd.Audio(test,rate=16000)
ipd.Audio(wav_data,rate=16000)

#### Writing Audio
- Using librosa or scipy
- Embeded (블루투스 스피커 등) 기기에 적용할 때도 위의 Format을 맞춘 Header를 적용하면 wav file 로부터 pcm을, 그 역도 가능
- 아래에서 Header를 이어붙여 pcm이 wav로 변환되는 것을 확인할 수 있음

#### pcm to wav

In [130]:
import scipy.io.wavfile as wavf

concat_data = np.concatenate((wav_header,pcm_data))
concat_data.astype(np.float64)
wavf.write('./test.wav',16000,concat_data)

#### wav to pcm

In [131]:
byteBuffer = bytearray(wav_data)
out_pcm_data = open('./test.pcm','wb')
out_pcm_data.write(byteBuffer[44:])
out_pcm_data.close()