# 音響信号の基礎的なデモ

このデモは音の信号を全く扱ったことのない人向けのデモンストレーションです。

音のデジタル信号について会話するときに、最低限知っておいて欲しいことを書いています。

高校の物理で波について学習したことがあることを前提として記述しています。ご了承ください。

In [1]:
# import modules
import numpy as np
import matplotlib.pyplot as plt
import wave


## 音響信号についての最低限の知識

音は空気の振動によって伝わります。

それをコンピュータ上で扱うためには、アナログ→デジタルの変換(AD変換)が必要です。

AD変換の際は、アナログの波形を**時間方向**と**振幅方向**の2方向についてデジタル化する必要があります。

### 標本化
時間方向へのデジタル化を、**標本化**もしくは**サンプリング**と言います。

1秒間に取るサンプル数が多いほど、そのデジタル信号は高い音まで再現することができます。

**サンプリング周波数**(fs [Hz])は、その1秒間に取るサンプル数を指します。

CD音源だとfs = 44100[Hz]、プロ用の音源だとfs=48000[Hz]が一般的です。

最近話題のハイレゾ音源はfs=96000[Hz]と、非常に高いサンプリング周波数を有しています。

ちなみに、デジタル音源はサンプリング周波数の1/2の周波数まで再現できます([サンプリング定理](http://www.ic.is.tohoku.ac.jp/~swk/lecture/yaruodsp/sampling.html))。

なので、fs = 48000[Hz]の場合、理論的には24000[Hz]まで再現できることになります。

人間の聴覚は大体20~20000[Hz]の帯域を音として認識できるとされているので、

これくらいで十分ということになります。

逆に、音声データを扱うときに、8000[Hz]程度までしか用いないのであれば、

サンプリング周波数を20000[Hz]程度まで下げても問題はないし、そのほうがデータ量を削減できます。

これをダウンサンプリングと言います。

### 量子化
振幅方向のデジタル化を、**量子化**と言います。

振幅方向の分割が多いほど、より精密に音を再現できます。

一般的に16bitが用いられることが多いです。

これは、人間の聴覚のダイナミックレンジが100[dB]程度であることに起因します。

ハイレゾ音源だと、24bitが用いられています。

### 周波数特性

フーリエ解析を大学の授業でさらったことがある人ならなんとなくお分かりかと思いますが、

音のデータは**時間特性**および**周波数特性**の2つの特性を持っています。

時間特性というのは、普段みなさんがみたことあるような、下のような波形を表します。

In [None]:
plt.plot()

上で述べた標本化や量子化も時間特性について述べた話です。

時間特性から周波数特性へと変換する際に、離散フーリエ変換を用います。

正確には高速フーリエ変換なのですが、難しい話になるので、

勉強したい方は[こちら](http://www.ic.is.tohoku.ac.jp/~swk/lecture/yaruodsp/dft.html)をご覧ください。

## wavファイル

以上のようにして、アナログの音圧信号はデジタル信号へと変換されます。

通常は、.wavという拡張子を持つwavファイルとして保存されます。

これは非圧縮の音声データで、バイナリで記録されています。