<a href="https://colab.research.google.com/github/vitroid/PythonTutorials/blob/master/2%20Advanced/070Audio_rev2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 信号処理 / Signal processing

音声データや各種信号データを一次元のnumpy配列としていろいろ加工してみます。

Here we regard sound data as one-dimensional numpy arrays and process them.


## Background

その前に、音階と振動数の関係について、いくつかの事実を書いておきます。

I would like to note a few facts about the relationship between scales and their frequencies.

### 音階と振動数の関係 / Relationship between musical scale and frequency

振動数とは、1秒間に波が何回振動するか。単位は$\mathrm{Hz}=\mathrm{s}^{-1}$。
高い音は振動数が大きく、低い音は振動数が少ない。

基準音はA (ラ)、振動数は通常440 Hz.

Frequency is the number of times a wave oscillates per second. The unit is $\mathrm{Hz}=\mathrm{s}^{-1}$.
Higher tones have higher frequency and lower tones have lower frequency.

The reference tone is A (la), and its frequency is usually 440 Hz.


In [None]:
import numpy as np                   # 高速演算
from IPython.display import Audio    # 音声の再生
import matplotlib.pyplot as plt      # プロット
from numpy import pi

time = np.linspace(0, 1.0, 20000)
Audio(np.cos(440*pi*2*time), rate=20000)


ほかの音階の振動数はそれぞれ次の通り(概算)

Frequencies of other tones are approximately:

In [None]:
names=["C", "D", "E", "F", "G", "A", "H", "C"]
scale=[3, 5, 7, 8, 10, 12, 13, 15]
for tone, name in zip(scale, names):
    freq = 440*2**(tone/12)
    print(f"{freq:.1f} Hz = {name}")


振動数が倍になると、1オクターブ高くなったように聞こえる。

A tone with twice the frequency sounds one-octave higher.

In [None]:
time = np.linspace(0, 3.0, 3*20000)
wave = np.concatenate([np.cos(440*pi*2*time), np.cos(880*pi*2*time), np.cos(1760*pi*2*time)])
Audio(wave, rate=20000)


1オクターブは12半音なので、半音上がるごとに振動数は$2^{1\over 12}=1.059$だけ大きくなる。(全音上がるごとに$2^{1\over 6}=1.122$) (平均律の場合)

Since an octave is 12 semitones, the frequency increases by $2^{1\over 12}=1.059$ for each semitone raised. (for every whole tone raised $2^{1\over 6}=1.122$) (in the case of the equal temperament)




In [None]:
time = np.linspace(0, 1.0, 20000)
A = 440
B = A*1.122
C = B*1.059
wave = np.concatenate([np.cos(A*pi*2*time), np.cos(B*pi*2*time), np.cos(C*pi*2*time)])
Audio(wave, rate=20000)


なお、ここでは$\cos$関数で波形を生成しているが、$\sin$関数の場合とは聞きわけることができない。

Note that the $\cos$ function is used here to generate the waveform, but it is indistinguishable from the $\sin$ function. Our ears is not sensitive enough to distinguish the difference in phases.

### 調和音と不協和音 / harmony and anharmony

振動数の比が簡単な有理数で表せる音はハモる。(調和音、共鳴音)

A sound is harmonic if the ratio of its frequencies can be expressed in terms of simple rational numbers. (Harmonic sound, resonance sound)


In [None]:
time = np.linspace(0, 1.0, 20000)
C = 523
G = C*1.5
wave = np.concatenate([np.cos(C*pi*2*time), np.cos(G*pi*2*time), np.cos(C*pi*2*time)+np.cos(G*pi*2*time)])
Audio(wave, rate=20000)

ハモる音は、波の形が一定になる。

Harmonics have a constant waveform.

In [None]:
waveC = np.cos(C*pi*2*time)
waveG = np.cos(G*pi*2*time)
waveCG = np.cos(C*pi*2*time) + np.cos(G*pi*2*time)

# 最初の0.02秒分だけ
plt.xlim(0,0.02)
plt.plot(time, waveC, label="C")
plt.plot(time, waveG, label="G")
plt.plot(time, waveCG, label="C+G")
plt.legend()


振動数の比が単純な有理数にならない場合には、きれいな和音に聞こえない(不協和音)

If the ratio of the frequencies is not a simple rational number, it does not sound like a clean chord (dissonance)

In [None]:
time = np.linspace(0, 1.0, 20000)
C = 523
X = C*1.13
wave = np.concatenate([np.cos(C*pi*2*time), np.cos(X*pi*2*time), np.cos(C*pi*2*time)+np.cos(X*pi*2*time)])
Audio(wave, rate=20000)

波形はうねる。

It has undulating waveforms.

In [None]:
waveC = np.cos(C*pi*2*time)
waveX = np.cos(X*pi*2*time)
waveCX = np.cos(C*pi*2*time) + np.cos(X*pi*2*time)

# 最初の0.02秒分だけ
plt.xlim(0,0.02)
plt.plot(time, waveC, label="C")
plt.plot(time, waveX, label="X")
plt.plot(time, waveCX, label="C+X")
plt.legend()


ある音の振動数を整数倍すると、音階っぽくきこえる。(振動数が簡単な整数比になるため)

If you multiply the frequency of a note by an integer, it will sound like a musical scale. (Because the frequency is a simple integer ratio.)


In [None]:
wave = []
for i in range(1, 9):
    X = 440*i
    wave.append(np.cos(X*pi*2*time))

wave = np.concatenate(wave)
Audio(wave, rate=20000)

* Cの振動数を2/1倍するとC (1オクターブ上の音、6音上の音)にきこえる。
* Cの振動数を3/2倍するとG (3音半上の音)にきこえる。
* Cの振動数を4/3倍するとF (2音半上の音)にきこえる。
* Cの振動数を5/4倍するとE (2音上の音)にきこえる。



* If the frequency of C is multiplied by 2/1, it sounds like C (one octave higher, six notes up).
* If the frequency of C is multiplied by 3/2, it sounds like G (3 notes and a semitone higher).
* If the frequency of C is multiplied by 4/3, it sounds like F (2 notes and a semitone higher).
* If the frequency of C is multiplied by 5/4, it sounds like E (two notes higher).


|Note|C|D|E|F|G|A|B|C|
|-|-|-|-|-|-|-|-|-|
|freq.|1| |5/4|4/3|3/2| | |2|
||0|+1|+2|+2.5|+3.5|+4.5|+5.5|+6|

In [None]:
time = np.linspace(0, 1.0, 20000)
C = 523
E = C*5/4
F = C*4/3
G = C*3/2
wave = np.concatenate([np.cos(C*pi*2*time), np.cos(E*pi*2*time), np.cos(F*pi*2*time), np.cos(G*pi*2*time)])
Audio(wave, rate=20000)

この関係を繰り返し使うことで、GとE以外の音の振動数も計算できる。(純正律)

By combining this relationship, the frequencies of notes other than G and E can also be calculated.

|Note|C|D|E|F|G|A|B|C|
|-|-|-|-|-|-|-|-|-|
|freq.|1|${3\over 2}/{4\over 3}={9\over 8}$ |5/4|4/3|3/2|${5\over 4}\cdot{4\over 3}={5\over 3}$ |${5\over 4}\cdot{3\over 2}={15\over 8}$ |2|
||0|+1=3.5-2.5|+2|+2.5|+3.5|+4.5=2+2.5|+5.5=2+3.5|+6|


In [None]:
wave = []
for ratio in (1, 9/8, 5/4, 4/3, 3/2, 5/3, 15/8, 2):
    X = 440*ratio
    wave.append(np.cos(X*pi*2*time))

wave = np.concatenate(wave)
Audio(wave, rate=20000)

### 純音と楽器音 /Pure and Instrumental tones

ここまで合成した音はどれも単一の振動数の正弦波である。このような音は純音と呼ばれる。音叉は純音を発生するが、実際の楽器が発する音は、ほとんどの場合純音ではなく、以下の特徴がある。

* 基準となる音(最も低振動数の音)に加えて、倍音(協和音)が同時に鳴っている。
* 音量が時間的に変化する。(アタック、減衰など)
* 振動数や倍音成分も時間変化する。そのために音色が時間的に変化する。
* ただし、短い時間で見れば、音波の波形は定常的とみなせる。

フーリエの定理により、定常的な波は正弦波に分解できる。逆に、正弦波を重ねあわせることで、いかなる(定常的な)波形も再現することができる。

The sounds synthesized so far are all sine waves of a single frequency. Such sounds are called pure tones. Although tuning forks produce pure tones, the sounds produced by actual musical instruments are almost always not pure tones and have the following characteristics.

* In addition to the reference tone (lowest frequency tone), overtones (concertina) are sounded at the same time.
* The amplitude of the sound varies with time. (attack, decay, etc.)
* The frequency and overtone components also change in time. Therefore, the timbre changes in time.
* However, in a short period of time, the waveform of a sound wave can be regarded as stationary.

According to Fourier's theorem, stationary waves can be decomposed into sine waves. Conversely, any (stationary) waveform can be reproduced by summing up sine waves.

### コンピュータ上の音声データ

コンピュータ内では、音声波形を非常に短い時間間隔に分解し、瞬間瞬間での音波の振幅を記録することでデジタルデータ化しています。この時間間隔をサンプリング周波数と呼びます。ここまでの例では、サンプリング周波数として20000 Hzを選んできました。Compact Discのサンプリング周波数は44100 Hz、DVDはたしか48000 Hzです。

ここまでの説明では、音波の振幅は実数値として扱っていますが、CDなどでは16 bit符号付き整数で記録しています。これはデータ量を減らすためです。16ビット整数は-32768〜+32767の範囲の値しか表現できませんが、人間の耳を「ごまかす」にはこれで十分という判断だったのでしょう。

さらに、ステレオ音声の場合には、右と左の音を別々に記録する必要があります。

これらを総合すると、CDのデータは1秒あたり16ビット×44100×2=1.4 Mbit、8ビット=1バイトなので、毎秒約18万バイトとなります。記憶媒体としてのCDの容量は700 Mバイトなので、逆算すると、1時間強の録音ができるということがわかります。

実際に、CDドライブを搭載しているパソコンであれば、音楽CDの楽曲データをWAV形式のデータとしてとりだし、これから説明する方法で分析したり加工したりできます。

## Guitar (string mode)

音声の合成と解析を行う。

基底音: 正弦波(440 Hz, ラ)

サンプリング周波数は20000 Hzとする。

* `time`は文字通り時間。20000個のarrayの中に時刻が書かれている。
* `phase`は位相(角度)。$2\pi$増えるとサイン波が0に戻る。440 Hzの場合は、1秒(20000サンプル)のあいだに$440\cdot 2\pi$だけ増加する。
* `wave`は波形。ここではコサイン波を作る。


Here we synthesize and analyze sound.

Base tone: sine wave (440 Hz, la)

Sampling frequency is 20000 Hz.

* `time` is literally time, with time written in 20000 arrays.
* `phase` is the phase (angle). For 440 Hz, the sine wave returns to 0 when the phase increases by $2\pi$; for 440 Hz, the phase increases by $440\cdot 2\pi$ during 1 second (20000 samples).
* `wave` is the waveform. Here we create a cosine wave.

In [None]:
import numpy as np                   
from IPython.display import Audio    # Play sound on Google Colab
import matplotlib.pyplot as plt      # Plot
from numpy import pi

# Divide 1 second into 20000 segments.
time = np.linspace(0, 1.0, 20000)
time

In [None]:
plt.plot(time, time)

In [None]:
phase = time* (440*pi*2)
wave = np.cos(phase)

#plot the wave (only 0.02 seconds)
plt.xlim(0,0.02)
plt.ylim(-1,10)
plt.plot(time, phase)
plt.plot(time, wave)

Audio(wave, rate=20000)


減衰させる。減衰の時定数は0.125 (0.125秒で$1/e$まで減衰する)

Add a decay with time constant 0.125.

In [None]:
decay = np.exp(-time/0.125)

#plot the wave
#最初の0.2秒分だけプロット
plt.xlim(0,0.2)
plt.plot(time, wave*decay)

Audio(wave*decay, rate=20000)

2倍音。(振動数が2倍の音、1オクターブ上の音)

A doubled tone (one-octave above).

In [None]:
wave = np.cos(2*phase)

#plot the wave
plt.xlim(0,0.02)
plt.plot(time, wave*decay)

Audio(wave*decay, rate=20000)

3倍音。(振動数が3倍の音、1オクターブ上のミ)

A tripled tone (E note one-octave higher).

In [None]:
wave = np.cos(3*phase)

#plot the wave
plt.xlim(0,0.02)
plt.plot(time, wave*decay)

Audio(wave*decay, rate=20000)

4倍音。(振動数が4倍の音、2オクターブ上の同音)

A quadruple tone (The same note two octaves higher)

In [None]:
wave = np.cos(4*phase)

#plot the wave
plt.xlim(0,0.02)
plt.plot(time, wave*decay)

Audio(wave*decay, rate=20000)

基底音+倍音

chord of base tone and overtones.

In [None]:
wave = np.cos(phase)
wave += 0.5**0.5*np.cos(2*phase)

#plot the wave
plt.xlim(0,0.02)
plt.plot(time, wave*decay)

Audio(wave*decay, rate=20000)

基底音+倍音+3倍音

In [None]:
wave = np.cos(phase)
wave += (1/2)**0.5*np.cos(2*phase)
wave += (1/3)**0.5*np.cos(3*phase)

#plot the wave
plt.xlim(0,0.02)
plt.plot(time, wave*decay)

Audio(wave*decay, rate=20000)

基底音+倍音+3倍音+4倍音。だいぶギターらしくなってきた。

It sounds like a guitar.

In [None]:
wave = np.cos(phase)
wave += (1/2)**0.5*np.cos(2*phase)
wave += (1/3)**0.5*np.cos(3*phase)
wave += (1/4)**0.5*np.cos(4*phase)

#plot the wave
plt.xlim(0,0.02)
plt.plot(time, wave*decay)

Audio(wave*decay, rate=20000)

In [None]:
wave = np.cos(phase)
wave += (1/2)**0.5*np.cos(2*phase)
wave += (1/3)**0.5*np.cos(3*phase)
wave += (1/4)**0.5*np.cos(4*phase)
wave += (1/3)**0.5*np.cos(5*phase)

#plot the wave
plt.xlim(0,0.02)
plt.plot(time, wave*decay)

Audio(wave*decay, rate=20000)

上の波をフーリエ変換してパワースペクトル(周波数分布)を求める。

The power spectrum (frequency distribution) is obtained by Fourier transforming the wave above.

Definition of the Fourier transformation used here: https://docs.scipy.org/doc/numpy/reference/routines.fft.html#module-numpy.fft

フーリエ変換は、信号波$f(t)$に、いろんな正弦波(サイン波、コサイン波)を重ねて積分し、成分に分解する。

The Fourier transformation decomposes a wave into a set of sine waves.
$$F(\omega)=\int_{-\infty}^\infty f(t)\cos(2\pi\omega t)\mathrm{d}t+i\int_{-\infty}^\infty f(t)\sin(2\pi\omega t)\mathrm{d}t=\int_{-\infty}^\infty f(t)\exp(2\pi i\omega t)\mathrm{d}t$$

$N$個の離散的なデータ列$f(k)$ $(k=[1..N])$の場合には、離散的フーリエ変換を用いる。

A discrete FT is used for discrete datasets.

$$F(k)=\sum_{j=1}^N f(k)\cos\left({2\pi j k\over N}\right)+i\sum_{j=1}^N f(k)\sin\left({2\pi j k\over N}\right)=\sum_{j=1}^N f(k)\exp\left({2\pi j k\over N}\right)$$
(本によって微妙に定義が違う場合があるので注意)

1秒分(20000点)の実数データ列をフーリエ変換すると、結果も20000点得られる。フーリエ変換後に得られるarrayの`[1]`番目の値は、1 Hzの成分(実部がcos、虚部がsin)、`[2]`番目が、2 Hz、という具合に対応する。なお、もし元データが10秒分あるなら、`[1]`番目の成分は1/10=0.1 Hzに対応する。`[0]`番目は直流成分(振動しない成分、オフセット)を表す。

Fourier transforming a sequence of real data for 1 second (20,000 points) yields 20,000 results. The `[1]`th value of the array obtained after the Fourier transform corresponds to the 1 Hz component (real part is cos, imaginary part is sin), `[2]` to 2 Hz, and so on. Note that if the original data is for 10 seconds, the `[1]`th component corresponds to 1/10 = 0.1 Hz. The `[0]`th component represents the DC component (non-oscillating component, offset).

In [None]:
spec = np.fft.fft(wave)

#plot the spectrum
plt.xlim(0,3000)
plt.plot(np.abs(spec)**2)

`abs()`関数は複素数の絶対値も計算できる。この場合、余弦波の振幅(実数)と正弦波の振幅(虚数)の二乗和を計算しているので、波の振幅の二乗=パワーをプロットしていることになる。分光器で測定するスペクトルも出力されているのは光の振幅の二乗=強度(パワー)である。

合成した波の成分に戻すことができた。ここでは音声データを分解したが、波データであれば光であれ音声であれ、こうしてスペクトルにに変換できる。

The `abs()` function can also calculate the absolute value of complex numbers. In this case, we are calculating the sum of the squares of the cosine wave amplitude (real) and the sine wave amplitude (imaginary), so we are plotting the square of the wave amplitude, i.e. power. The spectrum measured by the spectroscope is also outputting the square of the amplitude of the light = intensity (power).

Thus we obtained the components of the synthesized wave. 

## Timpani (circular membrane modes)

膜の振動は、共鳴的ではない。固有振動が無理数比の成分を含み、濁った音になる。

The frequencies of a circular membrane is not resonant. Its eigenmodes contain irrational frequency ratio and therefore sounds anharmonic.

(membrane mode https://www.acs.psu.edu/drussell/Demos/MembraneCircle/Circle.html )

基底音の周波数を120 Hzとする。

We set the base frequency to 120 Hz.

In [None]:
time = np.linspace(0, 5, 20000*5)
phase = time * 120 * 2*pi
decay = np.exp(-time / 0.5)

wave = np.sin(phase)
# 倍音の強度はてきとう。
wave += (1/2)**0.5*np.sin(1.59*phase)
wave += (1/3)**0.5*np.sin(2.14*phase)
wave += (1/4)**0.5*np.sin(2.30*phase)
wave += (1/3)**0.5*np.sin(2.65*phase)
wave += (1/6)**0.5*np.sin(2.92*phase)
wave += (1/7)**0.5*np.sin(3.16*phase)
wave += (1/8)**0.5*np.sin(3.50*phase)
wave += (1/9)**0.5*np.sin(3.60*phase)

#plot the wave
plt.xlim(0,0.02)
plt.plot(time, wave*decay)


Audio(wave*decay, rate=20000)
# import soundfile as sf
# sf.write("timpani.wav", wave*decay, 20000)

これもフーリエ変換してスペクトルを見てみよう。

Let us apply the Fourier transformation and see the spectrum.

In [None]:
# waveは5秒のデータ
spec = np.fft.fft(wave)
spec = spec[:3000]

#plot the spectrum
# データが5秒分ある場合、波数の最小目盛は1/5波数となる。
wavenumbers = np.arange(0, 600, 1/5)
plt.plot(wavenumbers, np.abs(spec)**2)

## 課題1 / Practice 1

sampleaudio.wav (長さ1秒、サンプリング周波数20000 Hz)に含まれる音の基底振動数を調べよ。

wavファイルを読みこむには、`soundfile`モジュールを使うと便利。 (https://stackoverflow.com/questions/34416283/how-to-properly-decode-wav-with-python)


Analyze the base frequency of the sound in sampleaudio.wav (1 second length, sampling frequency 20000 Hz).



In [None]:
# sampleaudioをネット上からcolabにダウンロードする。
! wget https://github.com/vitroid/PythonTutorials/blob/master/2%20Advanced/sampleaudio.wav?raw=true -O sampleaudio.wav

In [None]:
# install an external library
! pip install soundfile

from IPython.display import Audio
import soundfile as sf

wave, samplerate = sf.read("sampleaudio.wav")

Audio(wave, rate=samplerate)

## 音楽データ / Music data

信号を加工する練習として、音楽データをいじってみる。(フランク・シナトラ/マイウェイ)

Let's tinker with music data as an exercise in signal processing. (Frank Sinatra/My Way).

In [None]:
# My Way by Frank Sinatra
! wget https://github.com/vitroid/PythonTutorials/blob/master/2%20Advanced/MyWay.wav?raw=true -O MyWay.wav


In [None]:
import soundfile as sf
import numpy as np
from IPython.display import Audio

wave, samplerate = sf.read("MyWay.wav")

print(np.min(wave), np.max(wave))
left= wave[:,0]
right = wave[:,1]

samplerate

1秒間を44100分割して波形を記録していることがわかった。

It is found that the sampling frequency is 44100 Hz. (Standard for the compact discs). 

左右を平均してモノラル再生。

Make a monoral sound by averaging right and left tracks.

In [None]:
mono = (left+right)/2
Audio(mono, rate=samplerate)

左右トラックの相関を見てみよう。(データが多すぎるので、100個おき)

Let us visualize the correlation between right and left tracks. (Every 100 samples to reduce the processing time.)

In [None]:
from matplotlib import pyplot as plt

plt.plot(left[::100],right[::100],'.')

当然だが、左右トラックはかなり相関が強い。では、左右を引き算すると?

It is natural that the right and left tracks correlate strong. Then what happens if one is subtracted by the other?

In [None]:
diff = left-right
Audio(diff, rate=samplerate)

歌ガ消えてカラオケになる! 実は、左右のマイクのちょうど真ん中で歌うと(もう少し正確には、そのようにミキシングすると)、どちらのマイクにも全く同じ波形が記録されるので、左右を引き算するとその音が全部消えます。器楽演奏は中央からずれているので、引き算でも残りますが、左右の音のバランスをうまく調節すれば、ドラムだけ消したり、ギターだけ消したりすることもできるかもしれません。

The vocal part disappears and it becomes karaoke! Actually, if you sing right in the middle of the left and right microphones (or, to be a little more precise, if you mix it that way), both microphones will record the exact same waveform, so subtracting the left and right will eliminate all of those sounds. Since the instrumental performance is off-center, it will remain even with subtraction, but if you adjust the balance between the left and right sounds well, you may be able to eliminate just the drums or just the guitar.

音声の最初の部分をグラフ表示。(100個おきに)

Then plot the audio data (every 100 sample.)



In [None]:
from matplotlib import pyplot as plt
plt.plot(mono[::100])

時刻を1/10秒(4410コマ)ずらして、少し弱くして音を重ねると、反響音(リバーブ)に聞こえる。

If the time is shifted by 1/10 second (4410 frames) and the sound is slightly weakened and overlaid, it sounds like an echo (reverb).


In [None]:
reverb = mono[4410:]+mono[:-4410]*0.5
Audio(reverb, rate=samplerate)

ちょっと安っぽいので、ずらす長さを小さくし、何重にも重ねてみる。(反響音は指数関数的に減衰すると仮定)

It sounds alittle bit cheap, so we overlay many delayed sounds on it. (We suppose that the echoes decay exponentially.)

In [None]:
reverb = mono.copy() / 2 # 音をたくさん重ねるので、音量をあらかじめ小さくしておく。

delay=int(44100*0.05)
reverb[delay:] += mono[:-delay]/2
reverb[delay*2:] += mono[:-delay*2]/4
reverb[delay*3:] += mono[:-delay*3]/8
reverb[delay*4:] += mono[:-delay*4]/16
reverb[delay*5:] += mono[:-delay*5]/32
reverb[delay*6:] += mono[:-delay*6]/64
reverb[delay*7:] += mono[:-delay*7]/128
Audio(reverb, rate=samplerate)

上でやっているのはこんな感じの重ねあわせ。

In [None]:
time=np.linspace(0,3,44100*3)
plt.plot(time, mono[:44100*3])
plt.plot(time+0.05, mono[:44100*3]/2)
plt.plot(time+0.10, mono[:44100*3]/4)
plt.plot(time+0.15, mono[:44100*3]/8)

これをたくさん行うことは、音声$f(t)$と、残響特性である指数関数$g=\exp(-at)$ (ただし$t>0$)の「畳み込み」を行うことにほかならない。

This process is equivalent to the convolutional integral with an exponential function.

関数fとgの畳み込み(畳み込み積分)は次のように定義される。

The convolutional integral is defined as follows.

$$(f*g)(t)=\int f(u)g(t-u)\mathrm{d}u$$

畳みこみ積分の図解はこんな感じ。(正確ではないが)

It is illustrated.

![convol1](https://github.com/vitroid/PythonTutorials/blob/2021/2%20Advanced/convol1.jpg?raw=true)

![convol2](https://github.com/vitroid/PythonTutorials/blob/2021/2%20Advanced/convol2.jpg?raw=true)

畳み込み積分は、音響学だけでなく、様々な分野で非常に重要である。

* 光学におけるブレやボケの計算
* 電気回路における信号伝達
* 桁数の非常に大きな数同士のかけ算
* 信号へのノイズの重畳
* 量子力学における伝搬関数
* 液体論における積分方程式

音声データ$f$がデルタ関数なら、畳み込み積分は$g$そのものになる。(例えば、風呂の中で手をたたけば、風呂の残響特性がわかる)そのため、$g$のことを音響学では「インパルス応答」と呼ぶ。


Convolutional integrals are very important in many fields, not only in acoustics.

* Computation of blurring and bokeh in optics
* Signal transmission in electrical circuits
* Multiplication between numbers with very large digits
* Noise superposition on signals
* Propagation functions in quantum mechanics
* Integral equations in liquid theory

If the voice data $f$ is a delta function, the convolution integral is $g$ itself. (For example, if you clap your hands in the bath, you can find out the reverberation characteristics of the bath.) Therefore, $g$ is called "impulse response" in acoustics.


![convol2](https://github.com/vitroid/PythonTutorials/blob/2021/2%20Advanced/impulse.jpg?raw=true)

numpyの畳み込み積分をそのまま使い、音声に残響を付けてみよう。

Let's add a reverb to the music using the convolution function in numpy.

In [None]:
import numpy as np
time = np.linspace(0, 0.1, 4410)
response = np.exp(-time*30) # 0.1秒で1/e^3 = 1/20に減衰する指数関数
plt.plot(time,response)

In [None]:
output = np.convolve(mono, response, mode='same')
Audio(output, rate=samplerate)

こもるばかりであまりうまくいかない。試しにインパルス応答だけ聞いてみるが、音らしく聞こえない。

The impulse response itself does not sound natural.

In [None]:
Audio(response, rate=samplerate)

調べてみると、インパルス応答を集めているサイト(https://www.openair.hosted.york.ac.uk )があるらしい。そこで、教会のインパルス応答をもらってくる。

I found a web site that collects the impulse responses of various halls. Let's get a response data of a church from the site.

The Lady Chapel, St Albans Cathedral, England  https://en.wikipedia.org/wiki/St_Albans_Cathedral

インパルス応答(IR)のデータ: 
https://www.openair.hosted.york.ac.uk/?page_id=595

In [None]:
! wget https://github.com/vitroid/PythonTutorials/blob/master/2%20Advanced/stalbans_a_mono.wav?raw=true -O stalbans_a_mono.wav

In [None]:
response, samplerate = sf.read("stalbans_a_mono.wav")

Audio(response, rate=samplerate)

本物のインパルス応答は、確かに教会で手を叩いた時の残響に聞こえるから面白い(あたりまえだけど)。

The impulse response of a church really sounds like a clap in the church, naturally.

教会のインパルス応答の波形を見てみよう。

Let's plot the wave form of the impulse response.

In [None]:
plt.plot(response)
plt.show()

#縦拡大
plt.ylim(-0.01,0.01)
plt.plot(response)
plt.show()

samplerate

samplerateも同じ44100なので、単純に音源にこれをたたみこんでやれば、教会で歌うMy Wayになるはず。

Fortunately, the sampling rate of the impulse response is also 44100 Hz, so we will be able to obtain the Sinatra singing in a church by a simple comvolution.

ただし、6秒もの残響の計算は時間がかかりすぎるので、はじめの1秒だけ使うことにする。
(PCが速い人は、全部使って試してみてもいい)

Here we use only first 1 second of the response to reduce the calculation time.

(フーリエ変換を使って畳み込み積分を爆速で計算する方法があるが、numpyはどうもそれを使っていないようだ。)

(Seemingly numpy does not use the fast algorithm for the convolution integrals.)

In [None]:
song = np.convolve(mono, response[:44100], mode='same')

教会で歌うシナトラ。

Sinatra singing in a church.

In [None]:
Audio(song, rate=samplerate)

原曲と聴きくらべ。

Compare with the original.

In [None]:
Audio(mono, rate=samplerate)

scipyにはFFT(高速フーリエ変換)を使った畳み込みがあった。 https://docs.scipy.org/doc/scipy/reference/generated/scipy.signal.fftconvolve.html#scipy.signal.fftconvolve

The fast algorithm can be found in scipy.


In [None]:
import scipy.signal
fftsong = scipy.signal.fftconvolve(mono, response, mode='same')
Audio(fftsong, rate=samplerate)

例えば、大きなホールに行く機会があったら、舞台の上で一発だけ拍手してもらって、それを録音しておけば、自分のもっている音源を、そのホールで演奏したかのように加工することもできるということになる。

If you have a chance to visit a church, make a single clap and record its reverbs. Then you can process your music data as if that is played in the church.


## 課題2 / Practice 2

上で読みこんだmono (MyWay.mp3のモノラル音声)を使って、以下の処理を行うプログラムを書いて下さい。(できる範囲で)

Write codes to process the `mono` data.

1. 逆再生
2. 倍速再生 (データを1つおきに間引く。音が1オクターブ高くなる)
3. もとの音に0.2秒ずらした音を重ねて再生
4. 倍速再生 (音が高くならない)
5. 最大値、最小値、平均値を求める
6. 教会のインパルス応答を逆再生にして、monoに畳み込んで、変な残響をつくる

1. Reversed play
2. Fast play in double speed (Pick every two samples from the original data; It makes the music an octave higher.)
3. Overlay the sound with 0.2 seconds delay onto the original one.
4. Fast play in double speed with original pitch.
5. Maximum, minimum and average of the sound data.
6. Apply the reversed impulse response to obtain a strange reverbe of an impossible church.

----

3番、誰かが話している時に、その人の声を0.2秒遅れで再生して聞かせると、その人は話が続けられなくなる、という研究があります。(https://srad.jp/story/12/03/04/1812249/ 2012年イグ・ノーベル賞https://scienceportal.jst.go.jp/news/newsflash_review/newsflash/2012/10/20121003_01.html)

Item 3: An Ignobel awarded research has shown that when someone is talking and their voice is played back with a 0.2 second delay, the person is unable to continue talking.

----

4番、音が高くならないように高速再生する方法はいくつかありますが、一番簡単なのは、

* まず音楽を0.1秒ぐらいの長さのパケットに細分する。
* パケットを1つおきにえらんでつなぎなおす。

という方法です。例えば、元のデータが`[1,2,3,4,5,6,7,8,9,10, ... ,997,998,999,1000]`だとして、これを4データずつのパケットに分割し、`[1,2,3,4] [5,6,7,8] [9,10,11,12] ... [997 998 999 1000]`として、それらからひとつおきにえらんできてつないで`[1,2,3,4,9,10,11,12,17,18,19,20, ... ,993,994,995,996]`のようにするわけです。

実際のプログラム中では、元の音楽データ(mono, 20秒、882000データ)の半分の長さの0配列をあらかじめ準備し、そこにmonoの断片を書きこんでいきます。

Item 4: there are several ways to playback music at high speed without the sound getting too high.

* First, divide the music into packets of about 0.1 second in length.
* Select every two packets and join them.

For example, if the original data is `[1,2,3,4,5,6,7,8,9,10, ... 997,998,999,1000]`, split them into packets of 4 data each, `[1,2,3,4] [5,6,7,8] [9,10,11,12] ... [997 998 999 1000]`, and concatenate every other one of them as `[1,2,3,4,9,10,11,12,17,18,19,20, ... 993,994,995,996]`.



In [None]:
half = np.zeros(44100*10)
# 0.1秒分のデータ長
packetlen = 4410
packetnum = 100
# 最初の0.1秒をmonoからhalfに書き移す
half[0:packetlen] = mono[0:packetlen]
# 次の0.1秒
half[packetlen:packetlen*2] = mono[packetlen*2:packetlen*2+packetlen]
# これをpacketnum回くりかえす (for文を使う)

なお、ゆっくり再生したい場合は逆に、同じ断片を2個繰りかえして`[1,2,3,4,1,2,3,4,5,6,7,8,5,6,7,8,...]`のようにつなぎます。

2と4の技術を組みあわせると、再生速度がもとのままで、音だけ1オクターブ下げる、ということも可能です。(ボイスチェンジャー)

If you want to play it slowly, repeat the same two fragments and join them like `[1,2,3,4,1,2,3,4,5,6,7,8,5,6,7,8,...]'.

By combining techniques of items 2 and 4, it is possible to lower only the note by one octave while maintaining the original playback speed. (Voice Changer)