In [1]:
import numpy as np
from scipy.io import wavfile
import librosa

In [2]:
from IPython.display import Audio

In [3]:
IN_WAVE_FILE = "in.wav"  # モノラル音声
OUT_WAVE_FILE = "out_librosa_gla.wav"  # 復元音声

In [4]:
FRAME_LENGTH = 1024   # フレーム長
HOP_LENGTH = 80            # フレームのシフト長

ITERATION = 200            # 位相推定の最大繰り返し数

In [5]:
# 音声のロード
fs, data = wavfile.read(IN_WAVE_FILE)
data = data.astype(np.float64)

In [6]:
Audio(data,rate=fs) # 入力音声

In [7]:
# 振幅スペクトル（位相復元なので手に入るのはこれのみ）
amp_spec = np.abs(librosa.core.stft(data, n_fft=FRAME_LENGTH,
                                    hop_length=HOP_LENGTH,
                                    win_length=FRAME_LENGTH))

In [8]:
# Griffin-Lim法により位相復元した音声
recovered = librosa.griffinlim(amp_spec, n_iter=ITERATION,
                               hop_length=HOP_LENGTH, random_state=0)
recovered = recovered.astype(np.int16)

In [9]:
Audio(recovered,rate=fs) # 復元音声

In [10]:
# 復元された音声をwavファイルとして保存
wavfile.write(OUT_WAVE_FILE, fs, recovered)