# LibROSAを使って短時間フーリエ変換をしよう

## ライブラリをインポートしよう

## データを読み込んで可視化しよう

In [0]:
# 波形情報を `y` へ、サンプリングレートを `sr` へ格納


# 波形情報を可視化



In [0]:
# テンポとビートを表示


## 単時間フーリエ変換(STFT)

In [0]:
# 短時間フーリエ変換


# 画像出力


# LibROSAを使ってMFCCをしよう 

## プログラムをコピーしてMFCCを適用しよう

In [0]:
import numpy as np
import librosa
import librosa.display
import matplotlib.pyplot as plt
import matplotlib.style as ms
ms.use('seaborn-muted')

# 波形情報を `y` へ、サンプリングレートを `sr` へ格納
y, sr = librosa.load("/content/drive/My Drive/Colab Notebooks/motorcycle.wav", sr=44100)
print(y)
print(len(y))

# 波形情報を可視化
plt.plot(y)
plt.show()

# テンポとビートを表示
length = librosa.samples_to_time(len(y), sr)
tempo= librosa.beat.beat_track(y=y, sr=sr)
print("音の長さ = {}秒".format(length))
print("テンポ = {}".format(tempo[0])) # 1分間の拍数

# 短時間フーリエ変換
S = np.abs(librosa.stft(y))

# 画像出力
librosa.display.specshow(librosa.amplitude_to_db(S, ref=np.max), y_axis='log', x_axis='time', sr=sr)
plt.title("Power spectrogram") # グラフタイトル
plt.colorbar(format="%+2.0f dB") # カラーバーの設定。%+2.0fは小数点以下桁数の設定。%+.1fだと小数点以下桁数1桁
plt.tight_layout() # 複数のグラフのラベルが重ならないように調整
plt.savefig("/content/drive/My Drive/Colab Notebooks/STFT.png") # 画像ファイルとして保存
plt.show()

# 音声データの前処理について学ぼう

In [0]:
import numpy as np
import librosa
import librosa.display
import matplotlib.pyplot as plt
import matplotlib.style as ms
ms.use('seaborn-muted')
from sklearn import preprocessing

# MFCC
def calculate_mfcc(x):
    stft = np.abs(librosa.stft(x))**2 
    log_stft = librosa.power_to_db(stft) # パワースペクトログラムをdbに変換
    melsp = librosa.feature.melspectrogram(S=log_stft) # メル尺度スペクトログラムを計算
    mfcc = librosa.feature.mfcc(S=melsp) # メル周波数ケプストラム係数の計算
    mfcc = preprocessing.scale(melsp, axis=1) # 標準化
    return melsp


## ホワイトノイズを追加しよう

In [0]:
# data augmentation: ホワイトノイズを追加


## タイムシフトを追加しよう

In [0]:
# data augmentation: タイムフレームでシフト


## 音をのばそう

In [0]:
# data augmentation: 音をのばす
