In [None]:
# 下記セルを実行すると、authorization codeの入力を求められます。
# 出力されたリンク先をクリックし、Googleアカウントにログインし、
# authorization codeをコピーし、貼り付けをおこなってください。
from google.colab import drive
drive.mount('/content/drive')

In [None]:
import os 
project = '100knock-process-visualization'
chapter = 6
os.chdir(f'/content/drive/MyDrive/{project}/chapter-{chapter}/')

# ６章 音声データの加工・可視化１０本ノック



## ノック７１：音データを再生してみよう

In [None]:
import IPython.display as disp
disp.Audio('data/音声.mp3')

In [None]:
disp.Audio('data/携帯電話着信音.mp3')

## ノック７２：音データを読み込んでみよう

In [None]:
import librosa
audio1, sr1 = librosa.load('data/音声.mp3',sr=None)
print(audio1)
print(sr1)

In [None]:
print(audio1.shape)
print(audio1.max())
print(audio1.min())

In [None]:
audio2, sr2 = librosa.load('data/携帯電話着信音.mp3',sr=None)
print(audio2)
print(sr2)
print(audio2.shape)

## ノック７３：音データの一部を取得してみよう

In [None]:
audio2, sr2 = librosa.load('data/携帯電話着信音.mp3',sr=None, offset=0, duration=1)
print(audio2)
print(sr2)
print(audio2.shape)

In [None]:
disp.Audio(data=audio2, rate=sr2)

In [None]:
audio1, sr1 = librosa.load('data/音声.mp3',sr=None, offset=0, duration=1)
disp.Audio(data=audio1, rate=sr1)
print(audio1.shape)

## ノック７４：音データのサンプリングレートを変えてみよう

In [None]:
audio1_sr22, sr1_sr22 = librosa.load('data/音声.mp3',sr=22050, offset=0, duration=1)
print(audio1_sr22)
print(sr1_sr22)
print(audio1_sr22.shape)

In [None]:
audio1_sr8 = librosa.resample(audio1, sr1, 8000)
print(audio1_sr8)
print(audio1_sr8.shape)

In [None]:
librosa.get_samplerate('data/音声.mp3')

## ノック７５：音データを可視化してみよう

In [None]:
import librosa.display as libdisp
libdisp.waveplot(audio1, sr=sr1)

In [None]:
libdisp.waveplot(audio1_sr22, sr=sr1_sr22)

In [None]:
libdisp.waveplot(audio1_sr8, sr=8000)

In [None]:
libdisp.waveplot(audio2, sr=sr2)

## ノック７６：音データの大きさを取得してみよう

In [None]:
import numpy as np
audio1_rms = np.sqrt(np.mean(audio1**2))
audio2_rms = np.sqrt(np.mean(audio2**2))
print(audio1_rms)
print(audio2_rms)

In [None]:
rms1 = librosa.feature.rms(y=audio1)
time1 = librosa.times_like(rms1, sr=sr1)
print(rms1.shape)
rms1

In [None]:
import matplotlib.pyplot as plt

rms2 = librosa.feature.rms(y=audio2)
time2 = librosa.times_like(rms2, sr=sr2)
plt.plot(time1, rms1[0], label='audio1') 
plt.plot(time2, rms2[0], label='audio2')
plt.legend()

## ノック７７：周波数スペクトルを表示してみよう

In [None]:
fft = np.fft.fft(audio1)
n = fft.size
amp = np.abs(fft)
freq = np.fft.fftfreq(n, d=1 / sr1)
print(amp.shape)
print(freq.shape)
print(amp.max())
print(amp.min())
print(freq.max())
print(freq.min())

In [None]:
plt.figure(figsize=(10, 5))
plt.plot(freq[:n//2], amp[:n//2])
plt.xlabel('Frequency [Hz]')
plt.ylabel('Amplitude')

In [None]:
fft = np.fft.fft(audio1_sr22)
n = fft.size
amp = np.abs(fft)
freq = np.fft.fftfreq(n, d=1 / sr1_sr22)
plt.figure(figsize=(10, 5))
plt.plot(freq[:n//2], amp[:n//2])
plt.xlabel('Frequency [Hz]')
plt.ylabel('Amplitude')

In [None]:
fft = np.fft.fft(audio2)
n = fft.size
amp = np.abs(fft)
freq = np.fft.fftfreq(n, d=1/sr2)

plt.figure(figsize=(10, 5))
plt.plot(freq[:n//2], amp[:n//2])
plt.xlabel('Frequency [Hz]')
plt.ylabel('Amplitude')

## ノック７８：スペクトログラムを可視化してみよう

In [None]:
stft = librosa.stft(audio1)
amps = np.abs(stft)
spectrogram = librosa.amplitude_to_db(amps)
print(stft.shape)
print(amps.shape)
print(spectrogram.shape)

In [None]:
1+(2048/2)

In [None]:
plt.figure(figsize=(10, 5))
librosa.display.specshow(spectrogram, sr=sr1, x_axis='time', y_axis='hz',cmap='magma')
bar = plt.colorbar()
bar.ax.set_ylabel('db')

In [None]:
plt.figure(figsize=(10, 5))
stft = librosa.stft(audio2)
amps = np.abs(stft)
spectrogram = librosa.amplitude_to_db(amps)
librosa.display.specshow(spectrogram, sr=sr2, x_axis='time', y_axis='hz',cmap='magma')
bar = plt.colorbar()
bar.ax.set_ylabel('db')

## ノック７９：音の高さや長さを変えてみよう

In [None]:
audio1, sr1 = librosa.load('data/音声.mp3',sr=None)
print(audio1.shape)
disp.Audio(data=audio1, rate=sr1)

In [None]:
audio1_pitch = librosa.effects.pitch_shift(audio1, sr1,10)
print(audio1_pitch.shape)
disp.Audio(data=audio1_pitch, rate=sr1)

In [None]:
audio1_pitch = librosa.effects.pitch_shift(audio1, sr1,-5)
disp.Audio(data=audio1_pitch, rate=sr1)

In [None]:
audio2, sr2 = librosa.load('data/携帯電話着信音.mp3',sr=None)
print(audio2.shape)
disp.Audio(data=audio2, rate=sr2)

In [None]:
audio2_time = librosa.effects.time_stretch(audio2, 0.5)
print(audio2_time.shape)
disp.Audio(data=audio2_time, rate=sr2)

In [None]:
audio2_time = librosa.effects.time_stretch(audio2, 2)
print(audio2_time.shape)
disp.Audio(data=audio2_time, rate=sr2)

## ノック８０：音データを保存しよう

In [None]:
import soundfile as sf

sr = 44100
sf.write('data/audio2_time.wav', audio2_time, sr)

In [None]:
audio_read, sr_read = librosa.load('data/audio2_time.wav',sr=None)
print(audio_read.shape)
print(sr_read)
disp.Audio(data=audio_read, rate=sr_read)