In [1]:
#@title Google driveをマウント

from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


ドラム音源、使用したい曲のオーディオファイルがない場合、フリー音源サイトから歌唱を含む曲をダウンロードする

音源サイト<a href="https://cymatics.fm/pages/free-download-vault">Cymatics</a>には、無料でダウンロードできるヒップホップのドラムループ音源が多くあるので色々聴いてみて、好みのドラム音源をダウンロードしましょう。

またポピュラー楽曲は使う音源にこだわりがなければ、<a href="https://dova-s.jp/#google_vignette">フリー音源サイト</a>で好みの歌唱を含む曲をダウンロードしましょう。使用したい歌唱を含む曲がある場合mp3、wavファイル形式のオーディオファイルを用意してください。

使用するドラム音源のパスとファイル名にあるドラム音源のテンポを入力しましょう。

In [2]:
filename_b = "/content/drive/MyDrive/drill drum/Cymatics - Vicious Drum Loop - 143 BPM.wav" # @param {type:"string"}
tempo_b =  143 #@param {type:"integer"}
print(filename_b)

/content/drive/MyDrive/drill drum/Cymatics - Vicious Drum Loop - 143 BPM.wav


歌唱を含む曲のパスを入力しましょう。

In [3]:
import os
!pip install pydub
import pydub
from pydub import AudioSegment


#曲のパスを指定
filename = "/content/drive/MyDrive/\u7814\u7A76\u7528\u97F3\u697D/04 20.wav" #@param {type:"string"}

#outname=パスのファイル名
outname = os.path.basename(filename)
outname = outname.replace(".mp3","")
outname = outname.replace(".wav","")

#ファイル名のwavファイルを作成
if '.mp3' in filename:
  sound = pydub.AudioSegment.from_mp3(filename)
  sound.export(outname+".wav", format="wav")
if '.wav' in filename:
  sound = pydub.AudioSegment.from_wav(filename)
  sound.export(outname+".wav", format="wav")
filename = outname+".wav"
filename_s =filename
print(filename)
print(outname)

Collecting pydub
  Downloading pydub-0.25.1-py2.py3-none-any.whl (32 kB)
Installing collected packages: pydub
Successfully installed pydub-0.25.1
04 20.wav
04 20


os.path.basename()関数で、ファイル名のみを補完します。

outname.replace()関数で、.mp3、.wavを削除したファイル名を補完します。
pydub.AudioSegment.from_mp3()関数、pydub.AudioSegment.from_wav()関数で音声データを読み込み、export()関数で"ファイル名.wav"のシンプルなwavファイルを作成します。これで長いパス名を省略します。

## 編曲したい曲のテンポを推定

librosaを用いて、テンポ、ビート時刻の推定を行います。

In [4]:
import librosa
def tempo_estimate(filename):
  y, sr = librosa.load(filename)
  tempo, beat_frames = librosa.beat.beat_track(y=y, sr=sr)
  return tempo

In [5]:
def beat_estimate(filename):
  y, sr = librosa.load(filename)
  tempo, beat_frames = librosa.beat.beat_track(y=y, sr=sr)
  beat_times = librosa.frames_to_time(beat_frames, sr=sr)
  return beat_times

この時、次の音源分離の際に普通の音源ファイル名のままだとエラーが発生するため、原曲の最初のビート時刻から始まる「new.wav」を作ります。

In [6]:
tempo = tempo_estimate(filename)
beat_times = beat_estimate(filename_s)
if tempo>170:
  tempo =tempo/2
sound = AudioSegment.from_file(filename)
sound1 = sound[beat_times[0]:]
sound1.export("new.wav", format="wav")
filename = "new.wav"
print(tempo)

129.19921875


## 歌唱部分の抽出
Spleeterを用いて音源抽出を行います。

In [7]:
!pip install spleeter

def sound_separation(filename):
  #Spleeterを使用し歌声部分とその他を分離
  !spleeter separate -h
  !spleeter separate -o output/ {filename}

Collecting spleeter
  Downloading spleeter-2.4.0-py3-none-any.whl (49 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/49.4 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m49.4/49.4 kB[0m [31m2.2 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting ffmpeg-python<0.3.0,>=0.2.0 (from spleeter)
  Downloading ffmpeg_python-0.2.0-py3-none-any.whl (25 kB)
Collecting httpx[http2]<0.20.0,>=0.19.0 (from spleeter)
  Downloading httpx-0.19.0-py3-none-any.whl (77 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/77.3 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m77.3/77.3 kB[0m [31m7.1 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting norbert<0.3.0,>=0.2.1 (from spleeter)
  Downloading norbert-0.2.1-py2.py3-none-any.whl (11 kB)
Collecting tensorflow<2.10.0,>=2.5.0 (from spleeter)
  Downloading tensorflow-2.9.3-cp310-cp310-manylinux_2_17_x86_64.

このままだとファイル名がnewのままなので名前を変えます。

In [8]:
sound_separation("new.wav")
os.rename("/content/output/new", "/content/output/"+outname)

Usage: spleeter separate [OPTIONS] FILES...
Try 'spleeter separate --help' for help.

Error: no such option: -h
INFO:spleeter:Downloading model archive https://github.com/deezer/spleeter/releases/download/v1.4.0/2stems.tar.gz
INFO:spleeter:Validating archive checksum
INFO:spleeter:Extracting downloaded 2stems archive
INFO:spleeter:2stems model file(s) extracted
INFO:spleeter:File output/new/vocals.wav written succesfully
INFO:spleeter:File output/new/accompaniment.wav written succesfully


## 歌唱の最初の位置を検出

In [9]:
!pip install inaSpeechSegmenter
!pip install pydub
from inaSpeechSegmenter import Segmenter

def vocal_detection(filename):
  seg = Segmenter(vad_engine='smn', detect_gender=False)
  # 区間検出実行（たったこれだけでOK）
  segmentation = seg(filename)
  speech_segment_index = 0
  start_time = 0
  for segment in segmentation:
    segment_label = segment[0]
    i = 0
    if (segment_label == 'speech'):  # 音声区間
        start_time = segment[1] * 1000
        print(start_time)
        break
  return start_time

Collecting inaSpeechSegmenter
  Downloading inaSpeechSegmenter-0.7.7-py3-none-any.whl (38 kB)
Collecting pyannote.core (from inaSpeechSegmenter)
  Downloading pyannote.core-5.0.0-py3-none-any.whl (58 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.5/58.5 kB[0m [31m4.5 MB/s[0m eta [36m0:00:00[0m
Collecting Pyro4 (from inaSpeechSegmenter)
  Downloading Pyro4-4.82-py2.py3-none-any.whl (89 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m90.0/90.0 kB[0m [31m12.6 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting pytextgrid (from inaSpeechSegmenter)
  Downloading pytextgrid-0.1.4-py3-none-any.whl (9.1 kB)
Collecting onnxruntime-gpu (from inaSpeechSegmenter)
  Downloading onnxruntime_gpu-1.17.0-cp310-cp310-manylinux_2_28_x86_64.whl (192.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m192.1/192.1 MB[0m [31m2.4 MB/s[0m eta [36m0:00:00[0m
Collecting coloredlogs (from onnxruntime-gpu->inaSpeechSegmenter)
  Downloading colore

音声区間検出ライブラリinaSpeechSegmenterを用いて音声区間の最初の位置を検出します。

In [10]:
start = vocal_detection("/content/output/"+outname+"/vocals.wav")

Downloading data from https://github.com/ina-foss/inaSpeechSegmenter/releases/download/models/keras_speech_music_noise_cnn.hdf5


  data = (data - np.mean(data, axis=1).reshape((len(data), 1))) / np.std(data, axis=1).reshape((len(data), 1))
  x = asanyarray(arr - arrmean)


255/255 - 9s - 9s/epoch - 36ms/step
22920.0


## 歌唱直前のビート時刻を計測し、分割
beat_framesをlibrosa.frames_to_time()関数で時間に直します。

In [11]:
#歌声直前のビート時刻計測
beat_times = beat_estimate(filename_s)
beat_start = 0
i = 0
for b in beat_times:
  b = beat_times*1000
  if b[0] > start:
    beat_start = b[0]
  if b[i]<=start :
    beat_start = b[i]
  i+=1
print(beat_start)

# 歌声の直前までの無音を消去


sound = AudioSegment.from_file("/content/output/"+outname+"/vocals.wav")
sound1 = sound[beat_start:] #歌声部分[開始,終了]
sound1.export("voice1.wav", format="wav")
voice_name_c="voice1.wav"

22476.91609977324


ビート時刻から歌声直前のビート時刻を探し、歌唱をその位置から開始するようにします。

## テンポを変更

In [12]:
import soundfile as sf

def tempo_change(filename):
  y, sr = librosa.load(filename)
  tempo=tempo_estimate(filename_s)
  y_new  = librosa.effects.time_stretch(y, rate=tempo_b/tempo)
  sf.write("tc.wav", y_new, sr, subtype="PCM_24")

## ドラムの前に無音区間を追加

In [13]:
#ドラムパターンに無音部分を追加
def silent_plus(duration,filename):
  a = AudioSegment.silent(duration=duration)
  b = AudioSegment.from_file(filename)
  b = b*30
  c = a + b
  c.export("drum.wav",format="wav")

## ドラムと歌唱を合成

In [15]:
tempo_change("voice1.wav")
silent_plus(0,filename_b)
# 歌唱とドラムを合成
sound1 = AudioSegment.from_file("drum.wav") #ドラム
sound2 = AudioSegment.from_file("tc.wav")#歌声
output_last =sound1.overlay(sound2,position=0)
# save the result
output_last.export(outname+"_mixed.wav", format="wav")

<_io.BufferedRandom name='04 20_mixed.wav'>