<a href="https://colab.research.google.com/github/yukinaga/ai_music/blob/main/section_4/02_gansynth.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# GANSynth에 의한 작곡
'GANSynth'를 통해 MIDI 데이터에 악기의 음성을 부여합니다.  
생성에는 시간이 걸리기 때문에, 「편집」→「노트북의 설정」→「하드웨어 액셀러레이터」로「GPU」를 선택해 둡시다.  
이 노트북의 코드는 아래의 링크처의 코드를 참고하고 있습니다.  
http://goo.gl/magenta/gansynth-demo

## 라이브러리 설치
Magenta와 함께 음악 생성용 라이브러리 pyFluid Synth, MIDI 데이터를 처리하기 위한 pretty_midi 등을 설치합니다.

In [None]:
!apt-get update -qq && apt-get install -qq libfluidsynth1 fluid-soundfont-gm build-essential libasound2-dev libjack-dev
!pip install -qU pyfluidsynth pretty_midi
!pip install -qU magenta==2.1.0

## 라이브러리의 도입
Magenta의 필요한 기능과 NumPy 등의 라이브러리를 도입합니다.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from google.colab import files
import tensorflow.compat.v1 as tf
import librosa

import magenta.music as mm
from magenta.models.gansynth.lib import flags as lib_flags
from magenta.models.gansynth.lib import generate_util as gu
from magenta.models.gansynth.lib import model as lib_model
from magenta.models.gansynth.lib import util
from note_seq.notebook_utils import colab_play as play

import note_seq

## 각 설정값 
곡의 생성에 관한 각 값을 설정합니다.

In [None]:
BATCH_SIZE = 16 # 한번에 취급하는 데이터 수
SR=16000# 샘플링 레이트

## 함수의 설정
음성을 처리하는 함수입니다.  
이하의 링크처의 코드를 사용하고 있습니다.  
http://goo.gl/magenta/gansynth-demo

In [None]:
def load_midi(midi_path, min_pitch=36, max_pitch=84):
  """Load midi as a notesequence."""
  midi_path = util.expand_path(midi_path)
  ns = note_seq.midi_file_to_sequence_proto(midi_path)
  pitches = np.array([n.pitch for n in ns.notes])
  velocities = np.array([n.velocity for n in ns.notes])
  start_times = np.array([n.start_time for n in ns.notes])
  end_times = np.array([n.end_time for n in ns.notes])
  valid = np.logical_and(pitches >= min_pitch, pitches <= max_pitch)
  notes = {'pitches': pitches[valid],
           'velocities': velocities[valid],
           'start_times': start_times[valid],
           'end_times': end_times[valid]}
  return ns, notes

def get_envelope(t_note_length, t_attack=0.010, t_release=0.3, sr=16000):
  """Create an attack sustain release amplitude envelope."""
  t_note_length = min(t_note_length, 3.0)
  i_attack = int(sr * t_attack)
  i_sustain = int(sr * t_note_length)
  i_release = int(sr * t_release)
  i_tot = i_sustain + i_release  # attack envelope doesn't add to sound length
  envelope = np.ones(i_tot)
  # Linear attack
  envelope[:i_attack] = np.linspace(0.0, 1.0, i_attack)
  # Linear release
  envelope[i_sustain:i_tot] = np.linspace(1.0, 0.0, i_release)
  return envelope

def combine_notes(audio_notes, start_times, end_times, velocities, sr=16000):
  """Combine audio from multiple notes into a single audio clip.

  Args:
    audio_notes: Array of audio [n_notes, audio_samples].
    start_times: Array of note starts in seconds [n_notes].
    end_times: Array of note ends in seconds [n_notes].
    sr: Integer, sample rate.

  Returns:
    audio_clip: Array of combined audio clip [audio_samples]
  """
  n_notes = len(audio_notes)
  clip_length = end_times.max() + 3.0
  audio_clip = np.zeros(int(clip_length) * sr)

  for t_start, t_end, vel, i in zip(start_times, end_times, velocities, range(n_notes)):
    # Generate an amplitude envelope
    t_note_length = t_end - t_start
    envelope = get_envelope(t_note_length)
    length = len(envelope)
    audio_note = audio_notes[i, :length] * envelope
    # Normalize
    audio_note /= audio_note.max()
    audio_note *= (vel / 127.0)
    # Add to clip buffer
    clip_start = int(t_start * sr)
    clip_end = clip_start + length
    audio_clip[clip_start:clip_end] += audio_note

  # Normalize
  audio_clip /= audio_clip.max()
  audio_clip /= 2.0
  return audio_clip

# Plotting tools
def specplot(audio_clip):
  p_min = np.min(36)
  p_max = np.max(84)
  f_min = librosa.midi_to_hz(p_min)
  f_max = 2 * librosa.midi_to_hz(p_max)
  octaves = int(np.ceil(np.log2(f_max) - np.log2(f_min)))
  bins_per_octave = 36
  n_bins = int(bins_per_octave * octaves)
  C = librosa.cqt(audio_clip, sr=SR, hop_length=2048, fmin=f_min, n_bins=n_bins, bins_per_octave=bins_per_octave)
  power = 10 * np.log10(np.abs(C)**2 + 1e-6)
  plt.matshow(power[::-1, 2:-2], aspect='auto', cmap=plt.cm.magma)
  plt.yticks([])
  plt.xticks([])

## GANSynth의 모델
경로를 지정하고 GANSynth의 학습완료 모델을 읽습니다.

In [None]:
tf.disable_v2_behavior()  # tensorflow2で1.xのコードを動かす
tf.reset_default_graph()  # tensorflowのグラフをリセット

model_dir = "gs://magentadata/models/gansynth/acoustic_only"
flags = lib_flags.Flags({
    "batch_size_schedule": [BATCH_SIZE],
    "tfds_data_dir": "gs://tfds-data/datasets",
})
model = lib_model.Model.load_from_path(model_dir, flags)

「01_multitrack_musicvae.ipynb」で作成した、「conditional_vae.mid」を、ノートブック左の「ファイル」にアップロードしましょう。  
以下は、このファイルを読み込むコードです。  

In [None]:
midi_path = "conditional_vae.mid"
ns, notes = load_midi(midi_path)

note_seq.plot_sequence(ns)
note_seq.play_sequence(ns, synth=note_seq.fluidsynth) 

GANSynth를 통해 가져온 MIDI 데이터에 악기의 음성을 부여합니다.   
악기는 랜덤으로 천천히 바뀝니다.  

In [None]:
seconds_per_instrument = 5  # 악기가 바뀌는 간격

# 잠재변수가 랜덤하게 천천히 변화
z_instruments, t_instruments = gu.get_random_instruments(  # 潜在変数とその時間
    model,
    notes["end_times"][-1],
    secs_per_instrument=seconds_per_instrument)

# 各noteの潜在変数を取得
z_notes = gu.get_z_notes(notes["start_times"], z_instruments, t_instruments)

# 各ノートの音声を生成
audio_notes = model.generate_samples_from_z(z_notes, notes["pitches"])

# 1つの音声にまとめる
audio = combine_notes(
    audio_notes,
    notes["start_times"],
    notes["end_times"],
    notes["velocities"]
    )

specplot(audio)  # スペクトログラムの表示
play(audio, sample_rate=SR)

음성을 wav 데이터로 변환하고 저장 후 다운로드 합니다.


In [None]:
file_name = "gansynth.wav"
gu.save_wav(audio, file_name)
files.download(file_name)