# 0. Design

### 0_1. 데이터 정의
- 입력 데이터는 1.csv, 2.csv, 3.csv, ... 와 같이 n.csv 형식의 파일
    - 입력 데이터: 악보 정보 (노트, 강도, 페달 등)
- 정답 데이터는 1_target.csv, 2_target.csv, 3_target.csv, ... 와 같이 n_target.csv 형식의 파일
    - 정답 데이터: 각 기준별 평가 점수
    
### 0_2. 데이터 전처리 방법
- input data
    - sec: 가만히 유지
    - msg_type: note_on, note_off 정보는 딥러닝 학습에 무의미하므로 삭제
    - channel: 삭제
    - note: MinMaxScaler (노트값은 데이터 분포가 정규 분포를 따르지 않을 가능성 ↑. 추가 실험 예정)
    - velocity: StandardScaler (velocity는 일정 정규 분포를 따를 가능성 ↑. 추가 실험 예정)
    - dynamic: One-Hot Encoding (각 강도 값을 고유한 벡터로 변환하여 모델이 더 쉽게 학습할 수 있도록 합니다.)
    - padal: StandardScaler
    - count: 삭제 (음악 정보와 관련성이 낮다고 판단)
    - main_vol: 삭제 (음악 정보와 관련성이 낮다고 판단)
    - depth: 삭제 (음악 정보와 관련성이 낮다고 판단)
    - pan: 삭제 (음악 정보와 관련성이 낮다고 판단)
    
### 0_3. 모델 선택 및 이유
- RNN & LSTM
    - 본 연구의 경우 입력 데이터의 행의 수가 연주된 곡의 길이에 따라 전부 다름(시간 의존성 내포)
    - 피아노 연주의 경우 이전의 연주가 다음의 연주와 이어지는 Sequence Data이므로 이를 처리하는데 적합한 RNN 모델을 선택
    - 또한, RNN 모델의 경우 긴 시퀀스 데이터의 경우 vanishing gradient 혹은 exploding gradient 문제가 발생하기 때문에 LSTM 모델을 선택
        - LSTM 모델은 셀 내부에 게이트 메커니즘을 사용하여 과거 정보를 유지하고 불필요한 정보를 잊도록 설계되어 이러한 문제를 해결

# 1. Import Libraries

In [119]:
from keras.models import Sequential
from keras.layers import SimpleRNN, LSTM, Dense, Embedding, Dropout
from keras.preprocessing.sequence import pad_sequences
from keras.utils import to_categorical

from sklearn.preprocessing import OneHotEncoder, StandardScaler, MinMaxScaler
from sklearn.model_selection import train_test_split

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

import glob
import random
import os

from music21 import converter, instrument, note, chord, stream 

# 2. Data Load & Preprocessing

In [120]:
midi = converter.parse("./midi_data/hangyul_input2_1.midi")
# MIDI 파일 내의 notes(음정, 박자를 포함하는 정보)를 불러옴
notes_to_parse = midi.flat.notes
# 불러온 notes의 갯수
print(len(notes_to_parse))
# 10개 테스트 출력
for e in notes_to_parse[:10]:
    print(e, e.offset)

# Note / Chord

27
<music21.chord.Chord C5 C5> 2.75
<music21.chord.Chord E5 E5> 3.25
<music21.chord.Chord G5 G5> 10/3
<music21.chord.Chord B4 B4> 3.75
<music21.chord.Chord E5 E5> 4.0
<music21.chord.Chord B4 B4> 4.0
<music21.chord.Chord G5 G5> 4.25
<music21.chord.Chord A4 A4> 4.75
<music21.chord.Chord E5 E5 G5 G5> 5.25
<music21.chord.Chord G4 G4> 17/3


In [121]:
notes = []
# midi_data 폴더 내의 모든 MIDI 파일에 반복문으로 접근
# glob.glob() : *를 제외한 나머지 부분이 같은 파일 이름들을 배열로 저장
for i,file in enumerate(glob.glob("./midi_data/*.midi")):
    midi = converter.parse(file) 
    print('\r', 'Parsing file ', i, " ",file, end='') # 현재 진행 상황 출력
    # notes_to_parse : MIDI 파일을 Notes로 나누어 다루기 위한 변수
    notes_to_parse = None
    # try / except : try 수행 중 에러 발생 시 except 수행 -----------------------------
    # MIDI 파일 구조 차이로 인한 에러 방지
    # MIDI 파일의 Note / Chord / Tempo 정보만 가져온다
    try: # file has instrument parts
        s2 = instrument.partitionByInstrument(midi)
        notes_to_parse = s2.parts[0].recurse() 
    
    except: # file has notes in a flat structure
        notes_to_parse = midi.flat.notes
      # Note / Chord / Tempo 정보 중 Note, Chord 의 경우 따로 처리, Tempo 정보는 무시 ----
    for e in notes_to_parse:
        # Note 인 경우 높이(Pitch), Octave 로 저장
        if isinstance(e, note.Note):
            notes.append(str(e.pitch))
        # Chord 인 경우 각 Note의 음높이(Pitch)를 '.'으로 나누어 저장
        elif isinstance(e, chord.Chord):
            # ':'.join([0, 1, 2]) : [0, 1, 2] -> [0:1:2]
            # str(n) for n in e.normalOrder 
            #     => e.normalOrder 라는 배열 내의 모든 원소 n에 대해 str(n) 해준 새 배열을 만든다.
            #        ex) str(i) for i in [1, 2, 3] => ['1', '2', '3']
            notes.append('.'.join(str(n) for n in e.normalOrder))

 Parsing file  4   ./midi_data\hangyul_target2.midii

In [122]:
notes

['8.1',
 '9',
 '6',
 '8',
 '9.2',
 '4.9',
 '2',
 '9',
 '2',
 '2',
 '2',
 '9',
 '6.9',
 '8.1',
 '6',
 '9',
 '8',
 '9.2',
 '4.9',
 '2',
 '9',
 '2',
 '2',
 '2',
 '9.1',
 '6.9',
 '8.1',
 '9',
 '6',
 '9',
 '8',
 '9',
 '9.2',
 '9',
 '4.9',
 '9.2',
 '9.2',
 '9',
 '9.1',
 '2.4',
 '9',
 '4',
 '1',
 '11.4',
 '11',
 '4',
 '9',
 '8',
 '6.9',
 '1',
 '6',
 '4',
 '9',
 '11',
 '1.2',
 '11',
 '9',
 '2',
 '1',
 '2',
 '4',
 '9',
 '4',
 '9',
 '1',
 '2',
 '1',
 '11.4',
 '1',
 '11',
 '4',
 '9',
 '1',
 '6.9',
 '8.1',
 '9',
 '6',
 '9',
 '8',
 '9',
 '9.2',
 '9',
 '4',
 '9',
 '2',
 '9',
 '2',
 '9',
 '9.1',
 '2.4',
 '9',
 '4',
 '1',
 '11.4',
 '11.4',
 '11.1.4',
 '11',
 '8.9',
 '6.9',
 '1',
 '6',
 '4',
 '9',
 '11.1',
 '2',
 '9',
 '2',
 '1.2',
 '4',
 '9',
 '4',
 '9',
 '1',
 '2',
 '1',
 '11.4',
 '11',
 '4.9',
 '11',
 '8.9',
 '6.9',
 '9',
 '9.1.4',
 '6.9',
 '11',
 '9',
 '8',
 '9.2',
 '8',
 '9',
 '9',
 '4.9',
 '9.2',
 '11',
 '9',
 '8',
 '9',
 '11',
 '1.2.4',
 '2.4.9',
 '1',
 '11',
 '9',
 '4.8',
 '9',
 '11',
 '4.9',
 

In [123]:
# n_vocab : 모델 출력의 가짓수를 정하기 위해 Note의 총 가짓수를 센다
n_vocab = (len(set(notes))) # 중복 제거
print('Classes of notes : ', n_vocab, '\n')
print('notes : ', notes[:500])
print('length of notes : ', len(notes), '\n')
# pitchnames : notes 배열의 모든 가능한 Note / Chord 를 정렬해놓은 배열  
pitchnames = sorted(set(item for item in notes))
print('pitchnames : ', pitchnames)
print('length of pitchnames : ', len(pitchnames), '\n')
# create a dictionary to map pitches to integers
# 음높이(Pitch)를 정수에 매핑하는 dictionary 자료형 생성
# ex) dict = {'key': value} => dict['key'] = value
note_to_int = dict((note, number) for number, note in enumerate(pitchnames))
print('note_to_int : ', note_to_int)

Classes of notes :  35 

notes :  ['8.1', '9', '6', '8', '9.2', '4.9', '2', '9', '2', '2', '2', '9', '6.9', '8.1', '6', '9', '8', '9.2', '4.9', '2', '9', '2', '2', '2', '9.1', '6.9', '8.1', '9', '6', '9', '8', '9', '9.2', '9', '4.9', '9.2', '9.2', '9', '9.1', '2.4', '9', '4', '1', '11.4', '11', '4', '9', '8', '6.9', '1', '6', '4', '9', '11', '1.2', '11', '9', '2', '1', '2', '4', '9', '4', '9', '1', '2', '1', '11.4', '1', '11', '4', '9', '1', '6.9', '8.1', '9', '6', '9', '8', '9', '9.2', '9', '4', '9', '2', '9', '2', '9', '9.1', '2.4', '9', '4', '1', '11.4', '11.4', '11.1.4', '11', '8.9', '6.9', '1', '6', '4', '9', '11.1', '2', '9', '2', '1.2', '4', '9', '4', '9', '1', '2', '1', '11.4', '11', '4.9', '11', '8.9', '6.9', '9', '9.1.4', '6.9', '11', '9', '8', '9.2', '8', '9', '9', '4.9', '9.2', '11', '9', '8', '9', '11', '1.2.4', '2.4.9', '1', '11', '9', '4.8', '9', '11', '4.9', '11', '9', '8.9', '6.9', '1.4', '9', '6.9', '11', '9', '8', '9.2', '9', '4.9', '9', '9.2', '11', '9', '8', '9', '

In [124]:
seq_len = 100 # 시퀀스 길이
# Pitch를 정수로 바꾸어 LSTM 모델의 입출력 만들기
net_in = []
net_out = []
# LSTM 모델의 입출력을 만들기 위해 ( 전체 길이 - 시퀀스 길이(=100) ) 만큼 반복
# ex) 입력 : 출력 짝지어주기
#     [0 ~ 99] : [100] / [1 ~ 100] : [101] / ... / [전체 길이-100 ~ 전체 길이-1] : [전체 길이]
for i in range(0, len(notes) - seq_len):
    # LSTM 모델 입력과 출력 생성
    seq_in = notes[i:i + seq_len] # ex) [0:100] => [0 ~ 99]
    seq_out = notes[i + seq_len]  # ex) [100]
    # LSTM은 문자열이 아닌 숫자를 입출력으로 하므로 문자열을 정수로 바꿔야 한다
    net_in.append([note_to_int[char] for char in seq_in]) # 배열 안의 모든 원소에 대해 실행
    net_out.append(note_to_int[seq_out]) # 출력값 하나에 대해 실행
print(np.shape(net_in))
print(np.shape(net_out))

(450, 100)
(450,)


In [125]:
# LSTM 모델 입출력에 맞게 Dataset 전처리
# 시퀀스 길이(100) 만큼을 빼고 반복했으므로 100개 적은 패턴이 생긴다
n_patterns = len(net_in)
print('n_patterns : ', n_patterns)
# reshape the input into a format compatible with LSTM layers
# LSTM 입력에 맞는 모양으로 바꿔준다 : (샘플 수, 시퀀스 길이, 자료의 차원)
net_in = np.reshape(net_in, (n_patterns, seq_len, 1))
print('shape of net_in : ', net_in.shape)
# 데이터 범위 정규화 : 0 ~ (n_vocab - 1) => 0 ~ 1
net_in = net_in / float(n_vocab)
# 분류이므로 출력을 One-hot Vector로 만들어주어야 한다.
net_out = to_categorical(net_out)
print('shape of net_out : ', net_out.shape)

n_patterns :  450
shape of net_in :  (450, 100, 1)
shape of net_out :  (450, 35)


In [127]:
# 모델 구성
# 데이터의 Feature(특징) 수 or Dimension(차원)
data_dim = net_in.shape[2]
# GPU 환경 : CuDNNLSTM() / CPU 환경 : LSTM()
model = Sequential(name="Chopin_LSTM")
# return_sequences : True : Many to Many / False : Many to One
# seq_len : 입력으로 넣을 시계열 데이터의 길이 / data_dim : 각 데이터의 차원
model.add(LSTM(512, input_shape=(seq_len, data_dim), return_sequences=True))
# GPU / CUDA / CuDNN 이 없는 환경에선 CuDNNLSTM만 LSTM으로 바꾸어 쓰면 됩니다.
# model.add(LSTM(512, input_shape=(seq_len, data_dim), return_sequences=True))
model.add(Dropout(rate=0.3))
model.add(LSTM(512, return_sequences=True))
model.add(Dropout(rate=0.3))
model.add(LSTM(512))
model.add(Dense(256))
model.add(Dropout(rate=0.3))
model.add(Dense(n_vocab, activation='softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam')
model.summary()

Model: "Chopin_LSTM"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 lstm_2 (LSTM)               (None, 100, 512)          1052672   
                                                                 
 dropout_2 (Dropout)         (None, 100, 512)          0         
                                                                 
 lstm_3 (LSTM)               (None, 100, 512)          2099200   
                                                                 
 dropout_3 (Dropout)         (None, 100, 512)          0         
                                                                 
 lstm_4 (LSTM)               (None, 512)               2099200   
                                                                 
 dense_2 (Dense)             (None, 256)               131328    
                                                                 
 dropout_4 (Dropout)         (None, 256)               

In [128]:
model.fit(net_in, net_out, epochs=75, batch_size=64)

Epoch 1/75
Epoch 2/75
Epoch 3/75
Epoch 4/75
Epoch 5/75
Epoch 6/75
Epoch 7/75
Epoch 8/75
Epoch 9/75
Epoch 10/75
Epoch 11/75
Epoch 12/75
Epoch 13/75
Epoch 14/75
Epoch 15/75
Epoch 16/75
Epoch 17/75
Epoch 18/75
Epoch 19/75
Epoch 20/75
Epoch 21/75
Epoch 22/75
Epoch 23/75
Epoch 24/75
Epoch 25/75
Epoch 26/75
Epoch 27/75
Epoch 28/75
Epoch 29/75
Epoch 30/75
Epoch 31/75
Epoch 32/75
Epoch 33/75
Epoch 34/75
Epoch 35/75
Epoch 36/75
Epoch 37/75
Epoch 38/75
Epoch 39/75
Epoch 40/75
Epoch 41/75
Epoch 42/75
Epoch 43/75
Epoch 44/75
Epoch 45/75
Epoch 46/75
Epoch 47/75
Epoch 48/75
Epoch 49/75
Epoch 50/75
Epoch 51/75
Epoch 52/75
Epoch 53/75
Epoch 54/75
Epoch 55/75
Epoch 56/75
Epoch 57/75
Epoch 58/75
Epoch 59/75
Epoch 60/75
Epoch 61/75
Epoch 62/75
Epoch 63/75
Epoch 64/75
Epoch 65/75
Epoch 66/75
Epoch 67/75
Epoch 68/75
Epoch 69/75
Epoch 70/75
Epoch 71/75
Epoch 72/75
Epoch 73/75
Epoch 74/75
Epoch 75/75


<keras.src.callbacks.History at 0x187c4da7700>

In [129]:
# LSTM 모델이 작곡을 시작하기 위해 시작점으로써 랜덤한 시퀀스를 골라야 한다
# pattern : Dataset의 입력 전체 시퀀스 중 랜덤하게 고른 시퀀스
start = np.random.randint(0, len(net_in)-1)
pattern = net_in[start]
print('Random Sequence : ', pattern)
# int_to_note: 정수를 다시 Note로 바꾸기 위한 dictionary 자료형
int_to_note = dict((number, note) for number, note in enumerate(pitchnames))
print('int_to_note : ', int_to_note)

Random Sequence :  [[0.82857143]
 [0.85714286]
 [0.31428571]
 [0.82857143]
 [0.4       ]
 [0.31428571]
 [0.02857143]
 [0.25714286]
 [0.25714286]
 [0.22857143]
 [0.14285714]
 [0.8       ]
 [0.82857143]
 [0.6       ]
 [0.02857143]
 [0.6       ]
 [0.4       ]
 [0.82857143]
 [0.14285714]
 [0.05714286]
 [0.82857143]
 [0.28571429]
 [0.02857143]
 [0.28571429]
 [0.51428571]
 [0.11428571]
 [0.31428571]
 [0.51428571]
 [0.28571429]
 [0.02857143]
 [0.25714286]
 [0.28571429]
 [0.14285714]
 [0.2       ]
 [0.17142857]
 [0.62857143]
 [0.91428571]
 [0.2       ]
 [0.65714286]
 [0.8       ]
 [0.82857143]
 [0.94285714]
 [0.82857143]
 [0.91428571]
 [0.8       ]
 [0.82857143]
 [0.14285714]
 [0.11428571]
 [0.97142857]
 [0.51428571]
 [0.2       ]
 [0.82857143]
 [0.48571429]
 [0.14285714]
 [0.51428571]
 [0.91428571]
 [0.82857143]
 [0.8       ]
 [0.62857143]
 [0.11428571]
 [0.82857143]
 [0.62857143]
 [0.91428571]
 [0.8       ]
 [0.97142857]
 [0.82857143]
 [0.51428571]
 [0.82857143]
 [0.97142857]
 [0.91428571]
 