In [2]:
import os
import numpy as np
import pickle
from tqdm import tqdm
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

## load tokenizer if already saved. else ignore the next 3 cells

In [4]:
def load_tokenizer(file):
    with open(file, 'rb') as f:
        data = pickle.load(f)
        tokenizer = data['tokenizer']
    return tokenizer

In [3]:
tokenizer_lyr = load_tokenizer("tokenizers/tokenizer_lyr.pkl")
tokenizer_note = load_tokenizer("tokenizers/tokenizer_note.pkl")
tokenizer_duration = load_tokenizer("tokenizers/tokenizer_duration.pkl")
tokenizer_rest = load_tokenizer("tokenizers/tokenizer_rest.pkl")

In [4]:
notes_size = len(tokenizer_note.word_index) + 1
durations_size = len(tokenizer_duration.word_index) + 1
rests_size = len(tokenizer_rest.word_index) + 1

notes_size, durations_size, rests_size

(110, 22, 11)

In [5]:
tf.random.set_seed(42)

In [34]:
songs_path = '/home/kie/1_ju/music/melody-conditioned-lyrics-generation-main/npy_file_new'
songs = os.listdir(songs_path)

In [35]:
max_len = 200

In [36]:
features = []
for song in tqdm(songs):
    features.append(np.load(f"{songs_path}/{song}", allow_pickle=True))

100%|██████████| 1867/1867 [00:01<00:00, 1394.55it/s]


In [6]:
lyrics =[]
for i in range(0, 1867):
  lyrics.append(features[int(i)][0][2])

In [37]:
lyrics_list = []
for lyric in lyrics :
    l = "BOS " + " ".join(lyric[:max_len]) + " EOS"
    lyrics_list.append(l)
lyrics_list

['BOS 하루 만 니 방 의 침대 가 되고싶어 오 아기 더 따스히 포근히 내 품 에 감싸 안고 재우고 싶어 아주 작은 뒤척 임도 너 의 조그만 속삭임 에 난 꿈속 의 괴물 도 이겨내 버릴 텐데 내 가 없는 너 의 하룬 어떻게 흘러가는 건지 나를 얼마나 사랑 하는지 난 너무나 궁금한데 궁금해 너 의 작은 서랍 속 의 일기장 이 되고 싶어 알 수 없는 너 의 그 비밀 도 내 맘속 에 담아 둘 래 너 몰래 하루 만 너 의 고양이 가 되고싶어 오 아기 니 가 주는 맛있는 우유 와 부드러운 니 품안에서 움직이는 장난 에도 장난 에도 너 의 귀여운 입맞춤 에 나도 몰래 질투 를 느끼고 있었나 봐 내 마음 이 이런 거야 너 밖엔 볼 수 없는 거지 누구 를 봐도 어디 있어도 난 너 만 바라 보잖아 보잖아 단 하루 만 아주 친한 너 의 애인 이 되고 싶어 너 의 자랑 도 때론 투 정도 다 들을 수 있을 텐데 널 위해 안 에 나 의 마음 안 에 나 의 영혼 나 에게 사랑 이란 아직 어색하지만 음 음 아기 이 세상 모든 걸 너 에게 주고싶어 꿈 에서라도 내 마음 이 이런 거야 지켜 볼수만 있어도 너무 감사해 EOS',
 'BOS 여기 요 아니요 문제 어디 너 가다 그 어딜 봐도 그만큼 예쁜 소녀 들 이다 AOA 너 알다 나 알다 너 알다 나 알다 나 는 좋은 나 는 더운 나 는 신선한 나 는 파리 용감한 소리 나 같은 애 첨 봤대 본 순간 느낌 왔대 수많은 사람 그 속 에서도 유별나게도 난 빛 이 났대 날 따라 돌아가는 고개 나로 꽉 차 버린 두 눈 에 말 을 걸까 말까 망설이는 모습 너무 귀여워 햇살 은 나를 비추는 스포트라이트 빛 빛 빛 나 만이 그대 머릿 속 에 표제 라인 라인 라인 꿈 을 꿔도 내 가 보이 게 될 거야 고민 은 중지 그것 다가와 아기 오다 에 너 에게 사뿐사뿐 걸어가 장미꽃 을 꺾어서 그대 에게 안겨줄 거야 깜짝 놀래 줄 거야 사뿐사뿐 걸어가 그대 가 잠들었을 때 살며시 안아줄 거야 깜짝 놀래 줄 거야 그만큼 그만큼 그만큼 그만큼 그만큼 그만큼 그만큼 그

In [38]:
midis=[]
for i in range(0, 1867):
  midis.append(features[int(i)][0][1])

In [62]:
notes_list, durations_list, rests_list = [], [], []

for i in midis:
    note=[]
    duration=[]
    rest=[]
    for j in i:
        note.append(j[0])
        duration.append(j[1])
        rest.append(j[2])
    note_str = "BOS " + " ".join([str(n) for n in note[:max_len]]) + " EOS"
    duration_str = "BOS " + " ".join([str(d) for d in duration[:max_len]]) + " EOS"
    rest_str = "BOS " + " ".join([str(r) for r in rest[:max_len]]) + " EOS"
    notes_list.append(note_str)
    durations_list.append(duration_str)
    rests_list.append(rest_str)

In [9]:
###
lyrics = np.array(features)[:, :, 2]
midis = np.array(features)[:, :, 1]

In [10]:
###
lyrics_list = []
for lyric in tqdm(lyrics):
    l = "BOS " + " ".join(lyric[0][:max_len]) + " EOS"
    lyrics_list.append(l)

notes_list, durations_list, rests_list = [], [], []
for midi in tqdm(midis):
    note = np.array(midi[0])[:, 0]
    duration = np.array(midi[0])[:, 1]
    rest = np.array(midi[0])[:, 2]
    
    note_str = "BOS " + " ".join([str(n) for n in note[:max_len]]) + " EOS"
    duration_str = "BOS " + " ".join([str(d) for d in duration[:max_len]]) + " EOS"
    rest_str = "BOS " + " ".join([str(r) for r in rest[:max_len]]) + " EOS"
    
    notes_list.append(note_str)
    durations_list.append(duration_str)
    rests_list.append(rest_str)

100%|██████████| 7597/7597 [00:00<00:00, 294465.65it/s]
100%|██████████| 7597/7597 [00:03<00:00, 2026.59it/s]


In [68]:
# create lyric sequences
tokenizer_lyr = Tokenizer(num_words=10000, oov_token="oov")
tokenizer_lyr.fit_on_texts(lyrics_list)

pad_id_lyr = tokenizer_lyr.word_index["eos"]
start_id_lyr = tokenizer_lyr.word_index["bos"]

sequences_lyr = tokenizer_lyr.texts_to_sequences(lyrics_list)
sequences_lyr = pad_sequences(sequences_lyr, maxlen=max_len+2, truncating='post', padding='post', value=pad_id_lyr)

# create note sequences
tokenizer_note = Tokenizer(filters="")
tokenizer_note.fit_on_texts(notes_list)

pad_id_note = tokenizer_note.word_index["eos"]
start_id_note = tokenizer_note.word_index["bos"]

sequences_note = tokenizer_note.texts_to_sequences(notes_list)
sequences_note = pad_sequences(sequences_note, truncating='post', padding='post', value=pad_id_note)

# create duration sequences
tokenizer_duration = Tokenizer(filters="")
tokenizer_duration.fit_on_texts(durations_list)

pad_id_duration = tokenizer_duration.word_index["eos"]
start_id_duration = tokenizer_duration.word_index["bos"]

sequences_duration = tokenizer_duration.texts_to_sequences(durations_list)
sequences_duration = pad_sequences(sequences_duration, truncating='post', padding='post', value=pad_id_duration)

# create rest sequences
tokenizer_rest = Tokenizer(filters="")
tokenizer_rest.fit_on_texts(rests_list)

pad_id_rest = tokenizer_rest.word_index["eos"]
start_id_rest = tokenizer_rest.word_index["bos"]

sequences_rests = tokenizer_rest.texts_to_sequences(rests_list)
sequences_rests = pad_sequences(sequences_rests, truncating='post', padding='post', value=pad_id_rest)

In [71]:
sequences_lyr = np.expand_dims(sequences_lyr, axis=2)
sequences_note = np.expand_dims(sequences_note, axis=2)
sequences_duration = np.expand_dims(sequences_duration, axis=2)
sequences_rests = np.expand_dims(sequences_rests, axis=2)

sequences = np.concatenate([sequences_lyr, sequences_note, sequences_duration, sequences_rests], axis=2)
sequences.shape

(1867, 202, 4)

In [72]:
if not os.path.exists("tokenizers"):
    os.mkdir("tokenizers")
    
if not os.path.exists("data"):
    os.mkdir("data")

In [73]:
np.save("data/sequences.npy", sequences)

In [74]:
def save_tokenizer(file, tokenizer):
    with open(file, 'wb') as handle:
        pickle.dump({'tokenizer': tokenizer}, handle)

In [75]:
save_tokenizer("tokenizers/tokenizer_lyr.pkl", tokenizer_lyr)
save_tokenizer("tokenizers/tokenizer_note.pkl", tokenizer_note)
save_tokenizer("tokenizers/tokenizer_duration.pkl", tokenizer_duration)
save_tokenizer("tokenizers/tokenizer_rest.pkl", tokenizer_rest)