In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os
import warnings
import tensorflow as tf
from tqdm import tqdm
from glob import glob
from google.colab import drive

import librosa
import librosa.display as dsp
import IPython.display as ipd

warnings.filterwarnings(action='ignore')
drive.mount('/content/drive')

%cd '/content/drive/MyDrive/deep-voice/data/'

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
/content/drive/MyDrive/deep-voice/data


In [None]:
import torch

device = torch.device('cuda') if torch.cuda.is_available() else torch.device('cpu') #GPU 할당

In [None]:
import random

def seed_everything(seed):
    random.seed(seed)
    os.environ['PYTHONHASHSEED'] = str(seed)
    np.random.seed(seed)
    tf.random.set_seed(seed)

seed_everything(813)

In [None]:
# 저장된 데이터 불러오기
X_train_mfcc = np.load('X_train_mfcc.npy')
X_val_mfcc = np.load('X_val_mfcc.npy')
y_train = np.load('y_train.npy')
y_val = np.load('y_val.npy')

## LSTM

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense

# MFCC 등의 데이터를 위한 LSTM 모델 정의
# input_shape=(시간 단계 수, 특성 수)

model = Sequential([
    LSTM(50, input_shape=(100, 2970), return_sequences=True),
    LSTM(50),
    Dense(10, activation='softmax')
])

model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# 모델 요약 출력
model.summary()

Model: "sequential_2"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 lstm_3 (LSTM)               (None, 100, 50)           604200    
                                                                 
 lstm_4 (LSTM)               (None, 50)                20200     
                                                                 
 dense_2 (Dense)             (None, 10)                510       
                                                                 
Total params: 624910 (2.38 MB)
Trainable params: 624910 (2.38 MB)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________


In [None]:
from tensorflow.keras.callbacks import EarlyStopping

# EarlyStopping 콜백 정의
early_stopping = EarlyStopping(
    monitor='val_loss',
    patience=3,
    verbose=1,
    mode='min',
    restore_best_weights=True
)

# 모델 훈련
history = model.fit(
    X_train_mfcc, y_train,
    epochs=10,
    batch_size=32,
    validation_data=(X_val_mfcc, y_val),
    callbacks=[early_stopping]
)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


## CNN-LSTM

In [None]:
from tensorflow.keras.layers import Conv1D, MaxPooling1D, LSTM, Bidirectional, Dropout, Dense, Input
from tensorflow.keras.models import Sequential
from tensorflow_addons.layers import GroupNormalization

model = Sequential()

# Conv1D 레이어 추가. input_shape의 마지막 차원을 2970으로 설정
model.add(Conv1D(filters=64, kernel_size=3, activation='relu', input_shape=(100, 2970)))
model.add(MaxPooling1D(pool_size=2))
model.add(Conv1D(filters=128, kernel_size=3, activation='relu'))
model.add(MaxPooling1D(pool_size=2))

# LSTM 레이어 추가
model.add(LSTM(50))

# 분류를 위한 완전 연결 레이어 및 출력 레이어 추가
model.add(Dense(10, activation='softmax'))

# 모델 컴파일
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

In [None]:
from tensorflow.keras.callbacks import EarlyStopping

# EarlyStopping 콜백 정의
early_stopping = EarlyStopping(
    monitor='val_loss',  # 관찰할 값
    patience=3,          # 성능 향상이 없는 에폭을 몇 번이나 허용할 것인가
    verbose=1,           # 진행 상황을 출력
    mode='min',          # 'min' 모드는 관찰하는 값의 감소가 멈추면 훈련을 중단
    restore_best_weights=True  # 가장 좋은 모델의 가중치를 복원
)

# 모델 훈련
history = model.fit(
    X_train_mfcc, y_train,
    epochs=10,
    batch_size=32,
    validation_data=(X_val_mfcc, y_val),
    callbacks=[early_stopping]  # 콜백 리스트에 early_stopping 추가
)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


## Bi-LSTM

In [None]:
import numpy as np
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Bidirectional, Dropout, Dense
from tensorflow_addons.layers import GroupNormalization

model = Sequential()

model.add(Bidirectional(LSTM(512, input_shape=(X_train_mfcc.shape[1], 1))))
model.add(GroupNormalization())
model.add(Dropout(0.8))
model.add(Dense(1, activation='sigmoid'))

model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'], run_eagerly=True)

In [None]:
from tensorflow.keras.callbacks import EarlyStopping

# EarlyStopping 콜백 정의
early_stopping = EarlyStopping(
    monitor='val_loss',  # 관찰할 값
    patience=3,          # 성능 향상이 없는 에폭을 몇 번이나 허용할 것인가
    verbose=1,           # 진행 상황을 출력
    mode='min',          # 'min' 모드는 관찰하는 값의 감소가 멈추면 훈련을 중단
    restore_best_weights=True  # 가장 좋은 모델의 가중치를 복원
)

# 모델 훈련
history = model.fit(
    X_train_mfcc, y_train,
    epochs=10,
    batch_size=32,
    validation_data=(X_val_mfcc, y_val),
    callbacks=[early_stopping]  # 콜백 리스트에 early_stopping 추가
)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 7: early stopping


## CNN-BiLSTM

In [None]:
!pip install tensorflow-addons

Collecting tensorflow-addons
  Downloading tensorflow_addons-0.23.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (611 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/611.8 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m604.2/611.8 kB[0m [31m18.0 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m611.8/611.8 kB[0m [31m13.8 MB/s[0m eta [36m0:00:00[0m
Collecting typeguard<3.0.0,>=2.7 (from tensorflow-addons)
  Downloading typeguard-2.13.3-py3-none-any.whl (17 kB)
Installing collected packages: typeguard, tensorflow-addons
Successfully installed tensorflow-addons-0.23.0 typeguard-2.13.3


In [None]:
from tensorflow.keras.layers import Conv1D, MaxPooling1D, LSTM, Bidirectional, Dropout, Dense, Input
from tensorflow.keras.models import Sequential
from tensorflow_addons.layers import GroupNormalization

model = Sequential()

# Conv1D 레이어 추가. input_shape의 마지막 차원을 2970으로 설정
model.add(Conv1D(filters=64, kernel_size=3, activation='relu', input_shape=(100, 2970)))
model.add(MaxPooling1D(pool_size=2))
model.add(Conv1D(filters=128, kernel_size=3, activation='relu'))
model.add(MaxPooling1D(pool_size=2))
# LSTM 레이어 전에 데이터의 차원을 맞추기 위해 필요한 경우 Flatten 레이어 또는 GlobalMaxPooling1D 레이어를 추가할 수 있습니다.
# 이 예시에서는 데이터가 시퀀스이므로, Flatten 대신 Bidirectional LSTM을 직접 사용합니다.
model.add(Bidirectional(LSTM(512)))
model.add(GroupNormalization())
model.add(Dropout(0.8))
model.add(Dense(1, activation='sigmoid'))

model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'], run_eagerly=True)

In [None]:
from tensorflow.keras.callbacks import EarlyStopping

# EarlyStopping 콜백 정의
early_stopping = EarlyStopping(
    monitor='val_loss',  # 관찰할 값
    patience=3,          # 성능 향상이 없는 에폭을 몇 번이나 허용할 것인가
    verbose=1,           # 진행 상황을 출력
    mode='min',          # 'min' 모드는 관찰하는 값의 감소가 멈추면 훈련을 중단
    restore_best_weights=True  # 가장 좋은 모델의 가중치를 복원
)

# 모델 훈련
history = model.fit(
    X_train_mfcc, y_train,
    epochs=10,
    batch_size=32,
    validation_data=(X_val_mfcc, y_val),
    callbacks=[early_stopping]  # 콜백 리스트에 early_stopping 추가
)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 4: early stopping


## RNN

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import SimpleRNN, Dense

# RNN 모델 정의
model = Sequential([
    SimpleRNN(50, input_shape=(100, 2970), return_sequences=True),
    SimpleRNN(50),
    # 10개의 출력 클래스에 대한 Dense 레이어. 분류를 위해 softmax 활성화 함수를 사용합니다.
    Dense(10, activation='softmax')
])

model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

# 모델 요약
model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 simple_rnn (SimpleRNN)      (None, 100, 50)           151050    
                                                                 
 simple_rnn_1 (SimpleRNN)    (None, 50)                5050      
                                                                 
 dense (Dense)               (None, 10)                510       
                                                                 
Total params: 156610 (611.76 KB)
Trainable params: 156610 (611.76 KB)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________


In [None]:
from tensorflow.keras.callbacks import EarlyStopping

# EarlyStopping 콜백 정의
early_stopping = EarlyStopping(
    monitor='val_loss',  # 관찰할 값
    patience=3,          # 성능 향상이 없는 에폭을 몇 번이나 허용할 것인가
    verbose=1,           # 진행 상황을 출력
    mode='min',          # 'min' 모드는 관찰하는 값의 감소가 멈추면 훈련을 중단
    restore_best_weights=True  # 가장 좋은 모델의 가중치를 복원
)

# 모델 훈련
history = model.fit(
    X_train_mfcc, y_train,
    epochs=10,
    batch_size=32,
    validation_data=(X_val_mfcc, y_val),
    callbacks=[early_stopping]  # 콜백 리스트에 early_stopping 추가
)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


## GRU

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import GRU, Dense

# 모델 정의
model = Sequential([
    GRU(50, input_shape=(100, 2970), return_sequences=True),  # LSTM 대신 GRU 사용
    GRU(50),  # 여기도 동일하게 GRU 사용
    Dense(10, activation='softmax')
])

model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# 모델 요약
model.summary()

Model: "sequential_3"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 gru (GRU)                   (None, 100, 50)           453300    
                                                                 
 gru_1 (GRU)                 (None, 50)                15300     
                                                                 
 dense_3 (Dense)             (None, 10)                510       
                                                                 
Total params: 469110 (1.79 MB)
Trainable params: 469110 (1.79 MB)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________


In [None]:
from tensorflow.keras.callbacks import EarlyStopping

# EarlyStopping 콜백 정의
early_stopping = EarlyStopping(
    monitor='val_loss',  # 관찰할 값
    patience=3,          # 성능 향상이 없는 에폭을 몇 번이나 허용할 것인가
    verbose=1,           # 진행 상황을 출력
    mode='min',          # 'min' 모드는 관찰하는 값의 감소가 멈추면 훈련을 중단
    restore_best_weights=True  # 가장 좋은 모델의 가중치를 복원
)

# 모델 훈련
history = model.fit(
    X_train_mfcc, y_train,
    epochs=10,
    batch_size=32,
    validation_data=(X_val_mfcc, y_val),
    callbacks=[early_stopping]  # 콜백 리스트에 early_stopping 추가
)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 9: early stopping


## Bi-GRU

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Bidirectional, GRU, Dense

# 모델 정의
model = Sequential([
    Bidirectional(GRU(50, return_sequences=True), input_shape=(100, 2970)),  # 첫 번째 GRU 레이어를 양방향으로 설정
    Bidirectional(GRU(50)),  # 두 번째 GRU 레이어도 양방향으로 설정
    Dense(10, activation='softmax')
])

model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# 모델 요약
model.summary()

Model: "sequential_4"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 bidirectional (Bidirection  (None, 100, 100)          906600    
 al)                                                             
                                                                 
 bidirectional_1 (Bidirecti  (None, 100)               45600     
 onal)                                                           
                                                                 
 dense_2 (Dense)             (None, 10)                1010      
                                                                 
Total params: 953210 (3.64 MB)
Trainable params: 953210 (3.64 MB)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________


In [None]:
from tensorflow.keras.callbacks import EarlyStopping

# EarlyStopping 콜백 정의
early_stopping = EarlyStopping(
    monitor='val_loss',  # 관찰할 값
    patience=3,          # 성능 향상이 없는 에폭을 몇 번이나 허용할 것인가
    verbose=1,           # 진행 상황을 출력
    mode='min',          # 'min' 모드는 관찰하는 값의 감소가 멈추면 훈련을 중단
    restore_best_weights=True  # 가장 좋은 모델의 가중치를 복원
)

# 모델 훈련
history = model.fit(
    X_train_mfcc, y_train,
    epochs=10,
    batch_size=32,
    validation_data=(X_val_mfcc, y_val),
    callbacks=[early_stopping]  # 콜백 리스트에 early_stopping 추가
)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 8: early stopping
