In [9]:
import os
import numpy as np
import pandas as pd
import librosa
from IPython.display import clear_output

#声優の声データからMFCC（声の特徴量）を抽出し、表にまとめる。

X_data = []  # 特徴行列
y_data = []  # クラスラベルデータ
speakers_number = 7 # 声優の人数
files_number = 100 # 一人あたりのサンプルの数

for speaker_num in range(1, speakers_number + 1):  # 声優フォルダの数だけ繰り返し処理
    clear_output()
    # ボイスサンプルがあるフォルダ名
    dir_name = f'VoiceSample/{str(speaker_num).zfill(3)}'
    file_list = os.listdir(dir_name)
    for i in range(files_number):
        clear_output()
        print(f"{int((i+(speaker_num-1)*files_number)/(files_number*speakers_number)*100)}%完了")
        print(str(speaker_num) + "人目のデータを処理中・・・")
        print(f"（進行度:{i+1}/{files_number}ファイル）" )
        file_path = os.path.join(dir_name, file_list[i])  # 音声ファイルへのパス
        y, sr = librosa.load(file_path)  # 音声ファイルを読み込む
        mfcc = librosa.feature.mfcc(y, sr)  # MFCC
        mfcc = np.average(mfcc, axis=1)  # 時間平均を取る
        mfcc = mfcc.flatten()
        mfcc = mfcc.tolist()
        mfcc = mfcc[1:13]  # 低次の係数を取り出す（12次まで取り出すことが多い）
        X_data.append(mfcc)
        y_data.append(speaker_num)

X = pd.DataFrame(X_data, columns=[f'mfcc_{n}' for n in range(1, 13)]) # mfcc_1,mfcc_2,..のように行のタイトルをつける
y = pd.DataFrame({'target': y_data}) # targetタイトルを追加

df = pd.concat([X, y], axis=1) # 合体！！！！！！
df.to_csv('mfcc.csv', index=False)  # csvで保存
df.head() # 見せてほしいな

99%完了
7人目のデータを処理中・・・
（進行度:100/100ファイル）


 -1.4371163e-06  0.0000000e+00], sr=22050 as keyword args. From version 0.10 passing these as positional arguments will result in an error
  mfcc = librosa.feature.mfcc(y, sr)  # MFCC


Unnamed: 0,mfcc_1,mfcc_2,mfcc_3,mfcc_4,mfcc_5,mfcc_6,mfcc_7,mfcc_8,mfcc_9,mfcc_10,mfcc_11,mfcc_12,target
0,79.305939,-2.38898,28.821922,8.106466,-7.335474,-5.098837,2.708056,1.108589,-6.039336,-11.022418,8.562423,-8.20808,1
1,46.389778,15.316972,29.470976,15.136189,7.453907,-4.679848,6.583255,-3.255087,2.03028,-12.806031,9.289038,-7.932013,1
2,97.034988,19.946007,42.861015,15.739766,-5.527338,0.597292,3.899351,-1.708565,-6.449223,-6.76359,11.951451,-12.204566,1
3,84.402969,14.758104,36.634586,19.574112,-5.123018,-3.361386,4.112405,-0.293475,-1.69962,-10.678855,12.195671,-13.85266,1
4,94.733459,15.617436,38.703354,16.677921,-3.071551,-1.83064,5.379351,0.13902,-8.512769,-13.017569,8.190866,-15.577478,1


機械学習で解決する対象の問題には分類問題と回帰問題の二種類がある。
分類問題はあるデータからそのデータがどのタイプに属するかを予測する。例えば、レストランの客のデータからその人がそのレストランを好きか嫌いかを予測する場合は分類問題である。
回帰問題はあるデータからある値を予測する。例えば、レストランの客のデータからその人がそのレストランにあと何回訪れるかを予測する場合は回帰問題である。
pycaretでは分類問題を扱う場合はclassification, 回帰問題を扱う場合はregressionを使用する。（この違いがわかっていなかったため我々は最初regressionでしてしまっていた）


In [15]:

import pandas as pd
from pycaret.classification import *

# 機械学習前の下準備を行う。以下、Pycaretの関数を使う場合このセルを実行してから使うこと
print("機械学習の準備中・・・")

mfcc_data = pd.read_csv("mfcc.csv") # MFCCのデータを読み込む
# データの前準備(以下、Pycaretの関数を使う場合setupを呼び出してから使うこと)
reg = setup(data=mfcc_data, target='target', data_split_shuffle=True, silent=True, use_gpu=True, fold=5, n_jobs=-1)

print("準備完了")

Unnamed: 0,Description,Value
0,session_id,5667
1,Target,target
2,Target Type,Multiclass
3,Label Encoded,
4,Original Data,"(700, 13)"
5,Missing Values,False
6,Numeric Features,12
7,Categorical Features,0
8,Ordinal Features,False
9,High Cardinality Features,False


準備完了


In [18]:
# 機械学習のモデルを複数比較し、精度が高かったモデルを表示する。
print("最適モデルを検索中・・・")

compare_models()

Unnamed: 0,Model,Accuracy,AUC,Recall,Prec.,F1,Kappa,MCC,TT (Sec)
et,Extra Trees Classifier,0.6789,0.9246,0.6789,0.6895,0.6754,0.6252,0.6281,1.912
qda,Quadratic Discriminant Analysis,0.6688,0.9276,0.6681,0.6933,0.6715,0.6131,0.6161,0.096
rf,Random Forest Classifier,0.6544,0.92,0.6542,0.6677,0.651,0.5965,0.5991,1.882
lightgbm,Light Gradient Boosting Machine,0.6502,0.916,0.6495,0.6554,0.6475,0.5916,0.5934,2.348
lr,Logistic Regression,0.6482,0.918,0.6468,0.6549,0.6431,0.5891,0.5916,1.798
lda,Linear Discriminant Analysis,0.6422,0.9136,0.6402,0.6523,0.6399,0.5819,0.584,0.122
ridge,Ridge Classifier,0.6258,0.0,0.6234,0.6413,0.6207,0.5627,0.5659,0.142
gbc,Gradient Boosting Classifier,0.6155,0.9,0.614,0.6297,0.613,0.551,0.5532,3.536
knn,K Neighbors Classifier,0.6032,0.8751,0.6018,0.6085,0.5967,0.5366,0.5394,0.164
nb,Naive Bayes,0.5848,0.8886,0.5857,0.5886,0.5799,0.5152,0.5174,0.096


ExtraTreesClassifier(bootstrap=False, ccp_alpha=0.0, class_weight=None,
                     criterion='gini', max_depth=None, max_features='auto',
                     max_leaf_nodes=None, max_samples=None,
                     min_impurity_decrease=0.0, min_impurity_split=None,
                     min_samples_leaf=1, min_samples_split=2,
                     min_weight_fraction_leaf=0.0, n_estimators=100, n_jobs=-1,
                     oob_score=False, random_state=5667, verbose=0,
                     warm_start=False)

In [25]:
from pycaret.classification import *
# 最も精度が高かったモデルを生成
tuned_model = False

print("モデルを作成中・・・")
model = create_model('qda', verbose=False) # モデルを生成
print("モデルを調整中・・・")
tuned_model = tune_model(model, optimize="Accuracy") # モデルを調整...すると精度落ちるの何...しないほうがいいのか？
print("テストデータで予測中・・・")
predict_data = predict_model(tuned_model or model, raw_score=True) # 既存のデータで予測 raw_scoreをTrueにしないとIndexErrorが出る（おそらく0ではなく1から始めているから）
predict_data.to_csv('predict_result.csv', index=False)  # csvで保存
print("モデルを保存中・・・")
final_model = finalize_model(model)
save_model(final_model,'Final Model')#モデルを保存


モデルを作成中・・・


In [22]:
from pycaret.regression import *

final_model = load_model('Final Model') # モデルの読み込み

Transformation Pipeline and Model Successfully Loaded


In [3]:
import sounddevice as sd
import wave
import numpy as np

#音声を録音

FILE_NAME = 'my_recording.wav'  # 保存するファイル名
wave_length = 5  # 録音する長さ（秒）
sample_rate = 16_000  # サンプリング周波数

print("録音開始")
# 録音開始（wave_length秒間録音。wait で録音し終わるまで待つ）
data = sd.rec(int(wave_length * sample_rate), sample_rate, channels=1)
sd.wait()
print("録音終了")

# ノーマライズ。量子化ビット16bitで録音するので int16 の範囲で最大化する
data = data / data.max() * np.iinfo(np.int16).max

# float -> int
data = data.astype(np.int16)

# ファイル保存
with wave.open(FILE_NAME, mode='wb') as wb:
    wb.setnchannels(1)  # モノラル
    wb.setsampwidth(2)  # 16bit=2byte
    wb.setframerate(sample_rate)
    wb.writeframes(data.tobytes())  # バイト列に変換

録音開始
録音終了


  data = data / data.max() * np.iinfo(np.int16).max


MFCCを抽出しています・・・
処理完了


  mfcc = librosa.feature.mfcc(y, sr)  # MFCC


In [18]:
import pandas as pd
import librosa
import numpy as np

###MFCCを抽出###
print("MFCCを抽出しています・・・")

data = []
TEST_FILE_NAME = "TestSample/hanae2.wav"

test = True

y, sr = librosa.load(TEST_FILE_NAME if test else FILE_NAME)  # 音声ファイルを読み込む
mfcc = librosa.feature.mfcc(y, sr)  # MFCC
mfcc = np.average(mfcc, axis=1)  # 時間平均を取る
mfcc = mfcc.flatten()
mfcc = mfcc.tolist()
mfcc = mfcc[1:13]  # 低次の係数を取り出す（12次まで取り出すことが多い）
data.append(mfcc)

df = pd.DataFrame(data, columns=[f'mfcc_{n}' for n in range(1, 13)])

df.to_csv('mfcc_my_recording.csv', index=False)  # csvで保存
df.head()


MFCCを抽出しています・・・


Unnamed: 0,mfcc_1,mfcc_2,mfcc_3,mfcc_4,mfcc_5,mfcc_6,mfcc_7,mfcc_8,mfcc_9,mfcc_10,mfcc_11,mfcc_12
0,69.788544,-11.775072,20.867018,-1.403565,2.142157,-3.157141,4.668924,-11.96955,8.3155,-12.742859,4.376723,-9.088756


In [19]:
from decimal import Decimal, ROUND_HALF_UP, ROUND_HALF_EVEN
from pycaret.classification import *

#録音した音声データからどの声優に似ているかを特定

actors = ["下野紘", "花江夏樹", "梶裕貴", "沢城みゆき", "鬼頭明里", "水瀬いのり", "悠木碧"]

predict_my_recording = predict_model(final_model, data = pd.read_csv("mfcc_my_recording.csv"), raw_score=True) # 未知データを予測
predict_label = predict_my_recording.at[0, "Label"] # 予測データを取得（小数点数）
voice_actor_number = Decimal(str(predict_label)).quantize(Decimal('0'), rounding=ROUND_HALF_UP) # 整数に四捨五入
print("あなたの声は" + actors[int(voice_actor_number-1)] + "に似ています。")
print("予測値：" + str(predict_label))

あなたの声は梶裕貴に似ています。
予測値：2.72


In [12]:
import os
import numpy as np
import pandas as pd
import librosa
from IPython.display import clear_output

#声優の声データからMFCC（声の特徴量）を抽出し、表にまとめる。

X_data = []  # 特徴行列
y_data = [] #正解データ
speakers_number = 7 # 声優の人数
files_number = 5 #声優一人あたりのファイル数

for speaker_num in range(1, speakers_number + 1):  # 声優フォルダの数だけ繰り返し処理
    # ボイスサンプルがあるフォルダ名
    dir_name = f'TestSample/{str(speaker_num).zfill(3)}'
    file_list = os.listdir(dir_name)
    for i in range(files_number):
        clear_output()
        print(f"{int((i+(speaker_num-1)*files_number)/(files_number*speakers_number)*100)}%完了")
        print(str(speaker_num) + "人目のデータを処理中・・・")
        print(f"（進行度:{i+1}/{files_number}ファイル）" )
        file_path = os.path.join(dir_name, file_list[i])  # 音声ファイルへのパス
        y, sr = librosa.load(file_path)  # 音声ファイルを読み込む
        mfcc = librosa.feature.mfcc(y, sr)  # MFCC
        mfcc = np.average(mfcc, axis=1)  # 時間平均を取る
        mfcc = mfcc.flatten()
        mfcc = mfcc.tolist()
        mfcc = mfcc[1:13]  # 低次の係数を取り出す（12次まで取り出すことが多い）
        X_data.append(mfcc)
        y_data.append(speaker_num)

X = pd.DataFrame(X_data, columns=[f'mfcc_{n}' for n in range(1, 13)]) # mfcc_1,mfcc_2,..のように行のタイトルをつける
y = pd.DataFrame({'target': y_data}) # targetタイトルを追加

df = pd.concat([X, y], axis=1) # 合体！！！！！！
df.to_csv('mfcc_test.csv', index=False)  # csvで保存
df.head() # 見せてほしいな

97%完了
7人目のデータを処理中・・・
（進行度:5/5ファイル）


Unnamed: 0,mfcc_1,mfcc_2,mfcc_3,mfcc_4,mfcc_5,mfcc_6,mfcc_7,mfcc_8,mfcc_9,mfcc_10,mfcc_11,mfcc_12,target
0,89.854706,-31.997887,12.693557,-29.897905,-16.435675,10.097263,-10.542906,-15.123045,5.795758,-8.611896,0.519723,-10.887338,1
1,105.534164,-11.824575,10.217061,-14.117543,-3.250483,4.531518,-5.930699,-7.808257,-3.621863,-5.966825,-0.453862,-9.943279,1
2,66.256157,-18.655266,7.012568,-17.758539,-11.117631,-4.53339,-2.13579,-12.569884,-7.42607,-10.507728,4.370224,-8.212628,1
3,94.860344,-28.643112,25.388968,-13.913021,-23.349354,9.038929,-3.680444,-13.658933,0.653204,-6.488894,0.443329,-6.026492,1
4,83.032448,-16.793745,5.775783,-16.877428,3.212919,7.549091,1.590214,-6.595149,4.606917,-3.214453,5.369852,-7.582598,1


In [24]:
from decimal import Decimal, ROUND_HALF_UP, ROUND_HALF_EVEN
from pycaret.classification import *
import numpy as np
import pandas as pd

actors = ["下野紘", "花江夏樹", "梶裕貴", "沢城みゆき", "鬼頭明里", "水瀬いのり", "悠木碧"]
speakers_number = 7

final_model = load_model('Final Model')
results = []
count = 0 #正解数
total = 0 #総数

predict_data = predict_model(final_model, data = pd.read_csv("mfcc_test.csv"),raw_score=True) # 未知データを予測

for predict_result, target in zip(predict_data["Label"], predict_data["target"]):
    voice_actor_number = Decimal(str(predict_result)).quantize(Decimal('0'), rounding=ROUND_HALF_UP) # 整数に四捨五入
    result = [actors[int(voice_actor_number-1)], predict_result, f'{actors[target-1]}({target})']
    if voice_actor_number == target:
        count = count + 1
    total = total + 1
    results.append(result)

accuracy = count / total
print(f"正答率{int(accuracy*100)}%")
df = pd.DataFrame(results, columns=["予想した声優", "予測値", "正解値"])
df.to_csv("test_result.csv", index=False)
df.head()

Transformation Pipeline and Model Successfully Loaded


Unnamed: 0,Model,Accuracy,AUC,Recall,Prec.,F1,Kappa,MCC
0,Quadratic Discriminant Analysis,0.4571,0.8219,0.4571,0.5039,0.463,0.3667,0.372


正答率45%


Unnamed: 0,予想した声優,予測値,正解値
0,花江夏樹,2,下野紘(1)
1,下野紘,1,下野紘(1)
2,下野紘,1,下野紘(1)
3,花江夏樹,2,下野紘(1)
4,花江夏樹,2,下野紘(1)
