In [5]:
import csv
import librosa
import librosa.display
import IPython.display as ipd
import numpy as np
from scipy.fftpack import dct 
import scipy.io.wavfile
import scipy.signal
from scipy import signal
import warnings
from scipy.io.wavfile import WavFileWarning
import soundfile as sf

###########################################################


###-----------------Zero-crossings

def ZCR(audio_file):
    # đọc file audio
    audio, _ = sf.read(audio_file)

    # Convert snag kênh mono
    if len(audio.shape) > 1:
        audio = np.mean(audio, axis=1)

    # tính ZCR
    zcr = 0
    for i in range(1, len(audio)):
        if (audio[i-1] >= 0 and audio[i] < 0) or (audio[i-1] < 0 and audio[i] >= 0):
            zcr += 1
    return zcr


###-----------------average-Energy

def AE(audio_file):
    # Đọc file âm thanh
    audio, sr = librosa.load(audio_file, sr=None)

    # Chia file âm thanh thành các frame có độ dài 2048 mẫu (khoảng 46ms với tỉ lệ mẫu 44100Hz)
    frame_length = int(2048 * sr / 44100)
    hop_length = frame_length // 2  # Đặt hop_length bằng một nửa frame_length
    frames = librosa.util.frame(audio, frame_length=frame_length, hop_length=hop_length)

    # Tính toán năng lượng của mỗi frame
    energies = []
    for frame in frames.T:
        energy = sum(frame ** 2)
        energies.append(energy)

    # Tính toán trung bình năng lượng của các frame
    average_energy = sum(energies) / len(energies)

    return average_energy

###-----------------Spectral-centroid

def SC(audio_file):
    audio, sample_rate = librosa.load(audio_file)
    spectral_centroid = librosa.feature.spectral_centroid(y=audio, sr=sample_rate)
    mean = np.mean(spectral_centroid)
    return mean


def mfcc(audio_file, n_mfccs):
    warnings.filterwarnings("ignore", category=WavFileWarning)
    sample_rate, signal = scipy.io.wavfile.read(audio_file)
#     Tăng cường tín hiệu - nổi bật các tần số cao
    pre_emphasis = 0.97
    emphasized_signal = emphasized_signal = np.append(signal[0], signal[1:] - pre_emphasis * signal[:-1])
    
#     
    frame_stride = 0.01 #tgian chuyển frame
    frame_size = 0.025 # thời g của một frame

    frame_length = frame_size * sample_rate   # số mẫu âm thanh trg 1 frame
    frame_step = frame_stride * sample_rate   # số mẫu cần nhảy qua khung tiếp theo
    signal_length = len(emphasized_signal)    # độ dài Tín h âm thanh sau tăng cường
    frame_length = int(round(frame_length))
    frame_step = int(round(frame_step))
    num_frames = int(np.ceil(float(np.abs(signal_length - frame_length)) / frame_step))
    # SL khung cần tạo
    # độ dài file Ât khi thêm các giá trị 0 vào cuối tín hiệu
    pad_signal_length = num_frames * frame_step + frame_length
    z = np.zeros((pad_signal_length - signal_length))
    pad_signal = np.append(emphasized_signal, z)

    # tạo chỉ mục cho các khng
    indices = np.tile(np.arange(0, frame_length), (num_frames, 1)) + np.tile(np.arange(0, num_frames * frame_step, frame_step), (frame_length, 1)).T
    frames = pad_signal[indices.astype(np.int32, copy=False)]
    frames *= np.hamming(frame_length) # hamming
    
    # chuyển đổi th từ miền tgian sang miền tso
    NFFT = 512
    mag_frames = np.absolute(np.fft.rfft(frames, NFFT))
    pow_frames = ((1.0 / NFFT) * ((mag_frames) ** 2))
    
    # mel filter
    nfilt = 40   # só lượng bộ lọc mel
    low_freq_mel = 0   # ts mel thấp nhất
    high_freq_mel = (2595 * np.log10(1 + (sample_rate / 2) / 700))  # Convert Hz to Mel
    mel_points = np.linspace(low_freq_mel, high_freq_mel, nfilt + 2) #  tạo một dải tần số Mel được chia đều.
    hz_points = (700 * (10**(mel_points / 2595) - 1))  # Convert Mel to Hz
    bin = np.floor((NFFT + 1) * hz_points / sample_rate)

    fbank = np.zeros((nfilt, int(np.floor(NFFT / 2 + 1))))
    for m in range(1, nfilt + 1):
        f_m_minus = int(bin[m - 1])   # left
        f_m = int(bin[m])             # center
        f_m_plus = int(bin[m + 1])    # right

        for k in range(f_m_minus, f_m):
            fbank[m - 1, k] = (k - bin[m - 1]) / (bin[m] - bin[m - 1])
        for k in range(f_m, f_m_plus):
            fbank[m - 1, k] = (bin[m + 1] - k) / (bin[m + 1] - bin[m])

    filter_banks = np.dot(pow_frames, fbank.T)
    filter_banks = np.where(filter_banks == 0, np.finfo(float).eps, filter_banks)  # Numerical Stability
    filter_banks = 20 * np.log10(filter_banks)  # dB
    
    #dct
    num_ceps = n_mfccs
    mfcc = dct(filter_banks, type=2, axis=1, norm='ortho')[:, 1 : (num_ceps + 1)] # Keep 2-13
    mfcc = np.mean(mfcc, axis=0)
    
    return mfcc

#############################################################


def loadFileInput(audio_file):
    warnings.filterwarnings("ignore", category=WavFileWarning)
    sample_rate, signal = scipy.io.wavfile.read(audio_file)
    mfccs = mfcc(audio_file, 5)
    zc = ZCR(audio_file)
    ae = AE(audio_file)
    sc = SC(audio_file)
    # Reshape zc and ae arrays to have 1 dimension
    zc = np.array([zc])
    ae = np.array([ae])
    sc = np.array([sc])
    # Concatenate the arrays
    arr = np.concatenate((mfccs, zc, ae, sc))
    return arr



def calculateDistance(arr):
    fileOpen = open(r"C:\Users\Admin\Desktop\CSDLDPT_BAOCAO\TrichRutDT.csv", "r")
    reader = csv.reader(fileOpen)
    distanceArr = []
    for row in reader:
        sum = 0
        label = row[-1]
        for i in range(0,8):
            p1 = float(row[i])
            p2 = float(arr[i])
            sq = np.square(p1 - p2)
            sum += sq
        distanceArr.append({'dis': np.sqrt(sum), 'label': label})
    fileOpen.close()
    return distanceArr


def KNN(k, distanceArr):
    distanceArr = distanceArr[0:k]
    pivot = 1
    res = 0
    count = 1
    for i in range(0, k - 1):
        count = 1
        for j in range(1, k):
            if(distanceArr[i]['label'] == distanceArr[j]['label']):
                count += 1
        if(count > res):
            res = count
            pivot = i
            
    return distanceArr[pivot]['label']


def myFunc(e):
    return e['dis']


audio_file = r"C:\Users\Admin\Desktop\CSDLDPT_BAOCAO\Test\songtaut.wav"

distanceArr = calculateDistance(loadFileInput(audio_file))
distanceArr.sort(key=myFunc)

# print(loadFileInput(audio_file))
print("", end="\n")
print("", end="\n")
print("", end="\n")
print("Dự đoán nhãn là: ", KNN(10,distanceArr)) 
print(ZCR(audio_file))





Dự đoán nhãn là:  SongTau
