In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.signal import hann, hamming, butter, lfilter, freqz, resample
import scipy.io.wavfile as wav



def energy_based_speech_silence_discrimination(y, fs, frame_length, hop_length, threshold_factor,
                                               window_type='rectwin'):
    """
    y: tín hiệu âm thanh đầu vào
    fs: tần số lấy mẫu của tín hiệu
    frame_length: độ dài của từng khung tính toán năng lượng
    hop_length: độ dài bước nhảy giữa các khung
    threshold_factor: hệ số nhân với giá trị trung bình năng lượng để tính ngưỡng
    window_type: loại cửa sổ sử dụng để tính toán năng lượng của các khung
    """

    # Tạo cửa sổ tính toán năng lượng
    if window_type == 'hamming':
        window = hann(frame_length)
    elif window_type == 'hanning':
        window = hamming(frame_length)
    else:
        window = np.ones(frame_length)

    # Chia tín hiệu thành các khung và áp dụng cửa sổ
    frames = np.array([y[i:i + frame_length] * window for i in range(0, len(y) - frame_length, hop_length)])

    # Tính toán năng lượng của từng khung
    energy = np.sum(frames ** 2, axis=1)

    # Tính giá trị trung bình của năng lượng
    threshold = np.mean(energy) * threshold_factor

    # Phân loại các khung là tiếng nói hoặc im lặng
    is_speech = energy > threshold

    # Vẽ đồ thị
    time = np.arange(len(y)) / fs
    plt.subplot(2, 1, 1)
    plt.plot(time, y)
    plt.xlabel('Thời gian (s)')
    plt.ylabel('Amplitude')
    plt.subplot(2, 1, 2)
    plt.plot(np.arange(len(is_speech)) * hop_length / fs, energy)
    plt.plot(np.arange(len(is_speech)) * hop_length / fs, np.ones(len(is_speech)) * threshold, 'r--')
    plt.xlabel('Thời gian (s)')
    plt.ylabel('Energy')
    plt.legend(['Energy', 'Threshold'])
    plt.show()

    return is_speech

In [None]:

fs,signal=wav.read()
print(energy_based_speech_silence_discrimination())