In [5]:
from scipy.io import wavfile
from scipy.signal import butter, filtfilt
import numpy as np
import matplotlib.pyplot as plt

def read_audio_file(file_path):
    """Đọc file âm thanh và trả về tỷ lệ mẫu và dữ liệu âm thanh đã chuẩn hóa."""
    sample_rate, audio_data = wavfile.read(file_path)
    audio_data = audio_data / np.max(np.abs(audio_data))  # Chuẩn hóa dữ liệu âm thanh về phạm vi từ -1 đến 1
    return sample_rate, audio_data

def apply_lowpass_filter(audio_data, sample_rate, cutoff_freq, order):
    """Áp dụng bộ lọc thông thấp cho dữ liệu âm thanh."""
    b, a = butter(order, cutoff_freq / (sample_rate / 2), btype='low', analog=False)
    filtered_audio_data = filtfilt(b, a, audio_data)
    return filtered_audio_data

def apply_highpass_filter(audio_data, sample_rate, cutoff_freq, order):
    """Áp dụng bộ lọc thông cao cho dữ liệu âm thanh."""
    b, a = butter(order, cutoff_freq / (sample_rate / 2), btype='high', analog=False)
    filtered_audio_data = filtfilt(b, a, audio_data)
    return filtered_audio_data

def save_audio_file(output_file, sample_rate, audio_data):
    """Lưu dữ liệu âm thanh vào file mới."""
    wavfile.write(output_file, sample_rate, np.array(audio_data * (2**15 - 1), dtype=np.int16))

def plot_audio(audio_data, sample_rate, filtered_audio_data):
    """Hiển thị âm thanh gốc và âm thanh đã lọc."""
    plt.figure(figsize=(12, 6))
    plt.plot(np.arange(len(audio_data)) / sample_rate, audio_data, label='Original Audio')
    plt.plot(np.arange(len(filtered_audio_data)) / sample_rate, filtered_audio_data, label='Filtered Audio (Thresholded)')
    plt.xlabel('Time (s)')
    plt.ylabel('Amplitude')
    plt.title('Original vs. Filtered Audio')
    plt.legend()
    plt.grid(True)
    plt.show()

def main():
    # Đọc file âm thanh
    file_path = r"D:\data_analysis\speech_emotion_recognition\audio_test\Bong_Dung_Muon_Khoc\divide_segment\1\segment_321.wav"
    sample_rate, audio_data = read_audio_file(file_path)

    # Áp dụng bộ lọc thông thấp cho dữ liệu âm thanh
    cutoff_freq_low = 700  # Tần số cắt cho bộ lọc thông thấp
    cutoff_freq_high = 200
    order = 5  # Bậc của bộ lọc
    filtered_audio_data = apply_lowpass_filter(audio_data, sample_rate, cutoff_freq_low, order)
    filtered_audio_data = apply_highpass_filter(audio_data, sample_rate, cutoff_freq_high, order)

    # Lưu dữ liệu âm thanh đã lọc vào file mới
    output_file = 'filtered_audio_thresholded.wav'
    save_audio_file(output_file, sample_rate, filtered_audio_data)

    # Hiển thị âm thanh gốc và âm thanh đã lọc
    plot_audio(audio_data, sample_rate, filtered_audio_data)

if __name__ == "__main__":
    main()


FileNotFoundError: [Errno 2] No such file or directory: 'D:\\data_analysis\\speech_emotion_recognition\\audio_test\\Bong_Dung_Muon_Khoc\\divide_segment\\1\\segment_321.wav'

In [None]:
import librosa
import librosa.display
import numpy as np

def normalize_audio(input_file, output_file, target_dBFS):
    # Tải tệp âm thanh vào dưới dạng mảng numpy và mức âm lượng hiện tại
    audio, sr = librosa.load(input_file, sr=None)
    current_dBFS = librosa.amplitude_to_db(np.max(np.abs(audio)), ref=1.0)

    # Tính toán độ chênh lệch giữa mức âm thanh hiện tại và mức âm thanh mục tiêu
    dBFS_change = target_dBFS - current_dBFS

    # Chuẩn hóa âm thanh bằng cách thay đổi biên độ
    normalized_audio = audio * (10.0 ** (dBFS_change / 20.0))

    # Ghi âm thanh đã được chuẩn hóa vào tệp output
    librosa.output.write_wav(output_file, normalized_audio, sr)

# Sử dụng hàm normalize_audio để chuẩn hóa mức âm thanh của các tệp âm thanh
input_file = "input_audio.wav"
output_file = "normalized_audio.wav"
target_dBFS = -20  # Mức âm thanh mục tiêu
normalize_audio(input_file, output_file, target_dBFS)



In [None]:
import librosa
import librosa.display
import soundfile as sf
import numpy as np

def normalize_audio(input_file, output_file, target_dBFS):
    # Tải tệp âm thanh vào dưới dạng mảng numpy và mức âm lượng hiện tại
    audio, sr = librosa.load(input_file, sr=None)
    current_dBFS = librosa.amplitude_to_db(np.max(np.abs(audio)), ref=1.0)

    # Tính toán độ chênh lệch giữa mức âm thanh hiện tại và mức âm thanh mục tiêu
    dBFS_change = target_dBFS - current_dBFS

    # Chuẩn hóa âm thanh bằng cách thay đổi biên độ
    normalized_audio = audio * (10.0 ** (dBFS_change / 20.0))

    # Ghi âm thanh đã được chuẩn hóa vào tệp output
    sf.write(output_file, normalized_audio, sr)


In [6]:

# Sử dụng hàm normalize_audio để chuẩn hóa mức âm thanh của các tệp âm thanh
input_file = r"D:\data_analysis\speech_emotion_recognition\audio_test/Bong_Dung_Muon_Khoc/divide_segment/1/Sad/segment_69.wav"
output_file = "segment_69.wav"
target_dBFS = -20  # Mức âm thanh mục tiêu
normalize_audio(input_file, output_file, target_dBFS)