In [13]:
import librosa
import os
import numpy as np
from scipy.stats import pearsonr


In [14]:
def load_audio(file_path):
    y, sr = librosa.load(file_path, sr=None)
    return y, sr

def normalize_audio(y):
    return (y - np.mean(y)) / np.std(y)

def calculate_pearson_correlation(y1, y2):
    correlation, _ = pearsonr(y1, y2)
    return correlation

In [15]:
current_directory = os.getcwd()
files = os.listdir(current_directory)
audio_files = [file for file in files if file.endswith('.wav')]


In [16]:

if len(audio_files) < 2:
    print("Недостаточно аудиофайлов для сравнения.")
else:
    file_path1 = os.path.join(current_directory, audio_files[0])
    file_path2 = os.path.join(current_directory, audio_files[1])

    audio_data1 = load_audio(file_path1)
    audio_data2 = load_audio(file_path2)

y1, sr1 = load_audio(file_path1)
y1_normalized = normalize_audio(y1)

y2, sr2 = load_audio(file_path2)
y2_normalized = normalize_audio(y2)

if sr1 != sr2:
    raise ValueError("Аудиофайлы имеют разные частоты дискретизации")


min_length = min(len(y1_normalized), len(y2_normalized))
y1_normalized = y1_normalized[:min_length]
y2_normalized = y2_normalized[:min_length]

correlation = calculate_pearson_correlation(y1_normalized, y2_normalized)

print(f"Коэффициент корреляции Пирсона: {correlation}")

Коэффициент корреляции Пирсона: -0.010463088422413


In [22]:
from scipy.spatial.distance import cosine
similarity = 1 - cosine(y1_normalized, y2_normalized)
print(f'Косинусное сходство между аудиофайлами: {similarity}')

Косинусное сходство между аудиофайлами: -0.010463094499335801


In [23]:
from scipy.spatial.distance import euclidean
distance = euclidean(y1_normalized, y2_normalized)
print(f'Евклидово расстояние между аудиофайлами: {distance}')

Евклидово расстояние между аудиофайлами: 395.5869445800781


In [24]:
correlation = np.correlate(y1_normalized, y2_normalized, mode='full')
print(f'Максимальная кросс-корреляция: {np.max(correlation)}')

Максимальная кросс-корреляция: 4048.42333984375


In [26]:
def extract_mfcc(audio_data, sr):
    mfccs = librosa.feature.mfcc(y=audio_data, sr=sr, n_mfcc=13)
    return np.mean(mfccs.T, axis=0)

mfcc1 = extract_mfcc(y1, sr1)
mfcc2 = extract_mfcc(y2, sr2)
distance = euclidean(mfcc1, mfcc2)
print(f'Евклидово расстояние между MFCC аудиофайлов: {distance}')

Евклидово расстояние между MFCC аудиофайлов: 71.2802963256836
