# Кластеризация аудио-сигналов

Выполнил студент группы 9381 Колованов Родион Алексеевич.

### Загрузка аудиофайлов

Для начала подключим нужные библиотеки:

In [1]:
from pydub import AudioSegment
import scipy.fft
import numpy as np
import more_itertools as mit
import random
import copy
import csv

Загрузим аудиосигналы из файлов формата mp3:

In [3]:
signals = []
filepath_template = "data/{}.mp3"

print("Загрузка аудиофайлов...")

for i in range(1, 125):
    if i < 10:
        i = "0{}".format(i)
    audiofile = AudioSegment.from_mp3(filepath_template.format(i)).set_channels(1)
    signals.append(np.array(audiofile.get_array_of_samples()))
    print("  {}".format(filepath_template.format(i)))

print("Загрузка аудиофайлов завершена.")

Загрузка аудиофайлов...
  data/01.mp3
  data/02.mp3
  data/03.mp3
  data/04.mp3
  data/05.mp3
  data/06.mp3
  data/07.mp3
  data/08.mp3
  data/09.mp3
  data/10.mp3
  data/11.mp3
  data/12.mp3
  data/13.mp3
  data/14.mp3
  data/15.mp3
  data/16.mp3
  data/17.mp3
  data/18.mp3
  data/19.mp3
  data/20.mp3
  data/21.mp3
  data/22.mp3
  data/23.mp3
  data/24.mp3
  data/25.mp3
  data/26.mp3
  data/27.mp3
  data/28.mp3
  data/29.mp3
  data/30.mp3
  data/31.mp3
  data/32.mp3
  data/33.mp3
  data/34.mp3
  data/35.mp3
  data/36.mp3
  data/37.mp3
  data/38.mp3
  data/39.mp3
  data/40.mp3
  data/41.mp3
  data/42.mp3
  data/43.mp3
  data/44.mp3
  data/45.mp3
  data/46.mp3
  data/47.mp3
  data/48.mp3
  data/49.mp3
  data/50.mp3
  data/51.mp3
  data/52.mp3
  data/53.mp3
  data/54.mp3
  data/55.mp3
  data/56.mp3
  data/57.mp3
  data/58.mp3
  data/59.mp3
  data/60.mp3
  data/61.mp3
  data/62.mp3
  data/63.mp3
  data/64.mp3
  data/65.mp3
  data/66.mp3
  data/67.mp3
  data/68.mp3
  data/69.mp3
  data/70.

Зададим параметры деления сигнала на окна:

In [22]:
dimension = 256
window_offset = 256
suitable_frame_threshold = 0.1

Получим амплитудные спектры сигналов:

In [23]:
amplitude_spectrals = []

for signal in signals:
    print("Обработка сигнала №{}...".format(len(amplitude_spectrals) + 1))
    
    signal_intervals = list(mit.windowed(signal, fillvalue=0.0, n=dimension, step=window_offset))

    print("  Общее количество кадров: {}".format(len(signal_intervals)))

    bound = 0.0
    for interval in signal_intervals:
        m = np.max(interval)
        if m > bound:
            bound = m
    bound *= suitable_frame_threshold

    signal_intervals = list(filter(lambda i: np.max(i) > bound, signal_intervals))
    
    print("  Количество подходящих кадров: {}".format(len(signal_intervals)))

    signal_intervals = list(map(lambda interval: scipy.fft.fft(interval * np.hamming(len(interval))), signal_intervals))
    amplitude_spectral = [[np.abs(i) for i in interval[:dimension//2]] for interval in signal_intervals]
    amplitude_spectral_mean = [0 for i in range(dimension // 2)]
    
    for amplitude_spectral_interval in amplitude_spectral:
        for i in range(dimension // 2):
            amplitude_spectral_mean[i] += amplitude_spectral_interval[i]

    for i in range(dimension // 2):
        amplitude_spectral_mean[i] /= len(signal_intervals)
    
    amplitude_spectrals.append(amplitude_spectral_mean)

Обработка сигнала №1...
  Общее количество кадров: 36990
  Количество подходящих кадров: 31334
Обработка сигнала №2...
  Общее количество кадров: 28886
  Количество подходящих кадров: 23696
Обработка сигнала №3...
  Общее количество кадров: 42269
  Количество подходящих кадров: 35558
Обработка сигнала №4...
  Общее количество кадров: 61641
  Количество подходящих кадров: 31474
Обработка сигнала №5...
  Общее количество кадров: 22487
  Количество подходящих кадров: 12769
Обработка сигнала №6...
  Общее количество кадров: 30659
  Количество подходящих кадров: 28745
Обработка сигнала №7...
  Общее количество кадров: 51831
  Количество подходящих кадров: 35567
Обработка сигнала №8...
  Общее количество кадров: 24876
  Количество подходящих кадров: 22399
Обработка сигнала №9...
  Общее количество кадров: 34556
  Количество подходящих кадров: 28174
Обработка сигнала №10...
  Общее количество кадров: 36657
  Количество подходящих кадров: 22416
Обработка сигнала №11...
  Общее количество кадро

  Количество подходящих кадров: 11352
Обработка сигнала №87...
  Общее количество кадров: 16988
  Количество подходящих кадров: 12730
Обработка сигнала №88...
  Общее количество кадров: 5904
  Количество подходящих кадров: 4301
Обработка сигнала №89...
  Общее количество кадров: 31568
  Количество подходящих кадров: 22467
Обработка сигнала №90...
  Общее количество кадров: 42417
  Количество подходящих кадров: 14671
Обработка сигнала №91...
  Общее количество кадров: 26213
  Количество подходящих кадров: 8054
Обработка сигнала №92...
  Общее количество кадров: 46170
  Количество подходящих кадров: 25611
Обработка сигнала №93...
  Общее количество кадров: 31824
  Количество подходящих кадров: 17340
Обработка сигнала №94...
  Общее количество кадров: 24224
  Количество подходящих кадров: 15873
Обработка сигнала №95...
  Общее количество кадров: 10935
  Количество подходящих кадров: 8994
Обработка сигнала №96...
  Общее количество кадров: 97074
  Количество подходящих кадров: 38538
Обрабо

Выполнил кластеризацию сигналов по их ампилтудным спектрам:

In [24]:
def update_centers(data, clusters, centers):
    dimension = len(data[0])
    centers_length = len(centers)
    
    for i in range(centers_length):
        for j in range(dimension):
            if len(clusters[i]) != 0:
                component = 0.0
                for k in range(len(clusters[i])): 
                    component += data[clusters[i][k]][j]
                component /= len(clusters[i])
                
                centers[i][j] = component

def distribute_data(data, centers):
    dimension = len(data[0])
    data_length = len(data)
    centers_length = len(centers)
    clusters = [[] for i in range(centers_length)]

    for i in range(data_length):
        min_distance = float('inf')
        situable_cluster = None
        
        for j in range(centers_length):
            distance = 0.0
            for k in range(dimension):
                distance += (data[i][k] - centers[j][k]) ** 2
            distance = np.sqrt(distance)
            
            if distance < min_distance:
                min_distance = distance
                situable_cluster = j

        clusters[situable_cluster].append(i)

    return clusters

def clusterization(data, k): 
    dimension = len(data[0])  

    indexes = []
    for i in range(k):
        r = random.randint(0, k)
        while r in indexes:
            r = random.randint(0, k)
        indexes.append(r)
    
    previous_centers = None
    centers = [copy.deepcopy(data[i]) for i in indexes]
    clusters = distribute_data(data, centers)
        
    while centers != previous_centers:
        previous_centers = copy.deepcopy(centers)
        update_centers(data, clusters, centers)
        clusters = distribute_data(data, centers)
        
    return clusters, centers

def cluster_cohesion(data, centers, clusters):
    s = 0.0
    for j in range(len(clusters)):
        for i in range(len(clusters[j])):
            d = 0.0
            for k in range(len(data[clusters[j][i]])):
                d += np.abs(data[clusters[j][i]][k] - centers[j][k]) ** 2
            s += d
    return s / len(clusters)

Найдем наилучшую кластеризацию по минимальной компакстности кластеров:

In [25]:
iterations = 99
clusters, centers = clusterization(amplitude_spectrals, 5)
min_cluster_cohesion = cluster_cohesion(amplitude_spectrals, centers, clusters)

print("Попытка №1, компактность: {}".format(min_cluster_cohesion))

for i in range(iterations):
    temp_clusters, temp_centers = clusterization(amplitude_spectrals, 5)
    temp_cluster_cohesion = cluster_cohesion(amplitude_spectrals, temp_centers, temp_clusters)
    
    print("Попытка №{}, компактность: {}".format(i + 2, temp_cluster_cohesion))
    
    if temp_cluster_cohesion < min_cluster_cohesion:
        clusters, centers = temp_clusters, temp_centers
        min_cluster_cohesion = temp_cluster_cohesion

Попытка №1, компактность: 81130859636.09238
Попытка №2, компактность: 77546419557.95602
Попытка №3, компактность: 77546419557.95595
Попытка №4, компактность: 81130859636.09233
Попытка №5, компактность: 72468449909.30411
Попытка №6, компактность: 87703518638.19717
Попытка №7, компактность: 72468449909.30408
Попытка №8, компактность: 81130859636.09232
Попытка №9, компактность: 81130859636.09235
Попытка №10, компактность: 72468449909.30406
Попытка №11, компактность: 77546419557.956
Попытка №12, компактность: 81893764024.84088
Попытка №13, компактность: 81130859636.09233
Попытка №14, компактность: 77546419557.956
Попытка №15, компактность: 81130859636.09235
Попытка №16, компактность: 77546419557.95602
Попытка №17, компактность: 87703518638.19724
Попытка №18, компактность: 72468449909.3041
Попытка №19, компактность: 81893764024.84088
Попытка №20, компактность: 81130859636.09232
Попытка №21, компактность: 72468449909.30411
Попытка №22, компактность: 81893764024.84087
Попытка №23, компактност

Выведем результаты:

In [26]:
def get_filename_by_index(i):
    i += 1
    if i < 10:
        return "0{}.mp3".format(i)
    return "{}.mp3".format(i)

In [27]:
audio_clusters = {}
for i in range(len(clusters)):
    for j in range(len(clusters[i])):
        audio_clusters[get_filename_by_index(clusters[i][j])] = i + 1

print("Компактность кластеров: {}".format(min_cluster_cohesion))
print("Распределение номеров аудиосигналов по кластерам:\n{}".format(audio_clusters))

Компактность кластеров: 72468449909.30406
Распределение номеров аудиосигналов по кластерам:
{'02.mp3': 1, '05.mp3': 1, '08.mp3': 1, '11.mp3': 1, '28.mp3': 1, '42.mp3': 1, '54.mp3': 1, '55.mp3': 1, '57.mp3': 1, '58.mp3': 1, '59.mp3': 1, '61.mp3': 1, '62.mp3': 1, '63.mp3': 1, '67.mp3': 1, '80.mp3': 1, '83.mp3': 1, '86.mp3': 1, '87.mp3': 1, '89.mp3': 1, '91.mp3': 1, '93.mp3': 1, '95.mp3': 1, '104.mp3': 1, '19.mp3': 2, '24.mp3': 2, '30.mp3': 2, '33.mp3': 2, '38.mp3': 2, '41.mp3': 2, '46.mp3': 2, '49.mp3': 2, '50.mp3': 2, '51.mp3': 2, '52.mp3': 2, '69.mp3': 2, '71.mp3': 2, '73.mp3': 2, '81.mp3': 2, '85.mp3': 2, '88.mp3': 2, '90.mp3': 2, '92.mp3': 2, '97.mp3': 2, '110.mp3': 2, '14.mp3': 3, '16.mp3': 3, '21.mp3': 3, '22.mp3': 3, '23.mp3': 3, '106.mp3': 3, '108.mp3': 3, '01.mp3': 4, '03.mp3': 4, '04.mp3': 4, '06.mp3': 4, '07.mp3': 4, '09.mp3': 4, '10.mp3': 4, '12.mp3': 4, '15.mp3': 4, '17.mp3': 4, '18.mp3': 4, '20.mp3': 4, '26.mp3': 4, '27.mp3': 4, '29.mp3': 4, '32.mp3': 4, '34.mp3': 4, '66.mp

Сохраним результаты в CSV:

In [28]:
with open('results.csv', 'w', newline='') as file:
    writer = csv.writer(file, delimiter=',', quotechar='|', quoting=csv.QUOTE_MINIMAL)
    for i in range(len(signals)):
        filename = get_filename_by_index(i)
        writer.writerow([filename, audio_clusters[filename]])