In [1]:
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
import tensorflow as tf
import pathlib
import numpy as np
import os
os.environ['CUDA_VISIBLE_DEVICES'] = '-1'

2025-03-03 20:22:45.189079: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:477] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
E0000 00:00:1741022565.200503   31800 cuda_dnn.cc:8310] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
E0000 00:00:1741022565.203961   31800 cuda_blas.cc:1418] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2025-03-03 20:22:45.216880: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.


In [2]:
print(tf.__version__)

2.18.0


In [3]:
dataset_path = '../DataSet/base_train'

# Преобразуем путь в объект pathlib.Path для удобной работы с файловой системой
data_dir = pathlib.Path(dataset_path)

# Получаем список файлов и директорий в указанной директории и преобразуем его в массив NumPy
commands = np.array(tf.io.gfile.listdir(str(data_dir)))

print('Команды:', commands)

Команды: ['zero' 'up' 'right' 'three' 'on' 'two' 'four' 'yes' 'five' 'one' 'left'
 'down' 'no' 'off']


In [4]:
file_names = tf.io.gfile.glob(str(data_dir) + '/*/*') # Получаем список всех файлов в подкаталогах указанной директории
file_names = tf.random.shuffle(file_names) # Перемешиваем
print('Количество записей:', len(file_names))

Количество записей: 33134


2025-03-03 20:22:46.412219: E external/local_xla/xla/stream_executor/cuda/cuda_driver.cc:152] failed call to cuInit: INTERNAL: CUDA error: Failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected
2025-03-03 20:22:46.412240: I external/local_xla/xla/stream_executor/cuda/cuda_diagnostics.cc:137] retrieving CUDA diagnostic information for host: flayven-MS-7C91
2025-03-03 20:22:46.412246: I external/local_xla/xla/stream_executor/cuda/cuda_diagnostics.cc:144] hostname: flayven-MS-7C91
2025-03-03 20:22:46.412329: I external/local_xla/xla/stream_executor/cuda/cuda_diagnostics.cc:168] libcuda reported version is: 550.120.0
2025-03-03 20:22:46.412345: I external/local_xla/xla/stream_executor/cuda/cuda_diagnostics.cc:172] kernel reported version is: 550.120.0
2025-03-03 20:22:46.412349: I external/local_xla/xla/stream_executor/cuda/cuda_diagnostics.cc:259] kernel version seems to match DSO: 550.120.0


In [5]:
train_files = file_names[:6400]
val_files = file_names[6400: 6400 + 800]
test_files = file_names[-800:]

print('Размер обучающего набора:', len(train_files))
print('Размер набора валидации:', len(val_files))
print('Размер тестового набора:', len(test_files))

Размер обучающего набора: 6400
Размер набора валидации: 800
Размер тестового набора: 800


In [6]:
def decode_audio(audio_binary):
  audio, _ = tf.audio.decode_wav(contents=audio_binary)  # Декодируем бинарные данные в аудиофайл формата WAV
  return tf.squeeze(audio, axis=-1) # Убираем лишнее измерение

In [7]:
def get_label(file_path):
  parts = tf.strings.split(input=file_path,sep=os.path.sep) # Разбиваем строку пути к файлу на части, используя разделитель
  return parts[-2] # Возвращаем название папки-класса

In [8]:
def get_waveform_and_label(file_path):
  label = get_label(file_path) 
  audio_binary = tf.io.read_file(file_path) # Читаем аудиофайл в бинарном формате
  waveform = decode_audio(audio_binary)
  return waveform, label

In [9]:
def get_spectrogram(waveform):
    input_len = 16000
    waveform = waveform[:input_len] # Обрезаем аудиосигнал до заданной длины
    
    # Создаём нулевой тензор для дополнения коротких сигналов до нужной длины
    zero_padding = tf.zeros([16000] - tf.shape(waveform), dtype=tf.float32)

    # Преобразуем тип данных аудиосигнала в float32
    waveform = tf.cast(waveform, dtype=tf.float32)
    
    # Объединяем оригинальный сигнал с нулевым дополнением, чтобы все сигналы имели одинаковую длину
    equal_length = tf.concat([waveform, zero_padding], 0)

    # Применяем краткосрочное преобразование Фурье (STFT) для получения спектрограммы
    spectrogram = tf.signal.stft(equal_length, frame_length=255, frame_step=128)
    spectrogram = tf.abs(spectrogram) # Получаем амплитудный спектр
    spectrogram = spectrogram[..., tf.newaxis]  # Добавляем новое измерение
    return spectrogram

In [10]:
def get_spectrogram_and_label_id(audio, label):
  spectrogram = get_spectrogram(audio)
  label_id = tf.argmax(label == commands) # Определяем индекс метки в массиве команд
  return spectrogram, label_id

In [11]:
def preprocess_dataset(files):
    files_ds = tf.data.Dataset.from_tensor_slices(files) # Создаём TensorFlow Dataset из списка файлов
    
    # Применяем две функции обработки:
    # 1. get_waveform_and_label — загружает аудиофайл, декодирует его в форму волны и извлекает метку
    # 2. get_spectrogram_and_label_id — преобразует форму волны в спектрограмму и присваивает числовой идентификатор метке
    output_ds = files_ds.map(map_func=get_waveform_and_label).map(map_func=get_spectrogram_and_label_id)
    
    return output_ds

In [12]:
spectrogram_ds = preprocess_dataset(train_files)
train_ds = spectrogram_ds
val_ds = preprocess_dataset(val_files)
test_ds = preprocess_dataset(test_files)

In [13]:
# Функция для преобразования датасета в массивы NumPy
def dataset_to_numpy(dataset):
    X, y = [], []
    for spectrogram, label in dataset:
        X.append(tf.reshape(spectrogram, [-1]).numpy())  # Преобразуем спектрограмму в вектор
        y.append(label.numpy())  # Метки классов
    return np.array(X), np.array(y)

In [14]:
# Преобразуем датасеты
X_train, y_train = dataset_to_numpy(train_ds)
X_val, y_val = dataset_to_numpy(val_ds)
X_test, y_test = dataset_to_numpy(test_ds)

2025-03-03 20:22:48.196531: I tensorflow/core/framework/local_rendezvous.cc:405] Local rendezvous is aborting with status: OUT_OF_RANGE: End of sequence
2025-03-03 20:22:48.482128: I tensorflow/core/framework/local_rendezvous.cc:405] Local rendezvous is aborting with status: OUT_OF_RANGE: End of sequence


In [15]:
# Создаем и обучаем модель SVM
svm_model = SVC(kernel='linear')
svm_model.fit(X_train, y_train)

y_pred = svm_model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f'SVM accuracy on test data: {accuracy:.2f}')

SVM accuracy on test data: 0.39


In [16]:
# Создаем и обучаем модель Random Forest
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)

y_pred = rf_model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f'Random Forest accuracy on test data: {accuracy:.2f}')

Random Forest accuracy on test data: 0.61


In [17]:
# Создаем и обучаем модель KNN
knn_model = KNeighborsClassifier(n_neighbors=5)
knn_model.fit(X_train, y_train)

y_pred = knn_model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f'KNN accuracy on test data: {accuracy:.2f}')

KNN accuracy on test data: 0.43


In [18]:
# Создаем и обучаем модель логистической регрессии
logreg_model = LogisticRegression(max_iter=1000)
logreg_model.fit(X_train, y_train)

y_pred = logreg_model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f'Logistic Regression accuracy on test data: {accuracy:.2f}')

Logistic Regression accuracy on test data: 0.42
