Шаг 0: Импорт библиотек
Для решения этого задания мы можем использовать библиотеки pandas, librosa для обработки аудио и torch или tensorflow для построения модели.

In [None]:
import os
import json
import librosa
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers

In [None]:
# Константы
DATA_DIR = '../data/train/'
DATA_DIR_FILES = [
    'hr_bot_clear',
    'hr_bot_noise',
    'hr_bot_synt'
]
ANNOTATION_DIR = '../data/train/annotation/'
ANNOTATION_FILES = [
    'hr_bot_clear.json',
    'hr_bot_noise.json',
    'hr_bot_synt.json'
]

VAL_DIR = '../data/val/luga/'  # Путь к валидационным данным
ANNOTATION_VAL_FILE = os.path.join(VAL_DIR, 'luga.json')

Шаг 1: Подготовка данных
Мы начнем с того, что организуем данные, которые мы имеем, и подготовим их к обучению.

In [None]:
# Загрузка аннотаций
def load_annotations(file_path):
    with open(file_path, 'r', encoding='utf-8') as f:
        return json.load(f)

# Загрузка данных и их обработка
def load_dataset(data_dir, annotation_files):
    dataset = []
    # Перебираем файлы аннотаций
    for annotation_file in annotation_files:
        annotations = load_annotations(os.path.join(ANNOTATION_DIR, annotation_file))

        # Получаем соответствующую директорию на основе названия файла аннотации
        sub_dir = annotation_file.replace('.json', '')
        print(f"Loading from subdirectory: {sub_dir}")

        for item in annotations:
            if all(k in item for k in ['audio_filepath', 'text', 'label', 'attribute']):
                # Используем os.path.join для правильного формирования пути
                audio_path = os.path.join(data_dir, sub_dir, item['audio_filepath'])
                print(f"Checking audio file path: {audio_path}")

                if os.path.exists(audio_path):
                    dataset.append({
                        'audio_filepath': audio_path,
                        'text': item['text'],
                        'label': item['label'],
                        'attribute': item['attribute']
                    })
                else:
                    print(f"Audio file does not exist: {audio_path}")
            else:
                print(f"Missing keys in item: {item}")
    return dataset

# Загрузка аннотаций и создание DataFrame
dataset = load_dataset(DATA_DIR, ANNOTATION_FILES)
df = pd.DataFrame(dataset)

Шаг 2: Обработка аудио и извлечение признаков
Для классификации команд нам нужно извлечь признаки из аудиофайлов. Мы можем использовать MFCC (Mel-Frequency Cepstral Coefficients) как набор признаков.

In [None]:
# Извлечение признаков
def extract_features(audio_filepath):
    try:
        # Загрузка аудиофайла
        signal, sr = librosa.load(audio_filepath, sr=None)
        # Извлечение MFCC
        mfccs = librosa.feature.mfcc(y=signal, sr=sr, n_mfcc=13)
        return np.mean(mfccs.T, axis=0)
    except Exception as e:
        print(f"Ошибка при обработке {audio_filepath}: {e}")
        return None

# Извлечение признаков
df['features'] = df['audio_filepath'].apply(extract_features)
df = df.dropna()  # Удаляем строки с ошибками

Шаг 3: Подготовка данных для обучения
Теперь мы разделим данные на обучающую и тестовую выборки и подготовим их для нейросети.

In [None]:
# Подготовка входных данных и меток
X = np.array(df['features'].tolist())
y = np.array(df['label'])

# Разделение на обучающую и валидационную выборки
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

Шаг 4: Создание нейронной сети
Мы можем использовать библиотеку TensorFlow или PyTorch для создания нейронной сети. Здесь мы создадим простую модель с использованием Keras.

In [None]:
# Создание модели
model = keras.Sequential([
    layers.Input(shape=(13,)),  # Входной слой
    layers.Dense(64, activation='relu'),  # Первый скрытый слой
    layers.Dense(64, activation='relu'),  # Второй скрытый слой
    layers.Dense(23, activation='softmax')  # Выходной слой для 23 классов
])

# Компиляция модели
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

Шаг 5: Обучение модели
Теперь мы можем обучить модель на подготовленных данных.

In [None]:
# Обучение модели на текстовых данных
history = model.fit(X_train, y_train, validation_data=(X_val, y_val), epochs=10, batch_size=32)

Шаг 6: Тестирование модели на валидационном наборе
После обучения мы можем протестировать модель на валидационном наборе.

In [None]:
# Оценка модели на валидационном наборе
val_loss, val_accuracy = model.evaluate(X_val, y_val)
print(f"Validation Loss: {val_loss}, Validation Accuracy: {val_accuracy}")

Шаг 7: Сохранение модели
После завершения обучения мы можем сохранить модель на диск для дальнейшего использования.

In [None]:
# Сохранение модели
model.save('train_command_model.h5')

Шаг 8: Использование модели
Теперь мы можем загрузить модель и использовать её для предсказания на новых аудиофайлах.

In [None]:
# Загрузка модели
loaded_model = keras.models.load_model('train_command_model.h5')

# Функция для предсказания
def predict_command(audio_filepath):
    features = extract_features(audio_filepath)
    if features is not None:
        features = np.reshape(features, (1, -1))  # Изменяем размерность
        prediction = model.predict(features)
        predicted_label = np.argmax(prediction)
        return predicted_label
    return None


In [None]:
# Основная функция для проверки команд
# Основная функция для проверки команд
def evaluate_commands():
    annotations = load_annotations(ANNOTATION_FILE)

    correct_predictions = 0
    total_predictions = len(annotations)

    # Словарь для хранения статистики
    statistics = {
        'correct': {},
        'total': {},
        'accuracy': {}
    }

    # Обработка каждой аннотации
    for item in annotations:
        audio_filepath = item['audio_filepath']
        label = item['label']

        # Формирование полного пути к аудиофайлу
        audio_path = os.path.join(VAL_DIR, os.path.dirname(audio_filepath), os.path.basename(audio_filepath))

        if os.path.exists(audio_path):
            prediction = predict_command(audio_path)  # Получаем предсказание
            print(f'Predicted: {prediction}, Actual: {label} for {audio_path}')

            # Сохраняем статистику
            if label not in statistics['correct']:
                statistics['correct'][label] = 0
                statistics['total'][label] = 0

            statistics['total'][label] += 1

            if prediction == label:
                correct_predictions += 1
                statistics['correct'][label] += 1
        else:
            print(f'Audio file does not exist: {audio_path}')

    # Вычисляем общую точность
    accuracy = correct_predictions / total_predictions if total_predictions > 0 else 0

    # Сохраняем точность в статистике
    statistics['accuracy'] = accuracy

    # Выводим статистику
    print(f'\nTotal Predictions: {total_predictions}')
    print(f'Correct Predictions: {correct_predictions}')
    print(f'Accuracy: {accuracy:.2f}')
    print('Detailed statistics per label:')
    for label in statistics['total']:
        total = statistics['total'][label]
        correct = statistics['correct'].get(label, 0)
        print(f'Label: {label}, Total: {total}, Correct: {correct}, Accuracy: {correct / total:.2f}' if total > 0 else f'Label: {label}, Total: {total}, Correct: {correct}')

# Запуск проверки команд
evaluate_commands()