# ТЕМА 4. МОДЕЛИРОВАНИЕ И ОЦЕНКА РЕЗУЛЬТАТОВ ПРЕДИКТИВНОГО АНАЛИЗА

Цель: разработать алгоритм, позволяющий диагностировать эмоции обучаемых по их голосу.

**Задачи:**

1. **Сбор и подготовка данных:**
   - Изучить и загрузить наборы данных, отражающие эмоции по голосу (например, TESS и SAVEE) и по видео (например, FER2013 или другой подходящий набор данных).
   - Преобразовать аудиофайлы в мел-кепстральные коэффициенты (MFCC) для последующего анализа.
   - Обработать видеоданные, выделив ключевые признаки (например, с использованием метода гистограммы ориентированных градиентов (HOG) или другого подходящего метода).

2. **Разработка и обучение моделей для аудиоданных:**
   - Обучить модель для предсказания эмоций по тембру голоса, используя алгоритмы машинного обучения (например, SVM, Random Forest) или нейронные сети (например, LSTM).
   - Провести сравнение результатов моделей и выбрать наиболее подходящую.

3. **Разработка и обучение моделей для видеоданных:**
   - Обучить модель для предсказания эмоций по видеоизображению лица, используя сверточные нейронные сети (CNN).
   - Провести сравнение результатов моделей и выбрать наиболее подходящую.

4. **Оценка и тестирование:**
   - Провести тестирование каждой модели на различных наборах данных для оценки точности и производительности.
   - Разработать два отдельных пользовательских интерфейса (веб-сервис или мобильное приложение), отображающих результаты предсказания эмоций в реальном времени для аудио и видео.

Данные:
1. набор данных TESS, отражает каждую из семи эмоций (гнев,
отвращение, страх, счастье, приятный сюрприз, грусть, нейтральный).
Женская озвучка.
https://www.kaggle.com/ejlok1/toronto-emotional-speech-set-tess

2. набор данных SAVEE, отражает каждую из семи эмоций (гнев,
отвращение, страх, счастье, приятный сюрприз, грусть, нейтральный).
Мужская озвучка.
https://www.kaggle.com/datasets/ejlok1/surrey-audiovisual-expressed-emotion-savee


In [1]:
import os
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import time
import librosa as lr

## TESS

Преобразование аудиофайлов в мел-кепстральные коэффициенты (MFCC):

In [2]:
path = '/Users/oudzhi/PycharmProjects/BigData_Prediction/Lab_4/TESS'
start = time.time()

data = []

# Проходит по всем подкаталогам и файлам в указанном пути
for subdir, dirs, files in os.walk(path):
    
        # Проходит по всем файлам в текущем каталоге.
        for file in files:
            print(file)
            target = str(file.split('_')[2])[:-4] # Извлекает целевую метку из имени файла. Предполагается, что имя файла имеет формат с '_'.
            
            y, sr = lr.load(os.path.join(subdir, file), res_type='kaiser_fast') # Загружает аудиофайл и получает временной ряд y и частоту дискретизации sr.
            mfccs = np.mean(lr.feature.mfcc(y=y, sr=sr, n_mfcc=30).T, axis=0) # Вычисляет MFCC (мел-кепстральные коэффициенты) и берёт среднее значение по времени.
            sample = mfccs, target # Создаёт кортеж из MFCC и целевой метки.
            data.append(sample) # Добавляет кортеж в список данных.

# Вычисляет и печатает время выполнения кода.    
end = time.time()
print(f'Writing ended in {end - start} seconds')

YAF_date_disgust.wav
YAF_rag_disgust.wav
YAF_raise_disgust.wav
YAF_ditch_disgust.wav
YAF_door_disgust.wav
YAF_note_disgust.wav
YAF_pearl_disgust.wav
YAF_search_disgust.wav
YAF_late_disgust.wav
YAF_peg_disgust.wav
YAF_ring_disgust.wav
YAF_tool_disgust.wav
YAF_puff_disgust.wav
YAF_dip_disgust.wav
YAF_walk_disgust.wav
YAF_lot_disgust.wav
YAF_knock_disgust.wav
YAF_jug_disgust.wav
YAF_home_disgust.wav
YAF_dab_disgust.wav
YAF_tire_disgust.wav
YAF_road_disgust.wav
YAF_burn_disgust.wav
YAF_make_disgust.wav
YAF_mood_disgust.wav
YAF_mess_disgust.wav
YAF_cab_disgust.wav
YAF_shawl_disgust.wav
YAF_wife_disgust.wav
YAF_chain_disgust.wav
YAF_base_disgust.wav
YAF_judge_disgust.wav
YAF_came_disgust.wav
YAF_rat_disgust.wav
YAF_beg_disgust.wav
YAF_choice_disgust.wav
YAF_hit_disgust.wav
YAF_hole_disgust.wav
YAF_time_disgust.wav
YAF_five_disgust.wav
YAF_sheep_disgust.wav
YAF_half_disgust.wav
YAF_hush_disgust.wav
YAF_whip_disgust.wav
YAF_pick_disgust.wav
YAF_voice_disgust.wav
YAF_jar_disgust.wav
YAF_numb_di

После выполнения данного кода у нас будет двумерный список «data»,
каждый элемент которого будет содержать два объекта: набор mfcc и
название эмоции, которую этот набор описывает. Преобразуем список в
следующий датафрейм:

In [3]:
X, y = zip(*data)
dataset_TESS = pd.DataFrame(list(X))
dataset_TESS['target'] = y

dataset_TESS

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,21,22,23,24,25,26,27,28,29,target
0,-434.340637,61.547073,-5.816717,41.895260,-12.912008,-0.060510,-15.045928,-8.992117,-12.555533,-5.649084,...,1.866011,-3.498047,2.035084,-1.075615,-0.173851,-2.168725,3.232147,-0.763888,5.738414,disgust
1,-388.402496,85.914452,-16.238209,19.381401,-13.622484,-6.053656,-18.407581,-6.018507,-14.872563,2.884473,...,-2.231792,-3.592348,-1.095985,-2.304485,1.372704,-0.156101,5.546880,3.325720,6.670145,disgust
2,-413.214386,68.448608,1.465215,22.411884,-10.718844,-3.159256,-15.495169,-8.715068,-17.975111,0.635281,...,1.670562,-5.863880,-1.098587,-2.014703,0.226381,-1.058726,1.536796,-1.322571,5.006320,disgust
3,-435.537689,54.987972,-7.957160,36.719688,-15.102768,5.779552,-17.170855,-5.765754,-10.755696,5.679981,...,0.781165,-1.524035,4.259491,-1.669771,1.811984,-1.599473,1.886942,1.856663,3.851156,disgust
4,-414.583313,85.459770,8.327278,5.927553,-8.868082,2.478487,-12.364786,-10.949556,-12.616245,3.694977,...,-1.210028,-4.725624,2.897235,-0.756395,2.379811,1.900689,3.940629,0.582157,2.477091,disgust
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5595,-557.691895,76.261505,26.812920,21.027248,9.985358,14.419414,-14.963044,-6.008372,-13.508571,11.069414,...,-3.428458,-3.801969,-0.604161,-6.935909,3.016991,-2.804477,2.066132,-1.778984,3.492822,sad
5596,-542.254028,80.854744,26.794289,22.868090,12.850275,23.111471,-0.070058,-7.567317,-11.388879,8.127281,...,-1.323574,-2.059865,3.436770,-4.668593,1.770577,-4.130288,5.103843,0.001028,5.543193,sad
5597,-510.305267,92.528488,19.663439,15.178706,9.632703,15.001949,-16.474386,-10.300098,-11.535367,6.177837,...,-4.933882,-2.598806,-0.573230,-5.639939,2.249171,3.928517,8.045011,6.947206,9.110233,sad
5598,-546.374329,101.403427,30.319857,8.416925,5.852256,15.537525,-18.954216,-9.493547,-13.774308,9.489421,...,-0.755956,-2.935819,-0.871827,-1.787528,-2.288879,2.201672,1.396853,-3.230258,4.245613,sad


In [4]:
dataset_TESS['target'].value_counts()

target
disgust    800
ps         800
happy      800
sad        800
neutral    800
fear       800
angry      800
Name: count, dtype: int64

Перекодируем target (эмоцию) в число

In [5]:
# Создаем словарь, где ключами были – числовые значения, а словами – наши эмоции из столбца target.

emotions = {
    '00': 'neutral',
    '01': 'happy',
    '02': 'sad',
    '03': 'angry',
    '04': 'fear',
    '05': 'disgust',
    '06': 'ps',
}

In [6]:
# Поменяем в словаре слова и ключи местами, чтобы по названию эмоции мне выдавало ее числовое значение. И прошелся по уже готовому двумерному списку “data” меняя каждое название эмоции на ее числовое значение, затем снова преобразуем в новый датасет:

X, y = zip(*data)
Y = []
emotions_inv ={value: key for key, value in emotions.items()}
for i in range(len(y)):
    Y.append(emotions_inv[y[i]])

In [7]:
dataset = pd.DataFrame(X, (Y))
dataset['target'] = Y
dataset

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,21,22,23,24,25,26,27,28,29,target
05,-434.340637,61.547073,-5.816717,41.895260,-12.912008,-0.060510,-15.045928,-8.992117,-12.555533,-5.649084,...,1.866011,-3.498047,2.035084,-1.075615,-0.173851,-2.168725,3.232147,-0.763888,5.738414,05
05,-388.402496,85.914452,-16.238209,19.381401,-13.622484,-6.053656,-18.407581,-6.018507,-14.872563,2.884473,...,-2.231792,-3.592348,-1.095985,-2.304485,1.372704,-0.156101,5.546880,3.325720,6.670145,05
05,-413.214386,68.448608,1.465215,22.411884,-10.718844,-3.159256,-15.495169,-8.715068,-17.975111,0.635281,...,1.670562,-5.863880,-1.098587,-2.014703,0.226381,-1.058726,1.536796,-1.322571,5.006320,05
05,-435.537689,54.987972,-7.957160,36.719688,-15.102768,5.779552,-17.170855,-5.765754,-10.755696,5.679981,...,0.781165,-1.524035,4.259491,-1.669771,1.811984,-1.599473,1.886942,1.856663,3.851156,05
05,-414.583313,85.459770,8.327278,5.927553,-8.868082,2.478487,-12.364786,-10.949556,-12.616245,3.694977,...,-1.210028,-4.725624,2.897235,-0.756395,2.379811,1.900689,3.940629,0.582157,2.477091,05
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
02,-557.691895,76.261505,26.812920,21.027248,9.985358,14.419414,-14.963044,-6.008372,-13.508571,11.069414,...,-3.428458,-3.801969,-0.604161,-6.935909,3.016991,-2.804477,2.066132,-1.778984,3.492822,02
02,-542.254028,80.854744,26.794289,22.868090,12.850275,23.111471,-0.070058,-7.567317,-11.388879,8.127281,...,-1.323574,-2.059865,3.436770,-4.668593,1.770577,-4.130288,5.103843,0.001028,5.543193,02
02,-510.305267,92.528488,19.663439,15.178706,9.632703,15.001949,-16.474386,-10.300098,-11.535367,6.177837,...,-4.933882,-2.598806,-0.573230,-5.639939,2.249171,3.928517,8.045011,6.947206,9.110233,02
02,-546.374329,101.403427,30.319857,8.416925,5.852256,15.537525,-18.954216,-9.493547,-13.774308,9.489421,...,-0.755956,-2.935819,-0.871827,-1.787528,-2.288879,2.201672,1.396853,-3.230258,4.245613,02


In [8]:
# Сброс колонки с индексами
df_TESS = dataset.reset_index(drop=True)

In [9]:
df_TESS

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,21,22,23,24,25,26,27,28,29,target
0,-434.340637,61.547073,-5.816717,41.895260,-12.912008,-0.060510,-15.045928,-8.992117,-12.555533,-5.649084,...,1.866011,-3.498047,2.035084,-1.075615,-0.173851,-2.168725,3.232147,-0.763888,5.738414,05
1,-388.402496,85.914452,-16.238209,19.381401,-13.622484,-6.053656,-18.407581,-6.018507,-14.872563,2.884473,...,-2.231792,-3.592348,-1.095985,-2.304485,1.372704,-0.156101,5.546880,3.325720,6.670145,05
2,-413.214386,68.448608,1.465215,22.411884,-10.718844,-3.159256,-15.495169,-8.715068,-17.975111,0.635281,...,1.670562,-5.863880,-1.098587,-2.014703,0.226381,-1.058726,1.536796,-1.322571,5.006320,05
3,-435.537689,54.987972,-7.957160,36.719688,-15.102768,5.779552,-17.170855,-5.765754,-10.755696,5.679981,...,0.781165,-1.524035,4.259491,-1.669771,1.811984,-1.599473,1.886942,1.856663,3.851156,05
4,-414.583313,85.459770,8.327278,5.927553,-8.868082,2.478487,-12.364786,-10.949556,-12.616245,3.694977,...,-1.210028,-4.725624,2.897235,-0.756395,2.379811,1.900689,3.940629,0.582157,2.477091,05
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5595,-557.691895,76.261505,26.812920,21.027248,9.985358,14.419414,-14.963044,-6.008372,-13.508571,11.069414,...,-3.428458,-3.801969,-0.604161,-6.935909,3.016991,-2.804477,2.066132,-1.778984,3.492822,02
5596,-542.254028,80.854744,26.794289,22.868090,12.850275,23.111471,-0.070058,-7.567317,-11.388879,8.127281,...,-1.323574,-2.059865,3.436770,-4.668593,1.770577,-4.130288,5.103843,0.001028,5.543193,02
5597,-510.305267,92.528488,19.663439,15.178706,9.632703,15.001949,-16.474386,-10.300098,-11.535367,6.177837,...,-4.933882,-2.598806,-0.573230,-5.639939,2.249171,3.928517,8.045011,6.947206,9.110233,02
5598,-546.374329,101.403427,30.319857,8.416925,5.852256,15.537525,-18.954216,-9.493547,-13.774308,9.489421,...,-0.755956,-2.935819,-0.871827,-1.787528,-2.288879,2.201672,1.396853,-3.230258,4.245613,02


In [10]:
df_TESS.dtypes

0         float32
1         float32
2         float32
3         float32
4         float32
5         float32
6         float32
7         float32
8         float32
9         float32
10        float32
11        float32
12        float32
13        float32
14        float32
15        float32
16        float32
17        float32
18        float32
19        float32
20        float32
21        float32
22        float32
23        float32
24        float32
25        float32
26        float32
27        float32
28        float32
29        float32
target     object
dtype: object

In [11]:
# df['target'] = pd.to_numeric(df['target'], errors='coerce')

In [12]:
df_TESS.isna().sum()

0         0
1         0
2         0
3         0
4         0
5         0
6         0
7         0
8         0
9         0
10        0
11        0
12        0
13        0
14        0
15        0
16        0
17        0
18        0
19        0
20        0
21        0
22        0
23        0
24        0
25        0
26        0
27        0
28        0
29        0
target    0
dtype: int64

## Разбиваем выборку на трейн и тест

In [13]:
from sklearn.model_selection import train_test_split

In [14]:
x_train_TESS, x_test_TESS = train_test_split(df_TESS, test_size=0.2, random_state=1) # сплитим на полный обучающий и тестовый

In [15]:
# Принимает столбец с целевой переменной churn и сохраняет его за пределами датафрейма
y_train_TESS = x_train_TESS.target.values
y_test_TESS = x_test_TESS.target.values

In [16]:
# Удаляем столбцы churn из обоих df для гарантии того, что мы случайно не используем переменную target в качестве признака при обучении
del x_train_TESS['target']
del x_test_TESS['target']

## Random_Forest

In [17]:
from sklearn.ensemble import RandomForestClassifier

model_TESS_RandomForest = RandomForestClassifier()
model_TESS_RandomForest.fit(x_train_TESS, y_train_TESS)

In [18]:
# Предсказание меток на тестовом наборе
y_pred_TESS = model_TESS_RandomForest.predict(x_test_TESS)

In [19]:
from sklearn.metrics import classification_report

def my_classification_report(y_test, y_pred):
    # Метрики classification_report
    report = classification_report(y_test, y_pred, target_names=['00', '01', '02', '03', '04', '05', '06'])
    print(report)

In [20]:
y_test_TESS

array(['04', '02', '06', ..., '02', '06', '00'], dtype=object)

In [21]:
y_pred_TESS

array(['04', '02', '06', ..., '02', '06', '00'], dtype=object)

In [22]:
print(my_classification_report(y_test_TESS, y_pred_TESS))

              precision    recall  f1-score   support

          00       1.00      1.00      1.00       153
          01       0.99      1.00      0.99       170
          02       1.00      1.00      1.00       153
          03       1.00      0.99      0.99       179
          04       1.00      1.00      1.00       155
          05       1.00      1.00      1.00       138
          06       1.00      1.00      1.00       172

    accuracy                           1.00      1120
   macro avg       1.00      1.00      1.00      1120
weighted avg       1.00      1.00      1.00      1120

None


In [23]:
def compare_arrays(y_true, y_pred):
    """
    Функция сравнивает два массива и вычисляет процент соответствия.
    
    :param y_true: Массив истинных меток
    :param y_pred: Массив предсказанных меток
    :return: Процент соответствия
    """
    # Проверяем, что оба массива имеют одинаковую длину
    if len(y_true) != len(y_pred):
        raise ValueError("Массивы y_true и y_pred должны иметь одинаковую длину")
    
    # Подсчитываем количество совпадений
    matches = np.sum(y_true == y_pred)
    
    # Вычисляем процент соответствия
    accuracy = (matches / len(y_true)) * 100
    
    return accuracy

# Пример использования функции
accuracy = compare_arrays(y_test_TESS, y_pred_TESS)
print(f"Процент соответствия: {accuracy:.2f}%")

Процент соответствия: 99.82%


## Нейронная сеть

Нормализация данных

In [24]:
# ШКАЛИРУЕМ ТОЛЬКО ПРИЗНАКИ
from sklearn.preprocessing import MinMaxScaler

# Создаем объект MinMaxScaler для масштабирования признаков
scaler_x = MinMaxScaler().fit(x_train_TESS)
x_train_norm_TESS = scaler_x.transform(x_train_TESS)
x_test_norm_TESS = scaler_x.transform(x_test_TESS)


Обучение 

In [25]:
from sklearn.neural_network import MLPClassifier

model_TESS_neural = MLPClassifier(hidden_layer_sizes=(100,50), # 100 - количество нейронов в скрытом слое
                      activation ='relu',  # активационная функция
                      solver = 'adam', #алгоритм обучения
                      #tol=0.000001, # критерий остановки / предел ошибки
                      max_iter = 50, # максимальное число эпох
                      verbose = True).fit(x_train_norm_TESS, y_train_TESS)

Iteration 1, loss = 1.91453840
Iteration 2, loss = 1.64920929
Iteration 3, loss = 1.31830006
Iteration 4, loss = 0.99593678
Iteration 5, loss = 0.76455363
Iteration 6, loss = 0.60408062
Iteration 7, loss = 0.48771487
Iteration 8, loss = 0.39265158
Iteration 9, loss = 0.32308074
Iteration 10, loss = 0.27358135
Iteration 11, loss = 0.23526741
Iteration 12, loss = 0.20822316
Iteration 13, loss = 0.18544073
Iteration 14, loss = 0.16641431
Iteration 15, loss = 0.15249577
Iteration 16, loss = 0.13959602
Iteration 17, loss = 0.13032932
Iteration 18, loss = 0.11880880
Iteration 19, loss = 0.11092857
Iteration 20, loss = 0.10537132
Iteration 21, loss = 0.09833402
Iteration 22, loss = 0.09306276
Iteration 23, loss = 0.08690493
Iteration 24, loss = 0.08395407
Iteration 25, loss = 0.07813147
Iteration 26, loss = 0.07637699
Iteration 27, loss = 0.07059267
Iteration 28, loss = 0.06726697
Iteration 29, loss = 0.06655799
Iteration 30, loss = 0.06338289
Iteration 31, loss = 0.05893572
Iteration 32, los



In [26]:
predict_train_norm_TESS = model_TESS_neural.predict(x_train_norm_TESS)
predict_test_norm_TESS = model_TESS_neural.predict(x_test_norm_TESS)

In [27]:
# Преобразуем предсказания в pandas.Series и применим value_counts()
predict_train_norm_series_TESS = pd.Series(predict_train_norm_TESS)
predict_test_norm_series_TESS = pd.Series(predict_test_norm_TESS)

# Получаем количество уникальных значений
print(predict_train_norm_series_TESS.value_counts())
print(predict_test_norm_series_TESS.value_counts())

05    665
02    647
00    647
04    645
01    628
06    626
03    622
Name: count, dtype: int64
03    178
06    170
01    170
04    157
02    153
00    153
05    139
Name: count, dtype: int64


In [28]:
def my_classification_report(y_test, y_pred):
    # Метрики classification_report
    report = classification_report(y_test, y_pred, target_names=['00', '01', '02', '03', '04', '05', '06'])
    print(report)

In [29]:
y_test_TESS

array(['04', '02', '06', ..., '02', '06', '00'], dtype=object)

In [30]:
predict_test_norm_TESS

array(['04', '02', '06', ..., '02', '06', '00'], dtype='<U2')

In [31]:
print(my_classification_report(y_test_TESS, predict_test_norm_series_TESS))

              precision    recall  f1-score   support

          00       1.00      1.00      1.00       153
          01       0.99      0.99      0.99       170
          02       1.00      1.00      1.00       153
          03       0.99      0.99      0.99       179
          04       0.99      1.00      0.99       155
          05       0.99      1.00      1.00       138
          06       1.00      0.99      0.99       172

    accuracy                           1.00      1120
   macro avg       1.00      1.00      1.00      1120
weighted avg       1.00      1.00      1.00      1120

None


In [32]:
def compare_arrays(y_true, y_pred):
    """
    Функция сравнивает два массива и вычисляет процент соответствия.
    
    :param y_true: Массив истинных меток
    :param y_pred: Массив предсказанных меток
    :return: Процент соответствия
    """
    # Проверяем, что оба массива имеют одинаковую длину
    if len(y_true) != len(y_pred):
        raise ValueError("Массивы y_true и y_pred должны иметь одинаковую длину")
    
    # Подсчитываем количество совпадений
    matches = np.sum(y_true == y_pred)
    
    # Вычисляем процент соответствия
    accuracy = (matches / len(y_true)) * 100
    
    return accuracy

# Пример использования функции
accuracy = compare_arrays(y_test_TESS, predict_test_norm_TESS)
print(f"Процент соответствия: {accuracy:.2f}%")

Процент соответствия: 99.55%


## SAVEE

Преобразование аудиофайлов в мел-кепстральные коэффициенты (MFCC):

In [33]:
import os
import time
import librosa as lr
import numpy as np

# Укажите путь к вашему датасету SAVEE
path = '/Users/oudzhi/PycharmProjects/BigData_Prediction/Lab_4/SAVEE'

# Словарь для перевода аббревиатур в полные названия эмоций
emotion_map = {
    'a': 'anger',
    'd': 'disgust',
    'f': 'fear',
    'h': 'happiness',
    'n': 'neutral',
    'sa': 'sadness',
    'su': 'surprise'
}

# Начало отсчета времени
start = time.time()

# Список для хранения данных
data = []

# Счетчик для подсчета обработанных файлов
file_count = 0

# Проходит по всем файлам в указанной директории
for file in os.listdir(path):
    # Проверяет, что файл является аудиофайлом (например, имеет расширение .wav)
    if file.endswith('.wav'):
        file_count += 1
        print(f'Processing file: {file}')
        
        # Извлекает целевую метку из имени файла. Предполагается, что имя файла имеет формат 'ID_emotionID.wav'
        try:
            # Извлекает второй элемент после разделения по подчеркиванию
            parts = file.split('_')
            if len(parts) < 2:
                print(f"Skipping file {file} due to unexpected filename format")
                continue
            emotion_abbreviation = parts[1][:2]  # Предполагается, что метка эмоции состоит из одного или двух символов
            if emotion_abbreviation not in emotion_map:
                # Пробуем взять только первый символ, если два символа не подходят
                emotion_abbreviation = parts[1][0]
                if emotion_abbreviation not in emotion_map:
                    print(f"Skipping file {file} due to unexpected emotion abbreviation")
                    continue
            target = emotion_map[emotion_abbreviation]
        except IndexError:
            print(f"Skipping file {file} due to unexpected filename format")
            continue
        
        # Загружает аудиофайл и получает временной ряд y и частоту дискретизации sr
        y, sr = lr.load(os.path.join(path, file), res_type='kaiser_fast')
        
        # Вычисляет MFCC (мел-кепстральные коэффициенты) и берёт среднее значение по времени
        mfccs = np.mean(lr.feature.mfcc(y=y, sr=sr, n_mfcc=30).T, axis=0)
        
        # Создаёт кортеж из MFCC и целевой метки
        sample = (mfccs, target)
        
        # Добавляет кортеж в список данных
        data.append(sample)

# Конец отсчета времени
end = time.time()
print(f'Processing ended in {end - start} seconds')
print(f'Total files processed: {file_count}')
print(f'Total samples extracted: {len(data)}')

# data теперь содержит список кортежей с MFCC и соответствующими целевыми метками


Processing file: JK_sa01.wav
Processing file: JK_sa15.wav
Processing file: DC_n13.wav
Processing file: DC_su09.wav
Processing file: DC_n07.wav
Processing file: JK_n20.wav
Processing file: JK_n08.wav
Processing file: JE_sa08.wav
Processing file: JK_f15.wav
Processing file: JK_f01.wav
Processing file: KL_sa13.wav
Processing file: KL_sa07.wav
Processing file: JK_d03.wav
Processing file: DC_h01.wav
Processing file: DC_h15.wav
Processing file: DC_h14.wav
Processing file: JK_d02.wav
Processing file: KL_sa06.wav
Processing file: KL_sa12.wav
Processing file: JK_f14.wav
Processing file: JE_sa09.wav
Processing file: JK_n09.wav
Processing file: JK_n21.wav
Processing file: DC_n06.wav
Processing file: DC_n12.wav
Processing file: DC_su08.wav
Processing file: JK_sa14.wav
Processing file: JK_sa02.wav
Processing file: DC_n04.wav
Processing file: DC_n10.wav
Processing file: JK_n23.wav
Processing file: JK_f02.wav
Processing file: KL_sa04.wav
Processing file: KL_sa10.wav
Processing file: JK_d14.wav
Proces

Объяснение изменений:

1) Извлечение метки: Изменен способ извлечения метки эмоции из имени файла, предположив, что метка эмоции является вторым элементом после разделения по подчеркиванию и первым(-и) символом(-ами) этого элемента.

2) Обработка ошибок: Добавлена обработка ошибок, если имя файла не соответствует ожидаемому формату.


In [34]:
data

[(array([-3.42879242e+02,  1.10123116e+02,  1.67589512e+01,  5.28744774e+01,
         -9.22876358e+00, -1.33939276e+01,  5.75927496e+00,  2.04860210e+00,
         -1.31924276e+01,  1.31937158e+00, -1.66760743e+00, -3.38630581e+00,
         -2.25565004e+00, -3.20555329e+00,  5.17173052e+00, -7.60548353e-01,
          4.99695688e-01, -3.29367459e-01, -2.55320430e-01, -1.16123855e+00,
          1.02757132e+00,  2.27331567e+00, -2.10208297e+00, -1.27618968e+00,
         -4.54665184e-01,  6.15284562e-01,  4.99941558e-01, -4.25803721e-01,
         -4.49450254e-01, -1.10790765e+00], dtype=float32),
  'sadness'),
 (array([-3.9093713e+02,  1.2162480e+02,  2.3463705e+01,  5.1301987e+01,
          7.7224646e+00, -1.5673862e+01,  9.0647495e-01, -2.3941016e-01,
         -1.0317782e+01,  3.2989454e+00,  9.9912450e-02, -5.2432799e+00,
          8.3635539e-01, -9.8490423e-01,  5.0379353e+00,  3.8914795e+00,
         -1.1141737e+00,  1.0756233e+00,  1.6773028e+00, -2.7208126e+00,
         -2.5037355e+0

In [35]:
X, y = zip(*data)
dataset_SAVEE = pd.DataFrame(list(X))
dataset_SAVEE['target'] = y

dataset_SAVEE

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,21,22,23,24,25,26,27,28,29,target
0,-342.879242,110.123116,16.758951,52.874477,-9.228764,-13.393928,5.759275,2.048602,-13.192428,1.319372,...,2.273316,-2.102083,-1.276190,-0.454665,0.615285,0.499942,-0.425804,-0.449450,-1.107908,sadness
1,-390.937134,121.624802,23.463705,51.301987,7.722465,-15.673862,0.906475,-0.239410,-10.317782,3.298945,...,1.585702,1.299381,-1.632616,-0.744543,0.776034,0.926889,1.453830,0.877317,0.946318,sadness
2,-417.870697,130.100494,24.523258,27.064175,17.122215,3.774300,-14.731636,0.943975,1.390779,-5.313527,...,2.617496,2.842799,-0.619981,0.536558,-0.552868,1.280779,2.264977,-0.941691,0.204448,neutral
3,-338.998749,92.952255,15.218311,33.653198,-0.338934,6.784465,-25.366610,-3.008591,4.450557,-12.407564,...,-2.180138,0.045735,0.135016,0.585182,-1.260974,3.403101,6.137363,2.331447,4.864069,surprise
4,-410.499542,140.867615,19.121056,31.414476,26.243225,-5.128150,-17.416367,4.913052,0.215972,-10.919421,...,3.214876,1.359564,-1.194640,-0.462293,-1.079623,1.468832,1.911528,-0.782036,-0.476528,neutral
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
475,-242.543350,105.960129,1.004630,41.505852,-0.990715,3.060884,-23.251074,-7.331499,-7.309322,-5.450985,...,-3.221656,0.196171,-3.917109,-3.320011,-0.843450,-0.024544,3.995038,2.878519,3.871254,anger
476,-307.623199,107.922852,13.135909,44.444138,17.284184,-7.607086,-19.771685,-8.448053,-8.347266,-5.968149,...,-2.083116,-0.275894,-1.376133,-0.973157,-2.133339,-2.950528,-1.235002,-2.748804,-2.868404,anger
477,-449.599182,145.337296,43.860100,27.915306,16.277441,-3.343404,-9.184255,4.671248,-1.080293,-8.856908,...,2.330700,0.538735,0.597508,1.757197,-0.625479,0.177789,1.122046,-0.286186,0.765133,neutral
478,-299.071564,115.935410,14.427536,21.862600,-2.423900,-3.170332,-25.557043,-1.684537,1.225181,-17.380804,...,-0.450825,-0.599644,0.851995,-1.785699,-3.269679,0.699407,0.601331,2.533023,4.584414,surprise


In [36]:
dataset_SAVEE['target'].value_counts()

target
neutral      120
sadness       60
surprise      60
fear          60
disgust       60
happiness     60
anger         60
Name: count, dtype: int64

Перекодируем эмоции в числа

In [37]:
# Создаем словарь, где ключами были – числовые значения, а словами – наши эмоции из столбца target.

emotions = {
    '00': 'neutral',
    '01': 'happiness',
    '02': 'sadness',
    '03': 'anger',
    '04': 'fear',
    '05': 'disgust',
    '07': 'surprise',
}

Как видим, если сравнивать метки целевой переменной, то в обоих датасетах SAVEE и TESS эмоции примерно похожи, с той лишь разницей, что в SAVEE есть эмоци surprice (отсутсвует в TESS). В то время как в TESS присутствует метка "ps", которой нет в SAVEE. Соответственно этим двум меткам были присвоены разные ключи: 06: ps, 07: surprice

In [38]:
X, y = zip(*data)
Y = []
emotions_inv ={value: key for key, value in emotions.items()}
for i in range(len(y)):
    Y.append(emotions_inv[y[i]])

In [39]:
dataset = pd.DataFrame(X, (Y))
dataset['target'] = Y
dataset

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,21,22,23,24,25,26,27,28,29,target
02,-342.879242,110.123116,16.758951,52.874477,-9.228764,-13.393928,5.759275,2.048602,-13.192428,1.319372,...,2.273316,-2.102083,-1.276190,-0.454665,0.615285,0.499942,-0.425804,-0.449450,-1.107908,02
02,-390.937134,121.624802,23.463705,51.301987,7.722465,-15.673862,0.906475,-0.239410,-10.317782,3.298945,...,1.585702,1.299381,-1.632616,-0.744543,0.776034,0.926889,1.453830,0.877317,0.946318,02
00,-417.870697,130.100494,24.523258,27.064175,17.122215,3.774300,-14.731636,0.943975,1.390779,-5.313527,...,2.617496,2.842799,-0.619981,0.536558,-0.552868,1.280779,2.264977,-0.941691,0.204448,00
07,-338.998749,92.952255,15.218311,33.653198,-0.338934,6.784465,-25.366610,-3.008591,4.450557,-12.407564,...,-2.180138,0.045735,0.135016,0.585182,-1.260974,3.403101,6.137363,2.331447,4.864069,07
00,-410.499542,140.867615,19.121056,31.414476,26.243225,-5.128150,-17.416367,4.913052,0.215972,-10.919421,...,3.214876,1.359564,-1.194640,-0.462293,-1.079623,1.468832,1.911528,-0.782036,-0.476528,00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
03,-242.543350,105.960129,1.004630,41.505852,-0.990715,3.060884,-23.251074,-7.331499,-7.309322,-5.450985,...,-3.221656,0.196171,-3.917109,-3.320011,-0.843450,-0.024544,3.995038,2.878519,3.871254,03
03,-307.623199,107.922852,13.135909,44.444138,17.284184,-7.607086,-19.771685,-8.448053,-8.347266,-5.968149,...,-2.083116,-0.275894,-1.376133,-0.973157,-2.133339,-2.950528,-1.235002,-2.748804,-2.868404,03
00,-449.599182,145.337296,43.860100,27.915306,16.277441,-3.343404,-9.184255,4.671248,-1.080293,-8.856908,...,2.330700,0.538735,0.597508,1.757197,-0.625479,0.177789,1.122046,-0.286186,0.765133,00
07,-299.071564,115.935410,14.427536,21.862600,-2.423900,-3.170332,-25.557043,-1.684537,1.225181,-17.380804,...,-0.450825,-0.599644,0.851995,-1.785699,-3.269679,0.699407,0.601331,2.533023,4.584414,07


In [40]:
# Сброс колонки с индексами
df_SAVEE = dataset.reset_index(drop=True)
df_SAVEE

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,21,22,23,24,25,26,27,28,29,target
0,-342.879242,110.123116,16.758951,52.874477,-9.228764,-13.393928,5.759275,2.048602,-13.192428,1.319372,...,2.273316,-2.102083,-1.276190,-0.454665,0.615285,0.499942,-0.425804,-0.449450,-1.107908,02
1,-390.937134,121.624802,23.463705,51.301987,7.722465,-15.673862,0.906475,-0.239410,-10.317782,3.298945,...,1.585702,1.299381,-1.632616,-0.744543,0.776034,0.926889,1.453830,0.877317,0.946318,02
2,-417.870697,130.100494,24.523258,27.064175,17.122215,3.774300,-14.731636,0.943975,1.390779,-5.313527,...,2.617496,2.842799,-0.619981,0.536558,-0.552868,1.280779,2.264977,-0.941691,0.204448,00
3,-338.998749,92.952255,15.218311,33.653198,-0.338934,6.784465,-25.366610,-3.008591,4.450557,-12.407564,...,-2.180138,0.045735,0.135016,0.585182,-1.260974,3.403101,6.137363,2.331447,4.864069,07
4,-410.499542,140.867615,19.121056,31.414476,26.243225,-5.128150,-17.416367,4.913052,0.215972,-10.919421,...,3.214876,1.359564,-1.194640,-0.462293,-1.079623,1.468832,1.911528,-0.782036,-0.476528,00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
475,-242.543350,105.960129,1.004630,41.505852,-0.990715,3.060884,-23.251074,-7.331499,-7.309322,-5.450985,...,-3.221656,0.196171,-3.917109,-3.320011,-0.843450,-0.024544,3.995038,2.878519,3.871254,03
476,-307.623199,107.922852,13.135909,44.444138,17.284184,-7.607086,-19.771685,-8.448053,-8.347266,-5.968149,...,-2.083116,-0.275894,-1.376133,-0.973157,-2.133339,-2.950528,-1.235002,-2.748804,-2.868404,03
477,-449.599182,145.337296,43.860100,27.915306,16.277441,-3.343404,-9.184255,4.671248,-1.080293,-8.856908,...,2.330700,0.538735,0.597508,1.757197,-0.625479,0.177789,1.122046,-0.286186,0.765133,00
478,-299.071564,115.935410,14.427536,21.862600,-2.423900,-3.170332,-25.557043,-1.684537,1.225181,-17.380804,...,-0.450825,-0.599644,0.851995,-1.785699,-3.269679,0.699407,0.601331,2.533023,4.584414,07


In [41]:
len(df_SAVEE)

480

Как видим количество наблюдений в данном датасете существенно меньше, чем в предыдущем (480 против 5600)

### Разбиваем выборку на обучающую и тестовую

In [42]:
x_train_SAVEE, x_test_SAVEE = train_test_split(df_SAVEE, test_size=0.2, random_state=1)  # сплитим на полный обучающий и тестовый

# Принимает столбец с целевой переменной churn и сохраняет его за пределами датафрейма
y_train_SAVEE = x_train_SAVEE.target.values
y_test_SAVEE = x_test_SAVEE.target.values

# Удаляем столбцы churn из обоих df для гарантии того, что мы случайно не используем переменную target в качестве признака при обучении
del x_train_SAVEE['target']
del x_test_SAVEE['target']

### Random Forest

In [43]:
from sklearn.ensemble import RandomForestClassifier

model_SAVEE_RandomForest = RandomForestClassifier()
model_SAVEE_RandomForest.fit(x_train_SAVEE, y_train_SAVEE)

# Предсказание меток на тестовом наборе
y_pred_SAVEE = model_SAVEE_RandomForest.predict(x_test_SAVEE)

In [44]:
y_test_SAVEE

array(['03', '00', '05', '00', '02', '01', '00', '04', '07', '04', '05',
       '04', '00', '01', '02', '00', '03', '04', '02', '03', '01', '05',
       '05', '07', '03', '03', '00', '00', '00', '05', '00', '07', '05',
       '00', '01', '00', '00', '02', '07', '04', '04', '02', '00', '03',
       '03', '05', '01', '04', '02', '00', '05', '03', '03', '03', '05',
       '00', '05', '00', '05', '07', '02', '07', '05', '00', '00', '03',
       '00', '02', '05', '00', '00', '07', '03', '01', '03', '00', '05',
       '04', '03', '07', '03', '00', '01', '00', '01', '00', '03', '02',
       '00', '02', '00', '01', '00', '03', '05', '01'], dtype=object)

In [45]:
y_pred_SAVEE

array(['05', '00', '05', '00', '02', '01', '00', '04', '01', '01', '03',
       '01', '00', '03', '02', '00', '03', '03', '02', '03', '01', '05',
       '00', '07', '03', '03', '00', '00', '00', '03', '02', '04', '07',
       '00', '01', '00', '00', '02', '04', '04', '00', '00', '00', '03',
       '03', '03', '01', '03', '00', '00', '02', '03', '03', '05', '00',
       '00', '00', '00', '02', '07', '02', '03', '05', '00', '00', '03',
       '00', '00', '05', '00', '00', '01', '03', '01', '03', '00', '00',
       '01', '03', '07', '01', '00', '01', '00', '07', '00', '05', '00',
       '02', '02', '00', '03', '00', '03', '05', '07'], dtype=object)

In [46]:
def my_classification_report(y_test, y_pred):
    # Метрики classification_report
    report = classification_report(y_test, y_pred,
                                   target_names=['00', '01', '02', '03', '04', '05', '07'])
    print(report)

In [47]:
print(my_classification_report(y_test_SAVEE, y_pred_SAVEE))

              precision    recall  f1-score   support

          00       0.74      0.93      0.83        28
          01       0.50      0.60      0.55        10
          02       0.60      0.60      0.60        10
          03       0.62      0.76      0.68        17
          04       0.50      0.25      0.33         8
          05       0.62      0.33      0.43        15
          07       0.50      0.38      0.43         8

    accuracy                           0.64        96
   macro avg       0.58      0.55      0.55        96
weighted avg       0.62      0.64      0.61        96

None


In [48]:
# Пример использования функции compare_arrays (см выше)
accuracy = compare_arrays(y_test_SAVEE, y_pred_SAVEE)
print(f"Процент соответствия: {accuracy:.2f}%")

Процент соответствия: 63.54%


Как видно, обученная на этом датасете модель Random_Forest не так хорошо распознает эмоции.

### Нейронная сеть

ШКАЛИРУЕМ ТОЛЬКО ПРИЗНАКИ

In [49]:
# Создаем объект MinMaxScaler для масштабирования признаков
scaler_x = MinMaxScaler().fit(x_train_SAVEE)
x_train_norm_SAVEE = scaler_x.transform(x_train_SAVEE)
x_test_norm_SAVEE = scaler_x.transform(x_test_SAVEE)

In [50]:
model_SAVEE_neural = MLPClassifier(hidden_layer_sizes=(100, 50),  # 100 - количество нейронов в скрытом слое
                                  activation='relu',  # активационная функция
                                  solver='adam',  #алгоритм обучения
                                  #tol=0.000001, # критерий остановки / предел ошибки
                                  max_iter=50,  # максимальное число эпох
                                  verbose=True).fit(x_train_norm_SAVEE, y_train_SAVEE)

Iteration 1, loss = 1.98942364
Iteration 2, loss = 1.94668275
Iteration 3, loss = 1.91470557
Iteration 4, loss = 1.89610026
Iteration 5, loss = 1.87683191
Iteration 6, loss = 1.86152393
Iteration 7, loss = 1.84985732
Iteration 8, loss = 1.83885097
Iteration 9, loss = 1.82643159
Iteration 10, loss = 1.81491598
Iteration 11, loss = 1.80255891
Iteration 12, loss = 1.78990741
Iteration 13, loss = 1.77810372
Iteration 14, loss = 1.76530178
Iteration 15, loss = 1.75226914
Iteration 16, loss = 1.73913572
Iteration 17, loss = 1.72662578
Iteration 18, loss = 1.71239383
Iteration 19, loss = 1.69887515
Iteration 20, loss = 1.68506052
Iteration 21, loss = 1.67141652
Iteration 22, loss = 1.65857584
Iteration 23, loss = 1.64304326
Iteration 24, loss = 1.62857800
Iteration 25, loss = 1.61405505
Iteration 26, loss = 1.59873936
Iteration 27, loss = 1.58426037
Iteration 28, loss = 1.56952087
Iteration 29, loss = 1.55504499
Iteration 30, loss = 1.54059312
Iteration 31, loss = 1.52621779
Iteration 32, los



In [51]:
predict_train_norm_SAVEE = model_SAVEE_neural.predict(x_train_norm_SAVEE)
predict_test_norm_SAVEE = model_SAVEE_neural.predict(x_test_norm_SAVEE)

# Преобразуем предсказания в pandas.Series и применим value_counts()
predict_train_norm_series_SAVEE = pd.Series(predict_train_norm_SAVEE)
predict_test_norm_series_SAVEE = pd.Series(predict_test_norm_SAVEE)

In [52]:
# Получаем количество уникальных значений
print(predict_train_norm_series_SAVEE.value_counts())
print(predict_test_norm_series_SAVEE.value_counts())

00    194
01     54
04     42
07     39
03     33
05     11
02     11
Name: count, dtype: int64
00    53
02    10
07    10
01     9
03     7
04     4
05     3
Name: count, dtype: int64


In [53]:
y_test_SAVEE

array(['03', '00', '05', '00', '02', '01', '00', '04', '07', '04', '05',
       '04', '00', '01', '02', '00', '03', '04', '02', '03', '01', '05',
       '05', '07', '03', '03', '00', '00', '00', '05', '00', '07', '05',
       '00', '01', '00', '00', '02', '07', '04', '04', '02', '00', '03',
       '03', '05', '01', '04', '02', '00', '05', '03', '03', '03', '05',
       '00', '05', '00', '05', '07', '02', '07', '05', '00', '00', '03',
       '00', '02', '05', '00', '00', '07', '03', '01', '03', '00', '05',
       '04', '03', '07', '03', '00', '01', '00', '01', '00', '03', '02',
       '00', '02', '00', '01', '00', '03', '05', '01'], dtype=object)

In [54]:
predict_test_norm_SAVEE

array(['00', '00', '02', '00', '02', '01', '00', '05', '07', '07', '02',
       '07', '00', '03', '00', '00', '02', '02', '00', '03', '01', '00',
       '00', '07', '03', '03', '00', '00', '00', '00', '00', '02', '04',
       '00', '01', '00', '00', '00', '07', '07', '00', '00', '00', '04',
       '03', '04', '07', '00', '00', '00', '00', '02', '00', '05', '00',
       '00', '00', '00', '02', '07', '01', '02', '00', '00', '00', '01',
       '00', '00', '00', '00', '00', '00', '05', '01', '01', '00', '00',
       '01', '00', '04', '01', '00', '02', '00', '07', '00', '00', '00',
       '00', '00', '00', '03', '00', '03', '00', '07'], dtype='<U2')

In [55]:
print(my_classification_report(y_test_SAVEE, predict_test_norm_series_SAVEE))

              precision    recall  f1-score   support

          00       0.53      1.00      0.69        28
          01       0.44      0.40      0.42        10
          02       0.10      0.10      0.10        10
          03       0.71      0.29      0.42        17
          04       0.00      0.00      0.00         8
          05       0.00      0.00      0.00        15
          07       0.40      0.50      0.44         8

    accuracy                           0.44        96
   macro avg       0.31      0.33      0.30        96
weighted avg       0.37      0.44      0.37        96

None


In [56]:
# Пример использования функции compare_arrays (см выше)
accuracy = compare_arrays(y_test_SAVEE, predict_test_norm_series_SAVEE)
print(f"Процент соответствия: {accuracy:.2f}%")

Процент соответствия: 43.75%


Нейросеть MLP, обученная на этих данныхm работает хуже, чем Random_Forest

## Какие результаты покажут модели, обученные на данных SAVEE, для предсказания эмоций датасета TESS

### Random_Forest

In [57]:
# Предсказание меток на тестовом наборе
y_pred1 = model_SAVEE_RandomForest.predict(x_test_TESS)

In [58]:
y_test_TESS

array(['04', '02', '06', ..., '02', '06', '00'], dtype=object)

In [59]:
y_pred1

array(['04', '07', '04', ..., '00', '04', '03'], dtype=object)

In [60]:
# Пример использования функции
accuracy = compare_arrays(y_test_TESS, y_pred1)
print(f"Процент соответствия: {accuracy:.2f}%")

Процент соответствия: 14.29%


Модель Random_Forest, обученная на мужских голосах, плохо распознает женские

### MLP

In [61]:
# Предсказание меток на тестовом наборе
y_pred2 = model_SAVEE_neural.predict(x_test_norm_TESS)

In [62]:
y_test_TESS

array(['04', '02', '06', ..., '02', '06', '00'], dtype=object)

In [63]:
y_pred2

array(['01', '02', '01', ..., '00', '00', '00'], dtype='<U2')

In [64]:
# Пример использования функции
accuracy = compare_arrays(y_test_TESS, y_pred2)
print(f"Процент соответствия: {accuracy:.2f}%")

Процент соответствия: 26.79%


Нейросеть с заданием справилась чуть лучше, но все равно недостаточно хорошо, для того, чтобы превзойти модель, обученную на родных данных

## Какие результаты покажут модели, обученные на данных TESS, для предсказания эмоций датасета SAVEE

### Random_forest

In [65]:
# Предсказание меток на тестовом наборе
y_pred3 = model_TESS_RandomForest.predict(x_test_SAVEE)

In [66]:
y_test_SAVEE

array(['03', '00', '05', '00', '02', '01', '00', '04', '07', '04', '05',
       '04', '00', '01', '02', '00', '03', '04', '02', '03', '01', '05',
       '05', '07', '03', '03', '00', '00', '00', '05', '00', '07', '05',
       '00', '01', '00', '00', '02', '07', '04', '04', '02', '00', '03',
       '03', '05', '01', '04', '02', '00', '05', '03', '03', '03', '05',
       '00', '05', '00', '05', '07', '02', '07', '05', '00', '00', '03',
       '00', '02', '05', '00', '00', '07', '03', '01', '03', '00', '05',
       '04', '03', '07', '03', '00', '01', '00', '01', '00', '03', '02',
       '00', '02', '00', '01', '00', '03', '05', '01'], dtype=object)

In [67]:
y_pred3

array(['00', '02', '05', '05', '02', '05', '00', '00', '02', '05', '05',
       '02', '02', '05', '02', '02', '00', '02', '05', '05', '05', '02',
       '02', '05', '00', '00', '02', '02', '02', '00', '02', '05', '06',
       '05', '05', '00', '05', '00', '06', '05', '02', '02', '05', '02',
       '00', '02', '05', '02', '02', '05', '02', '00', '00', '02', '02',
       '02', '02', '05', '00', '04', '00', '02', '02', '02', '05', '05',
       '05', '02', '05', '05', '02', '02', '02', '05', '05', '02', '02',
       '05', '00', '05', '05', '05', '05', '02', '02', '02', '02', '02',
       '02', '00', '05', '05', '05', '00', '05', '01'], dtype=object)

In [68]:
# Пример использования функции
accuracy = compare_arrays(y_test_SAVEE, y_pred3)
print(f"Процент соответствия: {accuracy:.2f}%")

Процент соответствия: 13.54%


### MLP

In [69]:
# Предсказание меток на тестовом наборе
y_pred4 = model_TESS_neural.predict(x_test_norm_SAVEE)

In [70]:
y_test_SAVEE

array(['03', '00', '05', '00', '02', '01', '00', '04', '07', '04', '05',
       '04', '00', '01', '02', '00', '03', '04', '02', '03', '01', '05',
       '05', '07', '03', '03', '00', '00', '00', '05', '00', '07', '05',
       '00', '01', '00', '00', '02', '07', '04', '04', '02', '00', '03',
       '03', '05', '01', '04', '02', '00', '05', '03', '03', '03', '05',
       '00', '05', '00', '05', '07', '02', '07', '05', '00', '00', '03',
       '00', '02', '05', '00', '00', '07', '03', '01', '03', '00', '05',
       '04', '03', '07', '03', '00', '01', '00', '01', '00', '03', '02',
       '00', '02', '00', '01', '00', '03', '05', '01'], dtype=object)

In [71]:
y_pred4

array(['00', '00', '06', '05', '00', '04', '00', '00', '01', '04', '00',
       '06', '00', '06', '00', '05', '00', '06', '03', '06', '05', '00',
       '00', '01', '00', '05', '00', '00', '00', '04', '02', '06', '04',
       '00', '01', '00', '00', '00', '04', '04', '01', '06', '06', '01',
       '06', '01', '04', '01', '02', '04', '02', '00', '01', '06', '06',
       '06', '01', '00', '00', '04', '00', '06', '04', '06', '02', '05',
       '00', '00', '00', '03', '05', '06', '06', '03', '03', '00', '00',
       '05', '00', '01', '03', '04', '00', '04', '01', '04', '05', '05',
       '00', '00', '00', '06', '00', '04', '00', '04'], dtype='<U2')

In [72]:
# Пример использования функции
accuracy = compare_arrays(y_test_SAVEE, y_pred4)
print(f"Процент соответствия: {accuracy:.2f}%")

Процент соответствия: 22.92%


Несмотря на факт того, что для обучения модели TESS задействовано кратно большее число наблюдений, модель все равно плохо распознает голоса противоположного пола

Если рассматривать все 4 модели, то наилучшим образом справляется model_TESS_neural (Она отлично распознает женские интонации голоса и в 20% случаев мужские).

## Сохранение моделей в pickle

In [73]:
import pickle 

with open('model_TESS_neural.bin', 'wb') as f_out: # Указывает файл, в который мы хотим сохранить. 'wb' - запись в двоичном формате
    pickle.dump(model_TESS_neural, f_out)

In [74]:
with open('model_TESS_RandomForest.bin', 'wb') as f_out: # Указывает файл, в который мы хотим сохранить. 'wb' - запись в двоичном формате
    pickle.dump(model_TESS_RandomForest, f_out)

In [75]:
with open('model_SAVEE_RandomForest.bin', 'wb') as f_out: # Указывает файл, в который мы хотим сохранить. 'wb' - запись в двоичном формате
    pickle.dump(model_SAVEE_RandomForest, f_out)

In [76]:
with open('model_SAVEE_neural.bin', 'wb') as f_out: # Указывает файл, в который мы хотим сохранить. 'wb' - запись в двоичном формате
    pickle.dump(model_SAVEE_neural, f_out)

# Тестирование на своих данных

In [77]:
# Укажите путь к вашему датасету SAVEE
path = '/Users/oudzhi/PycharmProjects/BigData_Prediction/Lab_4/example'

# Словарь для перевода аббревиатур в полные названия эмоций
emotion_map = {
    'n': 'neutral',
    'sa': 'sadness',
}

# Начало отсчета времени
start = time.time()

# Список для хранения данных
data = []

# Счетчик для подсчета обработанных файлов
file_count = 0

# Проходит по всем файлам в указанной директории
for file in os.listdir(path):
    # Проверяет, что файл является аудиофайлом (например, имеет расширение .wav)
    if file.endswith('.wav'):
        file_count += 1
        print(f'Processing file: {file}')
        
        # Извлекает целевую метку из имени файла. Предполагается, что имя файла имеет формат 'ID_emotionID.wav'
        try:
            # Извлекает второй элемент после разделения по подчеркиванию
            parts = file.split('_')
            if len(parts) < 2:
                print(f"Skipping file {file} due to unexpected filename format")
                continue
            emotion_abbreviation = parts[1][:2]  # Предполагается, что метка эмоции состоит из одного или двух символов
            if emotion_abbreviation not in emotion_map:
                # Пробуем взять только первый символ, если два символа не подходят
                emotion_abbreviation = parts[1][0]
                if emotion_abbreviation not in emotion_map:
                    print(f"Skipping file {file} due to unexpected emotion abbreviation")
                    continue
            target = emotion_map[emotion_abbreviation]
        except IndexError:
            print(f"Skipping file {file} due to unexpected filename format")
            continue
        
        # Загружает аудиофайл и получает временной ряд y и частоту дискретизации sr
        y, sr = lr.load(os.path.join(path, file), res_type='kaiser_fast')
        
        # Вычисляет MFCC (мел-кепстральные коэффициенты) и берёт среднее значение по времени
        mfccs = np.mean(lr.feature.mfcc(y=y, sr=sr, n_mfcc=30).T, axis=0)
        
        # Создаёт кортеж из MFCC и целевой метки
        sample = (mfccs, target)
        
        # Добавляет кортеж в список данных
        data.append(sample)

# Конец отсчета времени
end = time.time()
print(f'Processing ended in {end - start} seconds')
print(f'Total files processed: {file_count}')
print(f'Total samples extracted: {len(data)}')

# data теперь содержит список кортежей с MFCC и соответствующими целевыми метками


Processing file: A_sa02.wav
Processing file: X_n01.wav
Processing ended in 0.06815624237060547 seconds
Total files processed: 2
Total samples extracted: 2


In [78]:
data

[(array([-3.9345831e+02,  1.4843835e+02, -2.4492922e+00,  1.9219482e+01,
         -5.6244488e+00, -2.0965563e+01, -2.0212691e+00, -3.8683956e+00,
         -9.3895226e+00, -1.7627623e+00, -1.2319377e+01,  4.7310619e+00,
         -1.3733236e+01,  4.7014470e+00, -4.5198116e+00, -2.3680856e+00,
         -8.2225866e+00,  1.1226460e+00, -5.4199085e+00,  2.3457792e+00,
         -4.1535802e+00, -4.2456302e-01, -1.3797376e+00,  1.7004700e+00,
         -1.6226201e+00,  2.2530563e+00,  2.0784569e+00,  5.3768486e-02,
         -1.6731924e+00, -3.5336950e+00], dtype=float32),
  'sadness'),
 (array([-3.04138947e+02,  1.14041458e+02, -1.61481631e+00,  5.73606825e+00,
         -7.12290192e+00, -1.62750912e+01, -1.18579617e+01,  1.39794464e+01,
         -2.91168919e+01,  8.65066242e+00, -1.62247620e+01,  2.04710841e+00,
         -8.36656094e+00, -6.96984386e+00, -2.20358396e+00, -9.50308228e+00,
         -1.11307755e+01, -1.01729512e+00, -1.24649105e+01, -3.68178993e-01,
         -7.51235962e+00, -1.344

In [79]:
X, y = zip(*data)
dataset_example = pd.DataFrame(list(X))
dataset_example['target'] = y

dataset_example

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,21,22,23,24,25,26,27,28,29,target
0,-393.458313,148.438354,-2.449292,19.219482,-5.624449,-20.965563,-2.021269,-3.868396,-9.389523,-1.762762,...,-0.424563,-1.379738,1.70047,-1.62262,2.253056,2.078457,0.053768,-1.673192,-3.533695,sadness
1,-304.138947,114.041458,-1.614816,5.736068,-7.122902,-16.275091,-11.857962,13.979446,-29.116892,8.650662,...,-0.134444,-4.875039,1.796466,-0.402016,-2.806534,-1.044648,-0.341539,-1.297415,6.755444,neutral


In [80]:
emotions = {
    '00': 'neutral',
    '01': 'happiness',
    '02': 'sadness',
    '03': 'anger',
    '04': 'fear',
    '05': 'disgust',
    '07': 'surprise',
}

X, y = zip(*data)
Y = []
emotions_inv ={value: key for key, value in emotions.items()}
for i in range(len(y)):
    Y.append(emotions_inv[y[i]])
    
    
dataset = pd.DataFrame(X, (Y))
dataset['target'] = Y


# Сброс колонки с индексами
df_ex= dataset.reset_index(drop=True)
df_ex

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,21,22,23,24,25,26,27,28,29,target
0,-393.458313,148.438354,-2.449292,19.219482,-5.624449,-20.965563,-2.021269,-3.868396,-9.389523,-1.762762,...,-0.424563,-1.379738,1.70047,-1.62262,2.253056,2.078457,0.053768,-1.673192,-3.533695,2
1,-304.138947,114.041458,-1.614816,5.736068,-7.122902,-16.275091,-11.857962,13.979446,-29.116892,8.650662,...,-0.134444,-4.875039,1.796466,-0.402016,-2.806534,-1.044648,-0.341539,-1.297415,6.755444,0


In [81]:
x_test_ex = df_ex.drop('target', axis=1)
y_test_ex = df_ex['target']

In [82]:
x_test_ex 

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,20,21,22,23,24,25,26,27,28,29
0,-393.458313,148.438354,-2.449292,19.219482,-5.624449,-20.965563,-2.021269,-3.868396,-9.389523,-1.762762,...,-4.15358,-0.424563,-1.379738,1.70047,-1.62262,2.253056,2.078457,0.053768,-1.673192,-3.533695
1,-304.138947,114.041458,-1.614816,5.736068,-7.122902,-16.275091,-11.857962,13.979446,-29.116892,8.650662,...,-7.51236,-0.134444,-4.875039,1.796466,-0.402016,-2.806534,-1.044648,-0.341539,-1.297415,6.755444


### Запрос Flask

In [83]:
# Словарь для соответствия кодов эмоций и их значениям
emotions = {
    '00': 'neutral',
    '01': 'happiness',
    '02': 'sadness',
    '03': 'anger',
    '04': 'fear',
    '05': 'disgust',
    '06': 'ps',
    '07': 'surprise',
}

In [84]:
import requests
import pandas as pd

# Преобразуйте данные в DataFrame
X = pd.DataFrame(x_test_ex)
X_values = X.values.tolist()  # Преобразование в список значений без имен признаков

url = 'http://localhost:9696/predict'

# Добавьте параметр model с названием выбранной модели
data = {
    'model': 'model_SAVEE_RandomForest',  # Здесь выбирается одна из четырех моделей
    'X': X_values,  # Отправляем данные без имен признаков
    'feature_names': list(X.columns)  # Добавляем имена признаков
}

# Отправьте данные в формате JSON
response = requests.post(url, json=data)

# Получите результат
result = response.json()
print(result)


{'predictions': ['05', '01']}
