Extracción de características para audios

In [1]:
import librosa
import librosa.display
import pandas as pd
import numpy as np

In [2]:
def extract_features(ef_data, ef_sample_rate):
    ef_features = np.array([])

    # ZCR
    zcr = np.mean(librosa.feature.zero_crossing_rate(y=ef_data).T, axis=0)
    ef_features = np.hstack((ef_features, zcr))

    # Chroma_stft
    stft = np.abs(librosa.stft(ef_data))
    chroma_stft = np.mean(librosa.feature.chroma_stft(
        S=stft, sr=ef_sample_rate).T, axis=0)
    ef_features = np.hstack((ef_features, chroma_stft))

    # MFCC
    mfcc = np.mean(librosa.feature.mfcc(y=ef_data, sr=ef_sample_rate).T, axis=0)
    ef_features = np.hstack((ef_features, mfcc))

    # Root Mean Square Value
    rms = np.mean(librosa.feature.rms(y=ef_data).T, axis=0)
    ef_features = np.hstack((ef_features, rms))

    # MelSpectogram
    mel = np.mean(librosa.feature.melspectrogram(
        y=ef_data, sr=ef_sample_rate).T, axis=0)
    ef_features = np.hstack((ef_features, mel))

    return ef_features


def get_features(gf_path):
    data, sample_rate = librosa.load(gf_path)

    gf_features = extract_features(data, sample_rate)
    result = np.array(gf_features)

    return result

def prepare_audios(pa_Emo, pa_Dir, pa_Name):
    data = []
    labels = []

    data = []
    labels = []

    for idx, aud in enumerate(pa_Dir):
        try:
            feature = get_features(aud)
            data.append(feature)
            labels.append(pa_Emo[idx])
            print(f"Procesando audios: {idx}")
        except:
            print(f"Error al procesar el audio: {aud}")

    # Convertir las listas a arrays
    data = np.array(data)
    labels = np.array(labels)

    # Guardar las características y etiquetas en archivos .npy
    np.save(f'Caracteristicas\\{pa_Name}_audios_data.npy', data)
    np.save(f'Caracteristicas\\{pa_Name}_audios_labels.npy', labels)

data_path_Train = pd.read_csv('CSVs\\EmoDSc_div_train.csv')
data_path_Val  = pd.read_csv('CSVs\\EmoDSc_div_val.csv')
data_path_Test  = pd.read_csv('CSVs\\EmoDSc_div_test.csv')

prepare_audios(data_path_Train['Emotions'], data_path_Train['Path'], 'train')
prepare_audios(data_path_Val['Emotions'], data_path_Val['Path'], 'val')
prepare_audios(data_path_Test['Emotions'], data_path_Test['Path'], 'test')

Procesando audios: 0
Procesando audios: 1
Procesando audios: 2
Procesando audios: 3
Procesando audios: 4
Procesando audios: 5
Procesando audios: 6
Procesando audios: 7
Procesando audios: 8
Procesando audios: 9
Procesando audios: 10
Procesando audios: 11
Procesando audios: 12
Procesando audios: 13
Procesando audios: 14
Procesando audios: 15
Procesando audios: 16
Procesando audios: 17
Procesando audios: 18
Procesando audios: 19
Procesando audios: 20
Procesando audios: 21
Procesando audios: 22
Procesando audios: 23
Procesando audios: 24
Procesando audios: 25
Procesando audios: 26
Procesando audios: 27
Procesando audios: 28
Procesando audios: 29
Procesando audios: 30
Procesando audios: 31
Procesando audios: 32
Procesando audios: 33
Procesando audios: 34
Procesando audios: 35
Procesando audios: 36
Procesando audios: 37
Procesando audios: 38
Procesando audios: 39
Procesando audios: 40
Procesando audios: 41
Procesando audios: 42
Procesando audios: 43
Procesando audios: 44
Procesando audios: 4



Procesando audios: 6065
Procesando audios: 6066
Procesando audios: 6067
Procesando audios: 6068
Procesando audios: 6069
Procesando audios: 6070
Procesando audios: 6071
Procesando audios: 6072
Procesando audios: 6073
Procesando audios: 6074
Procesando audios: 6075
Procesando audios: 6076
Procesando audios: 6077
Procesando audios: 6078
Procesando audios: 6079
Procesando audios: 6080
Procesando audios: 6081
Procesando audios: 6082
Procesando audios: 6083
Procesando audios: 6084
Procesando audios: 6085
Procesando audios: 6086
Procesando audios: 6087
Procesando audios: 6088
Procesando audios: 6089
Procesando audios: 6090
Procesando audios: 6091
Procesando audios: 6092
Procesando audios: 6093
Procesando audios: 6094
Procesando audios: 6095
Procesando audios: 6096
Procesando audios: 6097
Procesando audios: 6098
Procesando audios: 6099
Procesando audios: 6100
Procesando audios: 6101
Procesando audios: 6102
Procesando audios: 6103
Procesando audios: 6104
Procesando audios: 6105
Procesando audio



Procesando audios: 6648
Procesando audios: 6649
Procesando audios: 6650
Procesando audios: 6651
Procesando audios: 6652
Procesando audios: 6653
Procesando audios: 6654
Procesando audios: 6655
Procesando audios: 6656
Procesando audios: 6657
Procesando audios: 6658
Procesando audios: 6659
Procesando audios: 6660
Procesando audios: 6661
Procesando audios: 6662
Procesando audios: 6663
Procesando audios: 6664
Procesando audios: 6665
Procesando audios: 6666
Procesando audios: 6667
Procesando audios: 6668
Procesando audios: 6669
Procesando audios: 6670
Procesando audios: 6671
Procesando audios: 6672
Procesando audios: 6673
Procesando audios: 6674
Procesando audios: 6675
Procesando audios: 6676
Procesando audios: 6677
Procesando audios: 6678
Procesando audios: 6679
Procesando audios: 6680
Procesando audios: 6681
Procesando audios: 6682
Procesando audios: 6683
Procesando audios: 6684
Procesando audios: 6685
Procesando audios: 6686
Procesando audios: 6687
Procesando audios: 6688
Procesando audio

  return pitch_tuning(


Procesando audios: 10064
Procesando audios: 10065
Procesando audios: 10066
Procesando audios: 10067
Procesando audios: 10068
Procesando audios: 10069
Procesando audios: 10070
Procesando audios: 10071
Procesando audios: 10072
Procesando audios: 10073
Procesando audios: 10074
Procesando audios: 10075
Procesando audios: 10076
Procesando audios: 10077
Procesando audios: 10078
Procesando audios: 10079
Procesando audios: 10080
Procesando audios: 10081
Procesando audios: 10082
Procesando audios: 10083
Procesando audios: 10084
Procesando audios: 10085
Procesando audios: 10086
Procesando audios: 10087
Procesando audios: 10088
Procesando audios: 10089
Procesando audios: 10090
Procesando audios: 10091
Procesando audios: 10092
Procesando audios: 10093
Procesando audios: 10094
Procesando audios: 10095
Procesando audios: 10096
Procesando audios: 10097
Procesando audios: 10098
Procesando audios: 10099
Procesando audios: 10100
Procesando audios: 10101
Procesando audios: 10102
Procesando audios: 10103


Creación de imágenes de espectrograma

In [3]:
import pandas as pd
import numpy as np
from scipy.io import wavfile
import matplotlib.pyplot as plt
import matplotlib
import cv2
matplotlib.use('Agg')

In [4]:
location = 'Caracteristicas\\Images\\'

def graph_spectrogram(gs_audio, gs_file_name):
    rate, data = wavfile.read(gs_audio)
    fig, ax = plt.subplots(1)
    fig.set_size_inches(0.64, 0.64)
    fig.subplots_adjust(left=0, right=1, bottom=0, top=1)
    ax.axis('off')
    try:
        pxx, freqs, bins, im = ax.specgram(
            x=data, Fs=rate, cmap='gray_r', noverlap=384, NFFT=512)
    except:
        pxx, freqs, bins, im = ax.specgram(
            x=(data[:, 0] + data[:, 1])/2, Fs=rate, cmap='gray_r', noverlap=384, NFFT=512)
    fig.savefig(gs_file_name, dpi='figure')
    plt.close(fig=fig)

def prepare_images(pi_Emo, pi_Dir, pi_Name):
    data = []
    labels = []

    pi_name = 0

    for idx, aud in enumerate(pi_Dir):
        file_name = f'{location}{pi_Name}_{pi_name}.png'
        graph_spectrogram(aud, file_name)
        
        image = cv2.imread(file_name, cv2.IMREAD_GRAYSCALE)
        
        # Verificar si la imagen se cargó correctamente
        if image is None:
            print(f"Error al cargar la imagen: {aud}")
            continue
        
        print(f"Procesando imágenes: {idx}")

        data.append(image)
        labels.append(pi_Emo[idx])
        pi_name += 1

    # Convertir las listas a arrays y normalizar las imágenes
    data = np.array(data, dtype="float") / 255.0
    labels = np.array(labels)

    # Guardar las imágenes y etiquetas en archivos .npy
    np.save('Caracteristicas\\' + pi_Name + '_images_data.npy', data)
    np.save('Caracteristicas\\' + pi_Name + '_images_labels.npy', labels)

data_path_Train = pd.read_csv('CSVs\\EmoDSc_div_train.csv')
data_path_Val  = pd.read_csv('CSVs\\EmoDSc_div_val.csv')
data_path_Test  = pd.read_csv('CSVs\\EmoDSc_div_test.csv')

prepare_images(data_path_Train['Emotions'], data_path_Train['Path'], 'train')
prepare_images(data_path_Val['Emotions'], data_path_Val['Path'], 'val')
prepare_images(data_path_Test['Emotions'], data_path_Test['Path'], 'test')

Procesando imágenes: 0
Procesando imágenes: 1
Procesando imágenes: 2
Procesando imágenes: 3
Procesando imágenes: 4
Procesando imágenes: 5
Procesando imágenes: 6
Procesando imágenes: 7
Procesando imágenes: 8
Procesando imágenes: 9
Procesando imágenes: 10
Procesando imágenes: 11
Procesando imágenes: 12
Procesando imágenes: 13
Procesando imágenes: 14
Procesando imágenes: 15
Procesando imágenes: 16
Procesando imágenes: 17
Procesando imágenes: 18
Procesando imágenes: 19
Procesando imágenes: 20
Procesando imágenes: 21
Procesando imágenes: 22
Procesando imágenes: 23
Procesando imágenes: 24
Procesando imágenes: 25
Procesando imágenes: 26
Procesando imágenes: 27
Procesando imágenes: 28
Procesando imágenes: 29
Procesando imágenes: 30
Procesando imágenes: 31
Procesando imágenes: 32
Procesando imágenes: 33
Procesando imágenes: 34
Procesando imágenes: 35
Procesando imágenes: 36
Procesando imágenes: 37
Procesando imágenes: 38
Procesando imágenes: 39
Procesando imágenes: 40
Procesando imágenes: 41
Pr

  Z = 10. * np.log10(spec)


Procesando imágenes: 905
Procesando imágenes: 906
Procesando imágenes: 907
Procesando imágenes: 908
Procesando imágenes: 909
Procesando imágenes: 910
Procesando imágenes: 911
Procesando imágenes: 912
Procesando imágenes: 913
Procesando imágenes: 914
Procesando imágenes: 915
Procesando imágenes: 916
Procesando imágenes: 917
Procesando imágenes: 918
Procesando imágenes: 919
Procesando imágenes: 920
Procesando imágenes: 921
Procesando imágenes: 922
Procesando imágenes: 923
Procesando imágenes: 924
Procesando imágenes: 925
Procesando imágenes: 926
Procesando imágenes: 927
Procesando imágenes: 928
Procesando imágenes: 929
Procesando imágenes: 930
Procesando imágenes: 931
Procesando imágenes: 932
Procesando imágenes: 933
Procesando imágenes: 934
Procesando imágenes: 935
Procesando imágenes: 936
Procesando imágenes: 937
Procesando imágenes: 938
Procesando imágenes: 939
Procesando imágenes: 940
Procesando imágenes: 941
Procesando imágenes: 942
Procesando imágenes: 943
Procesando imágenes: 944
