### Languages: English, Russian, Kazakh

In [1]:
import librosa
import os
import json
import warnings as w
w.filterwarnings("ignore")

dataset_file = "dataset_3"
json_file = "data_3.json"
samples_to_consider = 22050 # 1 second of audio

def preprocess_dataset(dataset_file, json_file, num_mfcc=13, n_fft=2048, hop_length=512):

    # dictionary where we'll save mapping, labels, MFCCs and filenames
    data = {
        "mapping": [],
        "labels": [],
        "MFCCs": [],
        "files": []
    }

    # loop through all subdirectories
    for i, (dirpath, dirnames, filenames) in enumerate(os.walk(dataset_file)):

        # ensure we're at sub-folder level
        if dirpath is not dataset_file:

            # save label (i.e., sub-folder name) in the mapping
            label = dirpath.split("/")[-1]
            data["mapping"].append(label)
            print("\nProcessing: '{}'".format(label))

            # process all audio files in sub-dir and store MFCCs
            for f in filenames:
                file_path = os.path.join(dirpath, f)

                # load audio file and slice it to ensure length consistency among different files
                signal, sample_rate = librosa.load(file_path)

                # drop audio files with less than pre-decided number of samples
                if len(signal) >= samples_to_consider:

                    # ensure consistency of the length of the signal
                    signal = signal[:samples_to_consider]

                    # extract MFCCs
                    MFCCs = librosa.feature.mfcc(signal, sample_rate, n_mfcc=num_mfcc, n_fft=n_fft,
                                                 hop_length=hop_length)

                    # store data for analysed track
                    data["MFCCs"].append(MFCCs.T.tolist())
                    data["labels"].append(i-1)
                    data["files"].append(file_path)
                    print("{}: {}".format(file_path, i-1))

    # save data in json file
    with open(json_file, "w") as f:
        json.dump(data, f, indent=4)


if __name__ == "__main__":
    preprocess_dataset(dataset_file, json_file)


Processing: 'dataset_3\English'
dataset_3\English\clnsp1.wav: 0
dataset_3\English\clnsp10.wav: 0
dataset_3\English\clnsp100.wav: 0
dataset_3\English\clnsp101.wav: 0
dataset_3\English\clnsp102.wav: 0
dataset_3\English\clnsp103.wav: 0
dataset_3\English\clnsp104.wav: 0
dataset_3\English\clnsp105.wav: 0
dataset_3\English\clnsp106.wav: 0
dataset_3\English\clnsp107.wav: 0
dataset_3\English\clnsp108.wav: 0
dataset_3\English\clnsp109.wav: 0
dataset_3\English\clnsp11.wav: 0
dataset_3\English\clnsp110.wav: 0
dataset_3\English\clnsp111.wav: 0
dataset_3\English\clnsp112.wav: 0
dataset_3\English\clnsp113.wav: 0
dataset_3\English\clnsp114.wav: 0
dataset_3\English\clnsp115.wav: 0
dataset_3\English\clnsp116.wav: 0
dataset_3\English\clnsp117.wav: 0
dataset_3\English\clnsp118.wav: 0
dataset_3\English\clnsp119.wav: 0
dataset_3\English\clnsp12.wav: 0
dataset_3\English\clnsp120.wav: 0
dataset_3\English\clnsp121.wav: 0
dataset_3\English\clnsp122.wav: 0
dataset_3\English\clnsp123.wav: 0
dataset_3\English\cl

dataset_3\English\clnsp316.wav: 0
dataset_3\English\clnsp317.wav: 0
dataset_3\English\clnsp318.wav: 0
dataset_3\English\clnsp319.wav: 0
dataset_3\English\clnsp32.wav: 0
dataset_3\English\clnsp320.wav: 0
dataset_3\English\clnsp321.wav: 0
dataset_3\English\clnsp322.wav: 0
dataset_3\English\clnsp323.wav: 0
dataset_3\English\clnsp324.wav: 0
dataset_3\English\clnsp325.wav: 0
dataset_3\English\clnsp326.wav: 0
dataset_3\English\clnsp327.wav: 0
dataset_3\English\clnsp328.wav: 0
dataset_3\English\clnsp329.wav: 0
dataset_3\English\clnsp33.wav: 0
dataset_3\English\clnsp330.wav: 0
dataset_3\English\clnsp331.wav: 0
dataset_3\English\clnsp332.wav: 0
dataset_3\English\clnsp333.wav: 0
dataset_3\English\clnsp334.wav: 0
dataset_3\English\clnsp335.wav: 0
dataset_3\English\clnsp336.wav: 0
dataset_3\English\clnsp337.wav: 0
dataset_3\English\clnsp338.wav: 0
dataset_3\English\clnsp339.wav: 0
dataset_3\English\clnsp34.wav: 0
dataset_3\English\clnsp340.wav: 0
dataset_3\English\clnsp341.wav: 0
dataset_3\English

dataset_3\English\clnsp85.wav: 0
dataset_3\English\clnsp86.wav: 0
dataset_3\English\clnsp87.wav: 0
dataset_3\English\clnsp88.wav: 0
dataset_3\English\clnsp89.wav: 0
dataset_3\English\clnsp9.wav: 0
dataset_3\English\clnsp90.wav: 0
dataset_3\English\clnsp91.wav: 0
dataset_3\English\clnsp92.wav: 0
dataset_3\English\clnsp93.wav: 0
dataset_3\English\clnsp94.wav: 0
dataset_3\English\clnsp95.wav: 0
dataset_3\English\clnsp96.wav: 0
dataset_3\English\clnsp97.wav: 0
dataset_3\English\clnsp98.wav: 0
dataset_3\English\clnsp99.wav: 0

Processing: 'dataset_3\Kazakh'
dataset_3\Kazakh\youtubekz (1).wav: 1
dataset_3\Kazakh\youtubekz (10).wav: 1
dataset_3\Kazakh\youtubekz (100).wav: 1
dataset_3\Kazakh\youtubekz (101).wav: 1
dataset_3\Kazakh\youtubekz (102).wav: 1
dataset_3\Kazakh\youtubekz (103).wav: 1
dataset_3\Kazakh\youtubekz (104).wav: 1
dataset_3\Kazakh\youtubekz (105).wav: 1
dataset_3\Kazakh\youtubekz (106).wav: 1
dataset_3\Kazakh\youtubekz (107).wav: 1
dataset_3\Kazakh\youtubekz (108).wav: 1
data

dataset_3\Kazakh\youtubekz (272).wav: 1
dataset_3\Kazakh\youtubekz (273).wav: 1
dataset_3\Kazakh\youtubekz (274).wav: 1
dataset_3\Kazakh\youtubekz (275).wav: 1
dataset_3\Kazakh\youtubekz (276).wav: 1
dataset_3\Kazakh\youtubekz (277).wav: 1
dataset_3\Kazakh\youtubekz (278).wav: 1
dataset_3\Kazakh\youtubekz (279).wav: 1
dataset_3\Kazakh\youtubekz (28).wav: 1
dataset_3\Kazakh\youtubekz (280).wav: 1
dataset_3\Kazakh\youtubekz (281).wav: 1
dataset_3\Kazakh\youtubekz (282).wav: 1
dataset_3\Kazakh\youtubekz (283).wav: 1
dataset_3\Kazakh\youtubekz (284).wav: 1
dataset_3\Kazakh\youtubekz (285).wav: 1
dataset_3\Kazakh\youtubekz (286).wav: 1
dataset_3\Kazakh\youtubekz (287).wav: 1
dataset_3\Kazakh\youtubekz (288).wav: 1
dataset_3\Kazakh\youtubekz (289).wav: 1
dataset_3\Kazakh\youtubekz (29).wav: 1
dataset_3\Kazakh\youtubekz (290).wav: 1
dataset_3\Kazakh\youtubekz (291).wav: 1
dataset_3\Kazakh\youtubekz (292).wav: 1
dataset_3\Kazakh\youtubekz (293).wav: 1
dataset_3\Kazakh\youtubekz (294).wav: 1
da

dataset_3\Kazakh\youtubekz (458).wav: 1
dataset_3\Kazakh\youtubekz (459).wav: 1
dataset_3\Kazakh\youtubekz (46).wav: 1
dataset_3\Kazakh\youtubekz (460).wav: 1
dataset_3\Kazakh\youtubekz (461).wav: 1
dataset_3\Kazakh\youtubekz (462).wav: 1
dataset_3\Kazakh\youtubekz (463).wav: 1
dataset_3\Kazakh\youtubekz (464).wav: 1
dataset_3\Kazakh\youtubekz (465).wav: 1
dataset_3\Kazakh\youtubekz (466).wav: 1
dataset_3\Kazakh\youtubekz (467).wav: 1
dataset_3\Kazakh\youtubekz (468).wav: 1
dataset_3\Kazakh\youtubekz (469).wav: 1
dataset_3\Kazakh\youtubekz (47).wav: 1
dataset_3\Kazakh\youtubekz (470).wav: 1
dataset_3\Kazakh\youtubekz (471).wav: 1
dataset_3\Kazakh\youtubekz (472).wav: 1
dataset_3\Kazakh\youtubekz (473).wav: 1
dataset_3\Kazakh\youtubekz (474).wav: 1
dataset_3\Kazakh\youtubekz (475).wav: 1
dataset_3\Kazakh\youtubekz (476).wav: 1
dataset_3\Kazakh\youtubekz (477).wav: 1
dataset_3\Kazakh\youtubekz (478).wav: 1
dataset_3\Kazakh\youtubekz (479).wav: 1
dataset_3\Kazakh\youtubekz (48).wav: 1
dat

dataset_3\Russian\voxforgeru207.wav: 2
dataset_3\Russian\voxforgeru208.wav: 2
dataset_3\Russian\voxforgeru209.wav: 2
dataset_3\Russian\voxforgeru210.wav: 2
dataset_3\Russian\voxforgeru211.wav: 2
dataset_3\Russian\voxforgeru212.wav: 2
dataset_3\Russian\voxforgeru213.wav: 2
dataset_3\Russian\voxforgeru214.wav: 2
dataset_3\Russian\voxforgeru215.wav: 2
dataset_3\Russian\voxforgeru216.wav: 2
dataset_3\Russian\voxforgeru217.wav: 2
dataset_3\Russian\voxforgeru218.wav: 2
dataset_3\Russian\voxforgeru219.wav: 2
dataset_3\Russian\voxforgeru220.wav: 2
dataset_3\Russian\voxforgeru221.wav: 2
dataset_3\Russian\voxforgeru222.wav: 2
dataset_3\Russian\voxforgeru223.wav: 2
dataset_3\Russian\voxforgeru224.wav: 2
dataset_3\Russian\voxforgeru225.wav: 2
dataset_3\Russian\voxforgeru226.wav: 2
dataset_3\Russian\voxforgeru227.wav: 2
dataset_3\Russian\voxforgeru228.wav: 2
dataset_3\Russian\voxforgeru229.wav: 2
dataset_3\Russian\voxforgeru230.wav: 2
dataset_3\Russian\voxforgeru231.wav: 2
dataset_3\Russian\voxforg

dataset_3\Russian\voxforgeru418.wav: 2
dataset_3\Russian\voxforgeru419.wav: 2
dataset_3\Russian\voxforgeru420.wav: 2
dataset_3\Russian\voxforgeru421.wav: 2
dataset_3\Russian\voxforgeru422.wav: 2
dataset_3\Russian\voxforgeru423.wav: 2
dataset_3\Russian\voxforgeru424.wav: 2
dataset_3\Russian\voxforgeru425.wav: 2
dataset_3\Russian\voxforgeru426.wav: 2
dataset_3\Russian\voxforgeru427.wav: 2
dataset_3\Russian\voxforgeru428.wav: 2
dataset_3\Russian\voxforgeru429.wav: 2
dataset_3\Russian\voxforgeru430.wav: 2
dataset_3\Russian\voxforgeru431.wav: 2
dataset_3\Russian\voxforgeru432.wav: 2
dataset_3\Russian\voxforgeru433.wav: 2
dataset_3\Russian\voxforgeru434.wav: 2
dataset_3\Russian\voxforgeru435.wav: 2
dataset_3\Russian\voxforgeru436.wav: 2
dataset_3\Russian\voxforgeru437.wav: 2
dataset_3\Russian\voxforgeru438.wav: 2
dataset_3\Russian\voxforgeru439.wav: 2
dataset_3\Russian\voxforgeru440.wav: 2
dataset_3\Russian\voxforgeru441.wav: 2
dataset_3\Russian\voxforgeru442.wav: 2
dataset_3\Russian\voxforg