In [2]:

#Import needed libraries
import os
import numpy as np
import librosa
import librosa.display
import matplotlib.pyplot as plt
from tqdm import tqdm
import argparse


"""
Authors: Toufik FERHAT, Asma DAGMOUNE , Rayane KADEM
This script is used to create audio features dataset : 
    - Mel-spectrogram
    - MFCC
    - Chroma-stft
    - Chroma-cqt
    - Chroma-cens
    - CQT
The audio files dataset consists of 10 folders which correspond to 10 different genres and each folder contains 100 different audio files.
According to the choosed feature, it will create a dataset of images representing the audio files.
"""

def create_dataset(dataset_path_in, dataset_path_out, feature, n_fft, hop_length):
    """
    This function is used to create dataset of images.
    :param dataset_path_in: path of the dataset
    :param dataset_path_out : path of image dataset
    :param feature: feature to extract
    :param n_fft: number of fft points
    :param hop_length: number of samples between successive frames
    :return:
    """
    # Create the folders
    if not os.path.exists(dataset_path_out):
        os.makedirs(dataset_path_out)
    if not os.path.exists(dataset_path_out + "/" + feature):
        os.makedirs(dataset_path_out + "/" + feature)

    # Get the list of folders
    folders = os.listdir(dataset_path_in)
    # For each folder
    for folder in tqdm(folders):
        # Get the list of audio files
        files = os.listdir(dataset_path_in + "/" + folder)
        # For each audio file
        for file in tqdm(files):
            # Get the path of the audio file
            path = dataset_path_in + "/" + folder + "/" + file
            # Read the audio file
            y, sr = librosa.load(path)
            # Extract the feature
            if feature == "melspectrogram":
                image = librosa.feature.melspectrogram(y=y, sr=sr, n_fft=n_fft, hop_length=hop_length)
            elif feature == "mfcc":
                image = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=60)
            elif feature == "chroma_stft":
                image = librosa.feature.chroma_stft(y=y, sr=sr, n_fft=n_fft, hop_length=hop_length)
            elif feature == "chroma_cqt":
                image = librosa.feature.chroma_cqt(y=y, sr=sr, n_fft=n_fft, hop_length=hop_length)
            elif feature == "chroma_cens":
                image = librosa.feature.chroma_cens(y=y, sr=sr, n_fft=n_fft, hop_length=hop_length)
            elif feature == "cqt":
                image = librosa.cqt(y=y, sr=sr, hop_length=hop_length,n_bins=60)
            
            # Ommit the .wav file extension file
            file = file[:-4]

            # Check if the folder exists
            if not os.path.exists(dataset_path_out + "/" + feature + "/" + folder):
                os.makedirs(dataset_path_out + "/" + feature + "/" + folder)
            
            # Librosa display 
            librosa.display.specshow(librosa.power_to_db(image, ref = np.max), sr =sr , hop_length = hop_length)
            # Ommit axis  
            plt.axis('off')
            plt.axis('tight')
            # Set padding to 0
            plt.tight_layout(pad=0)
                 
            # Save the image
            plt.savefig(dataset_path_out + "/" + feature + "/" + folder + "/" + file + ".png")
            # Close the plot
            plt.close()
            


        

create_dataset("data/genres", "data/images", "melspectrogram", 1024, 512)

    


  0%|                                                                                           | 0/10 [00:00<?, ?it/s]
  0%|                                                                                          | 0/100 [00:00<?, ?it/s][A
  1%|▊                                                                                 | 1/100 [00:00<00:35,  2.75it/s][A
  2%|█▋                                                                                | 2/100 [00:00<00:26,  3.68it/s][A
  3%|██▍                                                                               | 3/100 [00:00<00:23,  4.06it/s][A
  4%|███▎                                                                              | 4/100 [00:01<00:22,  4.27it/s][A
  5%|████                                                                              | 5/100 [00:01<00:24,  3.86it/s][A
  6%|████▉                                                                             | 6/100 [00:01<00:23,  4.05it/s][A
  7%|█████▋        

 65%|████████████████████████████████████████████████████▋                            | 65/100 [00:18<00:09,  3.79it/s][A
 66%|█████████████████████████████████████████████████████▍                           | 66/100 [00:18<00:08,  3.81it/s][A
 67%|██████████████████████████████████████████████████████▎                          | 67/100 [00:18<00:09,  3.57it/s][A
 68%|███████████████████████████████████████████████████████                          | 68/100 [00:18<00:08,  3.58it/s][A
 69%|███████████████████████████████████████████████████████▉                         | 69/100 [00:19<00:08,  3.48it/s][A
 70%|████████████████████████████████████████████████████████▋                        | 70/100 [00:19<00:08,  3.55it/s][A
 71%|█████████████████████████████████████████████████████████▌                       | 71/100 [00:19<00:07,  3.68it/s][A
 72%|██████████████████████████████████████████████████████████▎                      | 72/100 [00:20<00:08,  3.47it/s][A
 73%|███████████

 29%|███████████████████████▍                                                         | 29/100 [00:15<00:18,  3.94it/s][A
 30%|████████████████████████▎                                                        | 30/100 [00:15<00:17,  4.09it/s][A
 31%|█████████████████████████                                                        | 31/100 [00:15<00:16,  4.07it/s][A
 32%|█████████████████████████▉                                                       | 32/100 [00:15<00:16,  4.03it/s][A
 33%|██████████████████████████▋                                                      | 33/100 [00:16<00:16,  4.11it/s][A
 34%|███████████████████████████▌                                                     | 34/100 [00:16<00:15,  4.20it/s][A
 35%|████████████████████████████▎                                                    | 35/100 [00:16<00:15,  4.19it/s][A
 36%|█████████████████████████████▏                                                   | 36/100 [00:16<00:16,  3.93it/s][A
 37%|███████████

 95%|████████████████████████████████████████████████████████████████████████████▉    | 95/100 [00:33<00:01,  3.35it/s][A
 96%|█████████████████████████████████████████████████████████████████████████████▊   | 96/100 [00:33<00:01,  3.42it/s][A
 97%|██████████████████████████████████████████████████████████████████████████████▌  | 97/100 [00:34<00:00,  3.50it/s][A
 98%|███████████████████████████████████████████████████████████████████████████████▍ | 98/100 [00:34<00:00,  3.44it/s][A
 99%|████████████████████████████████████████████████████████████████████████████████▏| 99/100 [00:34<00:00,  3.58it/s][A
100%|████████████████████████████████████████████████████████████████████████████████| 100/100 [00:34<00:00,  2.86it/s][A
 20%|████████████████▌                                                                  | 2/10 [01:03<04:19, 32.38s/it]
  0%|                                                                                          | 0/100 [00:00<?, ?it/s][A
  1%|▊             

 59%|███████████████████████████████████████████████▊                                 | 59/100 [00:24<00:13,  3.05it/s][A
 60%|████████████████████████████████████████████████▌                                | 60/100 [00:24<00:12,  3.17it/s][A
 61%|█████████████████████████████████████████████████▍                               | 61/100 [00:24<00:12,  3.24it/s][A
 62%|██████████████████████████████████████████████████▏                              | 62/100 [00:25<00:12,  3.12it/s][A
 63%|███████████████████████████████████████████████████                              | 63/100 [00:25<00:12,  2.97it/s][A
 64%|███████████████████████████████████████████████████▊                             | 64/100 [00:26<00:13,  2.75it/s][A
 65%|████████████████████████████████████████████████████▋                            | 65/100 [00:26<00:14,  2.39it/s][A
 66%|█████████████████████████████████████████████████████▍                           | 66/100 [00:27<00:17,  1.97it/s][A
 67%|███████████

 23%|██████████████████▋                                                              | 23/100 [00:08<00:29,  2.65it/s][A
 24%|███████████████████▍                                                             | 24/100 [00:08<00:25,  2.98it/s][A
 25%|████████████████████▎                                                            | 25/100 [00:08<00:22,  3.34it/s][A
 26%|█████████████████████                                                            | 26/100 [00:09<00:20,  3.64it/s][A
 27%|█████████████████████▊                                                           | 27/100 [00:09<00:19,  3.69it/s][A
 28%|██████████████████████▋                                                          | 28/100 [00:09<00:18,  3.90it/s][A
 29%|███████████████████████▍                                                         | 29/100 [00:09<00:17,  4.00it/s][A
 30%|████████████████████████▎                                                        | 30/100 [00:10<00:17,  4.10it/s][A
 31%|███████████

 89%|████████████████████████████████████████████████████████████████████████         | 89/100 [00:29<00:04,  2.51it/s][A
 90%|████████████████████████████████████████████████████████████████████████▉        | 90/100 [00:29<00:04,  2.35it/s][A
 91%|█████████████████████████████████████████████████████████████████████████▋       | 91/100 [00:30<00:04,  2.17it/s][A
 92%|██████████████████████████████████████████████████████████████████████████▌      | 92/100 [00:30<00:03,  2.04it/s][A
 93%|███████████████████████████████████████████████████████████████████████████▎     | 93/100 [00:31<00:03,  2.19it/s][A
 94%|████████████████████████████████████████████████████████████████████████████▏    | 94/100 [00:31<00:02,  2.24it/s][A
 95%|████████████████████████████████████████████████████████████████████████████▉    | 95/100 [00:32<00:02,  2.29it/s][A
 96%|█████████████████████████████████████████████████████████████████████████████▊   | 96/100 [00:32<00:01,  2.19it/s][A
 97%|███████████

 53%|██████████████████████████████████████████▉                                      | 53/100 [00:16<00:13,  3.50it/s][A
 54%|███████████████████████████████████████████▋                                     | 54/100 [00:16<00:13,  3.45it/s][A
 55%|████████████████████████████████████████████▌                                    | 55/100 [00:17<00:12,  3.67it/s][A
 56%|█████████████████████████████████████████████▎                                   | 56/100 [00:17<00:12,  3.62it/s][A
 57%|██████████████████████████████████████████████▏                                  | 57/100 [00:17<00:11,  3.73it/s][A
 58%|██████████████████████████████████████████████▉                                  | 58/100 [00:17<00:10,  3.86it/s][A
 59%|███████████████████████████████████████████████▊                                 | 59/100 [00:18<00:10,  3.99it/s][A
 60%|████████████████████████████████████████████████▌                                | 60/100 [00:18<00:10,  3.83it/s][A
 61%|███████████

 17%|█████████████▊                                                                   | 17/100 [00:05<00:26,  3.18it/s][A
 18%|██████████████▌                                                                  | 18/100 [00:05<00:25,  3.27it/s][A
 19%|███████████████▍                                                                 | 19/100 [00:05<00:23,  3.41it/s][A
 20%|████████████████▏                                                                | 20/100 [00:06<00:22,  3.52it/s][A
 21%|█████████████████                                                                | 21/100 [00:06<00:21,  3.70it/s][A
 22%|█████████████████▊                                                               | 22/100 [00:06<00:21,  3.71it/s][A
 23%|██████████████████▋                                                              | 23/100 [00:06<00:20,  3.80it/s][A
 24%|███████████████████▍                                                             | 24/100 [00:07<00:21,  3.56it/s][A
 25%|███████████

 83%|███████████████████████████████████████████████████████████████████▏             | 83/100 [00:28<00:04,  3.80it/s][A
 84%|████████████████████████████████████████████████████████████████████             | 84/100 [00:29<00:04,  3.31it/s][A
 85%|████████████████████████████████████████████████████████████████████▊            | 85/100 [00:29<00:05,  2.98it/s][A
 86%|█████████████████████████████████████████████████████████████████████▋           | 86/100 [00:29<00:04,  3.15it/s][A
 87%|██████████████████████████████████████████████████████████████████████▍          | 87/100 [00:29<00:03,  3.39it/s][A
 88%|███████████████████████████████████████████████████████████████████████▎         | 88/100 [00:30<00:03,  3.54it/s][A
 89%|████████████████████████████████████████████████████████████████████████         | 89/100 [00:30<00:04,  2.71it/s][A
 90%|████████████████████████████████████████████████████████████████████████▉        | 90/100 [00:31<00:03,  2.93it/s][A
 91%|███████████

 47%|██████████████████████████████████████                                           | 47/100 [00:14<00:15,  3.37it/s][A
 48%|██████████████████████████████████████▉                                          | 48/100 [00:14<00:15,  3.44it/s][A
 49%|███████████████████████████████████████▋                                         | 49/100 [00:15<00:14,  3.59it/s][A
 50%|████████████████████████████████████████▌                                        | 50/100 [00:15<00:14,  3.55it/s][A
 51%|█████████████████████████████████████████▎                                       | 51/100 [00:15<00:15,  3.08it/s][A
 52%|██████████████████████████████████████████                                       | 52/100 [00:16<00:15,  3.19it/s][A
 53%|██████████████████████████████████████████▉                                      | 53/100 [00:16<00:14,  3.26it/s][A
 54%|███████████████████████████████████████████▋                                     | 54/100 [00:16<00:14,  3.28it/s][A
 55%|███████████

 11%|████████▉                                                                        | 11/100 [00:04<00:31,  2.84it/s][A
 12%|█████████▋                                                                       | 12/100 [00:04<00:30,  2.90it/s][A
 13%|██████████▌                                                                      | 13/100 [00:05<00:29,  3.00it/s][A
 14%|███████████▎                                                                     | 14/100 [00:05<00:27,  3.16it/s][A
 15%|████████████▏                                                                    | 15/100 [00:05<00:27,  3.14it/s][A
 16%|████████████▉                                                                    | 16/100 [00:05<00:26,  3.21it/s][A
 17%|█████████████▊                                                                   | 17/100 [00:06<00:24,  3.38it/s][A
 18%|██████████████▌                                                                  | 18/100 [00:06<00:24,  3.32it/s][A
 19%|███████████

 77%|██████████████████████████████████████████████████████████████▎                  | 77/100 [00:25<00:06,  3.50it/s][A
 78%|███████████████████████████████████████████████████████████████▏                 | 78/100 [00:25<00:06,  3.56it/s][A
 79%|███████████████████████████████████████████████████████████████▉                 | 79/100 [00:26<00:05,  3.50it/s][A
 80%|████████████████████████████████████████████████████████████████▊                | 80/100 [00:26<00:05,  3.59it/s][A
 81%|█████████████████████████████████████████████████████████████████▌               | 81/100 [00:26<00:05,  3.61it/s][A
 82%|██████████████████████████████████████████████████████████████████▍              | 82/100 [00:26<00:04,  3.66it/s][A
 83%|███████████████████████████████████████████████████████████████████▏             | 83/100 [00:27<00:04,  3.43it/s][A
 84%|████████████████████████████████████████████████████████████████████             | 84/100 [00:27<00:04,  3.58it/s][A
 85%|███████████

 41%|█████████████████████████████████▏                                               | 41/100 [00:11<00:15,  3.76it/s][A
 42%|██████████████████████████████████                                               | 42/100 [00:11<00:15,  3.71it/s][A
 43%|██████████████████████████████████▊                                              | 43/100 [00:12<00:14,  3.89it/s][A
 44%|███████████████████████████████████▋                                             | 44/100 [00:12<00:15,  3.64it/s][A
 45%|████████████████████████████████████▍                                            | 45/100 [00:12<00:14,  3.82it/s][A
 46%|█████████████████████████████████████▎                                           | 46/100 [00:13<00:14,  3.85it/s][A
 47%|██████████████████████████████████████                                           | 47/100 [00:13<00:13,  3.91it/s][A
 48%|██████████████████████████████████████▉                                          | 48/100 [00:13<00:13,  3.85it/s][A
 49%|███████████

  5%|████                                                                              | 5/100 [00:02<00:52,  1.82it/s][A
  6%|████▉                                                                             | 6/100 [00:02<00:43,  2.17it/s][A
  7%|█████▋                                                                            | 7/100 [00:02<00:37,  2.51it/s][A
  8%|██████▌                                                                           | 8/100 [00:03<00:32,  2.85it/s][A
  9%|███████▍                                                                          | 9/100 [00:03<00:32,  2.80it/s][A
 10%|████████                                                                         | 10/100 [00:04<00:41,  2.16it/s][A
 11%|████████▉                                                                        | 11/100 [00:04<00:37,  2.37it/s][A
 12%|█████████▋                                                                       | 12/100 [00:05<00:48,  1.81it/s][A
 13%|██████████▌

 71%|█████████████████████████████████████████████████████████▌                       | 71/100 [00:29<00:09,  3.12it/s][A
 72%|██████████████████████████████████████████████████████████▎                      | 72/100 [00:29<00:08,  3.18it/s][A
 73%|███████████████████████████████████████████████████████████▏                     | 73/100 [00:29<00:08,  3.11it/s][A
 74%|███████████████████████████████████████████████████████████▉                     | 74/100 [00:30<00:08,  2.99it/s][A
 75%|████████████████████████████████████████████████████████████▊                    | 75/100 [00:30<00:07,  3.13it/s][A
 76%|█████████████████████████████████████████████████████████████▌                   | 76/100 [00:30<00:07,  3.28it/s][A
 77%|██████████████████████████████████████████████████████████████▎                  | 77/100 [00:31<00:06,  3.37it/s][A
 78%|███████████████████████████████████████████████████████████████▏                 | 78/100 [00:31<00:06,  3.46it/s][A
 79%|███████████