## Birdsongs 08.- Processing Data Convert Data to Image


Convierte cada uno de los ficheros de datos en las imágenes del espectrograma, para utilizarlas en el entrenamiento del modelo.


El espectrograma es el resultado de calcular el espectro de tramas enventanadas de una señal. Resulta una gráfica tridimensional que representa la energía del contenido frecuencial de la señal según va variando ésta a lo largo del tiempo.
Espectrograma de la oración del checo Strč prst skrz krk que significa 'Introduce el dedo a través de la garganta', en el espectrograma se aprecian claramente los fonos que la componen.

Se usa, por ejemplo, para identificar sonidos fonéticos y procesado del habla, para el radar/sonar. El instrumento que genera espectrogramas es llamado espectrómetro. También existe software que puede crear espectrogramas.

El espectrograma es una herramienta básica de representación que se utiliza para el análisis de las señales eléctricas, de comunicaciones, y cualquier señal audiovisual en su contenido frecuencial.

Es una representación en tres dimensiones, temporal, frecuencial y amplitud de la distribución de energía de una señal.

La representación del espectro de una señal en el dominio frecuencial puede ayudar a entender mejor su contenido, que con una representación en el dominio temporal.

El espectrograma se puede interpretar como una proyección en dos dimensiones de una sucesión de Transformadas de Fourier de tramas consecutivas, donde la energía y el contenido frecuencial de la señal va variando a lo largo del tiempo. 

https://es.wikipedia.org/wiki/Espectrograma


### Librerías

Cargamos las librerías a utilizar en el notebook

In [1]:
from __future__ import print_function
import numpy as np
import librosa
import librosa.display
import os
import shutil


### Recupera directorios

Los ficheros de datos se encuentran localizados en un directorio raíz, y dentro del correspondiente subdirectorio al que pertenece la especie. Realizando un dir de los directorios contenidos en el directorio raíz, tendremos una lista con todas las especies que forman parte del dataset


In [2]:
# cada directorio corresponde a set de datos (train, validation, test)
def get_set_names(path):  
    set_names = os.listdir(path)
    return set_names

In [3]:
# cada directorio corresponde a una especie
def get_specie_names(path):  
    specie_names = os.listdir(path)
    return specie_names

### Procesa ficheros de datos

Va procesando los ficheros de datos que existen en cada subdirectorio y va creando un directorio de datos, con las imagenes de cada una de las grabaciones


In [4]:
def data_to_image(datapath, imagepath):
    # crea el directorio raiz de datos si no existe
    if not os.path.exists(imagepath):
        os.mkdir(imagepath)

    # recupera la lista de especies (directorios) a tratar
    specie_names = get_specie_names(datapath)
    number_species = len(specie_names)
   
    # itera sobre cada directorio y va generando una imagen por cada fichero
    for idx, specie_name in enumerate(specie_names):
        # crea directorio destino de la especie, si no existe
        imagedir = os.path.join(imagepath, specie_name)
        if not os.path.exists(imagedir):
            os.mkdir(imagedir)

        # recupera los ficheros de datos existentes para esta especie
        specie_dir = os.path.join(datapath, specie_name)
        specie_files = os.listdir(specie_dir)
        number_files = len(specie_files)
        number_load = number_files
        
        print(' Specie name = {:14s} - {:3d}'.format(specie_name,idx),
               ", ",number_files," files in this specie", sep=" ", end='\r', flush=True)

        # itera sobre la lista de ficheros de dato recuperados
        printevery = 20
        
        for idx2, infilename in enumerate(specie_files):
            # fichero datos origen
            file_path = specie_dir + '/' + infilename
            file = np.load(file_path)

            # si no se ha generado previamente, procedemos a generarlo    
            imagefile = imagedir + '/' + infilename[:infilename.find('.')] + '.png'
            
            if not os.path.isfile(imagefile):
                image = librosa.display.specshow(file)
                image.figure.savefig(imagefile)
                image.clear()
                
            # muestra avance
            if (0 == idx2 % printevery):
                print('\r Processing specie: {:14s} ({:2d} of {:2d} species)'.format(specie_name,idx+1,number_species),
                       ", file ",idx2+1," of ",number_load,": ",file_path, sep=" ", end='\r', flush=True)


### Generamos imagenes
Convertimos los archivos de datos en imagenes en formatos png. 

In [5]:
imagepath = './image/mels'
datapath= './data/mels'

# borra y crea el directorio raiz donde vamos a copiar los datos de train, validation y test
#if os.path.exists(imagepath):
#    shutil.rmtree(imagepath)
    
#os.mkdir(imagepath)

data_to_image(datapath, imagepath)


# recupera los directorios de los sets de train, validation y test
#set_names = get_set_names(datapath)

#if len(set_names) > 0:
#    for s in set_names:
#        data_to_image(os.path.join(datapath, s), os.path.join(imagepath, s))
    

 Processing specie: Phylloscopus ibericus (29 of 103 species) , file  1  of  1242 ./data/mels/Lullula arborea/XC426143_mel_16.npy.npyl_10.npyyypynpyypyls/Motacilla flava/XC358338_mel_4.npy:  ./data/mels/Motacilla flava/XC189938_mel_20.npy, file  641  of  2253 :  ./data/mels/Motacilla flava/XC186217_mel_7.npy  of  2253 :  ./data/mels/Motacilla flava/XC208701_mel_6.npy:  ./data/mels/Motacilla flava/XC317461_mel_1.npy./data/mels/Motacilla flava/XC386495_mel_1.npy ./data/mels/Motacilla flava/XC322710_mel_9.npy 1261  of  1846 :  ./data/mels/Acrocephalus schoenobaenus/XC367375_mel_12.npy, file  1301  of  1846 :  ./data/mels/Acrocephalus schoenobaenus/XC315965_mel_10.npy41  of  2310 :  ./data/mels/Cuculus canorus/XC25629_mel_12.npy :  ./data/mels/Cuculus canorus/XC287166_mel_14.npy261  of  2310 :  ./data/mels/Cuculus canorus/XC306182_mel_3.npy, file  181  of  1640 :  ./data/mels/Asio otus/XC306088_mel_14.npy , file  721  of  1640 :  ./data/mels/Asio otus/XC378296_mel_6.npy :  ./data/mels/Asio

 Processing specie: Coccothraustes coccothraustes (103 of 103 species) , file  1621  of  1635 :  ./data/mels/Coccothraustes coccothraustes/XC403362_mel_11.npyloscopus ibericus/XC304480_mel_26.npy :  ./data/mels/Phylloscopus ibericus/XC412884_mel_2.npy  of  1242 :  ./data/mels/Phylloscopus ibericus/XC131700_mel_15.npy./data/mels/Phylloscopus ibericus/XC364886_mel_7.npy ./data/mels/Phylloscopus collybita/XC314051_mel_5.npy ./data/mels/Phylloscopus collybita/XC135425_mel_8.npy 2594 :  ./data/mels/Prunella modularis/XC243619_mel_3.npy 61  of  3283 :  ./data/mels/Emberiza citrinella/XC305969_mel_26.npy 963 :  ./data/mels/Phylloscopus inornatus/XC337914_mel_6.npy  of  963 :  ./data/mels/Phylloscopus inornatus/XC335732_mel_10.npy1480 :  ./data/mels/Crex crex/XC391771_mel_3.npy 1480 :  ./data/mels/Crex crex/XC183276_mel_14.npy :  ./data/mels/Sylvia borin/XC412694_mel_10.npy./data/mels/Sylvia borin/XC368373_mel_12.npy ./data/mels/Sylvia borin/XC397399_mel_21.npy:  ./data/mels/Coloeus monedula/X

In [None]:
# https://github.com/risenW/medium_tutorial_notebooks/blob/master/dogs-vs-cats-keras-implementation.ipynb