# Preparo da massa de áudios em formato WAV

### Referências

https://medium.com/@keur.plkar/audio-data-augmentation-in-python-a91600613e47

In [16]:
import os
import sys
import numpy as np
import pandas as pd
import librosa
import librosa.display
import soundfile as sf
import matplotlib.pyplot as plt
import IPython.display as ipd

In [17]:
# diretório de entrada
DIR_ENTRADA = 'mp3'

# diretório de saída
DIR_SAIDA = 'wavbal5'

# duração de cada trecho de áudio
DURACAO_TRECHO = 5 # segundos
SAMPLE_RATE = 16000 # 16 kHz

# calcular a quantidade de pontos na onda
PONTOS_ONDA = SAMPLE_RATE * DURACAO_TRECHO # 16 kHz * 5 s = 80000

## Verificar espécies disponíveis

In [18]:
especies = os.listdir(DIR_ENTRADA)
#especies

In [19]:
arquivos = []
for especie in especies:
    arquivos.append(len(os.listdir(DIR_ENTRADA + '/' + especie)))
#arquivos

In [20]:
df = pd.DataFrame({
    'especie': especies,
    'arquivos_mp3': arquivos
})
df

Unnamed: 0,especie,arquivos_mp3
0,mimus_saturninus,148
1,ramphocelus_carbo,185
2,columba_livia,40
3,turdus_leucomelas,322
4,caracara_plancus,90
5,megarynchus_pitangua,401
6,vanellus_chilensis,280
7,pitangus_sulphuratus,556
8,turdus_rufiventris,209
9,furnarius_rufus,152


## Recriar diretórios de saída

In [6]:
# excluir diretórios de saída

import shutil
shutil.rmtree(DIR_SAIDA)
print(DIR_SAIDA)

wavbal5


In [7]:
# criar diretórios de saída

if not os.path.isdir(DIR_SAIDA):
    os.mkdir(DIR_SAIDA)
print(DIR_SAIDA)

for especie in especies:
    dir_especie = os.path.join(DIR_SAIDA, especie)
    if not os.path.isdir(dir_especie):
        os.mkdir(dir_especie)
    print(dir_especie)

wavbal5
wavbal5/mimus_saturninus
wavbal5/ramphocelus_carbo
wavbal5/columba_livia
wavbal5/turdus_leucomelas
wavbal5/caracara_plancus
wavbal5/megarynchus_pitangua
wavbal5/vanellus_chilensis
wavbal5/pitangus_sulphuratus
wavbal5/turdus_rufiventris
wavbal5/furnarius_rufus
wavbal5/theristicus_caudatus


## Processar arquivos de áudio

In [11]:
import warnings
warnings.filterwarnings('ignore')

In [12]:
%%time

for especie in especies:
    print("especie:", especie)
    
    for arquivo in os.listdir(os.path.join(DIR_ENTRADA, especie)):
#    for arquivo in os.listdir(os.path.join(DIR_ENTRADA, especie))[:20]:

        # montar nome do arquivo de entrada
        entrada = os.path.join(DIR_ENTRADA, especie, arquivo)
        if not entrada.endswith('.mp3'):
            continue
        #print("entrada:", entrada)

        prefixo_saida = os.path.join(DIR_SAIDA, especie, arquivo.replace('.mp3', '-'))
        #print("prefixo_saida:", prefixo_saida)
        
        # carregar áudio original em formato MP3
        y, sr = librosa.load(entrada, sr=SAMPLE_RATE, mono=True)

        # remover silêncio nas extremidades do áudio
        yt, index = librosa.effects.trim(y)
        duracao = yt.shape[0] / sr
        
        # calcular o número de cortes a serem efetuados no áudio
        numero_cortes = round(duracao / DURACAO_TRECHO)
        if numero_cortes == 0:
            continue
        
        for corte in np.arange(1, numero_cortes + 1):
            saida = prefixo_saida + "0-" + str(corte) + ".wav"
            
            # calcular trechos de início e fim no áudio
            inicio = PONTOS_ONDA * (corte - 1)
            termino = PONTOS_ONDA * corte
            ytc = yt[inicio:termino]
            
            # gravar arquivo de áudio em formato WAV
            sf.write(saida, ytc, sr, format='wav', subtype='PCM_16')

CPU times: user 41min 28s, sys: 1min 16s, total: 42min 45s
Wall time: 1h 10min 17s


## Calcular quantidade de arquivos gerados

In [21]:
arquivos = []
for especie in especies:
    arquivos.append(len(os.listdir(DIR_SAIDA + '/' + especie)))
#arquivos

In [28]:
df['arquivos_wav'] = arquivos
maior_qtde = max(df['arquivos_wav'])
df['diferenca'] = maior_qtde - df['arquivos_wav']
df['multiplicacao'] = df[['diferenca', 'arquivos_mp3']].apply(lambda x: np.round(x[0] / x[1], 0), axis=1)
df

Unnamed: 0,especie,arquivos_mp3,arquivos_wav,diferenca,multiplicacao
0,mimus_saturninus,148,1374,2266,15.0
1,ramphocelus_carbo,185,1220,2420,13.0
2,columba_livia,40,543,3097,77.0
3,turdus_leucomelas,322,2805,835,3.0
4,caracara_plancus,90,477,3163,35.0
5,megarynchus_pitangua,401,2640,1000,2.0
6,vanellus_chilensis,280,1624,2016,7.0
7,pitangus_sulphuratus,556,3640,0,0.0
8,turdus_rufiventris,209,2465,1175,6.0
9,furnarius_rufus,152,618,3022,20.0


## Gerar arquivos adicionais com deslocamento

In [None]:
%%time

#for especie in ['furnarius_rufus']:
#for especie in ['columba_livia']:
for especie in especies:
    print("especie:", especie)
    
    # multiplicação necessária para a espécie
    multiplicacao = int(df[df.especie == especie]['multiplicacao'].values[0])
    print("-> multiplicacao:", multiplicacao)
    if multiplicacao == 0:
        continue

    diferenca = int(df[df.especie == especie]['diferenca'].values[0])
    print("-> diferenca:", diferenca)

    qtde_arquivos = 0
#    for arquivo in os.listdir(os.path.join(DIR_ENTRADA, especie))[:1]:
#    for arquivo in os.listdir(os.path.join(DIR_ENTRADA, especie))[:20]:
    for arquivo in os.listdir(os.path.join(DIR_ENTRADA, especie)):

        # sair do laço se atingir a quantidade necessária
        if qtde_arquivos >= diferenca:
            break
            
        # montar nome do arquivo de entrada
        entrada = os.path.join(DIR_ENTRADA, especie, arquivo)
        if not entrada.endswith('.mp3'):
            continue
        #print("entrada:", entrada)

        prefixo_saida = os.path.join(DIR_SAIDA, especie, arquivo.replace('.mp3', '-'))
        #print("prefixo_saida:", prefixo_saida)
        
        # carregar áudio original em formato MP3
        y, sr = librosa.load(entrada, sr=SAMPLE_RATE, mono=True)
        numero_pontos = y.shape[0]
        #print("-> numero_pontos:", numero_pontos)
        duracao = y.shape[0] / sr
        #print("-> duracao:", duracao, "seg")

        # calcular o número de cortes a serem efetuados no áudio
        numero_cortes = round(duracao / DURACAO_TRECHO)
        #print("-> numero_cortes:", numero_cortes)
        if numero_cortes == 0:
            continue
        
        # calcular o número necessário de variações
        numero_variacoes = round(multiplicacao / numero_cortes)
        #print("-> numero_variacoes:", numero_variacoes)
        
        for variacao in np.arange(1, numero_variacoes + 1):
            
            # sair do laço se atingir a quantidade necessária
            if qtde_arquivos >= diferenca:
                break

            # deslocar o sinal (roll)
            tamanho_roll = variacao * int(PONTOS_ONDA / (variacao + 1))
            #print("--> tamanho_roll:", tamanho_roll)
            yr = np.roll(y, tamanho_roll)
            
            # adicionar ruído ao sinal
            yrs = yr + 0.009 * np.random.normal(0, 1, len(yr))
            
            for corte in np.arange(1, numero_cortes + 1):

                # sair do laço se atingir a quantidade necessária
                if qtde_arquivos >= diferenca:
                    break

                saida = prefixo_saida + str(variacao) + "-" + str(corte) + ".wav"
                    
                # calcular trechos de início e fim no áudio
                inicio = PONTOS_ONDA * (corte - 1)
                termino = PONTOS_ONDA * corte
                yrc = yrs[inicio:termino]
                
                duracao = yrc.shape[0] / sr
                if (duracao / DURACAO_TRECHO < 0.3):
                    break

                # gravar arquivo de áudio em formato WAV
                sf.write(saida, yrc, sr, format='wav', subtype='PCM_16')
                qtde_arquivos += 1
                
    print("-> qtde_arquivos:", qtde_arquivos, "\n")

especie: mimus_saturninus
-> multiplicacao: 15
-> diferenca: 15
-> qtde_arquivos: 2187 

especie: ramphocelus_carbo
-> multiplicacao: 13
-> diferenca: 13
-> qtde_arquivos: 2360 

especie: columba_livia
-> multiplicacao: 77
-> diferenca: 77


## Calcular quantidade de arquivos gerados ao final

In [None]:
arquivos = []
for especie in especies:
    arquivos.append(len(os.listdir(DIR_SAIDA + '/' + especie)))
#arquivos

In [None]:
df['arquivos_wav2'] = arquivos
df