# Criando a nova versão do SESA

Vamos fazer o SESA ser dividido em K pastas ao invés de ser separado por um único holdout. Além disso, temos que fazer a distribuição ser top.

In [1]:
import os
import shutil
import librosa
import numpy as np
from random import randint

### Organizando os diretórios

In [2]:
dirOrigem  = "/home/dimi/Downloads/datasets/SESA_original_v1/"
dirDestino = "/home/dimi/Downloads/datasets/SESA_original_v2/"

Vamos verificar se a pasta de destino já existe. Se sim, ela será excluida e recriada.

In [3]:
# VERIFICANDO SE JA EXISTE E EXCLUINDO
if os.path.isdir(dirDestino):
    print("O diretório de destino " + dirDestino + " já existe e, portanto, será excluido.")
    shutil.rmtree(dirDestino)

# CRIANDO O DIRETORIO
os.mkdir(dirDestino)
print("O diretório de destino foi criado com sucesso.")

O diretório de destino foi criado com sucesso.


### Verificando um bom número para K

In [4]:
arquivosTreinamento = os.listdir(dirOrigem + "train/")
arquivosTeste       = os.listdir(dirOrigem + "test/")
totalArquivos       = len(arquivosTreinamento) + len(arquivosTeste)
print("Total de arquivos no dataset:", totalArquivos)

Total de arquivos no dataset: 585


In [5]:
for k in range(3, 11):
    qtdArquivosCadaPasta  = int(totalArquivos/k)
    percentualTreinamento = 100 * (1 - qtdArquivosCadaPasta/totalArquivos)
    print("K igual a "+ str(k) + ":")
    print("A cada iteração do K Fold, " + str(percentualTreinamento)[:5] + "% dos dados serão reservados para treinamento.")
    print("Cada pastá conterá aproximadamente " + str(qtdArquivosCadaPasta) + " arquivos.\n")

K igual a 3:
A cada iteração do K Fold, 66.66% dos dados serão reservados para treinamento.
Cada pastá conterá aproximadamente 195 arquivos.

K igual a 4:
A cada iteração do K Fold, 75.04% dos dados serão reservados para treinamento.
Cada pastá conterá aproximadamente 146 arquivos.

K igual a 5:
A cada iteração do K Fold, 80.0% dos dados serão reservados para treinamento.
Cada pastá conterá aproximadamente 117 arquivos.

K igual a 6:
A cada iteração do K Fold, 83.41% dos dados serão reservados para treinamento.
Cada pastá conterá aproximadamente 97 arquivos.

K igual a 7:
A cada iteração do K Fold, 85.81% dos dados serão reservados para treinamento.
Cada pastá conterá aproximadamente 83 arquivos.

K igual a 8:
A cada iteração do K Fold, 87.52% dos dados serão reservados para treinamento.
Cada pastá conterá aproximadamente 73 arquivos.

K igual a 9:
A cada iteração do K Fold, 88.88% dos dados serão reservados para treinamento.
Cada pastá conterá aproximadamente 65 arquivos.

K igual a 1

Acho que 5 tá bonitinho.

In [6]:
kDesejado = 5

for i in range(1, kDesejado + 1):
    os.mkdir(dirDestino + "fold_" + str(i))

### Verificando o problema do áudio com o mesmo nome

In [7]:
arquivosRepetidos = [arquivoAtual for arquivoAtual in arquivosTeste if arquivoAtual in arquivosTreinamento]
if len(arquivosRepetidos) > 0:
    print("Foram encontrados os seguintes áudios com o mesmo nome:")
    print(arquivosRepetidos)
else:
    print("Não foram encontrados áudios com o mesmo nome no treinamento e no teste.")

Foram encontrados os seguintes áudios com o mesmo nome:
['gunshot_000.wav']


Agora, quero que esse áudio seja renomeado para gunshot_xxx.wav. Mas esse xxx tem que fazer sentido. Vamos ver qual é contagem dos arquivos gunshot em cada pasta.

In [8]:
contagemTreinamento = np.sort(np.array([arquivoAtual.split("_")[1][:-4] for arquivoAtual in arquivosTreinamento if arquivoAtual.split("_")[0] == "gunshot"]).astype("int"))
contagemTeste       = np.sort(np.array([arquivoAtual.split("_")[1][:-4] for arquivoAtual in arquivosTeste if arquivoAtual.split("_")[0] == "gunshot"]).astype("int"))

In [9]:
contagemTeste

array([  0,   9,  14,  19,  26,  27,  32,  41,  45,  47,  54,  61,  63,
        72,  76,  80,  84,  91,  93,  98, 100])

In [10]:
contagemTreinamento

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8, 10, 11, 12, 13, 15, 16, 17, 18,
       20, 21, 22, 23, 24, 25, 28, 29, 30, 31, 33, 34, 35, 36, 37, 38, 39,
       40, 42, 43, 44, 46, 48, 49, 50, 51, 52, 53, 55, 56, 57, 58, 59, 60,
       62, 64, 65, 66, 67, 68, 69, 70, 71, 73, 74, 75, 77, 78, 79, 81, 82,
       83, 85, 86, 87, 88, 89, 90, 92, 94, 95, 96, 97])

Como é possível perceber, falta o contador 99. Agora, resta decidir se vamos transformar o 0 do treinamento em 99, ou se será o 0 do teste que será renomeado para 99. Vamos deixar essa escolha nas mãos de Deus: se o número aleatório der 0 vai ser treinamento, se der 1 vai ser teste. Mas pra falar a verdade, tanto faz, é só pra não bagunçar tudo na hora de copiar os arquivos para a nova organização de pastas.

**A célula abaixo não pode ser rodada mais que uma vez!**

In [11]:
# GARANTINDO QUE SE A CELULA SEJA RODADA MAIS DE UMA VEZ, NAO CAGUE TUDO
arquivosRepetidos = [arquivoAtual for arquivoAtual in arquivosTeste if arquivoAtual in arquivosTreinamento]
if len(arquivosRepetidos) == 0:
    print("VOCÊ TÁ RODANDO ESSA CÉLULA DE NOVO, SEU JUMENTO!")
else:
    nomeAntigo = arquivosRepetidos[0]
    nomeNovo   = arquivosRepetidos[0].split("_")[0] + "_099.wav"
    
    # RENOMEANDO NO TREINAMENTO (SE O ALEATORIO DER 0)
    if randint(0, 1) == 0:
        os.rename(dirOrigem + "train/" + nomeAntigo, dirOrigem + "train/" + nomeNovo)
        arquivosTreinamento.remove(nomeAntigo)
        arquivosTreinamento.append(nomeNovo)
        print("O arquivo foi renomeado no treinamento!")

    # RENOMEANDO NO TESTE (SE O ALEATORIO TIVER DADO 1)
    else:
        os.rename(dirOrigem + "test/" + nomeAntigo, dirOrigem + "test/" + nomeNovo)
        arquivosTeste.remove(nomeAntigo)
        arquivosTeste.append(nomeNovo)
        print("O arquivo foi renomeado no teste!")

O arquivo foi renomeado no treinamento!


In [12]:
contagemTreinamento = np.sort(np.array([arquivoAtual.split("_")[1][:-4] for arquivoAtual in arquivosTreinamento if arquivoAtual.split("_")[0] == "gunshot"]).astype("int"))
contagemTeste       = np.sort(np.array([arquivoAtual.split("_")[1][:-4] for arquivoAtual in arquivosTeste if arquivoAtual.split("_")[0] == "gunshot"]).astype("int"))

In [13]:
contagemTeste

array([  0,   9,  14,  19,  26,  27,  32,  41,  45,  47,  54,  61,  63,
        72,  76,  80,  84,  91,  93,  98, 100])

In [14]:
contagemTreinamento

array([ 1,  2,  3,  4,  5,  6,  7,  8, 10, 11, 12, 13, 15, 16, 17, 18, 20,
       21, 22, 23, 24, 25, 28, 29, 30, 31, 33, 34, 35, 36, 37, 38, 39, 40,
       42, 43, 44, 46, 48, 49, 50, 51, 52, 53, 55, 56, 57, 58, 59, 60, 62,
       64, 65, 66, 67, 68, 69, 70, 71, 73, 74, 75, 77, 78, 79, 81, 82, 83,
       85, 86, 87, 88, 89, 90, 92, 94, 95, 96, 97, 99])

Agora ta tudo certo. Vamo que vamo.

## Começando a organizar os arquivos

Algumas células acima, eu escrevi que cada pasta do K Fold conteria **aproximadamente** uma determinada quantidade de arquivos. Então, é que o mais correto seria dividir os arquivos por **tempo de execução** ao invés de olhar apenas para a **quantidade**. Em datasets como o ESC, por exemplo, os áudios vem com a mesma duração. Mas no SESA cada áudio tem um tempo, então vamos fazer aos poucos.

In [15]:
# VAMOS ARMAZENAR O TEMPO DOS AUDIOS. CADA LINHA UMA PASTA, CADA COLUNA UMA CLASSE
matrizDuracoes = []

for i in range(kDesejado):
    matrizDuracoes.append([0,0,0,0])
    
print("Matriz de durações.\nCada linha uma pasta do K Fold. Cada coluna uma classe.\nGunshot, Explosion, Siren e Casual, nesta ordem.\n")
print(np.matrix(matrizDuracoes))

Matriz de durações.
Cada linha uma pasta do K Fold. Cada coluna uma classe.
Gunshot, Explosion, Siren e Casual, nesta ordem.

[[0 0 0 0]
 [0 0 0 0]
 [0 0 0 0]
 [0 0 0 0]
 [0 0 0 0]]


Organizando tudo num mesmo array:

In [16]:
# PARA NAO PRECISAR FICAR VOLTANDO NO COMECO DO JUPYTER TODA VEZ QUE FOR RADAR ESSA CELULA
arquivosTreinamento = os.listdir(dirOrigem + "train/")
arquivosTeste       = os.listdir(dirOrigem + "test/")

# JUNTANDO
arquivosTreinamento = ["train/"+arquivoAtual for arquivoAtual in arquivosTreinamento]
arquivosTeste       = ["test/"+arquivoAtual for arquivoAtual in arquivosTeste]
arrayArquivos       = arquivosTreinamento + arquivosTeste

# LIMPANDO A MEMORIA
del arquivosTreinamento, arquivosTeste

print(arrayArquivos[:5] + arrayArquivos[-5:])

['train/casual_109.wav', 'train/siren_013.wav', 'train/siren_037.wav', 'train/casual_088.wav', 'train/casual_145.wav', 'test/gunshot_080.wav', 'test/siren_047.wav', 'test/gunshot_093.wav', 'test/explosion_079.wav', 'test/gunshot_061.wav']


### Ordenando os arquivos pela duração

Para que ao final, cada pasta contenha a duração em segundos de uma determinada classe o mais próxima quanto possível da duração de outra pasta qualquer dessa mesma determinada classe, os áudios devem ser ordenados do mais longo ao mais curto agora. Assim, os mais longos são distribuidos primeiro, e os mais curtos vão corrigir as diferenças posteriormente.

In [17]:
duracaoCadaArquivo = []

for arquivoAtual in arrayArquivos:
    sinalAtual, freqAmostragem = librosa.load(dirOrigem+arquivoAtual, sr=None, mono=True)
    duracaoCadaArquivo.append(librosa.get_duration(y=sinalAtual, sr=freqAmostragem))

Visualizando antes da ordenação.

In [18]:
for arquivoAtual, duracaoAtual in zip(arrayArquivos[:10], duracaoCadaArquivo[:10]):
    print(arquivoAtual, " -> ", duracaoAtual, "(s)")

train/casual_109.wav  ->  6.7905 (s)
train/siren_013.wav  ->  10.920125 (s)
train/siren_037.wav  ->  3.95 (s)
train/casual_088.wav  ->  8.6378125 (s)
train/casual_145.wav  ->  3.811125 (s)
train/casual_014.wav  ->  3.8545 (s)
train/siren_041.wav  ->  9.78 (s)
train/casual_095.wav  ->  17.4149375 (s)
train/explosion_091.wav  ->  3.5061875 (s)
train/casual_142.wav  ->  3.72325 (s)


Ordenando

In [19]:
duracaoCadaArquivo, arrayArquivos = zip(*sorted(zip(duracaoCadaArquivo, arrayArquivos)))

# INVERTENDO PARA FICAR DO MAIS LONGO PARA O MAIS CURTO
duracaoCadaArquivo = np.flip(duracaoCadaArquivo)
arrayArquivos      = np.flip(arrayArquivos)

Visualizando após a ordenação.

In [20]:
for arquivoAtual, duracaoAtual in zip(arrayArquivos[:10], duracaoCadaArquivo[:10]):
    print(arquivoAtual, " -> ", duracaoAtual, "(s)")

train/siren_087.wav  ->  33.030375 (s)
train/casual_034.wav  ->  30.603875 (s)
test/siren_071.wav  ->  30.417 (s)
train/casual_011.wav  ->  30.0001875 (s)
train/gunshot_081.wav  ->  29.86725 (s)
train/gunshot_030.wav  ->  29.3954375 (s)
train/gunshot_016.wav  ->  28.2909375 (s)
train/casual_084.wav  ->  27.6433125 (s)
train/casual_023.wav  ->  26.563625 (s)
train/siren_055.wav  ->  26.36875 (s)


Verificando que as durações batem com os arquivos (garantindo que nada saiu da ordem):

In [21]:
index = randint(0, len(arrayArquivos)-1)

sinalAtual, freqAmostragem = librosa.load(dirOrigem+arrayArquivos[index], sr=None, mono=True)

print(arrayArquivos[index])
print("Duração real:    ", librosa.get_duration(y=sinalAtual, sr=freqAmostragem), "(s)")
print("Duração no array:", duracaoCadaArquivo[index], "(s)")

train/explosion_021.wav
Duração real:     6.58 (s)
Duração no array: 6.58 (s)


### Distribuindo entre as pastas do K Fold

Vou criar uma função que verifica qual é a pasta do K Fold que contém a menor duração de áudios de uma determinada classe. Também vou criar uma função pra atualizar a matriz de durações.

In [22]:
def verificarPastaMenorDuracao(matrizDuracoes, classe):
    
    if classe == "gunshot":
        coluna = 0
    elif classe == "explosion":
        coluna = 1
    elif classe == "siren":
        coluna = 2
    else:
        coluna = 3
        
    pastaMenorDuracao = 0
    for pastaAtual in range(len(matrizDuracoes)):
        if matrizDuracoes[pastaAtual][coluna] < matrizDuracoes[pastaMenorDuracao][coluna]:
            pastaMenorDuracao = pastaAtual
            
    return "fold_" + str(pastaMenorDuracao + 1) + "/"

In [23]:
def atualizarMatrizDuracoes(matrizDuracoes, pastaDestino, classe, duracaoNovoArquivo):
    
    # OBTENDO O INDEX DA LINHA ("fold_3/" deve virar 2)
    linha = int(pastaDestino.split("_")[1][0]) - 1
    
    # OBTENDO O INDEX DA COLUNA
    if classe == "gunshot":
        coluna = 0
    elif classe == "explosion":
        coluna = 1
    elif classe == "siren":
        coluna = 2
    else:
        coluna = 3
    
    # ATUALIZANDO    
    matrizDuracoes[linha][coluna] += duracaoNovoArquivo
    return matrizDuracoes

In [24]:
def atualizarMatrizQuantidades(matrizQuantidades, pastaDestino, classe):
    
    # OBTENDO O INDEX DA LINHA ("fold_3/" deve virar 2)
    linha = int(pastaDestino.split("_")[1][0]) - 1
    
    # OBTENDO O INDEX DA COLUNA
    if classe == "gunshot":
        coluna = 0
    elif classe == "explosion":
        coluna = 1
    elif classe == "siren":
        coluna = 2
    else:
        coluna = 3
    
    # ATUALIZANDO    
    matrizQuantidades[linha][coluna] += 1
    return matrizQuantidades

Testando as funções

In [25]:
matrizTeste = [
    [1,4,3,2],
    [2,1,4,3],
    [3,2,1,4],
    [4,3,2,1],
    [5,5,5,5],
]

print(verificarPastaMenorDuracao(matrizTeste, "gunshot"))
print(verificarPastaMenorDuracao(matrizTeste, "explosion"))
print(verificarPastaMenorDuracao(matrizTeste, "siren"))
print(verificarPastaMenorDuracao(matrizTeste, "casual"))

matrizTeste = atualizarMatrizDuracoes(matrizTeste, "fold_1/", "gunshot", 9)
matrizTeste = atualizarMatrizDuracoes(matrizTeste, "fold_2/", "explosion", 9)
matrizTeste = atualizarMatrizDuracoes(matrizTeste, "fold_3/", "siren", 9)
matrizTeste = atualizarMatrizDuracoes(matrizTeste, "fold_4/", "casual", 9)
print(np.matrix(matrizTeste))

del matrizTeste

fold_1/
fold_2/
fold_3/
fold_4/
[[10  4  3  2]
 [ 2 10  4  3]
 [ 3  2 10  4]
 [ 4  3  2 10]
 [ 5  5  5  5]]


Vamo que vamo. Na célula abaixo, eu vou passar por cada arquivo (já estão listados do mais longo ao mais curto), e vou colocando esse arquivo na pasta que tem a menor duração pra classe desse áudio.

In [26]:
# RECRIANDO A MATRIZ DE DURACOES PRA CASO ESSA CELULA SEJA RODADA MAIS DE UMA VEZ NAO DAR PROBLEMA
matrizDuracoes    = []
matrizQuantidades = []
for i in range(kDesejado):
    matrizDuracoes.append([0,0,0,0])
    matrizQuantidades.append([0,0,0,0])

# PARA CADA ARQUIVO
for i, (arquivoAtual, duracaoAtual) in enumerate(zip(arrayArquivos, duracaoCadaArquivo)):
    
    # PEGANDO A CLASSE DESSE ARQUIVO
    classeAtual = arquivoAtual.split("/")[1].split("_")[0]
    
    # VERIFICANDO QUAL E A PASTA QUE TEM A MENOR DURACAO DESSA CLASSE
    pastaDestino = verificarPastaMenorDuracao(matrizDuracoes, classeAtual)
    
    # COPIANDO O ARQUIVO ATUAL PRA PASTA DE DESTINO
    shutil.copyfile(dirOrigem+arquivoAtual, dirDestino+pastaDestino+arquivoAtual.split("/")[1])
    
    # COLOCANDO O RESULTADO NA MATRIZ DE DURACOES E DE QUANTIDADES
    matrizDuracoes    = atualizarMatrizDuracoes(matrizDuracoes, pastaDestino, classeAtual, duracaoAtual)
    matrizQuantidades = atualizarMatrizQuantidades(matrizQuantidades, pastaDestino, classeAtual)

### Verificando o que aconteceu

##### Tempo de duração de cada classe em cada pasta:

In [27]:
print(np.matrix(matrizDuracoes))

[[148.0819375 253.6294375 193.8475625 283.6153125]
 [149.081125  253.9388125 194.3614375 281.870375 ]
 [148.983875  252.6704375 193.9834375 283.791    ]
 [148.9684375 253.824     193.7861875 283.8259375]
 [149.1255    253.658375  195.076     283.47125  ]]


##### Quantidade de áudios em cada pasta

In [28]:
print(np.matrix(matrizQuantidades))

print("\nTotal em cada pasta:", np.sum(matrizQuantidades, axis=1))

[[19 42 21 34]
 [20 42 21 33]
 [20 41 21 34]
 [21 42 21 34]
 [21 42 22 34]]

Total em cada pasta: [116 116 116 118 119]


Excelente, como esperado, cada pasta contém aproximadamente a mesma duração de áudios da mesma classe, e é interessante perceber que a quantidade de áudios de cada classe em cada pasta tembém foi muito parecida. Entretanto existe um desbalanceamento entre classes. As classes de explosão e casual (segunda e quarta coluna) possuem muito mais amostras que as demais classes.