# Implementação de uma classe capaz de abrir os CSVs de treino e teste do SESA Dataset

A classe deverá ser capaz de receber o caminho de um CSV com dados de TREINO, treinar os classificadores e classificar os dados de outros CSVs de TESTE.

A ideia é criar uma função para receber um único CSV de treino para treinar os classificadores, e eles deverão ficar armazenados na classe, afinal, se a cada CSV de teste eu for fazer o treino antes, o processamento vai ficar pesado. Muito melhor fazer o treinamento uma única vez e depois usar os objetos das classes dos classificadores para testar outros CSVs.

Os melhores classificadores de acordo com o trabalho enviado ao Workshop NUVEM da UFABC, usando esse mesmo dataset, foram:

**1) SGD:** Obteve a segunda melhor acurácia e o melhor tempo de processamento.

**2) Bagging:** Apesar de ter ganhado de apenas 3 classificadores no quesito tempo de processamento, obteve a melhor acurácia.

### Abrindo os CSVs de treino e teste

Para testar tudo, vou usar CSVs com dados ficitícios.

In [1]:
from sklearn.linear_model import SGDClassifier
from sklearn.ensemble import BaggingClassifier
from scipy.stats import mode 
import pandas as pd
import numpy as np
import time

In [2]:
# MONTANDO O CAMINHO PROS CSVS
csvTreino = '/home/dimi/Programming/IC2019/ML/datasets/SESA/featuresTreinoFicticias.csv'
csvTeste  = '/home/dimi/Programming/IC2019/ML/datasets/SESA/featuresTesteFicticias.csv'

# ABRINDO OS CSVS
dataframeTreino = pd.read_csv(csvTreino) 
dataframeTeste  = pd.read_csv(csvTeste) 

### Funções para fazer o TREINAMENTO dos classificadores

Abaixo, vou escrever as funções responsáveis por treinar os classificadores

#### Função para separar o dataframe em X e Y

Preciso de uma função que pegue o dataframe devolva dois arrays: xTrain e yTrain. Ai depois é só usar esses arrays para treinar os classificadores.

ESSA FUNÇÃO TAMBÉM SERÁ USADA NA PARTE DO TESTE

In [3]:
def separarDataframeXeY(dataframe):
    # PRIMEIRO, MONTO O X (POSSO EXCLUIR A PRIMEIRA COLUNA "ARQUIVOS" E A ÚLTIMA "CLASSE")
    x = dataframe[dataframe.columns[1:-1]]
    
    # AGORA, MONTO O Y
    y = dataframe[dataframe.columns[-1]]
    
    # CONVERTO TUDO PRA TUPLA NORMAL 
    x = x.values.tolist()
    y = y.values.tolist()
    
    return x, y

In [4]:
xTrain, yTrain = separarDataframeXeY(dataframeTreino)

#### Função para instanciar classificadores

Como eu não sei se vou usar mais classificadores depois, então vou criar um array de classificadores, assim na hora de treinar eu faço um for loop e vou treinando tudo o que tiver dentro.

Essa função recebe apenas o nome das classes a serem instanciadas. Por exemplo, envie ["SGDClassifier(params)", "BaggingClassifier(params)"] para receber um array de objetos dessas classes.

In [5]:
def instanciarClassificadores(arrayStringsClassesClassificadores):
    
    arrayObjClassificadores = []
    
    for classe in arrayStringsClassesClassificadores:
        print("Instanciando um objeto da classe", classe)
        arrayObjClassificadores.append(eval(classe))
        
    return arrayObjClassificadores

In [6]:
arrayObjClassificadores = instanciarClassificadores(["SGDClassifier()", "BaggingClassifier()"])
arrayObjClassificadores

Instanciando um objeto da classe SGDClassifier()
Instanciando um objeto da classe BaggingClassifier()


[SGDClassifier(alpha=0.0001, average=False, class_weight=None,
               early_stopping=False, epsilon=0.1, eta0=0.0, fit_intercept=True,
               l1_ratio=0.15, learning_rate='optimal', loss='hinge',
               max_iter=1000, n_iter_no_change=5, n_jobs=None, penalty='l2',
               power_t=0.5, random_state=None, shuffle=True, tol=0.001,
               validation_fraction=0.1, verbose=0, warm_start=False),
 BaggingClassifier(base_estimator=None, bootstrap=True, bootstrap_features=False,
                   max_features=1.0, max_samples=1.0, n_estimators=10,
                   n_jobs=None, oob_score=False, random_state=None, verbose=0,
                   warm_start=False)]

#### Função para treinar os classificadores

Essa função vai receber xTrain, yTrain e o array de classificadores e devolver o array com os classificadores já treinados.

In [7]:
def treinarClassificadores(xTrain, yTrain, arrayObjClassificadores):
    for i, objClassificador in enumerate(arrayObjClassificadores):
        print("Treinando o", objClassificador.__class__.__name__)
        tempoInicio = time.time()
        arrayObjClassificadores[i].fit(xTrain, yTrain)
        tempoFim = time.time()
        print("Tempo de treinamento do", objClassificador.__class__.__name__, "(segundos):", tempoFim-tempoInicio)
        
    return arrayObjClassificadores

In [8]:
arrayObjClassificadores = treinarClassificadores(xTrain, yTrain, arrayObjClassificadores)

Treinando o SGDClassifier
Tempo de treinamento do SGDClassifier (segundos): 0.011879920959472656
Treinando o BaggingClassifier
Tempo de treinamento do BaggingClassifier (segundos): 0.02568960189819336


#### Função para unir as três funções anteriores

Essa função vai unir as três funções que foram criadas. Ela vai receber o dataframe de treino e um array de strings contendo os classificadores desejados. 

Em primeiro lugar, ela vai usar a função **separarDataframeXeY** para gerar xTrain e yTrain. Depois, vai usar **instanciarClassificadores** para gerar um array com os classificadores desejados. Por fim, vai treiná-los usando **treinarClassificadores()**.

Ela retorna o array de classificadores com todos eles já treinados e prontos para serem usados para predizer dados.

In [9]:
def criarETreinarClassificadores(dataframeTreino, arrayStringsClassesClassificadores):
    print("Começando o treinamento dos classificadores")
    xTrain, yTrain          = separarDataframeXeY(dataframeTreino)
    arrayObjClassificadores = instanciarClassificadores(arrayStringsClassesClassificadores)
    arrayObjClassificadores = treinarClassificadores(xTrain, yTrain, arrayObjClassificadores)
    print("Classificadores treinados")
    
    return arrayObjClassificadores

In [10]:
arrayObjClassificadores = criarETreinarClassificadores(dataframeTreino, ["SGDClassifier()", "BaggingClassifier()"])
arrayObjClassificadores

Começando o treinamento dos classificadores
Instanciando um objeto da classe SGDClassifier()
Instanciando um objeto da classe BaggingClassifier()
Treinando o SGDClassifier
Tempo de treinamento do SGDClassifier (segundos): 0.011898279190063477
Treinando o BaggingClassifier
Tempo de treinamento do BaggingClassifier (segundos): 0.0309450626373291
Classificadores treinados


[SGDClassifier(alpha=0.0001, average=False, class_weight=None,
               early_stopping=False, epsilon=0.1, eta0=0.0, fit_intercept=True,
               l1_ratio=0.15, learning_rate='optimal', loss='hinge',
               max_iter=1000, n_iter_no_change=5, n_jobs=None, penalty='l2',
               power_t=0.5, random_state=None, shuffle=True, tol=0.001,
               validation_fraction=0.1, verbose=0, warm_start=False),
 BaggingClassifier(base_estimator=None, bootstrap=True, bootstrap_features=False,
                   max_features=1.0, max_samples=1.0, n_estimators=10,
                   n_jobs=None, oob_score=False, random_state=None, verbose=0,
                   warm_start=False)]

### Funções para fazer o TESTE e calcular métricas

Agora vamos implementar as funções responsáveis por pegar um CSV, classificá-lo e calcular as métricas. A classificação deverá ser feita baseada na MODA das classificações de cada janela de um determinado áudio.

#### Função para calcular a moda das classificações de um único áudio

Cada janela de um único áudio será classificada. Depois, para dar um veredito para o áudio como um todo, precisamos tirar a moda das classificações.

In [11]:
def calcularModa(yPredCadaJanela):
    return mode(yPredCadaJanela)[0][0]

In [12]:
# PARA TESTAR VOU FAZER UM PREDICT USANDO O XTRAIN MESMO, SÓ PRA VER
a = ["casual", "gunshot", "gunshot", "explosion", "siren"]
print(calcularModa(a))

gunshot


#### Função para para predizer um conjunto de dados xTest

Essa função receberá uma matriz contendo apenas features de um único áudio e um classificador. Ela vai classificar todas as janelas desse áudio e utilizar a função da moda para dar um veredito sobre esse único áudio. 

A matriz já vai ter que vir arrumada para essa função. As funções que lidam com o pandas para deixar tudo bonitinho vão vir depois.

In [13]:
def predizerUnicoAudio(xTest, classificador):
    
    yPredCadaJanela = classificador.predict(xTest).tolist()
    
    print("Janelas classificadas como casual:", yPredCadaJanela.count("casual"))
    print("Janelas classificadas como gunshot:", yPredCadaJanela.count("gunshot"))
    print("Janelas classificadas como explosion:", yPredCadaJanela.count("explosion"))
    print("Janelas classificadas como siren:", yPredCadaJanela.count("siren"))
    
    return calcularModa(yPredCadaJanela)

In [14]:
predizerUnicoAudio(xTrain, arrayObjClassificadores[1])

Janelas classificadas como casual: 126
Janelas classificadas como gunshot: 126
Janelas classificadas como explosion: 126
Janelas classificadas como siren: 126


'casual'

#### Função para criar um array apenas com os nomes dos arquivos

Vou precisar de um array que contenha o nome de cada arquivo de um CSV de teste, sem repetições. Isso será necessário para criar um dataframe contendo apenas linhas que digam respeito às janelas de um único áudio.

In [15]:
def obterNomesArquivos(dataframe):
    return dataframe[dataframe.columns[0]].unique().tolist()

In [16]:
obterNomesArquivos(dataframeTeste)

['A_1.wav',
 'A_2.wav',
 'A_3.wav',
 'B_1.wav',
 'B_2.wav',
 'B_3.wav',
 'C_1.wav',
 'C_2.wav',
 'C_3.wav',
 'D_1.wav',
 'D_2.wav',
 'D_3.wav']

#### Função para criar um dataframe contendo apenas as linhas referentes a um único áudio

In [17]:
def obterDataframeUnicoAudio(dataframe, arquivo):
    print("Obtendo dataframe do áudio", arquivo)
    dataframeArquivoSelecionado = dataframe.loc[dataframe[dataframe.columns[0]] == arquivo]
    print("Primeiro valor do dataframe:", dataframeArquivoSelecionado[dataframeArquivoSelecionado.columns[1]].values.tolist()[0])
    return dataframeArquivoSelecionado

In [18]:
dataframeAudioAtual = obterDataframeUnicoAudio(dataframeTeste, 'D_3.wav')
dataframeAudioAtual

Obtendo dataframe do áudio D_3.wav
Primeiro valor do dataframe: 6.51


Unnamed: 0,nomeArquivo,0,1,2,3,4,5,6,7,8,...,11,12,13,14,15,16,17,18,19,classificacaoCorreta
231,D_3.wav,6.51,6.29,6.1,6.5,6.28,6.06,6.18,6.21,6.06,...,6.39,6.65,6.37,6.36,6.32,6.45,6.65,6.24,6.21,casual
232,D_3.wav,6.15,6.33,6.2,6.24,6.11,6.14,6.44,6.32,6.62,...,6.07,6.24,6.35,6.4,6.23,6.39,6.46,6.3,6.19,casual
233,D_3.wav,6.19,6.49,6.29,6.46,6.62,6.21,6.21,6.25,6.02,...,6.66,6.15,6.19,6.58,6.04,6.33,6.46,6.45,6.44,casual
234,D_3.wav,6.56,6.02,6.45,6.31,6.01,6.15,6.14,6.21,6.17,...,6.58,6.26,6.66,6.16,6.37,6.15,6.16,6.5,6.22,casual
235,D_3.wav,6.4,6.57,6.54,6.64,6.45,6.57,6.66,6.24,6.12,...,6.36,6.29,6.23,6.31,6.42,6.29,6.51,6.57,6.62,casual
236,D_3.wav,6.53,6.44,6.09,6.37,6.45,6.29,6.64,6.37,6.38,...,6.34,6.09,6.49,6.46,6.04,6.64,6.33,6.65,6.13,casual
237,D_3.wav,6.48,6.03,6.47,6.66,6.26,6.59,6.06,6.54,6.22,...,6.62,6.45,6.19,6.46,6.37,6.14,6.31,6.19,6.28,casual
238,D_3.wav,6.11,6.37,6.27,6.2,6.24,6.18,6.34,6.05,6.42,...,6.64,6.23,6.13,6.42,6.36,6.22,6.37,6.23,6.15,casual
239,D_3.wav,6.2,6.4,6.11,6.11,6.06,6.63,6.36,6.01,6.54,...,6.57,6.02,6.08,6.55,6.51,6.12,6.56,6.12,6.26,casual
240,D_3.wav,6.18,6.66,6.3,6.24,6.37,6.23,6.5,6.18,6.06,...,6.48,6.23,6.66,6.13,6.22,6.08,6.47,6.48,6.28,casual


#### Função para predizer um único áudio e retornar as classificações real e predita

Pois bem, já temos a função de predizer um único áudio, mas ela precisa receber ua matriz bonitinha que só contenha features e que não seja do tipo pandas. 

A função proposta agora deve receber o dataframe tipo pandas de um único áudio, separar o que é xTest e o que é yReal, mandar classificar xTest e devolver yReal e yPred.

In [19]:
def obterYRealYPredUnicoAudio(dataframeUnicoAudio, classificador):
    # PRIMEIRO EU SEPARO O QUE E X E Y
    xTest, arrayYReal = separarDataframeXeY(dataframeUnicoAudio)
    
    # FACO YREAL SER UM VALOR UNICO JA QUE A FUNCAO ACIMA RETORNA UM ARRAY Y
    yReal = arrayYReal[0]
    
    # PREDIZENDO A CLASSE DO AUDIO EM QUESTAO (A FUNCAO ABAIXO JA RETORNA A MODA)
    yPred = predizerUnicoAudio(xTest, classificador)
    
    print("Classificacao real:", yReal)
    print("Classificação atribuída:", yPred)
    
    return yReal, yPred

In [20]:
yRealAudioAtual, yPredAudioAtual = obterYRealYPredUnicoAudio(dataframeAudioAtual, arrayObjClassificadores[0])

Janelas classificadas como casual: 0
Janelas classificadas como gunshot: 21
Janelas classificadas como explosion: 0
Janelas classificadas como siren: 0
Classificacao real: casual
Classificação atribuída: gunshot


#### Função para classificar um dataframe de teste inteiro

A função abaixo vai receber um dataframe e um classificador. Depois disso ela vai:

1) Obter um array com o nome dos arquivos desse dataframe utilizando a função **obterNomesArquivos**;

2) Para cada arquivo no dataframe, ela vai criar um novo dataframe contendo as janelas apenas desse único áudio, utilizando, para isso, a função **obterDataframeUnicoAudio**;

3) Obter a classificação real e a predita para cada um dos arquivos utilizando a função **obterYRealYPredUnicoAudio**;

4) Com tudo isso, ela vai montar os arrays yTest e yPred, que serão utilizados posteriormente para calcular as métricas do classificador em questão.

In [21]:
def classificarDataframeCompleto(dataframeTeste, classificador):
    
    print("Começando a classificar o dataframe de teste com o ", classificador.__class__.__name__)
    
    # CRIANDO OS ARRAYS GERAIS
    yRealCadaAudio = []
    yPredCadaAudio = []
    
    # PARA CADA ARQUIVO NO DATAFRAME DE TESTE
    for arquivo in obterNomesArquivos(dataframeTeste):
        
        print("Começando a classificaçãodo arquivo", arquivo)
        
        # EU CRIO UM DATAFRAME CONTENDO APENAS AS LINHAS DO AUDIO ATUAL
        dataframeAudioAtual = obterDataframeUnicoAudio(dataframeTeste, arquivo)
        
        # E OBTENHO, PARA ESSE AUDIO, A CLASSIFICACAO REAL E A PREDITA
        yRealAtual, yPredAtual = obterYRealYPredUnicoAudio(dataframeAudioAtual, classificador)
        
        # COLOCO O RESULTADO NOS ARRAYS GERAIS
        yRealCadaAudio.append(yRealAtual)
        yPredCadaAudio.append(yPredAtual)
        
    return yRealCadaAudio, yPredCadaAudio

In [22]:
yRealCadaAudio, yPredCadaAudio = classificarDataframeCompleto(dataframeTeste, arrayObjClassificadores[0])

for i, classeReal in enumerate(yRealCadaAudio):
    print(yRealCadaAudio[i], "   ",yPredCadaAudio[i])

Começando a classificar o dataframe de teste com o  SGDClassifier
Começando a classificaçãodo arquivo A_1.wav
Obtendo dataframe do áudio A_1.wav
Primeiro valor do dataframe: -0.11
Janelas classificadas como casual: 0
Janelas classificadas como gunshot: 0
Janelas classificadas como explosion: 21
Janelas classificadas como siren: 0
Classificacao real: explosion
Classificação atribuída: explosion
Começando a classificaçãodo arquivo A_2.wav
Obtendo dataframe do áudio A_2.wav
Primeiro valor do dataframe: -0.4
Janelas classificadas como casual: 0
Janelas classificadas como gunshot: 0
Janelas classificadas como explosion: 21
Janelas classificadas como siren: 0
Classificacao real: explosion
Classificação atribuída: explosion
Começando a classificaçãodo arquivo A_3.wav
Obtendo dataframe do áudio A_3.wav
Primeiro valor do dataframe: -0.16
Janelas classificadas como casual: 0
Janelas classificadas como gunshot: 0
Janelas classificadas como explosion: 21
Janelas classificadas como siren: 0
Classif

In [23]:
# MONTANDO O CAMINHO PROS CSVS
csvTreino = '/home/dimi/Programming/IC2019/ML/datasets/SESA/featuresTreinoFicticias.csv'
csvTeste  = '/home/dimi/Programming/IC2019/ML/datasets/SESA/featuresTesteFicticias.csv'

# ABRINDO OS CSVS
dataframeTreino = pd.read_csv(csvTreino) 
dataframeTeste  = pd.read_csv(csvTeste) 

# CRIANDO E TREINANDO OS CLASIFICADORES
arrayObjClassificadores = criarETreinarClassificadores(dataframeTreino, ["SGDClassifier()", "BaggingClassifier()"])

# CLASSIFICANDO O DATAFRAME DE TESTE
yRealCadaAudio, yPredCadaAudio = classificarDataframeCompleto(dataframeTeste, arrayObjClassificadores[1])

Começando o treinamento dos classificadores
Instanciando um objeto da classe SGDClassifier()
Instanciando um objeto da classe BaggingClassifier()
Treinando o SGDClassifier
Tempo de treinamento do SGDClassifier (segundos): 0.011139392852783203
Treinando o BaggingClassifier
Tempo de treinamento do BaggingClassifier (segundos): 0.023398876190185547
Classificadores treinados
Começando a classificar o dataframe de teste com o  BaggingClassifier
Começando a classificaçãodo arquivo A_1.wav
Obtendo dataframe do áudio A_1.wav
Primeiro valor do dataframe: -0.11
Janelas classificadas como casual: 0
Janelas classificadas como gunshot: 0
Janelas classificadas como explosion: 21
Janelas classificadas como siren: 0
Classificacao real: explosion
Classificação atribuída: explosion
Começando a classificaçãodo arquivo A_2.wav
Obtendo dataframe do áudio A_2.wav
Primeiro valor do dataframe: -0.4
Janelas classificadas como casual: 0
Janelas classificadas como gunshot: 0
Janelas classificadas como explosion:

In [24]:
for i, classeReal in enumerate(yRealCadaAudio):
    print(yRealCadaAudio[i], "   ",yPredCadaAudio[i])

explosion     explosion
explosion     explosion
explosion     explosion
gunshot     gunshot
gunshot     gunshot
gunshot     gunshot
siren     siren
siren     siren
siren     siren
casual     casual
casual     casual
casual     casual
