# PCA

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from joblib import Parallel, delayed
from sklearn.model_selection import train_test_split as tts
from sklearn.ensemble import RandomForestClassifier
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.neighbors import KNeighborsClassifier
from sklearn.decomposition import PCA
from sklearn.metrics import accuracy_score

In [None]:
#DEFININDO ALGUNS PARÂMETROS DO GRÁFICO
%matplotlib inline
%config InlineBackend.figure_format = 'svg'
params = {'figure.figsize': [11, 5.5], 
          'axes.labelsize': 18,
          'axes.titlesize':20, 
          'font.size': 18,
          'legend.fontsize': 14, 
          'xtick.labelsize': 12, 
          'ytick.labelsize': 12,
          'axes.axisbelow': True
         }

plt.rcParams.update(params)

### Abrindo o dataset

In [None]:
# ABRINDO O DATASET COMPLETO
dfTesteCompleto = pd.read_csv("../datasets/teste_100ms_135features.csv")

# SEPARANDO O DATASET QUE CONTEM APENAS OS AUDIOS ORIGINAIS
dfTesteOriginal = dfTesteCompleto.loc[(dfTesteCompleto['ruido'] == 0) & (dfTesteCompleto['pitch'] == 0) & (dfTesteCompleto['tempo'] == 0) & (dfTesteCompleto['velocidade'] == 0)]
print(dfTesteCompleto.shape)
print(dfTesteOriginal.shape)

### Separando data e target

In [None]:
data   = dfTesteOriginal.iloc[:, 5:-1].to_numpy()
target = dfTesteOriginal.iloc[:, -1].to_numpy()
print(data.shape)
print(target.shape)

### Parâmetros Iniciais

In [None]:
qtdHoldouts = 1

### Função para ajudar a paralelizar

In [None]:
def treinarEClassificar(data, target, classificador):
    
    xTrain, xTest, yTrain, yTest = tts(data, target, test_size=0.25)
    
    if classificador == "KNN":
        objClassificador = KNeighborsClassifier()
    elif classificador == "LDA":
        objClassificador = LinearDiscriminantAnalysis()
    else:
        objClassificador = RandomForestClassifier(n_estimators=10)
    
    objClassificador.fit(xTrain, yTrain)
    yPred = objClassificador.predict(xTest)
    
    return accuracy_score(yTest, yPred)

In [None]:
treinarEClassificar(data, target, "LDA")

### Função que roda tudo o que tem que rodar

In [None]:
def vamoQueVamo(classificador):   
    
    # RODANDO SEM O PCA PRA TER UM REFERENCIAL
    arrayAcuraciasSemPCA = Parallel(n_jobs=-1, verbose=10)(delayed(treinarEClassificar)(data, target, classificador) for i in range(qtdHoldouts))
    acuraciaMediaSemPCA = np.mean(arrayAcuraciasSemPCA)
    desvioSemPCA        = np.std(arrayAcuraciasSemPCA)
    
    # APLICANDO O PCA
    arrayAcuraciaMedia = []
    arrayDesvioMedio   = []
    arrayDimensoes     = []
    # PARA CADA QUANTIDADE DE DIMENSOES
    for qtdDimensoesAtual in range(len(data[1])-1, 0, -1):
        # APLICANDO O PCA (COMO EU FUI ESQUECER DO PRINCIPAL MEU DEEEEEEEEEEEEEEEEUS)
        dataComPCA = PCA(n_components=qtdDimensoesAtual).fit_transform(data)
        # FAZENDO O BOOTSTRAP CV
        acuraciasDimensaoAtual = Parallel(n_jobs=-1, verbose=10)(delayed(treinarEClassificar)(data, target, classificador) for i in range(qtdHoldouts))
        # COLOCANDO A MEDIA E O DESVIO DA QUANTIDADE DE DIMENSOES ATUAL NOS ARRAYS DE RESULTADOS
        arrayAcuraciaMedia.append(np.mean(acuraciasDimensaoAtual))
        arrayDesvioMedio.append(np.std(acuraciasDimensaoAtual))
        arrayDimensoes.append(qtdDimensoesAtual)
        print("Teste com", qtdDimensoesAtual, "dimensões finalizado.")
    print("\nTodas as etapas foram concluidas!")
    
    # SALVANDO UMA IMAGEM
    plt.plot(arrayDimensoes, np.full(len(arrayDimensoes), acuraciaMediaSemPCA), "--", color="black", label="Referencial (sem PCA)")
    plt.errorbar(arrayDimensoes, arrayAcuraciaMedia, yerr=arrayDesvioMedio, label="PCA")
    plt.title("Análise do PCA com " + classificador)
    plt.xlabel("Qtd de Dimensões")
    plt.ylabel("Acurácia Média")
    plt.grid(alpha=0.5)
    plt.legend()
    plt.savefig("../resultados/analisePCA_"+classificador+".pdf", format='pdf', bbox_inches = 'tight')
    plt.show()

# LDA

In [None]:
classificador = "LDA"
vamoQueVamo(classificador)

# RANDOM FOREST

In [None]:
classificador = "RF"
vamoQueVamo(classificador)

# KNN

In [None]:
classificador = "KNN"
vamoQueVamo(classificador)