# Trabajo de fin de grado

Se importan las librerias necesarias, en primer lugar algunas librerias para tratar con los tipos de datos

In [None]:
import pandas as pd
import numpy as np

Se importan tambien los algoritmos que se utilizaran más adelante para predecir

In [None]:
from sklearn.ensemble import AdaBoostClassifier
from sklearn.model_selection  import cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.naive_bayes import GaussianNB 
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC

Librerias para el preprocesado y analisis de los datos

In [None]:
#Utilizados para normalizar
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import normalize
from sklearn.preprocessing import RobustScaler

#Para la seleccion de variables
import sklearn.feature_selection
from sklearn.decomposition import PCA

Y otras de ayuda para plotear gráficas y mostrar métricas

In [None]:
import time
import matplotlib.pyplot as plt
import seaborn as sns
import itertools
from sklearn.metrics import confusion_matrix, precision_recall_fscore_support

Se comienza con la carga de los archivos .csv que han de encontrarse en el mismo directorio. Como se ve en el código cuando el valor no está definido aparece *--undefined--* y por ello esos valores son tratados como NA's

In [None]:
audiosMezclados = pd.read_csv('sonidosMezclados.csv', na_values='--undefined--')
audiosAleman = pd.read_csv('sonidosAleman.csv', na_values='--undefined--')
audiosPropios = pd.read_csv('sonidosPropios.csv', na_values='--undefined--')
audiosEspanol = pd.read_csv('sonidosEspanol.csv', na_values='--undefined--')

Observando los cantidad de audios de las diferentes clases que se encuentran en cada uno de los dataframes, es fácil ver que en dataframe de audios en Español hay una presencia muy elevada de audios neutrales, por ello a continuación se eliminan varios de ellos de forma que finalmente todos estén presentes en la misma proporción

In [None]:
neutrales = audiosEspanol[audiosEspanol['Result']==5]
audiosEspanol = audiosEspanol.drop(np.arange((neutrales.index[0]+184),neutrales.index[-1]+1))
audiosEspanol = audiosEspanol.reset_index(drop=True)

A continuación se separan los dataframes en dos, uno con los datos de entrenamiento y otro con la etiqueta de cada ejemplo

In [None]:
X_Mezclados = audiosMezclados.drop(['Result'], axis=1)
y_Mezclados = audiosMezclados.Result

X_Aleman = audiosAleman.drop(['Result'], axis=1)
y_Aleman = audiosAleman.Result

X_Propios = audiosPropios.drop(['Result'], axis=1)
y_Propios = audiosPropios.Result

X_Espanol = audiosEspanol.drop(['Result'], axis=1)
y_Espanol = audiosEspanol.Result

Se definen unas funciones utiles para normalizar los datos de entrenamiento y las pruebas que se realizan más adelante; junto con otras para eliminar valores faltantes con la media.

In [None]:
def calcularMediaYDesviacion(df):
    mean = df.mean(numeric_only=1)
    std = df.std(numeric_only=1)
    return mean,std
def normalizar(df, mean, std):
    df = np.subtract(df,np.expand_dims(mean,axis=0))
    df = np.divide(df,np.expand_dims(std,axis=0))
    return df, mean, std
def normalizarPrueba(df,mean,std):
    df = np.subtract(df,np.expand_dims(mean,axis=0))
    df = np.divide(df,np.expand_dims(std,axis=0))
    return df

In [None]:
def deleteNAWithMean(df,mean):
    for i in df.columns.values:
        df[i].replace(np.nan, mean[i], inplace = True)
    return df

Dado que existen varios valores nulos, se reemplazan con la media de la columna a la que pertenecen

In [None]:
mediaMezclados, stdMezclados = calcularMediaYDesviacion(X_Mezclados)
mediaAleman, stdAleman = calcularMediaYDesviacion(X_Aleman)
mediaPropios, stdPropios = calcularMediaYDesviacion(X_Propios)
mediaEspanol, stdEspanol = calcularMediaYDesviacion(X_Espanol)

In [None]:
X_Mezclados = deleteNAWithMean(X_Mezclados,mediaMezclados)
X_Aleman = deleteNAWithMean(X_Aleman,mediaAleman)
X_Propios = deleteNAWithMean(X_Propios,mediaPropios)
X_Espanol = deleteNAWithMean(X_Espanol,mediaEspanol)

Para realizar un analisis sobre la correlación que existe entre las variables, se muestran algunos mapas de calor en los que existe al menos un par de variables con una correlación absoluta mayor a 0.8, para después valorar la eliminación de alguna de esas variables con la finalidad de reducir los datos de entrenamiento necesarios

In [None]:
correlation = X_Mezclados.corr()
limites = [0,5,10,15,21,23,28,33,38,43,48,53,58,63,68,73,78,83,88,94,100,106,112,118]
for i in range(0,len(limites)-1):
    for j in range(i,len(limites)-1):
        correlation = correlation.iloc[limites[i]:limites[i+1],limites[j]:limites[j+1]]
        if(np.any(correlation<-0.8) or np.any(correlation>0.8)):
            plt.figure()
            sns.heatmap(correlation, xticklabels = correlation.columns.values,
                        yticklabels=correlation.index.values, vmin=-1,vmax=1,annot=True)
            plt.title('Feature correlations')
            plt.tight_layout()
            plt.savefig(correlation.columns.values[0] + correlation.index.values[0])
        correlation = X_Mezclados.corr()

## Normalizar datos

Se definen varios métodos para normalizar con el objetivo de poder comparar los resultados que producen cada una de ellas

Normalización utilizando el método MinMax, que convierte los valores a un intervalo de 0-1

In [None]:
scaler = MinMaxScaler()
scalerMezclados = scaler.fit(X_Mezclados)
scalerAleman = scaler.fit(X_Aleman)
scalerPropios = scaler.fit(X_Propios)
scalerEspanol = scaler.fit(X_Espanol)
minMaxScaled_Mezclados = scalerMezclados.transform(X_Mezclados)
minMaxScaled_Aleman = scalerAleman.transform(X_Aleman)
minMaxScaled_Propios = scalerPropios.transform(X_Propios)
minMaxScaled_Espanol = scalerEspanol.transform(X_Espanol)

Normalización ZScore, para transformar los datos a una normal

In [None]:
normalizar_Mezclados = normalizar(X_Mezclados,meanMezclados,stdMezclados)
normalizar_Aleman = normalizar(X_Aleman,meanAleman,stdAleman)
normalizar_Propios = normalizar(X_Propios,meanPropios,stdPropios)
normalizar_Espanol = normalizar(X_Espanol,meanEspanol,stdEspanol)

Normalización utilizando la norma l1, l2 o max, según se especifique en los argumentos

In [None]:
normalized_Mezclados, normMezclados = normalize(X_Mezclados, norm = 'l2',axis=0,return_norm=True)
normalized_Aleman, normAleman = normalize(X_Aleman, norm='l2',axis=0,return_norm=True)
normalized_Propios, normPropios = normalize(X_Propios, norm='l2',axis=0,return_norm=True)
normalized_Espanol, normEspanol = normalize(X_Espanol, norm='l2',axis=0,return_norm=True)

Normalización realizada con el rango interquartílico, de forma que sea más robusta frente a valores atípicos

In [None]:
robustScaler = RobustScaler()
robustScalerMezclados = robustScaler.fit(X_Mezclados)
robustScalerAleman = robustScaler.fit(X_Aleman)
robustScalerPropios = robustScaler.fit(X_Propios)
robustScalerEspanol = robustScaler.fit(X_Espanol)
robustScaled_Mezclados = robustScalerMezclados.transform(X_Mezclados)
robustScaled_Aleman = robustScalerAleman.transform(X_Aleman)
robustScaled_Propios = robustScalerPropios.transform(X_Propios)
robustScaled_Espanol = robustScalerEspanol.transform(X_Espanol)

## Seleccionar datos para entrenar

Para facilitar la selección de los datos se ponen a disposicion asignaciones de todas las normalizaciones de los datos, de forma que bastará con descomentar las asignaciones que se quieran realizar

In [None]:
#opN=1
#X_MezcladosNor, scalerM = pd.DataFrame(minMaxScaled_Mezclados, columns = X_Mezclados.columns.values), scalerMezclados
#X_AlemanNor, scalerA = pd.DataFrame(minMaxScaled_Aleman, columns = X_Aleman.columns.values), scalerAleman
#X_PropiosNor, scalerP = pd.DataFrame(minMaxScaled_Propios, columns = X_Propios.columns.values), scalerPropios
#X_EspanolNor, scalerE = pd.DataFrame(minMaxScaled_Espanol, columns = X_Espanol.columns.values), scalerEspanol

opN=2
X_MezcladosNor= pd.DataFrame(normalizar_Mezclados)
X_AlemanNor= pd.DataFrame(normalizar_Aleman)
X_PropiosNor= pd.DataFrame(normalizar_Propios)
X_EspanolNor= pd.DataFrame(normalizar_Espanol)

#opN=3
#X_MezcladosNor = pd.DataFrame(normalized_Mezclados, columns = X_Mezclados.columns.values)
#X_AlemanNor = pd.DataFrame(normalized_Aleman, columns = X_Aleman.columns.values)
#X_PropiosNor = pd.DataFrame(normalized_Propios, columns = X_Propios.columns.values)
#X_EspanolNor = pd.DataFrame(normalized_Espanol, columns = X_Espanol.columns.values)

#opN=4
#X_MezcladosNor, scalerM = pd.DataFrame(robustScaled_Mezclados, columns = X_Mezclados.columns.values), robustScalerMezclados
#X_AlemanNor, scalerA = pd.DataFrame(robustScaled_Aleman, columns = X_Aleman.columns.values), robustScalerAleman
#X_PropiosNor, scalerP = pd.DataFrame(robustScaled_Propios, columns = X_Propios.columns.values), robustScalerPropios
#X_EspanolNor, scalerE = pd.DataFrame(robustScaled_Espanol, columns = X_Espanol.columns.values), robustScalerEspanol

## Seleccion de variables

Para seleccionar variables a eliminar, a parte de utilizar el analisis que se hizo anteriormente en base a las correlaciones; se lanza un algoritmo de decisión para que establezca un orden en la importancia de las variables. Así las variables que el arbol considere menos importantes se podrán eliminar, al igual que las que considere más importantes se procurará mantenerlas 

In [None]:
model = ExtraTreesClassifier(n_estimators=90)
model = model.fit(X_MezcladosNor,y_Mezclados)
featureImportance = model.feature_importances_
print(featureImportance)
featureImportance = np.argsort(featureImportance)
print(featureImportance)

Tras entrenar con el arbol, se implementa un metodo que devuelve las variables más o menos importantes, en función del signo del parámetro de entrada

In [None]:
def moreImportantFeatures(how_many, classifier, inputData, outputData):
    model = classifier.fit(inputData,outputData)
    featureImportance = model.feature_importances_
    orderImportance = np.argsort(featureImportance)
    if(how_many >=0):
        for i in range(1,how_many):
            print(inputData.columns.values[orderImportance[-i]])
    else:
        for i in range(1,-how_many):
            print(inputData.columns.values[orderImportance[i]])

In [None]:
moreImportantFeatures(-20, ExtraTreesClassifier(n_estimators=90),X_AlemanNor,y_Aleman)

A continuación se crean varios conjuntos eliminando algunas variables. En uno de ellos eliminamos variables que tenian más de un 0.8 de correlación absoluta; otro eliminando aquellas variables que el arbol de decisión determina que son menos influyentes y un ultimo eliminando variables que cumplan alguna de las condiciones

In [None]:
X_MezcladosNor80 X_MezcladosNor.drop(['meanEnergy','minEnergy','rangeEnergy','stdEnergy','rangeAmplitude','minMFCC1','stdMFCC1','rangeMFCC2','rangeMFCC4','rangeMFCC12','maxPitch','stdPitch','quantileFormant1','quantileFormant2','rangeFormant2','quantileFormant3','quantileFormant4','rangeFormant4','rangeFormant5','quantileFormant5','stdAmplitude','articulationRate','meanIntensity'], axis=1)
X_AlemanNor80 = X_AlemanNor.drop(['meanEnergy','minEnergy','rangeEnergy','stdEnergy','rangeAmplitude','minMFCC1','stdMFCC1','rangeMFCC2','rangeMFCC4','rangeMFCC12','maxPitch','stdPitch','quantileFormant1','quantileFormant2','rangeFormant2','quantileFormant3','quantileFormant4','rangeFormant4','rangeFormant5','quantileFormant5','stdAmplitude','articulationRate','meanIntensity'], axis=1)
X_EspanolNor80 = X_EspanolNor.drop(['meanEnergy','minEnergy','rangeEnergy','stdEnergy','rangeAmplitude','minMFCC1','stdMFCC1','rangeMFCC2','rangeMFCC4','rangeMFCC12','maxPitch','stdPitch','quantileFormant1','quantileFormant2','rangeFormant2','quantileFormant3','quantileFormant4','rangeFormant4','rangeFormant5','quantileFormant5','stdAmplitude','articulationRate','meanIntensity'], axis=1)
X_PropiosNor80 = X_PropiosNor.drop(['meanEnergy','minEnergy','rangeEnergy','stdEnergy','rangeAmplitude','minMFCC1','stdMFCC1','rangeMFCC2','rangeMFCC4','rangeMFCC12','maxPitch','stdPitch','quantileFormant1','quantileFormant2','rangeFormant2','quantileFormant3','quantileFormant4','rangeFormant4','rangeFormant5','quantileFormant5','stdAmplitude','articulationRate','meanIntensity'], axis=1)

In [None]:
X_MezcladosNorLessImportant = X_MezcladosNor.drop(['minFormant1','maxFormant3','minHarmonicity','maxFormant5','rangeFormant2','rangeFormant1','maxMFCC6','maxFormant2','minFormant2','maxMFCC4','maxFormant4'], axis=1)
X_AlemanNorLessImportant = X_AlemanNor.drop(['minFormant1','maxFormant3','minHarmonicity','maxFormant5','rangeFormant2','rangeFormant1','maxMFCC6','maxFormant2','minFormant2','maxMFCC4','maxFormant4'], axis=1)
X_EspanolNorLessImportant = X_EspanolNor.drop(['minFormant1','maxFormant3','minHarmonicity','maxFormant5','rangeFormant2','rangeFormant1','maxMFCC6','maxFormant2','minFormant2','maxMFCC4','maxFormant4'], axis=1)
X_PropiosNorLessImportant = X_PropiosNor.drop(['minFormant1','maxFormant3','minHarmonicity','maxFormant5','rangeFormant2','rangeFormant1','maxMFCC6','maxFormant2','minFormant2','maxMFCC4','maxFormant4'], axis=1)

In [None]:
X_MezcladosNor80LessImportant = X_MezcladosNor80.drop(['minFormant1','maxFormant3','minHarmonicity','maxFormant5','rangeFormant1','maxMFCC6','maxFormant2','minFormant2','maxMFCC4','maxFormant4'], axis=1)
X_AlemanNor80LessImportant = X_AlemanNor80.drop(['minFormant1','maxFormant3','minHarmonicity','maxFormant5','rangeFormant1','maxMFCC6','maxFormant2','minFormant2','maxMFCC4','maxFormant4'], axis=1)
X_EspanolNor80LessImportant = X_EspanolNor80.drop(['minFormant1','maxFormant3','minHarmonicity','maxFormant5','rangeFormant1','maxMFCC6','maxFormant2','minFormant2','maxMFCC4','maxFormant4'], axis=1)
X_PropiosNor80LessImportant = X_PropiosNor80.drop(['minFormant1','maxFormant3','minHarmonicity','maxFormant5','rangeFormant1','maxMFCC6','maxFormant2','minFormant2','maxMFCC4','maxFormant4'], axis=1)

In [None]:
def histogramas(data):
    for nameOfColumn in data.columns.values:
        data.hist(nameOfColumn)

In [None]:
histogramas(X_Mezclados)

Nuevamente tras finalizar esta fase se dispone una serie de opciones para determinar con que conjunto se procedera a la eliminación de outliers

In [None]:
opE =1
X_MezcladosReduced = X_MezcladosNor
X_AlemanReduced = X_AlemanNor
X_PropiosReduced = X_PropiosNor
X_EspanolReduced = X_EspanolNor

#opE=2
#X_MezcladosReduced = X_MezcladosNor80
#X_AlemanReduced = X_AlemanNor80
#X_PropiosReduced = X_PropiosNor80
#X_EspanolReduced = X_EspanolNor80

#opE=3
#X_MezcladosReduced = X_MezcladosNorLessImportant
#X_AlemanReduced = X_AlemanNorLessImportant
#X_PropiosReduced = X_PropiosNorLessImportant
#X_EspanolReduced = X_EspanolNorLessImportant

#opE=4
#X_MezcladosReduced = X_MezcladosNor80LessImportant
#X_AlemanReduced = X_AlemanNor80LessImportant
#X_PropiosReduced = X_PropiosNor80LessImportant
#X_EspanolReduced = X_EspanolNor80LessImportant

# Supresion de outliers

Para eliminar los outliers se define una función que calcula el primer y tercer cuartil y con ello el rango intercuartílico. En este caso, dado que el porcentaje de outliers inicial era demasiado elevado, el valor que multiplica al rango intercualtílico ha sido aumentado para ser más flexibles a la hora de determinar si un valor es atípico.

In [None]:
def deleteOutliers(data,outdata):
    lowerOutliers = np.array([False])
    upperOutliers = np.array([False])
    for i in data.columns.values:
        quartiles = data[i].quantile([0.25,0.75])
        IQR = quartiles[0.75]-quartiles[0.25]
        lowerLimit = quartiles[0.25] - 2.5*IQR
        upperLimit = quartiles[0.75] + 2.5*IQR
        lowerOutliersAux = data[i].values < lowerLimit
        upperOutliersAux = data[i].values > upperLimit
        lowerOutliers = np.logical_or(lowerOutliers, lowerOutliersAux)
        upperOutliers = np.logical_or(upperOutliers, upperOutliersAux)
    outliers = np.logical_or(lowerOutliers, upperOutliers)
    data = data.drop(np.where(outliers)[0])
    outdata = outdata.drop(np.where(outliers)[0])
    data = data.reset_index(drop=True)
    outdata = outdata.reset_index(drop=True)
    return data, outdata

In [None]:
X_MezcladosNorWithoutOutliers,y_MezcladosWithoutOutliers=deleteOutliers(X_MezcladosReduced,y_Mezclados)
X_AlemanNorWithoutOutliers, y_AlemanWithoutOutliers=deleteOutliers(X_AlemanReduced, y_Aleman)
X_PropiosNorWithoutOutliers, y_PropiosWithoutOutliers=deleteOutliers(X_PropiosReduced, y_Propios)
X_EspanolNorWithoutOutliers, y_EspanolWithoutOutliers=deleteOutliers(X_EspanolReduced, y_Espanol)

Finalmente se decide con que conjunto de datos se procede a entrenar y validar los algoritmos

In [None]:
X_Train, y_Train, mean, std = X_MezcladosReduced,y_Mezclados, meanMezclados, stdMezclados
#X_Train, y_Train, mean, std = X_AlemanReduced,y_Aleman, meanAleman, stdAleman
#X_Train, y_Train, mean, std = X_PropiosReduced,y_Propios, meanPropios, stdPropios
#X_Train, y_Train, mean, std = X_EspanolReduced,y_Espanol, meanEspanol, stdEspanol
#X_Train, y_Train, mean, std = X_MezcladosNorWithoutOutliers,y_MezcladosWithoutOutliers, meanMezclados, stdMezclados
#X_Train, y_Train, mean, std = X_AlemanNorWithoutOutliers,y_AlemanWithoutOutliers, meanAleman, stdAleman
#X_Train, y_Train, mean, std = X_PropiosNorWithoutOutliers,y_PropiosWithoutOutliers, meanPropios, stdPropios
#X_Train, y_Train, mean, std = X_EspanolNorWithoutOutliers,y_EspanolWithoutOutliers, meanEspanol, stdEspanol

#En caso de utilizar un metodo de normalización que se realice mediante un scaler
#scaler = scalerM
#scaler = scalerA
#scaler = scalerP
#scaler = scalerE

## Pruebas para determinar valores adecuados para cada algoritmo

In [None]:
bestNumberOfEstimatorsAda = 0
maxValueABC = 0.0
for i in range(1, 101, 10):
    ini = time.time()
    model = AdaBoostClassifier(n_estimators=i)
    scores = cross_val_score(model, X_Train, y_Train, cv=10, scoring='accuracy')
    fin = time.time()
    if scores.mean() > maxValueABC:
        maxValueABC = scores.mean()
        bestNumberOfEstimatorsAda = i
    print('Numero estimadores', i)
    print(scores.mean())
    print('Tiempo estimado:', fin-ini, 'segundos')

In [None]:
bestNumberOfEstimatorsGBC = 0
maxValueGBC = 0.0
for i in range(1, 101, 10):
    ini = time.time()
    model = GradientBoostingClassifier(random_state=1, n_estimators=i)
    scores = cross_val_score(model, X_Train, y_Train, cv=10, scoring='accuracy')
    fin = time.time()
    if scores.mean() > maxValueGBC:
        maxValueGBC = scores.mean()
        bestNumberOfEstimatorsGBC = i
    print('Numero estimadores' , i)
    print(scores.mean())
    print('Tiempo estimado:', fin-ini, 'segundos')

In [None]:
bestNumberOfEstimatorsRFC = 0
maxValueRFC = 0
for i in range(1, 101, 10):
    ini = time.time()
    model = RandomForestClassifier(n_estimators=i)
    scores = cross_val_score(model, X_Train, y_Train, cv=10, scoring='accuracy')
    fin = time.time()
    if scores.mean() > maxValueRFC:
        maxValueRFC = scores.mean()
        bestNumberOfEstimatorsRFC = i
    print('Numero estimadores' , i)
    print(scores.mean())
    print('Tiempo estimado:', fin-ini, 'segundos')

In [None]:
bestNumNeuronas1 = 0
bestNumNeuronas2 = 0
bestNumNeuronas3 = 0
bestAlpha = 0
bestLearning_rate = 0
maxValueMLP = 0
for capa1 in range(10, 100, 10):
    #for capa2 in range(10, 100, 10):
     #   for capa3 in range(10, 100, 10):
            for j in [0.1, 0.01, 0.001, 1,10,100]:
                ini = time.time()
                model = MLPClassifier(hidden_layer_sizes=[capa1], activation='relu',solver='lbfgs',alpha=j,learning_rate='adaptative')
                scores = cross_val_score(model, X_Train, y_Train, cv=10, scoring='accuracy')
                fin = time.time()
                if scores.mean() > maxValueMLP:
                    maxValueMLP = scores.mean()
                    bestNumNeuronas1 = capa1
                    #bestNumNeuronas2 = capa2
                    #bestNumNeuronas3 = capa3
                    bestAlpha = j
                    #bestLearning_rate = k
                print('Neuronas capa oculta: ',capa1,'alpha: ',j,':  ',scores.mean())
                print('Tiempo estimado:', fin-ini, 'segundos')

In [None]:
ini = time.time()
model = GaussianNB([0.17,0.17,0.17,0.17,0.16,0.16])
scores = cross_val_score(model,X_Train,y_Train,cv=10,scoring='accuracy')
fin = time.time()
print(scores.mean())

In [None]:
mejorC = 0
mejorGamma = 0
maxPredictSVM = 0.0
for i in [1, 10, 100, 1000]:
    for j in [0.1, 0.01, 0.001, 1]:
        ini = time.time()
        model = SVC(kernel='rbf', C=i, gamma=j)
        scores = cross_val_score(model, X_Train, y_Train, cv=10, scoring='accuracy')
        fin = time.time()
        if scores.mean() > maxPredictSVM:
            maxPredictSVM = scores.mean()
            mejorC = i
            mejorGamma = j
        print('C =', i, 'gamma =', j, ':', scores.mean())
        print('Tiempo estimado:', fin-ini, 'segundos')

## Creacion y entrenamiento de algoritmos

In [None]:
modelAda = AdaBoostClassifier(n_estimators=bestNumberOfEstimatorsAda)
modelRandom = RandomForestClassifier(n_estimators=bestNumberOfEstimatorsRFC)
modelSVC = SVC(kernel='rbf', C=mejorC, gamma=mejorGamma)
modelGBC = GradientBoostingClassifier(random_state=1, n_estimators=bestNumberOfEstimatorsGBC)
modelMLP =  MLPClassifier(hidden_layer_sizes=[bestNumNeuronas1], activation='relu',solver='lbfgs',alpha=bestAlpha,learning_rate='adaptative')
modelNB = GaussianNB([0.17,0.17,0.17,0.17,0.16,0.16])
modelAda.fit(X_Train,y_Train)
modelRandom.fit(X_Train,y_Train)
modelSVC.fit(X_Train,y_Train)
modelGBC.fit(X_Train,y_Train)
modelMLP.fit(X_Train,y_Train)
modelNB.fit(X_Train,y_Train)

## Pruebas

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X_Train, y_Train, random_state=0)
class_names = ['Alegría', 'Tristeza', 'Miedo','Asco','Ira','Neutral']

#y_pred = modelSVC.fit(X_train, y_train).predict(X_test)
#y_pred = modelRandom.fit(X_train, y_train).predict(X_test)
#y_pred = modelGBC.fit(X_train, y_train).predict(X_test)
y_pred = modelNB.fit(X_train,y_train).predict(X_test)
#

precision, recall, f1Score, _ =precision_recall_fscore_support(y_test,y_pred)

def plot_confusion_matrix(cm, classes, 
                          normalize=False,
                          title='Confusion matrix',
                          cmap=plt.cm.Blues):
    if normalize:
        cm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]

    plt.imshow(cm, interpolation='nearest', cmap=cmap)
    plt.title(title)
    plt.colorbar()
    tick_marks = np.arange(len(classes))
    plt.xticks(tick_marks, classes, rotation=45)
    plt.yticks(tick_marks, classes)

    fmt = '.2f' if normalize else 'd'
    thresh = cm.max() / 2.
    for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
        plt.text(j, i, format(cm[i, j], fmt),
                 horizontalalignment="center",
                 color="white" if cm[i, j] > thresh else "black")

    plt.ylabel('True label')
    plt.xlabel('Predicted label')
    plt.tight_layout()


# Compute confusion matrix
cnf_matrix = confusion_matrix(y_test, y_pred)
np.set_printoptions(precision=2)

# Plot non-normalized confusion matrix
plt.figure()
plot_confusion_matrix(cnf_matrix, classes=class_names,
                      title='Confusion matrix, without normalization')

# Plot normalized confusion matrix
plt.figure()
plot_confusion_matrix(cnf_matrix, classes=class_names, normalize=True,
                      title='Normalized confusion matrix')

plt.show()
print('Precision: ',precision)
print('Recall: ',recall)
print('F1 Score: ',f1Score)

Por ultimo para realizar pruebas será necesario tratar los datos de prueba tal cuál se han tratado los datos de entrenamiento, por ello la función posee un parametro que indica que proceso se ha seguido y por lo tanto como a de tratar estos datos de prueba

In [None]:
def transformarDatos(datosPrueba, normalizacion, eliminacion):
    if normalizacion == 1 or normalizacion == 4:
        datosPrueba = scaler.transform(datosPrueba)
    else if normalizacion == 2:
        datosPrueba = normalizarPrueba(datosPrueba,mean,std)
    else datosPrueba = normalize(datosPrueba, norm=norm,axis=0)
    
    if eliminacion == 2:
        datosPrueba = datosPrueba.drop(['meanEnergy','minEnergy','rangeEnergy','stdEnergy','rangeAmplitude','minMFCC1','stdMFCC1','rangeMFCC2','rangeMFCC4','rangeMFCC12','maxPitch','stdPitch','quantileFormant1','quantileFormant2','rangeFormant2','quantileFormant3','quantileFormant4','rangeFormant4','rangeFormant5','quantileFormant5','stdAmplitude','articulationRate','meanIntensity'], axis=1)
    else if eliminacion == 3:
        datosPrueba = datosPrueba.drop(['minFormant1','maxFormant3','minHarmonicity','maxFormant5','rangeFormant2','rangeFormant1','maxMFCC6','maxFormant2','minFormant2','maxMFCC4','maxFormant4'], axis=1)
    else if eliminacion ==4 :
        datosPrueba = datosPrueba.drop(['minFormant1','maxFormant3','minHarmonicity','maxFormant5','rangeFormant1','maxMFCC6','maxFormant2','minFormant2','maxMFCC4','maxFormant4'], axis=1)
    return datosPrueba

In [None]:
def probar(filename,opcionNormalizacion,opcionEliminacion):
    datosPrueba = pd.read_csv(filename, na_values='--undefined--')
    nombres = datosPrueba.iloc[:,0]
    datosPrueba = datosPrueba.iloc[:,1:]
    datosPrueba = deleteNAWithMean2(datosPrueba,meanEspanol)
    #datosPrueba = scalerMezclados.transform(datosPrueba)
    datosPrueba = normalizarPrueba(datosPrueba,meanEspanol,stdEspanol)
    #datosPrueba = datosPrueba.drop(['meanEnergy','minEnergy','rangeEnergy','stdEnergy','rangeAmplitude','minMFCC1','stdMFCC1','rangeMFCC2','rangeMFCC4','rangeMFCC12','maxPitch','stdPitch','quantileFormant1','quantileFormant2','rangeFormant2','quantileFormant3','quantileFormant4','rangeFormant4','rangeFormant5','quantileFormant5','stdAmplitude','articulationRate','meanIntensity'], axis=1)
    
    
    datosPrueba = pd.DataFrame(datosPrueba)
    resultados = pd.DataFrame(index = nombres)
    resultados['AdaBoost'] = modelAda.predict(datosPrueba)
    resultados['RandomForest'] = modelRandom.predict(datosPrueba)
    resultados['SVM'] = modelSVC.predict(datosPrueba)
    resultados['GradientBoosting'] = modelGBC.predict(datosPrueba)
    resultados['NN'] = modelMLP.predict(datosPrueba)
    resultados['NB'] = modelNB.predict(datosPrueba)
    resultados.replace(0,"Alegria",inplace=True)
    resultados.replace(1,"Tristeza",inplace=True)
    resultados.replace(2,"Miedo",inplace=True)
    resultados.replace(3,"Asco",inplace=True)
    resultados.replace(4,"Ira",inplace=True)
    resultados.replace(5,"Neutral",inplace=True)
    print(resultados)

In [None]:
probar('sonidosPrueba.csv',opN,opE)