In [None]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import normalize
from sklearn.preprocessing import RobustScaler
from sklearn.ensemble import AdaBoostClassifier
from sklearn.model_selection  import cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.ensemble import ExtraTreesClassifier
import sklearn.feature_selection
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.svm import SVC
import itertools
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix

In [None]:
audiosMezclados = pd.read_csv('sonidosMezclados.csv', na_values='--undefined--')
audiosAleman = pd.read_csv('sonidosAleman.csv', na_values='--undefined--')
audiosPropios = pd.read_csv('sonidosPropios.csv', na_values='--undefined--')
audiosEspanol = pd.read_csv('sonidosEspanol.csv', na_values='--undefined--')

In [None]:
X_Mezclados = audiosMezclados.drop(['Result'], axis=1)
y_Mezclados = audiosMezclados.Result

X_Aleman = audiosAleman.drop(['Result'], axis=1)
y_Aleman = audiosAleman.Result

X_Propios = audiosPropios.drop(['Result'], axis=1)
y_Propios = audiosPropios.Result

X_Espanol = audiosEspanol.drop(['Result'], axis=1)
y_Espanol = audiosEspanol.Result

In [None]:
def calcularMediaYDesviacion(df):
    mean = df.mean(numeric_only=1)
    std = df.std(numeric_only=1)
    return mean,std
def normalizar(df):
    mean, std = calcularMediaYDesviacion(df)
    df = np.subtract(df,np.expand_dims(mean,axis=0))
    df = np.divide(df,np.expand_dims(std,axis=0))
    return df, mean, std
def normalizarPrueba(df,mean,std):
    df = np.subtract(df,np.expand_dims(mean,axis=0))
    df = np.divide(df,np.expand_dims(std,axis=0))
    return df

In [None]:
def deleteNAWithMean(df):
    dfMean = df.mean(numeric_only=1) 
    for i in df.columns.values:
        df[i].replace(np.nan, dfMean[i], inplace = True)
    return df

def deleteNAWithMean2(df,mean):
    for i in df.columns.values:
        df[i].replace(np.nan, mean[i], inplace = True)
    return df

In [None]:
X_Mezclados = deleteNAWithMean(X_Mezclados)
X_Aleman = deleteNAWithMean(X_Aleman)
X_Propios = deleteNAWithMean(X_Propios)
X_Espanol = deleteNAWithMean(X_Propios)

In [None]:
correlation = X_Mezclados.corr()
limites = [0,5,10,15,21,23,28,33,38,43,48,53,58,63,68,73,78,83,88,94,100,106,112,118]
for i in range(0,len(limites)-1):
    for j in range(i,len(limites)-1):
        correlation = correlation.iloc[limites[i]:limites[i+1],limites[j]:limites[j+1]]
        if(np.any(correlation<-0.8) or np.any(correlation>0.8)):
            plt.figure()
            sns.heatmap(correlation, xticklabels = correlation.columns.values,
                        yticklabels=correlation.index.values, vmin=-1,vmax=1,annot=True)
            plt.title('Feature correlations')
            plt.tight_layout()
            plt.savefig(correlation.columns.values[0] + correlation.index.values[0])
        correlation = X_Mezclados.corr()

# Supresion de outliers

In [None]:
def deleteOutliers(data):
    lowerOutliers = np.array([False])
    upperOutliers = np.array([False])
    for i in data.columns.values:
        quartiles = data[i].quantile([0.25,0.75])
        IQR = quartiles[0.75]-quartiles[0.25]
        lowerLimit = quartiles[0.25] - 1.5*IQR
        upperLimit = quartiles[0.75] + 1.5*IQR
        lowerOutliersAux = data[i].values < lowerLimit
        upperOutliersAux = data[i].values > upperLimit
        lowerOutliers = np.logical_or(lowerOutliers, lowerOutliersAux)
        upperOutliers = np.logical_or(upperOutliers, upperOutliersAux)
    upperOutliers = np.logical_and(np.logical_not(lowerOutliers), upperOutliers)
    data = data.drop(np.where(lowerOutliers)[0])
    data = data.drop(np.where(upperOutliers)[0])
    data = data.reset_index(drop=True)
    return data

In [None]:
X_Mezclados=deleteOutliers(X_MezcladosNor)
X_Aleman=deleteOutliers(X_AlemanNor)
X_Propios=deleteOutliers(X_PropiosNor)
X_Espanol=deleteOutliers(X_EspanolNor)
print(len(X_Mezclados))
print(len(X_Aleman))
print(len(X_Propios))
print(len(X_Espanol))

## Normalizar datos

In [None]:
scaler = MinMaxScaler()
scalerMezclados = scaler.fit(X_Mezclados)
scalerAleman = scaler.fit(X_Aleman)
scalerPropios = scaler.fit(X_Propios)
scalerEspanol = scaler.fit(X_Espanol)
minMaxScaled_Mezclados = scalerMezclados.transform(X_Mezclados)
minMaxScaled_Aleman = scalerAleman.transform(X_Aleman)
minMaxScaled_Propios = scalerPropios.transform(X_Propios)
minMaxScaled_Espanol = scalerEspanol.transform(X_Espanol)

In [None]:
normalizar_Mezclados, meanMezclados, stdMezclados = normalizar(X_Mezclados)
normalizar_Aleman, meanAleman, stdAleman = normalizar(X_Aleman)
normalizar_Propios, meanPropios, stdPropios = normalizar(X_Propios)
normalizar_Espanol, meanEspanol, stdEspanol = normalizar(X_Espanol)

In [None]:
normalized_Mezclados, normMezclados = normalize(X_Mezclados, norm = 'l2',axis=0,return_norm=True)
normalized_Aleman, normAleman = normalize(X_Aleman, norm='l2',axis=0,return_norm=True)
normalized_Propios, normPropios = normalize(X_Propios, norm='l2',axis=0,return_norm=True)
normalized_Espanol, normEspanol = normalize(X_Espanol, norm='l2',axis=0,return_norm=True)

In [None]:
robustScaler = RobustScaler()
robustScalerMezclados = robustScaler.fit(X_Mezclados)
robustScalerAleman = robustScaler.fit(X_Aleman)
robustScalerPropios = robustScaler.fit(X_Propios)
robustScalerEspanol = robustScaler.fit(X_Espanol)
robustScaled_Mezclados = robustScalerMezclados.transform(X_Mezclados)
robustScaled_Aleman = robustScalerAleman.transform(X_Aleman)
robustScaled_Propios = robustScalerPropios.transform(X_Propios)
robustScaled_Espanol = robustScalerEspanol.transform(X_Espanol)

## Seleccionar datos para entrenar

In [None]:
X_MezcladosNor = pd.DataFrame(minMaxScaled_Mezclados, columns = X_Mezclados.columns.values)
X_AlemanNor = pd.DataFrame(minMaxScaled_Aleman, columns = X_Aleman.columns.values)
X_PropiosNor = pd.DataFrame(minMaxScaled_Propios, columns = X_Propios.columns.values)
X_EspanolNor = pd.DataFrame(minMaxScaled_Espanol, columns = X_Espanol.columns.values)

#X_MezcladosNor = pd.DataFrame(normalizar_Mezclados)
#X_AlemanNor = pd.DataFrame(normalizar_Aleman)
#X_PropiosNor = pd.DataFrame(normalizar_Propios)
#X_EspanolNor = pd.DataFrame(normaliar_Espanol)

#X_MezcladosNor = pd.DataFrame(normalized_Mezclados)
#X_AlemanNor = pd.DataFrame(normalized_Aleman)
#X_PropiosNor = pd.DataFrame(normalized_Propios)
#X_EspanolNor = pd.DataFrame(normalizaed_Espanol)

#X_MezcladosNor = pd.DataFrame(robustScaled_Mezclados)
#X_AlemanNor = pd.DataFrame(robustScaled_Aleman)
#X_PropiosNor = pd.DataFrame(robustScaled_Propios)
#X_EspanolNor = pd.DataFrame(robustScaled_Espanol)

## Seleccion de variables

In [None]:
model = ExtraTreesClassifier(n_estimators=90)
model = model.fit(X_MezcladosNor,y_Mezclados)
featureImportance = model.feature_importances_
print(featureImportance)
featureImportance = np.argsort(featureImportance)
print(featureImportance)

In [None]:
def moreImportantFeatures(how_many, classifier, inputData, outputData):
    model = classifier.fit(inputData,outputData)
    featureImportance = model.feature_importances_
    orderImportance = np.argsort(featureImportance)
    if(how_many >=0):
        for i in range(1,how_many):
            print(inputData.columns.values[orderImportance[-i]])
    else:
        for i in range(1,-how_many):
            print(inputData.columns.values[orderImportance[i]])

In [None]:
moreImportantFeatures(-20, ExtraTreesClassifier(n_estimators=90),X_AlemanNor,y_Aleman)

In [None]:
X_MezcladosNor80 = X_MezcladosNor.drop(['meanEnergy','minEnergy','rangeEnergy','stdEnergy','rangeAmplitude','minMFCC1','stdMFCC1','rangeMFCC2','rangeMFCC4','rangeMFCC12','maxPitch','stdPitch','quantileFormant1','quantileFormant2','rangeFormant2','quantileFormant3','quantileFormant4','rangeFormant4','rangeFormant5','quantileFormant5','stdAmplitude','articulationRate','meanIntensity'], axis=1)

In [None]:
X_MezcladosNorLessImportant = X_MezcladosNor.drop(['minFormant1','maxFormant3','minHarmonicity','maxFormant5','rangeFormant2','rangeFormant1','maxMFCC6','maxFormant2','minFormant2','maxMFCC4','maxFormant4'], axis=1)

In [None]:
X_MezcladosNor80LessImportant = X_MezcladosNor80.drop(['minFormant1','maxFormant3','minHarmonicity','maxFormant5','rangeFormant2','rangeFormant1','maxMFCC6','maxFormant2','minFormant2','maxMFCC4','maxFormant4'], axis=1)

In [None]:
def histogramas(data):
    for nameOfColumn in data.columns.values:
        data.hist(j)

In [None]:
histogramas(X_Mezclados)

## Pruebas para determinar valores adecuados para cada algoritmo

In [None]:
bestNumberOfEstimatorsAda = 0
maxValueABC = 0.0
for i in range(1, 101, 10):
    model = AdaBoostClassifier(n_estimators=i)
    scores = cross_val_score(model, X_MezcladosNor, y_Mezclados, cv=10, scoring='accuracy')
    if scores.mean() > maxValueABC:
        maxValueABC = scores.mean()
        bestNumberOfEstimatorsAda = i
    print('Numero estimadores', i)
    print(scores.mean())

In [None]:
bestNumberOfEstimatorsGBC = 0
maxValueGBC = 0.0
for i in range(1, 101, 10):
    model = GradientBoostingClassifier(random_state=1, n_estimators=i)
    scores = cross_val_score(model, X_MezcladosNor, y_Mezclados, cv=10, scoring='accuracy')
    if scores.mean() > maxValueGBC:
        maxValueGBC = scores.mean()
        bestNumberOfEstimatorsGBC = i
    print('Numero estimadores' , i)
    print(scores.mean())

In [None]:
bestNumberOfEstimatorsRFC = 0
maxValueRFC = 0
for i in range(1, 101, 10):
    model = RandomForestClassifier(n_estimators=i)
    scores = cross_val_score(model, X_MezcladosNor, y_Mezclados, cv=10, scoring='accuracy')
    if scores.mean() > maxValueRFC:
        maxValueRFC = scores.mean()
        bestNumberOfEstimatorsRFC = i
    print('Numero estimadores' , i)
    print(scores.mean())

In [None]:
mejorC = 0
mejorGamma = 0
maxPredictSVM = 0.0
for i in [1, 10, 100, 1000]:
    for j in [0.1, 0.01, 0.001, 1]:
        model = SVC(kernel='rbf', C=i, gamma=j)
        scores = cross_val_score(model, X_MezcladosNor, y_Mezclados, cv=10, scoring='accuracy')
        if scores.mean() > maxPredictSVM:
            maxPredictSVM = scores.mean()
            mejorC = i
            mejorGamma = j
        print('C =', i, 'gamma =', j, ':', scores.mean())

## Creacion y entrenamiento de algoritmos

In [None]:
modelAda = AdaBoostClassifier(n_estimators=bestNumberOfEstimatorsAda)
modelRandom = RandomForestClassifier(n_estimators=bestNumberOfEstimatorsRFC)
modelSVC = SVC(kernel='rbf', C=mejorC, gamma=mejorGamma)
modelGBC = GradientBoostingClassifier(random_state=1, n_estimators=bestNumberOfEstimatorsGBC)
modelAda.fit(X_MezcladosNor,y_Mezclados)
modelRandom.fit(X_MezcladosNor,y_Mezclados)
modelSVC.fit(X_MezcladosNor,y_Mezclados)
modelGBC.fit(X_MezcladosNor,y_Mezclados)

## Pruebas

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X_MezcladosNor, y_Mezclados, random_state=0)
class_names = ['Alegría', 'Tristeza', 'Miedo','Asco','Ira','Neutral']

#y_pred = modelSVC.fit(X_train, y_train).predict(X_test)
y_pred = modelRandom.fit(X_train, y_train).predict(X_test)
#y_pred = modelGBC.fit(X_train, y_train).predict(X_test)
#


def plot_confusion_matrix(cm, classes, 
                          normalize=False,
                          title='Confusion matrix',
                          cmap=plt.cm.Blues):
    if normalize:
        cm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]

    plt.imshow(cm, interpolation='nearest', cmap=cmap)
    plt.title(title)
    plt.colorbar()
    tick_marks = np.arange(len(classes))
    plt.xticks(tick_marks, classes, rotation=45)
    plt.yticks(tick_marks, classes)

    fmt = '.2f' if normalize else 'd'
    thresh = cm.max() / 2.
    for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
        plt.text(j, i, format(cm[i, j], fmt),
                 horizontalalignment="center",
                 color="white" if cm[i, j] > thresh else "black")

    plt.ylabel('True label')
    plt.xlabel('Predicted label')
    plt.tight_layout()


# Compute confusion matrix
cnf_matrix = confusion_matrix(y_test, y_pred)
np.set_printoptions(precision=2)

# Plot non-normalized confusion matrix
plt.figure()
plot_confusion_matrix(cnf_matrix, classes=class_names,
                      title='Confusion matrix, without normalization')

# Plot normalized confusion matrix
plt.figure()
plot_confusion_matrix(cnf_matrix, classes=class_names, normalize=True,
                      title='Normalized confusion matrix')

plt.show()

In [None]:
def probar(filename):
    datosPrueba = pd.read_csv(filename, na_values='--undefined--')
    nombres = datosPrueba.iloc[:,0]
    datosPrueba = datosPrueba.iloc[:,1:]
    datosPrueba = deleteNAWithMean2(datosPrueba,X_Mezclados.mean(numeric_only=1))
    datosPrueba = scalerMezclados.transform(datosPrueba)
    datosPrueba = pd.DataFrame(datosPrueba)
    resultados = pd.DataFrame(index = nombres)
    resultados['AdaBoost'] = modelAda.predict(datosPrueba)
    resultados['RandomForest'] = modelRandom.predict(datosPrueba)
    resultados['SVM'] = modelSVC.predict(datosPrueba)
    resultados['GradientBoosting'] = modelGBC.predict(datosPrueba)
    
    resultados.replace(0,"Alegria",inplace=True)
    resultados.replace(1,"Tristeza",inplace=True)
    resultados.replace(2,"Miedo",inplace=True)
    resultados.replace(3,"Asco",inplace=True)
    resultados.replace(4,"Ira",inplace=True)
    resultados.replace(5,"Neutral",inplace=True)
    print(resultados)

In [None]:
probar('sonidosPrueba.csv')