# Clasificación de canciones con máquinas de soporte vectorial
## Javier Andres Tellez Ortiz 201617861

### Se descarga el conjunto de datos y se descomprime

In [1]:
import wget
from zipfile import ZipFile

##Se descarga el archivo del repositorio 
file = wget.download("http://millionsongdataset.com/sites/default/files/AdditionalFiles/msd_genre_dataset.zip")

##Se abre el archivo y se descomprime
zpFile = ZipFile(file)
zpFile.extractall()
zpFile.close()

100% [........................................................................] 12656044 / 12656044

In [2]:
import pandas as pd
import numpy as np

dataset = pd.read_csv("msd_genre_dataset.txt", skiprows = range(9))

dataset.dropna()
dataset.head()

Unnamed: 0,%genre,track_id,artist_name,title,loudness,tempo,time_signature,key,mode,duration,...,var_timbre3,var_timbre4,var_timbre5,var_timbre6,var_timbre7,var_timbre8,var_timbre9,var_timbre10,var_timbre11,var_timbre12
0,classic pop and rock,TRFCOOU128F427AEC0,Blue Oyster Cult,Mes Dames Sarat,-8.697,155.007,1,9,1,246.33424,...,1255.514569,580.030472,598.485223,575.337671,322.068603,321.726029,232.700609,186.805303,181.938688,151.508011
1,classic pop and rock,TRNJTPB128F427AE9F,Blue Oyster Cult,Screams,-10.659,148.462,1,4,0,189.80526,...,2007.65307,1043.474073,585.694981,564.013736,510.177022,400.200186,365.119588,238.099708,197.933757,251.577525
2,classic pop and rock,TRLFJHA128F427AEEA,Blue Oyster Cult,Dance The Night Away,-13.494,112.909,1,10,0,158.1971,...,1204.856777,2736.520024,730.233239,665.203452,535.775111,439.335059,486.82297,265.33386,447.097987,251.880724
3,classic pop and rock,TRCQZAG128F427DB97,Blue Oyster Cult,Debbie Denise,-12.786,117.429,4,7,1,250.22649,...,809.755802,563.90807,492.803819,378.382799,372.875044,231.941957,246.313305,168.400152,85.282462,339.897173
4,classic pop and rock,TRNXMNM128F427DB8C,Blue Oyster Cult,(Don't Fear) The Reaper,-14.093,141.536,4,9,0,307.06893,...,1093.684935,343.556047,889.163314,218.111796,304.862864,178.352161,440.478867,142.669283,81.061326,208.355152


In [3]:
dataset = dataset.drop(columns = ["track_id", "artist_name", "title"])
features = dataset.columns.tolist()
dataset = dataset[(dataset["%genre"] == "jazz and blues") | (dataset["%genre"] == "soul and reggae")]

### Se obtienen los datos de los géneros de interés y se muestra la cantidad de cada clase

In [4]:
pd.DataFrame(dataset["%genre"].value_counts())

Unnamed: 0,%genre
jazz and blues,4334
soul and reggae,4016


### Se divide la información del archivo entre etiquetas y carácteristicas

In [5]:
y = dataset["%genre"].values
X = dataset.values[:,1:]

### Como se evidenció en entregas anteriores, es necesaria la estándarizacion de los datos. Además se tranforman las etiquetas de cada calse en números

In [6]:
from sklearn.preprocessing import StandardScaler, LabelEncoder

scaler = StandardScaler()
lblEncoder = LabelEncoder()

y = lblEncoder.fit(np.unique(y)).transform(y)
##Se estandarizan los datos provenientes del archivo
X = scaler.fit(X).transform(X)

### Se dividen los datos en datos de entrenamiento y datos de prueba, tomando el 20% del total para este último fin. Antes de realizar la división, los datos son barajados

In [7]:
from sklearn.model_selection import train_test_split

X, X_test, y, y_test = train_test_split(X, y, test_size = 0.2, random_state = 7861)

genres, cantidad = np.unique(y_test, return_counts = True)
total_test_data = sum(cantidad)
labels = lblEncoder.inverse_transform(genres)
print("Datos de prueba clase %s (%s): %d" % (genres[0],labels[0],cantidad[0]))
print("Datos de prueba clase %s (%s): %d" % (genres[1],labels[1],cantidad[1]))
print("Total datos prueba: %d" % total_test_data)

Datos de prueba clase 0 (jazz and blues): 879
Datos de prueba clase 1 (soul and reggae): 791
Total datos prueba: 1670


### Se toma el 10% de los datos de entrenamiento como datos de validación, esto con el objetivo de comparar cada uno de los modelos que serán entrenados

In [8]:
X_train, X_validation, y_train, y_validation = train_test_split(X, y, test_size = 0.1, random_state = 7861)

genres, cantidad = np.unique(y_train, return_counts = True)
labels = lblEncoder.inverse_transform(genres)
print("Datos de entrenamiento clase %s (%s): %d" % (genres[0],labels[0],cantidad[0]))
print("Datos de entrenamiento clase %s (%s): %d" % (genres[1],labels[1],cantidad[1]))

genres, cantidad = np.unique(y_validation, return_counts = True)
labels = lblEncoder.inverse_transform(genres)
print("Datos de validacion clase %s (%s): %d" % (genres[0],labels[0],cantidad[0]))
print("Datos de validacion clase %s (%s): %d" % (genres[1],labels[1],cantidad[1]))

Datos de entrenamiento clase 0 (jazz and blues): 3123
Datos de entrenamiento clase 1 (soul and reggae): 2889
Datos de validacion clase 0 (jazz and blues): 332
Datos de validacion clase 1 (soul and reggae): 336


### Se define le grado máximo del polinomio a usar en la máquina de soporte vectorial y algunos valores para la constante C

In [9]:
max_degree = 9
C = [0.001, 0.003, 0.01, 0.03, 0.1, 0.3, 1, 3, 10, 30, 100]
poly_degree = range(max_degree)

### Para cada grado de polinomio considerado, se entrena un SVM con las distintas constantes C escogidas. Se evalúa cada modelo en los datos de validación y se almacenan la exactitud obtenida en una matriz para su posterior análisis

In [10]:
from sklearn.svm import SVC

score_matrix = np.zeros((max_degree, len(C)))
i = 0
j = 0

for degree in poly_degree:
    for regularization in C:
        
        machine = SVC(C=regularization, 
                      kernel='poly',
                      degree=degree)
        
        machine.fit(X_train, y_train)
        score = machine.score(X_validation, y_validation)
        score_matrix[i,j] = score
        j += 1
    
    j = 0
    i += 1

### Se genera una tabla para observar los resultados alcanzados y obtener los parámetros para el mejor modelo 

In [11]:
model_results = pd.DataFrame(score_matrix)
model_results.columns = C
model_results.index.name = "Degree \ C"
model_results

Unnamed: 0_level_0,0.001,0.003,0.010,0.030,0.100,0.300,1.000,3.000,10.000,30.000,100.000
Degree \ C,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
0,0.497006,0.497006,0.497006,0.497006,0.497006,0.497006,0.497006,0.497006,0.497006,0.497006,0.497006
1,0.751497,0.814371,0.818862,0.82485,0.838323,0.841317,0.841317,0.841317,0.841317,0.841317,0.841317
2,0.497006,0.508982,0.61976,0.706587,0.739521,0.758982,0.769461,0.778443,0.781437,0.778443,0.785928
3,0.508982,0.556886,0.770958,0.833832,0.845808,0.845808,0.856287,0.865269,0.856287,0.850299,0.850299
4,0.508982,0.517964,0.540419,0.723054,0.70509,0.714072,0.760479,0.773952,0.797904,0.799401,0.776946
5,0.508982,0.523952,0.576347,0.747006,0.826347,0.827844,0.835329,0.856287,0.857784,0.853293,0.851796
6,0.510479,0.520958,0.537425,0.616766,0.666168,0.678144,0.699102,0.718563,0.733533,0.758982,0.770958
7,0.508982,0.525449,0.54491,0.628743,0.775449,0.736527,0.747006,0.769461,0.814371,0.830838,0.833832
8,0.510479,0.525449,0.534431,0.58982,0.651198,0.64521,0.655689,0.681138,0.694611,0.703593,0.723054


### Se entrena el mejor modelo con los parámetros registrados y se obtienen las métricas más relevantes

In [12]:
final_model = SVC(C=3, 
                  kernel='poly',
                  degree=3)
final_model.fit(X,y)
score = final_model.score(X_test,y_test)

In [13]:
from sklearn.metrics import f1_score, precision_score, recall_score, confusion_matrix

y_hat = final_model.predict(X_test)
f1 = f1_score(y_test, y_hat)
precision = precision_score(y_test, y_hat)
recall = recall_score(y_test, y_hat)
confusion = confusion_matrix(y_test, y_hat)

### Con el objetivo de observar con mayor claridad los resultados obtenidos, se genera un tabla con los valores para los descriptores encontrados para el modelo. Al igual que en casos anteriores, esta estimaciones poseen un 3.4% de presición con un 95.79% de confianza.

In [14]:
model_results = pd.DataFrame({
    "Accuracy" : [score],
    "Precisión" : [precision],
    "Recall" : [recall],
    "F1" : [f1]   
})

model_results

Unnamed: 0,Accuracy,Precisión,Recall,F1
0,0.850898,0.822619,0.873578,0.847333


### Se imprime la matriz de confusión y, a partir de ella, es posible evidenciar que el problema tiene mayor dificultad clasificando caciones de jazz. Además, es posible afirmar que los resultados obtenidos con la máquina de soporte vectorial son ligeramente mejores a los obtenidos con las redes neuronales exploradas en trabajos anteriores. Sin embargo, aún no representan una mejora significativa; por lo que en trabajos posteriores se hará uso de otros kernels en miras de lograr un rendimiento aceptable.

In [15]:
confusion

array([[730, 149],
       [100, 691]], dtype=int64)