# Classificació Binària de 17.7K cançons Angleses d'entre el 2008 i 2017

## Requisits

Per poder emular la resolució d'aquest problema d'Aprenentatge Computacional de Classificació necessitaràs de les segue'ns llibreries (Caldrà instal·lar):
```
numpy
scikit-learn
matplotlib
scipy
```

## Objectiu
Poder classificar les 17000 cançons entre els estils de Rock i de Hip-Hop

In [1]:
%matplotlib notebook
import seaborn as sns
import numpy as np
import pandas as pd
import scipy.stats
from matplotlib import pyplot as plt
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import make_regression
from sklearn import svm, datasets
from sklearn.model_selection import train_test_split

from sklearn.model_selection import LeaveOneOut
from sklearn.ensemble import AdaBoostClassifier, BaggingClassifier, GradientBoostingClassifier
from sklearn.tree import DecisionTreeClassifier, ExtraTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import f1_score, precision_recall_curve, average_precision_score, roc_curve, auc
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from imblearn.over_sampling import SMOTE
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV

In [2]:
# Visualitzarem només 3 decimals per mostra
pd.set_option('display.float_format', lambda x: '%.3f' % x)

# Funcio per a llegir dades en format csv
def load_dataset(path):
    dataset = pd.read_csv(path, header=0, delimiter=',')
    return dataset

# Carreguem dataset d'exemple
dataset = load_dataset('songs.csv')
    
print("Dimensionalitat de la BBDD:", dataset.shape)

dataset.head() 

Dimensionalitat de la BBDD: (17734, 21)


Unnamed: 0,track_id,bit_rate,comments,composer,date_created,date_recorded,duration,favorites,genre_top,genres,...,information,interest,language_code,license,listens,lyricist,number,publisher,tags,title
0,135,256000,1,,2008-11-26 01:43:26,2008-11-26 00:00:00,837,0,Rock,"[45, 58]",...,,2484,en,Attribution-NonCommercial-ShareAlike 3.0 Inter...,1832,,0,,[],Father's Day
1,136,256000,1,,2008-11-26 01:43:35,2008-11-26 00:00:00,509,0,Rock,"[45, 58]",...,,1948,en,Attribution-NonCommercial-ShareAlike 3.0 Inter...,1498,,0,,[],Peel Back The Mountain Sky
2,151,192000,0,,2008-11-26 01:44:55,,192,0,Rock,[25],...,,701,en,Attribution-NonCommercial-ShareAlike 3.0 Inter...,148,,4,,[],Untitled 04
3,152,192000,0,,2008-11-26 01:44:58,,193,0,Rock,[25],...,,637,en,Attribution-NonCommercial-ShareAlike 3.0 Inter...,98,,11,,[],Untitled 11
4,153,256000,0,Arc and Sender,2008-11-26 01:45:00,2008-11-26 00:00:00,405,5,Rock,[26],...,,354,en,Attribution-NonCommercial-NoDerivatives (aka M...,424,,2,,[],Hundred-Year Flood


Com podem observar, la nostra base de dades consta 17734 cançons i cada cançó conste de 21 atributs que la defineixen.
Els atributs són:

**track_id**: ID de la cançó. (Int)

**bit_rate**: Freqüència amb què les dades s'emmagatzemen o es transmeten en un medi, medides en BPM.(Int)

**comments**: Nombre de comentaris en la plataforma de Spoty .(Int)

**composer**: Nom del compositor. (String)

**date_created**: Data en què es va crear. (Date)

**date_recorded**: Data en què es va gravar. (Date)

**duration**: Duració de la cançó en segons. (Int)

**favorites**: Número de "Favorits" en la plataforma Spoty. (Int)

**genre_top**: Gènera de la cançó (**Serà el nostre Atribut Objectiu**). (String)

**genres**: Gènera de la llista de cançons que apareix. (Array Int)

**genres_all**: Tots els generes assignats de cada cançó. (Array Int)

**information**: Informació extra que poden incorporar a Spoty. (String)

**interest**: Valor de la cançó directament proporcional a les reproduccions del últim més. (Int)

**language_code**: Idioma de la cançó (String)

**license**: Llicències que de la cançó (String)

**listens**: Nombre de reproduccions (int)

**lyricist**: Lletra de la cançó. (String)

**number**: Número de la cançó dintre del disc (Int)

**publisher**: Nom de l'editora (String)

**tags**: Anotacions de cada canso (Array String)

**title**: Nom de cada cançó (String)


In [3]:
#Mirem quants valors estan en NaN
print(dataset.isnull().sum())

track_id             0
bit_rate             0
comments             0
composer         17568
date_created         0
date_recorded    15836
duration             0
favorites            0
genre_top            0
genres               0
genres_all           0
information      17252
interest             0
language_code    13645
license             20
listens              0
lyricist         17681
number               0
publisher        17682
tags                 0
title                0
dtype: int64


In [4]:
print("Dimensionalitat de la BBDD:", dataset.shape)

Dimensionalitat de la BBDD: (17734, 21)


Observem que dels 21 atributs hi ha 6 que no tenim informació introduïda, així que eliminarem aquestes columnes innecessàries (composer, date_recorded, information, language_code, lyricist, publisher)

In [5]:
#Eliminamos las columnas que casi no contienen informacion
dataset = dataset.drop(columns=['composer', 'date_recorded', 'information', 'language_code', 'lyricist', 'publisher'])
print(dataset.isnull().sum())

track_id         0
bit_rate         0
comments         0
date_created     0
duration         0
favorites        0
genre_top        0
genres           0
genres_all       0
interest         0
license         20
listens          0
number           0
tags             0
title            0
dtype: int64


També observem que en l'atribut **"license"** tenim 20 valors com a NaN així que també eliminarem les files que corresponents.
Això provocarà que passa'm de tenir 17734 cançons a 17714

In [6]:
#Eliminamos las ileras con valores NaN
dataset = dataset.dropna()
print(dataset.isnull().sum())

track_id        0
bit_rate        0
comments        0
date_created    0
duration        0
favorites       0
genre_top       0
genres          0
genres_all      0
interest        0
license         0
listens         0
number          0
tags            0
title           0
dtype: int64


In [7]:
#Contem cuantes vagades apareix el valor "[]" en la columne de Tags
(dataset['tags'] == "[]").sum()


15559

Mirant una mica més a fons la base de dades, observem que hi ha l'atribut **"Tags"** que també consta amb un gran nombre de valors NaN (15579), però camuflats com a "[]", ja que són Arrays de String.
Així que també el treure'm del nostre dataset.

També traurem atributs que són irrellevants com; **track_id**, **number**, **date_created**, **license** i **title**

In [8]:
dataset = dataset.drop(columns=['tags'])

dataset = dataset.drop(columns=['track_id'])
dataset = dataset.drop(columns=['number'])
dataset = dataset.drop(columns=['date_created'])
dataset = dataset.drop(columns=['license'])
dataset = dataset.drop(columns=['title'])

#Eliminem aquests 2 atributs per poder normalitzar, però més endavant els tornarem a incorporar
Dataset = dataset.drop(columns=['genres'])
Dataset = Dataset.drop(columns=['genres_all'])
print("Dimensionalitat de la BBDD:", dataset.shape)
Dataset.head() 


Dimensionalitat de la BBDD: (17714, 9)


Unnamed: 0,bit_rate,comments,duration,favorites,genre_top,interest,listens
0,256000,1,837,0,Rock,2484,1832
1,256000,1,509,0,Rock,1948,1498
2,192000,0,192,0,Rock,701,148
3,192000,0,193,0,Rock,637,98
4,256000,0,405,5,Rock,354,424


Un cop netejada la base de dades, intentarem passar l'atribut "genre_top" que es String a Int per poder visualitzar si hi ha una correlació entre ells amb la **Taula de correlacions** i la funcio **pairplot** i comprovarem si les dades estan balancejades per evitar una mala interpretació de les dades i que a l'hora de generar el model no pugui provocar un Overfitting.



In [9]:
#Cambiem el valor de "Rock" per 0 i el valor de "Hip-Hop" per 1
Dataset.loc[Dataset['genre_top'] == "Rock", 'genre_top'] = 0
Dataset.loc[Dataset['genre_top'] == "Hip-Hop", 'genre_top'] = 1
Dataset = Dataset.astype({"genre_top": int})

In [10]:
#Normalitzem el Dataset
normalized_dataset=(Dataset-Dataset.min())/(Dataset.max()-Dataset.min())

In [11]:
plt.figure()
plt.title("Atribut Objectiu")
plt.xlabel("Classes")
plt.ylabel("Count")
hist = plt.hist(normalized_dataset.values[:,4], bins=11, range=[np.min(normalized_dataset.values[:,4]), np.max(normalized_dataset.values[:,4])], histtype="bar", rwidth=0.8)

<IPython.core.display.Javascript object>

In [26]:
# Mirem la correlació entre els atributs d'entrada i de surtida
correlacio = normalized_dataset.corr()
plt.figure()
ax = sns.heatmap(correlacio, annot=True, linewidths=.5)
relacio = sns.pairplot(normalized_dataset)

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

Observem que hi ha una alta correlació entre els atributs "listens" i "interest". Això ja ens ho esperavem, ja que si el número de reproduccions d'una cançó augmenta, l'interès que se li assigna aquesta cançó, també augmenta.
També passa una cosa similar amb els "comments" i els "favorites", ja que si t'agrada una canso, la comentes i li dónes 'like'.

Però al mirrar si hi ha alguna correlació entre els atributs numèrics i l'atribut objectiu, no apareix res realment significatiu.
Dels atributs numèrics, el que ens dóna més informació, és el de "bit_rate", ja que ens dóna el número de BPM. Això te logica, ja que el Hip-Hop acostuma a utilitzar uns BPM entre els 60 i els 120, cosa que el Rock no té tan marcat. Però com el número de cançons de Rock forme el 80% de les dades, pot ser que ens provoqui aquesta poca correlació entre BPM i Hip-Hop.
Així que balancegarem el número de cançons de cada classe.

Tot hi això si no aconseguim ningun resultat, també podem mirar els atributs "genres" i "genres_all", ja que ens indican, en quin tipus de disc/àlbum està i els gèneres musicals que té associat. Però abans també haurem d'adaptar el nostre dataset, ja que estan en format strting.

In [12]:
newDataset = normalized_dataset.groupby('genre_top')
newDataset = pd.DataFrame(newDataset.apply(lambda x: x.sample(newDataset.size().min()).reset_index(drop=True)))

print("Dimensionalitat de la BBDD:", newDataset.shape)

plt.figure()
plt.title("Atribut Objectiu")
plt.xlabel("Classes")
plt.ylabel("Count")
hist = plt.hist(newDataset.values[:,4], bins=11, range=[np.min(newDataset.values[:,4]), np.max(newDataset.values[:,4])], histtype="bar", rwidth=0.8)

Dimensionalitat de la BBDD: (7104, 7)


<IPython.core.display.Javascript object>

In [13]:
correlacio = newDataset.corr()
plt.figure()
ax = sns.heatmap(correlacio, annot=True, linewidths=.5)


<IPython.core.display.Javascript object>

Un cop balancejats el número de valors de cada classe, observem que la correlació entre els BPM (bit_range) a augmentat, però no tant com esperàvem, per tant, la nostra hipòtesi de poder classificar la música segons unicament el seu BPM no semble que pugui funcionar.

Així que intentarem generar la classificació utilitzant també els atributs **genres** i **genres_all**, però abans haurem de tractar les dades, ja que, com ja hem dit, les dades estan en format String. A sobre no sabem quina de les ID utilitzades, dintre d'aquests atributs, fan referència al genera osubgenera de Rock i de Hip-Hop i per finalitzar una cançó pot tindre més d'una ID referenciada a un gènera.

In [40]:
#Recuperem el dataset que guarde les variables de 'genres' i 'genres_all' i el balancegem 
newDataset = dataset.groupby('genre_top')
newDataset = pd.DataFrame(newDataset.apply(lambda x: x.sample(newDataset.size().min()).reset_index(drop=True)))
#Cambiem el valor de "Rock" per 0 i el valor de "Hip-Hop" per 1
newDataset.loc[newDataset['genre_top'] == "Rock", 'genre_top'] = 0
newDataset.loc[newDataset['genre_top'] == "Hip-Hop", 'genre_top'] = 1
newDataset = newDataset.astype({"genre_top": int})
print("Dimensionalitat de la BBDD:", newDataset.shape)

Dimensionalitat de la BBDD: (7104, 9)


Per començar utilitzarem una tècnica per seleccionar el primer gènera que tenen assignades cadascuna dels atributs anomenats anteriorment.

Llegirem el primer valor del String, l'aïllarem i el passarem a Int. Això ho farem amb la funció "selectFirst", i ho aplicarem tant a l'atribut **genres** com el **genres_all**.

In [41]:
def selectFirst(value):
    #print(value)
    if ',' in value:
        indice_coma = value.index(',')
        subcadena = value[1:indice_coma]
    else:
        subcadena = value[1:len(value)-1]
    return int(subcadena)
newDataset['genres'] = newDataset['genres'].apply(selectFirst)
newDataset['genres_all'] = newDataset['genres_all'].apply(selectFirst)

In [42]:
newDataset.head() 

Unnamed: 0_level_0,Unnamed: 1_level_0,bit_rate,comments,duration,favorites,genre_top,genres,genres_all,interest,listens
genre_top,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Hip-Hop,0,320000,0,186,2,1,21,21,2416,2130
Hip-Hop,1,320000,0,187,1,1,21,21,1633,1207
Hip-Hop,2,320000,0,172,2,1,21,100,1968,1679
Hip-Hop,3,320000,0,258,2,1,21,21,673,512
Hip-Hop,4,243694,0,121,1,1,21,21,886,247


In [43]:
correlacio = newDataset.corr()
plt.figure()
ax = sns.heatmap(correlacio, annot=True, linewidths=.5)
#relacio = sns.pairplot(newDataset)

<IPython.core.display.Javascript object>

Com observem, amb l'atribut **genres_all** tenim una correlació amb l'atribut objectiu encara més alta que amb el dels BPM, però tot i això no és suficient alt per poder fer una bona classificació només amb ell.

Per tant, començarem combinant els atributs amb una major correlació amb l'atribut objectiu per intentar generar una classificació.

Aquests atributs són; **genres_all** i **bit_rate**.

In [44]:
#Eliminem els atributs no desitjats i deixem els  necessaris i l'atribut objectiu.
newDataset = newDataset.drop(columns=['comments'])
newDataset = newDataset.drop(columns=['duration'])
newDataset = newDataset.drop(columns=['favorites'])
newDataset = newDataset.drop(columns=['genres'])
newDataset = newDataset.drop(columns=['interest'])
newDataset = newDataset.drop(columns=['listens'])

print("Dimensionalitat de la BBDD:", newDataset.shape)
newDataset.head() 

Dimensionalitat de la BBDD: (7104, 3)


Unnamed: 0_level_0,Unnamed: 1_level_0,bit_rate,genre_top,genres_all
genre_top,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Hip-Hop,0,320000,1,21
Hip-Hop,1,320000,1,21
Hip-Hop,2,320000,1,100
Hip-Hop,3,320000,1,21
Hip-Hop,4,243694,1,21


In [46]:
#Modifiquem l'ordre dels atributs per tindre l'atribut objectiu al final
cols = newDataset.columns.tolist()
cols = cols[-1:] + cols[:-1]
newDataset = newDataset[cols] 

#normalized_dataset=(newDataset-newDataset.min())/(newDataset.max()-newDataset.min())

newDataset.head() 

Unnamed: 0_level_0,Unnamed: 1_level_0,genre_top,genres_all,bit_rate
genre_top,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Hip-Hop,0,1,21,320000
Hip-Hop,1,1,21,320000
Hip-Hop,2,1,100,320000
Hip-Hop,3,1,21,320000
Hip-Hop,4,1,21,243694


In [47]:
data = newDataset.values
X = data[:, 1:]
y = data[:, 0]
n_classes = 2
particions = [0.5, 0.7, 0.8]


for part in particions:
    x_t, x_v, y_t, y_v = train_test_split(X, y, train_size=part)
    
    #Creem el regresor logístic
    logireg = LogisticRegression(C=2.0, fit_intercept=True, penalty='l2', tol=0.001)

    # l'entrenem
    logireg.fit(x_t, y_t)

    print ("Correct classification Logistic ", part, "% of the data: ", logireg.score(x_v, y_v))
    
    #Creem el regresor logístic
    svc = svm.SVC(C=10.0, kernel='rbf', gamma=0.9, probability=True)

    # l'entrenem 
    svc.fit(x_t, y_t)
    probs = svc.predict_proba(x_v)
    print ("Correct classification SVM      ", part, "% of the data: ", svc.score(x_v, y_v))

<IPython.core.display.Javascript object>

Correct classification Logistic  0.5 % of the data:  0.4479166666666667
Correct classification SVM       0.5 % of the data:  0.954954954954955
Correct classification Logistic  0.7 % of the data:  0.42823639774859285
Correct classification SVM       0.7 % of the data:  0.9577861163227017
Correct classification Logistic  0.8 % of the data:  0.45038705137227303
Correct classification SVM       0.8 % of the data:  0.9605911330049262
