# Classificació Binària de 17.7K cançons Angleses d'entre el 2008 i 2017

## Requisits

Per poder emular la resolució d'aquest problema d'Aprenentatge Computacional de Classificació necessitaràs de les segue'ns llibreries (Caldrà instal·lar):
```
numpy
scikit-learn
matplotlib
scipy
```

## Objectiu
Poder classificar les 17000 cançons entre els estils de Rock i de Hip-Hop

In [4]:
from sklearn.datasets import make_regression
import numpy as np
import pandas as pd
%matplotlib notebook
from matplotlib import pyplot as plt
import scipy.stats

# Visualitzarem només 3 decimals per mostra
pd.set_option('display.float_format', lambda x: '%.3f' % x)

# Funcio per a llegir dades en format csv
def load_dataset(path):
    dataset = pd.read_csv(path, header=0, delimiter=',')
    return dataset

# Carreguem dataset d'exemple
dataset = load_dataset('songs.csv')
data = dataset.values
x = data[:, :]
y = data[:, 2]
#x = data[:, :2]
#y = data[:, 2]

    
print("Dimensionalitat de la BBDD:", dataset.shape)
print("Dimensionalitat de les entrades X", x.shape)
print("Dimensionalitat de l'atribut Y", y.shape)
dataset.head() 

Dimensionalitat de la BBDD: (17734, 21)
Dimensionalitat de les entrades X (17734, 21)
Dimensionalitat de l'atribut Y (17734,)


Unnamed: 0,track_id,bit_rate,comments,composer,date_created,date_recorded,duration,favorites,genre_top,genres,...,information,interest,language_code,license,listens,lyricist,number,publisher,tags,title
0,135,256000,1,,2008-11-26 01:43:26,2008-11-26 00:00:00,837,0,Rock,"[45, 58]",...,,2484,en,Attribution-NonCommercial-ShareAlike 3.0 Inter...,1832,,0,,[],Father's Day
1,136,256000,1,,2008-11-26 01:43:35,2008-11-26 00:00:00,509,0,Rock,"[45, 58]",...,,1948,en,Attribution-NonCommercial-ShareAlike 3.0 Inter...,1498,,0,,[],Peel Back The Mountain Sky
2,151,192000,0,,2008-11-26 01:44:55,,192,0,Rock,[25],...,,701,en,Attribution-NonCommercial-ShareAlike 3.0 Inter...,148,,4,,[],Untitled 04
3,152,192000,0,,2008-11-26 01:44:58,,193,0,Rock,[25],...,,637,en,Attribution-NonCommercial-ShareAlike 3.0 Inter...,98,,11,,[],Untitled 11
4,153,256000,0,Arc and Sender,2008-11-26 01:45:00,2008-11-26 00:00:00,405,5,Rock,[26],...,,354,en,Attribution-NonCommercial-NoDerivatives (aka M...,424,,2,,[],Hundred-Year Flood


Com podem observar, la nostra base de dades consta 17734 cançons i cada cançó conste de 21 atributs que la defineixen.
Els atributs són:

**track_id**: ID de la cançó. (Int)

**bit_rate**: Freqüència amb què les dades s'emmagatzemen o es transmeten en un medi, medides en BPM.(Int)

**comments**: Nombre de comentaris en la plataforma de Spoty .(Int)

**composer**: Nom del compositor. (String)

**date_created**: Data en què es va crear. (Date)

**date_recorded**: Data en què es va gravar. (Date)

**duration**: Duració de la cançó en segons. (Int)

**favorites**: Número de "Favorits" en la plataforma Spoty. (Int)

**genre_top**: Gènera de la cançó (Serà el nostre Atribut Objectiu). (String)

**genres**: Gènera de la llista de cançons que apareix. (Array Int)

**genres_all**: Tots els generes assignats de cada cançó. (Array Int)

**information**: Informació extra que poden incorporar a Spoty. (String)

**interest**: Valor de la cançó directament proporcional a les reproduccions del últim més. (Int)

**language_code**: Idioma de la cançó (String)

**license**: Llicències que de la cançó (String)

**listens**: Nombre de reproduccions (int)

**lyricist**: Lletra de la cançó. (String)

**number**: Número de la cançó dintre del disc (Int)

**publisher**: Nom de l'editora (String)

**tags**: Anotacions de cada canso (Array String)

**title**: Nom de cada cançó (String)


In [3]:
print(dataset.isnull().sum())

track_id             0
bit_rate             0
comments             0
composer         17568
date_created         0
date_recorded    15836
duration             0
favorites            0
genre_top            0
genres               0
genres_all           0
information      17252
interest             0
language_code    13645
license             20
listens              0
lyricist         17681
number               0
publisher        17682
tags                 0
title                0
dtype: int64


Observem que dels 21 atributs hi ha 6 que no tenim informació introduïda, així que eliminarem aquestes columnes innecessàries (composer, date_recorded, information, language_code, lyricist, publisher)

In [6]:
#Eliminamos las columnas que casi no contienen informacion
dataset = dataset.drop(columns=['composer', 'date_recorded', 'information', 'language_code', 'lyricist', 'publisher'])
print(dataset.isnull().sum())

track_id         0
bit_rate         0
comments         0
date_created     0
duration         0
favorites        0
genre_top        0
genres           0
genres_all       0
interest         0
license         20
listens          0
number           0
tags             0
title            0
dtype: int64


També observem que en l'atribut **"license"** tenim 20 valors com a NaN així que també eliminarem les files que corresponents.
Això provocarà que passa'm de tenir 17734 cançons a 17714

In [19]:
#Eliminamos las ileras con valores NaN
dataset = dataset.dropna()
print(dataset.isnull().sum())

track_id        0
bit_rate        0
comments        0
date_created    0
duration        0
favorites       0
genre_top       0
genres          0
genres_all      0
interest        0
license         0
listens         0
number          0
tags            0
title           0
dtype: int64
