# Förberedelser
Som förra gången läser vi in data och separerar i train- och test-dataset

In [None]:
import numpy as np
import pandas as pd

# Läs datafilen
filename = './features_30_sec.csv'
df = pd.read_csv(filename, header = 0)


In [None]:
# Visa de första 5 raderna
df.head()

In [None]:
# välj kolumnen "filename"
df.filename

In [None]:
# Välj några features och plocka ut labels
features = df[['chroma_stft_mean', 'rms_var', 'spectral_centroid_var']]
labels = df.label

# En vanlig notering för features och labels är X och y. Vi kommer att använda det här.
X = features
y = labels

In [None]:
# Splitta i train/test datasets

from sklearn.model_selection import train_test_split

# By default resulterar train_test_split i en (random) 75%/25%-split
X_train, X_test, y_train, y_test = train_test_split(features, labels, random_state=42)

# Decision tree classifier

Nu ska vi använda en mycket simpel klassifierare - ett decision tree - till att klassifiera musik i genres.

Ett decision tree är typ som flera lager av if-satser.
Varje nod ställer en true/false-fråga och om det stämmer/inte stämmer propagerar man ner i trädet tills man kommer till en rot-nod där en klass tilldelas.

In [None]:
from sklearn.tree import DecisionTreeClassifier

# Skapa ett decision tree classifier
clf = DecisionTreeClassifier(max_depth=5, random_state=42)

# Kör clf.fit() för att träna classifiern på träningsdata.
clf.fit(X_train, y_train)

In [None]:
# Nu kan vi se vad vi får för resultat av olika saker från vårt testdata genom att köra predict
clf.predict(X_test.iloc[:10,:])

In [None]:
# y_test innehåller facit för samma data
y_test.iloc[:10]

In [None]:
# Lite snyggare printat så kan vi enkelt jämföra vår modell med facit.
for element in clf.predict(X_test.iloc[:10,:]):
  print(element.ljust(10), end='')
print()
for element in y_test.iloc[:10]:
  print(element.ljust(10), end='')

In [None]:
# Nu kan vi beräkna accuracy (antal rätt/antal tester på hela test)

# Baseline är slumpad gissning: 1/10 = 0.1 eftersom det finns 10 klasser
# 'blues', 'classical', 'country', 'disco', 'hiphop', 'jazz', 'metal', 'pop', 'reggae', 'rock'
# Kan vi slå baseline har vi gjort succé!
clf.score(X_test, y_test)


In [None]:
# En kul grej är att vi kan skriva ut trädet för att se hur det bestämmer sig för olika klasser.

from sklearn.tree import export_graphviz
# Kör denna cell och copy-pasta output till https://dreampuf.github.io/GraphvizOnline
tree_text = export_graphviz(clf,
                     feature_names = feature_names, 
                     class_names=clf.classes_,
                     filled = True)
print(tree_text.replace('\\n', '\n'))

# Låt modellen förklara sig!
Många ML-modeller har förmågan att berätta vilka features som är viktigast. Det kan hjälpa en att förstå vilka features man ska använda eller inte när man skapar modellen. (Högre = mer viktig)

In [None]:
for index, feature in enumerate(feature_names):
    print(f'{feature.ljust(25, " ")} {clf.feature_importances_[index]}')

## Egen övning
Testa andra djup i trädet. 

Testa andra features än de tre valda. Ta hjälp av feature_importances_ för att välja de bästa!

Se om du kan slå min accurracy på 0.4!