# Scikit Learn (tutorial 2)
Mediante questo progetto, dati in input l'età e il sesso di una persona, si vuole creare un modello in grado di predirre il genere di musica più adatto per quella persona

## <span style='background :yellow'>Import dei dati

In [1]:
# import di alcuni moduli
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('Dataset/music.csv')
df

Unnamed: 0,age,gender,genre
0,20,1.0,HipHop
1,23,1.0,HipHop
2,25,1.0,HipHop
3,26,1.0,Jazz
4,28,,Jazz
5,29,1.0,Jazz
6,30,1.0,Jazz
7,31,1.0,Classical
8,33,1.0,Classical
9,37,1.0,Classical


## <span style='background :yellow'>Preparazione dei dati
Questo step prevede:
- eliminazione di valori vuoti, nulli, duplicati
- estrazione di X ed y

### <span style='background :yellow'>Check ed eliminazione di valori nulli

In [3]:
invalid_rows_mask = df.isna().any(axis=1)
df[invalid_rows_mask]

Unnamed: 0,age,gender,genre
4,28,,Jazz


In [4]:
df = df.dropna(axis=0) # elimina le righe contenenti valori nulli

### <span style='background :yellow'>Check ed eliminazione di valori duplicati

In [5]:
bool_series = df.duplicated()
df[bool_series]

Unnamed: 0,age,gender,genre
10,37,1.0,Classical


In [6]:
df = df.drop_duplicates()

### <span style='background :yellow'>Reset dell'index in modo da allineare la numerazione delle righe

In [7]:
df = df.reset_index(drop=True)

In [8]:
df

Unnamed: 0,age,gender,genre
0,20,1.0,HipHop
1,23,1.0,HipHop
2,25,1.0,HipHop
3,26,1.0,Jazz
4,29,1.0,Jazz
5,30,1.0,Jazz
6,31,1.0,Classical
7,33,1.0,Classical
8,37,1.0,Classical
9,20,0.0,Dance


Come si può notare le righe da 19 sono diventate 17 (sono state eliminate 2 righe, 1 a causa di un valore nullo e l'altra dato che era un duplicato)

### <span style='background :yellow'>Estrazione di X ed y

In [40]:
X = df.drop(columns=['genre'])
y = df[['genre']]

In [41]:
X

Unnamed: 0,age,gender
0,20,1.0
1,23,1.0
2,25,1.0
3,26,1.0
4,29,1.0
5,30,1.0
6,31,1.0
7,33,1.0
8,37,1.0
9,20,0.0


In [42]:
y

Unnamed: 0,genre
0,HipHop
1,HipHop
2,HipHop
3,Jazz
4,Jazz
5,Jazz
6,Classical
7,Classical
8,Classical
9,Dance


## <span style='background :yellow'>Addestramento e predizione

In [43]:
from sklearn.tree import DecisionTreeClassifier # modello di classificazione utilizzato
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [58]:
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2) # i dati vengono splittati in dati di training per il modello (80%) e di test (20%) da utilizzare per valutare l'accuratezza del modello

model = DecisionTreeClassifier() # creazione del modello
model.fit(X_train,y_train) # training del modello
predictions = model.predict(X_test) # predizioni del modello

In [59]:
# input dati come test al modello
X_test

Unnamed: 0,age,gender
11,25,0.0
1,23,1.0
10,21,0.0
7,33,1.0


In [60]:
# output corretti
y_test

Unnamed: 0,genre
11,Dance
1,HipHop
10,Dance
7,Classical


In [61]:
# predizioni eseguite dal modello
predictions

array(['Acoustic', 'HipHop', 'Dance', 'Classical'], dtype=object)

In [62]:
# lo score indica la percentuale di predizioni corrette rispetto a quelle fatte
score = accuracy_score(y_test, predictions)
score

0.75

## <span style='background :yellow'>Salvataggio del modello
Spesso si lavora con migliaia se non milioni di righe, ed allenare il modello può richiedere anche ore.
Solitamente una volta che il modello viene allenato, viene salvato, in modo che quando serve viene caricato già addestrato e si può evitare di fargli fare training ogni volta

In [14]:
import joblib

In [15]:
joblib.dump(model, 'model.joblib') # salva il modello

['model.joblib']

In [16]:
model = joblib.load('model.joblib') # carica il modello

## <span style='background :yellow'>Visualizzazione del tree

In [17]:
from sklearn.tree import export_graphviz
#from sklearn import tree

In [18]:
export_graphviz(model,
                out_file='model.dot',
                feature_names=['age','gender'],
                class_names=sorted(y.unique()),
                label='all',
                rounded=True,
                filled=True)
#tree.export_graphviz(model,
#                     out_file='model.dot',
#                     feature_names=['age','gender'],
#                     class_names=sorted(y.unique()),
#                     label='all',
#                     rounded=True,
#                     filled=True)

Il file viene generato come model.out ed è possibile visualizzarlo online qui: https://dreampuf.github.io/GraphvizOnline/