## Contexte

J'ai construie un petit dataset contenant l'age d'une personne, son age et le genre musical qu'il aime. <br> Avec ce dataset, je vais construire un modèle permettant de prédire le genre musical qu'une personne pourrait aimer selon son age et son genre.<br> Ceci pourrait une application réelle type d'une plateforme de streaming comme spotify, iTunes, ...

## Importer les données

In [22]:
import pandas as pd
music_data=pd.read_csv("music.csv")
music_data.head()

Unnamed: 0,age,gender,genre
0,20,1,HipHop
1,23,1,HipHop
2,25,1,HipHop
3,26,1,Jazz
4,29,1,Jazz


# Préparation des données

- Pas de données manquantes
- Séparer le dataset en données d'entrées et données de sortie

In [23]:
X = music_data.drop(columns="genre")
Y = music_data["genre"]

# Modéiser

Résultat des prédictions: le genre de music de la fille est le HipHop et celui de la fille est le Dance.<br>
Ce qui est cohérent avec notre dataset.

In [24]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
x_train, x_test, y_train,y_test=train_test_split(X,Y, test_size=0.2)
#Choisir un modèle et l'entrainer
model=DecisionTreeClassifier()
model.fit(x_train,y_train)
#Evaluer le modèle
score=accuracy_score(y_test, predictions)
score

0.75

In [25]:
# Faire des prédictions avec les données test
predictions=model.predict(x_test)
predictions

array(['Jazz', 'HipHop', 'HipHop', 'Jazz'], dtype=object)

### Extraire le modèle

In [26]:
from sklearn.tree import DecisionTreeClassifier
# joblib permet de run just un fichier qui contient le model déjà entrainé, meme chose pour pickle
import joblib
import pickle

In [27]:
#Creer un fichier contenant le model entrainé
model=DecisionTreeClassifier()

model.fit(x_train,y_train)
joblib.dump(model, 'music-recommender.joblib')

['music-recommender.joblib']

In [28]:
# Prédire le genre musicale d'une fille de 21 ans avec fichier du model 'music-recommender.joblib'
model=joblib.load('music-recommender.joblib')
predictions=model.predict([[21,0]])
predictions



array(['Dance'], dtype=object)

In [29]:
# Créer un fichier modèle pickle
model.fit(x_train,y_train)
pickle.dump(model, open('music-recom.pkl','wb'))

In [30]:
# Load the model from the saved file
with open('music-recom.pkl', 'rb') as file:  
    pk_model = pickle.load(file)
    predictions=model.predict([[30,0]])
predictions



array(['Acoustic'], dtype=object)

# Visualiser le modèle

In [31]:
# le le fichier .dot permet d'affichier le graphe
from sklearn import tree

model=DecisionTreeClassifier()

model.fit(x_train,y_train)

tree.export_graphviz(model, out_file='music-recommender.dot',
                            feature_names=["age","gender"], 
                            class_names=sorted(Y.unique()),
                            label='all',
                            rounded=True,
                            filled=True)

Perspectives: 
- Utiliser une pipeline pour la préparation et une autre pour l'entrainement 
- Tester sur plusieurs modèles de classification
- Evaluer et améliorer le modèle
- Déployer le modèle avec : soit falsk, soit Django, soit streamlit, etc

