# Classifieur aléatoire (*random classifier*)

## Importation de modules utiles

In [18]:
import numpy as np
import pandas as pd
from math import *
import matplotlib.pyplot as plt
import scipy
import seaborn as sns
import sklearn.preprocessing
from sklearn.model_selection import train_test_split
from sklearn.metrics import precision_score
from sklearn.metrics import accuracy_score
from sklearn.metrics import recall_score
from sklearn.metrics import hamming_loss
from sklearn.metrics import f1_score
from src.modelisation.utils import *
import random

## Chargement et formatage des données

Nous commençons par charger les données. 

In [2]:
df = pd.read_parquet("dataset2.parquet", engine="pyarrow")

Nous allons entraîner le classifieur aléatoire seulement sur les données associées à un unique label. Cela correspond à environ 84% des données.

In [3]:
df_unique = keep_unique_label_data(df)

  df_unique.drop(to_drop, 0, inplace=True)


In [4]:
df_unique.shape

(42667, 26)

Puis nous créeons une liste *labels_unique*. Chaque élément i de *labels_unique* est une liste contenant le ou les genres associés au track n°i de la base de données *df_unique*.

In [14]:
labels_unique = create_labels(df_unique, 21)

Nous obtenons ainsi les valeurs vraies des genres correspondant aux *tracks* de notre base de données.

In [16]:
y_true = [label[0] for label in labels_unique]

## Mise en forme des résultats

In [22]:
metrics = ['Accuracy','Precision micro', 'Recall micro', 'F1 score micro', 'Hamming-Loss']

In [27]:
final_res = pd.DataFrame(columns=metrics)

In [24]:
def all_metrics(y_true,y_pred):
    acc = accuracy_score(y_true,y_pred)
    pre = precision_score(y_true,y_pred,average='micro')
    rec = recall_score(y_true,y_pred,average='micro')
    f1 = f1_score(y_true,y_pred,average='micro')
    hl = hamming_loss(y_true,y_pred)
    r = [acc, pre, rec, f1, hl]
    return(r)

## Méthode naïve : classifieur aléatoire

La méthode du classifieur naïf consiste à associer à chaque *track* un genre de manière aléatoire.

In [19]:
genres = list(df_unique.columns[:21])
y_pred = [random.choice(genres) for i in range(len(df_unique))]

Nous calculons ensuite l'ensemble des métriques pour ce modèle.

In [25]:
res = all_metrics(y_true, y_pred)

In [28]:
final_res.loc['Random'] = res

In [29]:
final_res

Unnamed: 0,Accuracy,Precision micro,Recall micro,F1 score micro,Hamming-Loss
Random,0.046687,0.046687,0.046687,0.046687,0.953313
