# Charger et mettre en forme les données à partir d'un fichier csv

In [2]:
import pandas 

noms = ['seismic','seismoacoustic','shift','genergy','gpuls','gdenergy','gdpuls','ghazard','nbumps','nbumps2','nbumps3', 'nbumps4','nbumps5','nbumps6','nbumps7','nbumps89','energy','maxenergy','class']
dataframe = pandas.read_csv('seismic-bumps.csv', names = noms)
dataframe

Unnamed: 0,seismic,seismoacoustic,shift,genergy,gpuls,gdenergy,gdpuls,ghazard,nbumps,nbumps2,nbumps3,nbumps4,nbumps5,nbumps6,nbumps7,nbumps89,energy,maxenergy,class
0,a,a,N,15180,48,-72,-72,a,0,0,0,0,0,0,0,0,0,0,0
1,a,a,N,14720,33,-70,-79,a,1,0,1,0,0,0,0,0,2000,2000,0
2,a,a,N,8050,30,-81,-78,a,0,0,0,0,0,0,0,0,0,0,0
3,a,a,N,28820,171,-23,40,a,1,0,1,0,0,0,0,0,3000,3000,0
4,a,a,N,12640,57,-63,-52,a,0,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2579,b,a,W,81410,785,432,151,b,0,0,0,0,0,0,0,0,0,0,0
2580,b,a,W,42110,555,213,118,a,0,0,0,0,0,0,0,0,0,0,0
2581,b,a,W,26960,540,101,112,a,0,0,0,0,0,0,0,0,0,0,0
2582,a,a,W,16130,322,2,2,a,0,0,0,0,0,0,0,0,0,0,0


In [4]:
donnees = dataframe.values
d = donnees[:, 0:18]
t = donnees[:, 18]

# Transformer les attributs catégoriels en un ensemble de variables binaires

In [5]:
import numpy as np

def binarisation(d, indice, valeurs):
    B = np.zeros((len(d), len(valeurs)))
    for i in range(len(d)):
        for v in range(len(valeurs)):
            if(d[i,indice] == valeurs[v]):
                B[i,v] = 1
    return B 


A0 = binarisation(d, 0,['a','b','c','d'])
A1 = binarisation(d, 1,['a','b','c','d'])
A2 = binarisation(d, 2,['W','N'])
A7 = binarisation(d, 7,['a','b','c','d'])

X = np.concatenate((A0, A1, A2, d[:,3:7],A7, d[:,8:18]), axis=1)
Y = t.astype('int')

In [6]:
pandas.DataFrame(data = X)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,18,19,20,21,22,23,24,25,26,27
0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,...,0,0,0,0,0,0,0,0,0,0
1,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,...,1,0,1,0,0,0,0,0,2000,2000
2,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,...,0,0,0,0,0,0,0,0,0,0
3,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,...,1,0,1,0,0,0,0,0,3000,3000
4,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2579,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,...,0,0,0,0,0,0,0,0,0,0
2580,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,...,0,0,0,0,0,0,0,0,0,0
2581,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,...,0,0,0,0,0,0,0,0,0,0
2582,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,...,0,0,0,0,0,0,0,0,0,0


# Données deséquilibrées

In [7]:
len(X[Y == 0]), len(X[Y == 1])

(2414, 170)

Nous voyons que le jeu de données est très déséquilibré puisqu'on a beaucoup d'observations, 2414 observations pour la classe 0 et seulement 170 pour la classe 1.

# Ajustement du modèle baseline où l'on prédit toujours la classe 0

In [8]:
len(X[Y == 0])/ (len(X[Y == 1]) + len(X[Y == 0]))

0.9342105263157895

Ainsi si on construit un classifier qui prédit toujours la classe 0, celui-ci aura une valeur d'ajustement égale à 93 %. Donc dans 93 % des cas, il prédira correctement la classe. Cependant un tel classifier n'a aucun intérêt, surtout dans le contexte de ce jeu de données où on cherche à prédire des événements dangereux dans la classe 1.

# Apprentissage du modèle

In [11]:
import random 
from sklearn.model_selection import train_test_split 
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.3, random_state = random.seed()) 

Avant de construire notre modèle de machine learning, nous allons d'abord séparer le jeu de données en deux ensembles, un ensemble X_train sur lequel nous allons apprendre le modèle et un ensemble X_test sur lequel nous allons tester le modèle, l'ensemble de tests comportant un tiers des données.

In [12]:
from sklearn.ensemble import RandomForestClassifier
modele = RandomForestClassifier(n_estimators = 10)
modele.fit(X_train, Y_train)
Y_predit = modele.predict(X_test)

Nous allons ajuster un modèle de forêt aléatoire avec la fonction scikit-learn RandomForestClassifier et on va demander à construire 10 arbres.On va ajuster le modèle sur l'ensemble X_train et prédire les valeurs correspondant à X_test.

In [13]:
from sklearn.metrics import accuracy_score
accuracy_score(Y_test, Y_predit)  

0.9304123711340206

On peut mesurer l'ajustement de la variable Y_predit à la valeur de la variable de classe à l'aide de la fonction accuracy, qui nous indique ici qu'on a une valeur d'accuracy qui est un petit peu inférieure à celle que l'on avait précédemment lorsque l'on prédisait toujours la classe 0.

In [15]:
from sklearn.metrics import confusion_matrix
confusion_matrix(Y_test, Y_predit)

array([[719,   2],
       [ 52,   3]], dtype=int64)

On peut regarder plus en détail la matrice de confusion ici, pour observer que ce classifier réussit à classer seulement trois observations de la classe incorrectement.

In [16]:
from sklearn.metrics import f1_score
f1_score(Y_test, Y_predit)

0.09999999999999999

Ce phénomène où le classifier arrive très mal à classer les observations d'une classe est mieux quantifié avecune mesure de type f1. Donc c'est ce qu'on fait ici, on prend la mesure f1_score, c'est une mesure qui varie entre 0 et 1 et là on s'aperçoit qu'on a une valeur de 0.099, qui est assez faible.

# Sous-échantillonnage de la classe majoritaire et sur-pondération

Alors qu'est-ce que l'on peut faire pour remédier à ce problème d'avoir un modèle qui est surajusté pour apprendre la classe majoritaire, alors que nous on est plus intéressé par la classe minoritaire ? Une technique va consister à construire un sous-échantillon de la classe majoritaire et d'utiliser ce sous-échantillon dans l'apprentissage, pour éviter d'avoir ce phénomène de classe déséquilibrée. Donc c'est ce qu'on fait ici.

In [18]:
nbs = 170
from sklearn.utils import resample
echantillon_majorite = resample(X[Y == 0], 
                                 replace = False,    # echantillon sans remise
                                 n_samples = nbs,    # pour en avoir autant que dans la classe minoritaire
                                 random_state = random.seed()) 
# On combine la classe minoritaire avec le sous-echantillon de la classe majoritaire
X1 = np.concatenate((echantillon_majorite, X[Y == 1]), axis = 0)
Y1 = np.concatenate((np.zeros(nbs), np.ones(170)), axis = 0)

On va utiliser la fonction resample, que l'on va appeler sur les observations de la classe majoritaire. On va faire un tirage sans remise et on va tirer 170 observations, pour que l'on ait autant d'observations dans la classe 1 que dans la classe 0. Une fois qu'on a créé cet échantillon, on va le reconcaténer avec les observations de la classe 1 et on va construire la variable de classe correspondante, donc qui contient 170 zéros et ensuite 170 uns.

In [19]:
X1_train, X1_test, Y1_train, Y1_test = train_test_split(X1, Y1, test_size = 0.3, random_state = random.seed()) 
    
modele.fit(X1_train, Y1_train)
Y1_predit = modele.predict(X1_test)

In [20]:
f1_score(Y1_test, Y1_predit)

0.6796116504854368

On peut maintenant remesurer le f1_score sur ces données et ce modèle-là. Donc on a un score qui est nettement plus élevé, avec une valeur de 0.7 alors qu'on était à une valeur de 0.1 précédemment.

In [21]:
confusion_matrix(Y1_test, Y1_predit)

array([[34, 12],
       [21, 35]], dtype=int64)

Alors ce score f1 mesuré avec le sous-échantillonnage de la classe majoritaire n'est sans doute pas non plus complètement exact, puisque lorsque l'on va appliquer notre modèlesur l'ensemble des données, on va avoir beaucoup plus d'observations de la classe majoritaire.

# Surpondération de la classe sous-échantillonnée

Alors pour avoir une mesure plus juste, plus fiable, on va repondérer les observations de la classe majoritaire en fonction du poids qu'on a utilisé pour les sous-échantillonnages.

In [23]:
poids = (2414  / nbs)
p = (1-Y1_test) * poids
p = p + Y1_test
f1_score(Y1_test, Y1_predit, sample_weight = p)

0.2677888293802602

C'est-à-dire qu'on va avoir un poids de 2414 divisé par 170. On va construire un vecteur de poids, c'est-à-dire qu'on va affecter ce poids-là à toutes les observations de la classe 0, c'est à dire (1- les valeurs de la classe 1) et on va associer un poids de 1 aux observations de la classe 1.

Maintenant, si on calcule le f1_score avec ce poids, on a une valeur qui est égale à 0.3, donc qui est moins optimiste que celle que l'on avait précédemment, mais qui va correspondre mieux à la réalité de nos données.

In [24]:
confusion_matrix(Y1_test, Y1_predit, sample_weight = p)

array([[482.8, 170.4],
       [ 21. ,  35. ]])

On peut également utiliser ce vecteur de poids dans la matrice de confusion, pour voir un petit peu comment ça se représente dans notre matrice de confusion. Donc ici on aurait 483 observations de la classe 0 qui seraient bien classées et 35 observations de la classe 1 qui seraient également bien classées. C'est nettement plus que ce que l'on avait dans notre premier modèle sans échantillonnage, où on avait seulement 3 observations de la classe 1 qui étaient bien classées.