# RandomForestClassifier avec une fonction d'oversampling pour le rééquilibrage des classes.

## Import des bibliothèques nécessaires

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns

from sklearn.preprocessing import OneHotEncoder, LabelEncoder

from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, f1_score
from sklearn.ensemble import RandomForestClassifier

In [2]:
# Création d'un dictionnaire avec les noms des colonnes comme clés et "catégorie" comme valeurs

df_dtypes = {
  "catr"       :"category",
  "circ"       :"category",
  "prof"       :"category",
  "plan"       :"category",
  "surf"       :"category",
  "situ"       :"category",
  "lum"        :"category",
  "agg"        :"category",
  "int"        :"category",
  "atm"        :"category",
  "col"        :"category",
  "infra"      :"category",
  "obs"        :"category",
  "obsm"       :"category",
  "choc"       :"category",
  "manv"       :"category",
  "num_veh"    :"category",
  "catv_Label" :"category",
  "catu"       :"category",
  "sexe"       :"category",
  "trajet"     :"category",
  "secuUn"     :"category",
  "secuDeux"   :"category",
  "tranches_ages" :"category",
  "num_acc"    :"category",
  "mois"       :"category",
  "jour"       :"category",
  "com"        :"category",
  "dep"        :"category",
  "annee_x_x"  :"category",
  "date"       :"category",
  "jour_de_la_semaine"    :"category",
  "heure"      :"category",
  "nbv"        :"category",
  "vosp"       :"category",
  "place"      :"category"
}

## Read in the CSV using the dtypes parameter

In [3]:
df = pd.read_csv(r"../data/fusion3.csv", dtype=df_dtypes, low_memory=False)

In [4]:
df['date'] = pd.to_datetime(df['date'])
df['month'] = df['date'].dt.month
df['day'] = df['date'].dt.day
df = df.drop(['Unnamed: 0','num_acc','an_nais','an_naiss','age_acc_an','num_veh','senc','occutc','permis','secuDeux','date'], axis=1)
df['place'] = df['place'].astype('object')
df = df.dropna()

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2291739 entries, 0 to 2291796
Data columns (total 35 columns):
 #   Column              Dtype   
---  ------              -----   
 0   place               object  
 1   catu                category
 2   grav                object  
 3   sexe                category
 4   trajet              category
 5   locp                object  
 6   actp                object  
 7   etatp               object  
 8   secuUn              category
 9   tranches_ages       category
 10  catr                category
 11  circ                category
 12  nbv                 category
 13  vosp                category
 14  prof                category
 15  plan                category
 16  surf                category
 17  infra               category
 18  situ                category
 19  obs                 category
 20  obsm                category
 21  choc                category
 22  manv                category
 23  catv_Label          category
 24

<h1>Encodage des variables</h1>

Les variables sont encodées une à une afin de pallier à un déficit de mémoire sur certaines machines.

In [6]:
df = pd.get_dummies(df, columns=['catu'])

In [7]:
le = LabelEncoder()
df['sexe'] = le.fit_transform(df['sexe'])

In [8]:
df = pd.get_dummies(df, columns = ['trajet'])

In [9]:
# Seuil pour le regroupement des catégories rares
#threshold = 0.02

# Identifier les catégories rares
#rare_categories = df['locp'].value_counts(normalize=True)
#rare_categories = rare_categories[rare_categories < threshold].index

# Remplacer les catégories rares par 'Autre'
#df['locp'] = df['locp'].replace(rare_categories, 'Autre')

# One-Hot Encoding
df = pd.get_dummies(df, columns=['locp'])

In [10]:
# Seuil pour le regroupement des catégories rares
#threshold = 0.02

# Identifier les catégories rares
#rare_categories = df['actp'].value_counts(normalize=True)
#rare_categories = rare_categories[rare_categories < threshold].index

# Remplacer les catégories rares par 'Autre'
#df['actp'] = df['actp'].replace(rare_categories, 'Autre')

# One-Hot Encoding
df = pd.get_dummies(df, columns=['actp'])

In [11]:
df = pd.get_dummies(df, columns = ['etatp'])

In [12]:
# Seuil pour le regroupement des catégories rares
#threshold = 0.01

# Identifier les catégories rares
#rare_categories = df['secuUn'].value_counts(normalize=True)
#rare_categories = rare_categories[rare_categories < threshold].index

# Remplacer les catégories rares par 'Autre'
#df['secuUn'] = df['secuUn'].replace(rare_categories, 'Autre')

# One-Hot Encoding
df = pd.get_dummies(df, columns=['secuUn'])

In [13]:
df = pd.get_dummies(df, columns = ['tranches_ages'])

In [14]:
# Seuil pour le regroupement des catégories rares
#threshold = 0.01

# Identifier les catégories rares
#rare_categories = df['catr'].value_counts(normalize=True)
#rare_categories = rare_categories[rare_categories < threshold].index

# Remplacer les catégories rares par 'Autre'
#df['catr'] = df['catr'].replace(rare_categories, 'Autre')

# One-Hot Encoding
df = pd.get_dummies(df, columns=['catr'])

In [15]:
# Seuil pour le regroupement des catégories rares
#threshold = 0.01

# Identifier les catégories rares
#rare_categories = df['circ'].value_counts(normalize=True)
#rare_categories = rare_categories[rare_categories < threshold].index

# Remplacer les catégories rares par 'Autre'
#df['circ'] = df['circ'].replace(rare_categories, 'Autre')

# One-Hot Encoding
df = pd.get_dummies(df, columns=['circ'])

In [16]:
# Binary Encoding
df['vosp'] = df['vosp'].apply(lambda x: 0 if x == 'Sans objet(0)' else 1)

In [17]:
# Seuil pour le regroupement des catégories rares
#threshold = 0.05

# Identifier les catégories rares
#rare_categories = df['prof'].value_counts(normalize=True)
#rare_categories = rare_categories[rare_categories < threshold].index

# Remplacer les catégories rares par 'Autre'
#df['prof'] = df['prof'].replace(rare_categories, 'Autre')

# One-Hot Encoding
df = pd.get_dummies(df, columns=['prof'])

In [18]:
# Seuil pour le regroupement des catégories rares
#threshold = 0.05

# Identifier les catégories rares
#rare_categories = df['plan'].value_counts(normalize=True)
#rare_categories = rare_categories[rare_categories < threshold].index

# Remplacer les catégories rares par 'Autre'
#df['plan'] = df['plan'].replace(rare_categories, 'Autre')

# One-Hot Encoding
df = pd.get_dummies(df, columns=['plan'])

In [19]:
# Seuil pour le regroupement des catégories rares
#threshold = 0.02

# Identifier les catégories rares
#rare_categories = df['surf'].value_counts(normalize=True)
#rare_categories = rare_categories[rare_categories < threshold].index

# Remplacer les catégories rares par 'Autre'
#df['surf'] = df['surf'].replace(rare_categories, 'Autre')

# One-Hot Encoding
df = pd.get_dummies(df, columns=['surf'])

In [20]:
# Seuil pour le regroupement des catégories rares
#threshold = 0.02

# Identifier les catégories rares
#rare_categories = df['infra'].value_counts(normalize=True)
#rare_categories = rare_categories[rare_categories < threshold].index

# Remplacer les catégories rares par 'Autre'
#df['infra'] = df['infra'].replace(rare_categories, 'Autre')

# One-Hot Encoding
df = pd.get_dummies(df, columns=['infra'])

In [21]:
# Seuil pour le regroupement des catégories rares
#threshold = 0.05

# Identifier les catégories rares
#rare_categories = df['situ'].value_counts(normalize=True)
#rare_categories = rare_categories[rare_categories < threshold].index

# Remplacer les catégories rares par 'Autre'
#df['situ'] = df['situ'].replace(rare_categories, 'Autre')

# One-Hot Encoding
df = pd.get_dummies(df, columns=['situ'])

In [22]:
# Seuil pour le regroupement des catégories rares
#threshold = 0.02

# Identifier les catégories rares
#rare_categories = df['obs'].value_counts(normalize=True)
#rare_categories = rare_categories[rare_categories < threshold].index

# Remplacer les catégories rares par 'Autre'
#df['obs'] = df['obs'].replace(rare_categories, 'Autre')

# One-Hot Encoding
df = pd.get_dummies(df, columns=['obs'])

In [23]:
# Seuil pour le regroupement des catégories rares
#threshold = 0.01

# Identifier les catégories rares
#rare_categories = df['obsm'].value_counts(normalize=True)
#rare_categories = rare_categories[rare_categories < threshold].index

# Remplacer les catégories rares par 'Autre'
#df['obsm'] = df['obsm'].replace(rare_categories, 'Autre')

# One-Hot Encoding
df = pd.get_dummies(df, columns=['obsm'])

In [24]:
# Regrouper la catégorie "Non renseigné" avec "Aucun"
df['choc'] = df['choc'].replace('Non renseigné', 'Aucun')

# Effectuer le one-hot encoding
df = pd.get_dummies(df, columns=['choc'])


In [25]:
frequency_encoding = df['manv'].value_counts(normalize=True)
df['manv'] = df['manv'].map(frequency_encoding)

In [26]:
frequency_encoding = df['catv_Label'].value_counts(normalize=True)
df['catv_Label'] = df['catv_Label'].map(frequency_encoding)

In [27]:
frequency_encoding = df['dep'].value_counts(normalize=True)
df['dep'] = df['dep'].map(frequency_encoding)

In [28]:
frequency_encoding = df['com'].value_counts(normalize=True)
df['com'] = df['com'].map(frequency_encoding)

In [29]:
df = pd.get_dummies(df, columns = ['lum'])

In [30]:
df['agg'] = df['agg'].replace({'En agglomération': 1, 'Hors agglomération': 0})

In [31]:
df = pd.get_dummies(df, columns = ['int'])

In [32]:
df = pd.get_dummies(df, columns = ['atm'])

In [33]:
df = pd.get_dummies(df, columns = ['col'])

In [34]:
df = pd.get_dummies(df, columns = ['jour_de_la_semaine'])

In [35]:
df.shape

(2291739, 195)

In [36]:
df.columns

Index(['place', 'grav', 'sexe', 'nbv', 'vosp', 'manv', 'catv_Label', 'agg',
       'com', 'dep',
       ...
       'col_Sans collision',
       'col_Trois véhicules et plus - collisions multiples',
       'col_Trois véhicules et plus – en chaîne',
       'jour_de_la_semaine_Dimanche', 'jour_de_la_semaine_Jeudi',
       'jour_de_la_semaine_Lundi', 'jour_de_la_semaine_Mardi',
       'jour_de_la_semaine_Mercredi', 'jour_de_la_semaine_Samedi',
       'jour_de_la_semaine_Vendredi'],
      dtype='object', length=195)

# Séparation des features et de la target

In [37]:
X = df.drop('grav',axis=1)
y = df['grav']

In [38]:
X.index

Int64Index([      0,       1,       2,       3,       4,       5,       6,
                  7,       8,       9,
            ...
            2291787, 2291788, 2291789, 2291790, 2291791, 2291792, 2291793,
            2291794, 2291795, 2291796],
           dtype='int64', length=2291739)

In [39]:
y.index

Int64Index([      0,       1,       2,       3,       4,       5,       6,
                  7,       8,       9,
            ...
            2291787, 2291788, 2291789, 2291790, 2291791, 2291792, 2291793,
            2291794, 2291795, 2291796],
           dtype='int64', length=2291739)

In [40]:
y.value_counts()

Indemne               937743
Blessé léger          825286
Blessé hospitalisé    467533
Tué                    61177
Name: grav, dtype: int64

# Séparation des données en ensembles d'entraînement et de test

In [41]:
# Division des données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [42]:
X_train

Unnamed: 0,place,sexe,nbv,vosp,manv,catv_Label,agg,com,dep,heure,...,col_Sans collision,col_Trois véhicules et plus - collisions multiples,col_Trois véhicules et plus – en chaîne,jour_de_la_semaine_Dimanche,jour_de_la_semaine_Jeudi,jour_de_la_semaine_Lundi,jour_de_la_semaine_Mardi,jour_de_la_semaine_Mercredi,jour_de_la_semaine_Samedi,jour_de_la_semaine_Vendredi
2267456,2.0,0,2.0,0,0.109695,0.051384,1,0.000010,0.009388,14,...,0,0,0,0,0,0,0,0,0,1
1684613,1.0,1,4.0,0,0.109695,0.651106,0,0.000267,0.021840,17,...,0,0,0,0,0,0,0,0,0,1
1999446,2.0,0,0.0,0,0.032610,0.071721,1,0.003850,0.006918,11,...,0,0,0,0,0,0,1,0,0,0
1653900,1.0,1,2.0,1,0.020620,0.651106,1,0.009663,0.016662,10,...,0,0,0,0,0,0,0,1,0,0
550308,2.0,0,2.0,0,0.455666,0.651106,1,0.001114,0.004734,20,...,0,0,0,0,0,0,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
732186,0.0,1,3.0,0,0.455666,0.084295,1,0.006694,0.092927,10,...,0,0,0,0,0,0,0,0,1,0
110274,1.0,1,2.0,0,0.082017,0.003601,1,0.008847,0.010058,18,...,0,0,0,0,0,0,0,1,0,0
1692769,1.0,1,3.0,0,0.455666,0.651106,1,0.004218,0.041958,6,...,0,0,0,0,0,1,0,0,0,0
2229139,1.0,1,1.0,0,0.455666,0.071721,1,0.000354,0.092927,22,...,0,0,0,0,0,0,1,0,0,0


In [43]:
y_train

2267456          Blessé léger
1684613               Indemne
1999446          Blessé léger
1653900               Indemne
550308           Blessé léger
                  ...        
732186                Indemne
110274                Indemne
1692769          Blessé léger
2229139    Blessé hospitalisé
2219164          Blessé léger
Name: grav, Length: 1833391, dtype: object

# Rééquilibrage des classes - Création d'une fonction pour faire un Oversampling 

In [44]:
from imblearn.metrics import classification_report_imbalanced, geometric_mean_score
from sklearn.metrics import f1_score

## Test phase before oversampling function creation. Cf ligne 73 directement

In [45]:
minority_class_label = 'Tué'
print(np.asarray(y_train[y_train == minority_class_label].index))

[ 708601 1902226 1914482 ... 1425498 1500968 2281988]


In [46]:
Tué = np.asarray(y_train[y_train == minority_class_label].index)

In [47]:
Tué

array([ 708601, 1902226, 1914482, ..., 1425498, 1500968, 2281988],
      dtype=int64)

In [48]:
len(Tué)

48990

In [49]:
minority_indices = np.asarray(y_train[y_train == minority_class_label].index)

In [50]:
len(minority_indices)

48990

In [51]:
subset_size = 1000

In [52]:
oversampled_minority_indices = np.random.choice(minority_indices, size=subset_size, replace=True)

In [53]:
oversampled_minority_indices

array([  91137, 1356597, 1758289,  986096, 1702148, 1910788, 2290055,
       1777180, 2257475, 1414329, 1643787, 1089903, 1621351, 1050857,
        291412,  176674, 2167914, 1096148,  478257, 2077024,  707719,
       1349104, 2209663, 1800220, 1517081, 2216911, 1513583, 1350432,
       1996518, 2185543, 1743027,  446047,  664497,  124963,  928451,
       1608148,  722213,   57347, 1901709, 1027097, 1621809,  721396,
        980816, 1416366, 1199093, 1451248,  101246, 1072620, 1815461,
        927289,  296775, 1899775,  346188,  194798,  293647,  487698,
       2051920,  300030,  388086, 1078514,  444964,  319086, 1481164,
        979143, 1996467,  752216, 1904971, 1246707,  862174,  760656,
        233043, 1708831,   74678,  874190,  825996, 1905965,  773018,
        906491, 1800001, 1351668,  431970,  708574,  609000, 1779152,
       1078672, 1251539,  994219,  676269,    4671,  859941, 1651847,
       1770649,  296879,  150412,  748167, 2195056,  632974, 1631750,
       2181444, 2257

In [54]:
len(oversampled_minority_indices)

1000

In [55]:
type(oversampled_minority_indices)

numpy.ndarray

In [56]:
type(X_train)

pandas.core.frame.DataFrame

In [57]:
type(y_train)

pandas.core.series.Series

In [58]:
oversampled_minority_indices.min()

529

In [59]:
oversampled_minority_indices.max()

2290055

In [60]:
pd.Index(oversampled_minority_indices).drop_duplicates()

Int64Index([  91137, 1356597, 1758289,  986096, 1702148, 1910788, 2290055,
            1777180, 2257475, 1414329,
            ...
            1122014,  929177, 1409802,  787181, 2123492, 2223896, 1078791,
            1761826,  421658, 1493932],
           dtype='int64', length=990)

In [61]:
X_train.index.min()

0

In [62]:
X_train.index.max()

2291796

In [63]:
X_train

Unnamed: 0,place,sexe,nbv,vosp,manv,catv_Label,agg,com,dep,heure,...,col_Sans collision,col_Trois véhicules et plus - collisions multiples,col_Trois véhicules et plus – en chaîne,jour_de_la_semaine_Dimanche,jour_de_la_semaine_Jeudi,jour_de_la_semaine_Lundi,jour_de_la_semaine_Mardi,jour_de_la_semaine_Mercredi,jour_de_la_semaine_Samedi,jour_de_la_semaine_Vendredi
2267456,2.0,0,2.0,0,0.109695,0.051384,1,0.000010,0.009388,14,...,0,0,0,0,0,0,0,0,0,1
1684613,1.0,1,4.0,0,0.109695,0.651106,0,0.000267,0.021840,17,...,0,0,0,0,0,0,0,0,0,1
1999446,2.0,0,0.0,0,0.032610,0.071721,1,0.003850,0.006918,11,...,0,0,0,0,0,0,1,0,0,0
1653900,1.0,1,2.0,1,0.020620,0.651106,1,0.009663,0.016662,10,...,0,0,0,0,0,0,0,1,0,0
550308,2.0,0,2.0,0,0.455666,0.651106,1,0.001114,0.004734,20,...,0,0,0,0,0,0,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
732186,0.0,1,3.0,0,0.455666,0.084295,1,0.006694,0.092927,10,...,0,0,0,0,0,0,0,0,1,0
110274,1.0,1,2.0,0,0.082017,0.003601,1,0.008847,0.010058,18,...,0,0,0,0,0,0,0,1,0,0
1692769,1.0,1,3.0,0,0.455666,0.651106,1,0.004218,0.041958,6,...,0,0,0,0,0,1,0,0,0,0
2229139,1.0,1,1.0,0,0.455666,0.071721,1,0.000354,0.092927,22,...,0,0,0,0,0,0,1,0,0,0


In [64]:
X_train.index

Int64Index([2267456, 1684613, 1999446, 1653900,  550308, 1101044, 1218004,
             624402,  417986,  522601,
            ...
            2272412, 1136086, 2003315, 1570032, 2234544,  732186,  110274,
            1692769, 2229139, 2219164],
           dtype='int64', length=1833391)

In [65]:
X_train.index[0]

2267456

In [66]:
X_train.index[1833390]

2219164

In [67]:
list(oversampled_minority_indices)

[91137,
 1356597,
 1758289,
 986096,
 1702148,
 1910788,
 2290055,
 1777180,
 2257475,
 1414329,
 1643787,
 1089903,
 1621351,
 1050857,
 291412,
 176674,
 2167914,
 1096148,
 478257,
 2077024,
 707719,
 1349104,
 2209663,
 1800220,
 1517081,
 2216911,
 1513583,
 1350432,
 1996518,
 2185543,
 1743027,
 446047,
 664497,
 124963,
 928451,
 1608148,
 722213,
 57347,
 1901709,
 1027097,
 1621809,
 721396,
 980816,
 1416366,
 1199093,
 1451248,
 101246,
 1072620,
 1815461,
 927289,
 296775,
 1899775,
 346188,
 194798,
 293647,
 487698,
 2051920,
 300030,
 388086,
 1078514,
 444964,
 319086,
 1481164,
 979143,
 1996467,
 752216,
 1904971,
 1246707,
 862174,
 760656,
 233043,
 1708831,
 74678,
 874190,
 825996,
 1905965,
 773018,
 906491,
 1800001,
 1351668,
 431970,
 708574,
 609000,
 1779152,
 1078672,
 1251539,
 994219,
 676269,
 4671,
 859941,
 1651847,
 1770649,
 296879,
 150412,
 748167,
 2195056,
 632974,
 1631750,
 2181444,
 2257091,
 1485842,
 141282,
 217786,
 1861511,
 908369,
 929

In [68]:
X_train.index.isin(oversampled_minority_indices)

array([False, False, False, ..., False, False, False])

In [69]:
X_train[X_train.index.isin(oversampled_minority_indices)]

Unnamed: 0,place,sexe,nbv,vosp,manv,catv_Label,agg,com,dep,heure,...,col_Sans collision,col_Trois véhicules et plus - collisions multiples,col_Trois véhicules et plus – en chaîne,jour_de_la_semaine_Dimanche,jour_de_la_semaine_Jeudi,jour_de_la_semaine_Lundi,jour_de_la_semaine_Mardi,jour_de_la_semaine_Mercredi,jour_de_la_semaine_Samedi,jour_de_la_semaine_Vendredi
1437591,1.0,1,2.0,0,0.076566,0.003601,1,4.216885e-03,0.041958,16,...,0,0,0,1,0,0,0,0,0,0
2185543,10.0,1,2.0,0,0.455666,0.651106,1,5.236198e-06,0.011955,17,...,0,0,0,0,0,0,0,0,0,1
2183920,1.0,1,2.0,0,0.076566,0.034623,0,4.363499e-07,0.006636,16,...,1,0,0,0,0,0,0,1,0,0
108911,2.0,0,2.0,0,0.455666,0.084295,0,2.999469e-03,0.013070,6,...,0,0,0,1,0,0,0,0,0,0
1908583,1.0,1,2.0,0,0.455666,0.084295,1,1.412901e-03,0.003007,20,...,0,0,0,0,0,0,0,1,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1181438,1.0,1,4.0,0,0.109695,0.651106,0,1.321704e-03,0.012329,19,...,0,0,0,0,0,0,1,0,0,0
1397981,1.0,1,2.0,0,0.455666,0.651106,1,1.279814e-03,0.011668,6,...,0,0,0,0,0,0,0,0,1,0
624866,1.0,1,1.0,0,0.109695,0.071721,1,1.100474e-03,0.014841,12,...,0,0,0,0,1,0,0,0,0,0
882900,1.0,1,2.0,0,0.076566,0.084295,1,1.074730e-03,0.004123,0,...,0,0,0,1,0,0,0,0,0,0


In [70]:
y_train[pd.Index(oversampled_minority_indices).drop_duplicates()]

91137      Tué
1356597    Tué
1758289    Tué
986096     Tué
1702148    Tué
          ... 
2223896    Tué
1078791    Tué
1761826    Tué
421658     Tué
1493932    Tué
Name: grav, Length: 990, dtype: object

In [71]:
y_train[oversampled_minority_indices].index.duplicated().sum()

10

In [72]:
len(y_train)

1833391

## Création d'une fonction pour faire un oversampling en dupliquant aléatoirement des exemples de la classe minoritaire

In [73]:
def oversample_minority_class(X_train, y_train, subset_size):
    # Identification des indices des exemples de la classe minoritaire
    minority_indices = np.asarray(y_train[y_train == minority_class_label].index) 
    print(minority_indices)
    # Duplication aléatoire des exemples de la classe minoritaire
    oversampled_minority_indices = np.random.choice(minority_indices, size=subset_size, replace=True)
    oversampled_minority_indices = pd.Index(oversampled_minority_indices).drop_duplicates()
    print(oversampled_minority_indices)
    # Concaténation des exemples de la classe majoritaire et des exemples dupliqués de la classe minoritaire
    X_oversampled = np.concatenate((X_train, X_train[X_train.index.isin(oversampled_minority_indices)]))
    y_oversampled = np.concatenate((y_train, y_train[oversampled_minority_indices]))

    return X_oversampled, y_oversampled

In [74]:
# Création d'un sur-ensemble de données en utilisant l'oversampling

minority_class_label = 'Tué'
subset_size = 1000
X_oversampled, y_oversampled = oversample_minority_class(X_train, y_train, subset_size)

[ 708601 1902226 1914482 ... 1425498 1500968 2281988]
Int64Index([ 911079, 1768715, 1603360, 2248883, 1802477, 2289093, 1662322,
             947479,  557223,  842913,
            ...
             777268,  338919,  425265, 1074209, 1107935, 2058364,  454546,
            1861414,    2927, 1659915],
           dtype='int64', length=989)


In [75]:
X_oversampled

array([['2.0', 0, '2.0', ..., 0, 0, 1],
       ['1.0', 1, '4.0', ..., 0, 0, 1],
       ['2.0', 0, '0.0', ..., 0, 0, 0],
       ...,
       ['1.0', 1, '2.0', ..., 0, 0, 0],
       ['1.0', 0, '2.0', ..., 0, 0, 0],
       ['1.0', 0, '0.0', ..., 0, 0, 0]], dtype=object)

In [76]:
X_oversampled.shape

(1834380, 194)

In [77]:
y_oversampled

array(['Blessé léger', 'Indemne', 'Blessé léger', ..., 'Tué', 'Tué',
       'Tué'], dtype=object)

In [78]:
y_oversampled.shape

(1834380,)

In [79]:
# Utilisation d'un sous-ensemble de données pour réduire la taille

X_oversampled_subset = X_oversampled[:subset_size]
y_oversampled_subset = y_oversampled[:subset_size]

# Entrainement du modèle RandomForestClassifier

In [80]:
model = RandomForestClassifier(n_jobs= -1, random_state=42)

In [81]:
# Entraînement du modèle sur l'ensemble issu de l'OverSampling
from time import time
t0 = time()
model.fit(X_oversampled, y_oversampled)
t1 = time() - t0
print("Réalisé en {} secondes".format(round(t1,3)))

Réalisé en 565.712 secondes


<h1>Calcul des métriques d'évaluation</h1>

In [82]:
model.score(X_oversampled, y_oversampled)

0.99830024313392

In [83]:
# Calcul du taux de bonnes prédictions du modèle

model.score(X_test, y_test)



0.668777871835374

In [84]:
# Calcul des prédictions pour les données présentes dans l'ensemble de test

t0 = time()
y_pred = model.predict(X_test)
t1 = time() - t0
print("Réalisé en {} secondes".format(round(t1,3)))



Réalisé en 81.264 secondes


In [85]:
# Affichage de la matrice de confusion obtenue grâce aux prédictions sur l'ensemble de test

y_pred = model.predict(X_test)
print(pd.crosstab(y_test, y_pred, rownames=['Classe réelle'], colnames=['Classe prédite']))



Classe prédite      Blessé hospitalisé  Blessé léger  Indemne  Tué
Classe réelle                                                     
Blessé hospitalisé               42825         34438    15914  467
Blessé léger                     18760        104440    41690  152
Indemne                           7863         20689   158820  103
Tué                               7845          2216     1677  449


In [86]:
# Rapport de résultat sur l'ensemble de test obtenu par classification_report

print(classification_report(y_test, y_pred))

                    precision    recall  f1-score   support

Blessé hospitalisé       0.55      0.46      0.50     93644
      Blessé léger       0.65      0.63      0.64    165042
           Indemne       0.73      0.85      0.78    187475
               Tué       0.38      0.04      0.07     12187

          accuracy                           0.67    458348
         macro avg       0.58      0.49      0.50    458348
      weighted avg       0.65      0.67      0.65    458348



In [87]:
# Rapport de résultat sur l'ensemble de test obtenu par classification_report_imbalanced

print(classification_report_imbalanced(y_test, y_pred))

                          pre       rec       spe        f1       geo       iba       sup

Blessé hospitalisé       0.55      0.46      0.91      0.50      0.64      0.40     93644
      Blessé léger       0.65      0.63      0.80      0.64      0.71      0.50    165042
           Indemne       0.73      0.85      0.78      0.78      0.81      0.67    187475
               Tué       0.38      0.04      1.00      0.07      0.19      0.03     12187

       avg / total       0.65      0.67      0.82      0.65      0.73      0.53    458348



In [88]:
from imblearn.metrics import geometric_mean_score

geometric_mean_score(y_test, y_pred)

0.3082835064018133

In [89]:
from sklearn.metrics import balanced_accuracy_score

balanced_accuracy_score(y_test, y_pred)

0.49353029560997663

In [90]:
# Calcul des scores avec le sur-ensemble de données
from sklearn.model_selection import StratifiedKFold, cross_val_score

cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
model = RandomForestClassifier(n_jobs= -1, random_state=42)

score_oversampled = cross_val_score(model, X_oversampled_subset, y_oversampled_subset, 
                                    cv=cv, scoring='roc_auc_ovo', verbose=2, n_jobs=-1)

[Parallel(n_jobs=-1)]: Using backend LokyBackend with 8 concurrent workers.
[Parallel(n_jobs=-1)]: Done   2 out of   5 | elapsed:    3.6s remaining:    5.4s
[Parallel(n_jobs=-1)]: Done   5 out of   5 | elapsed:    3.6s finished


In [91]:
# Affichage des scores
print(f"scores ROC AUC OvO pour chaque pli avec oversampling : {score_oversampled}")
print(f"Moyenne des scores ROC AUC OvO avec oversampling : {score_oversampled.mean()}")

scores ROC AUC OvO pour chaque pli avec oversampling : [0.76639033 0.72766834 0.74864026 0.69957634 0.73008297]
Moyenne des scores ROC AUC OvO avec oversampling : 0.7344716493289594


# Conclusion générale

In [None]:
"""
Concernant les classes 1 (blessé léger) et 2 (Indemne), la précision et le rappel sont relativement satisfaisants.
Ces classes ont été relativement bien gérée par le modèle, celles-ci sont relativement bien détectées.
Touefois les résultats obtenus ne sont pas représentatifs.

Le F1-score est respectivement de 64 % et 78 % pour ces classes, toutefois la performance de bonnes prédictions
sur celles-ci est toute relative compte tenu du déséquilibre flagrant avec les autres classes, 
et tout particulièrement avec la classe 3 (Tué).

La précision et le rappel concernant la classe 3 (Tué), bien que sensiblement meilleurs par rapport au modèle
de Régression Logistique, sont toujours très faibles. Ils sont respectivement de 38 % et 4 %.
Cette classe qui est prioritaire dans notre étude n'est toujours pas bien gérée par le modèle RandomForestClassifier.

Concernant la classe 0 (blessé hospitalisé), la classe est moyennement bien détectée ce qui est clairement insuffisant.

Nous avons calculé la moyenne géometrique (geometric mean) qui s'avère utile pour les problèmes de classification
déséquilibrée : il s'agit de la racine du produit de la sensibilité et de la spécificité.
En outre, celle-ci est également faible. Le modèle n'est donc pas acceptable ainsi pour notre problème.

En conclusion, le modèle RandomForestClassifier avec la fonction d'oversampling qui a été implentée a permis d'améliorer
sensiblement les performances de notre modèle. Toutefois la marge de progression est encore significative
et la problématique de déséquilibre de classes est toujours bien présent.

Par la suite, je vais expérimenter un modèle de Deep Learning (DNN) sur la base d'un MLP, avec oversampling
et classification binaire qui devrait produire de bien meilleurs résultats.

"""