## Packages 

In [1]:
import pandas as pd

# Training Set

In [2]:
# Chargement du jeu de données 
train_data = pd.read_csv('Data/TRAIN_FULL/BAAC_2012_to_2022_V4_to_V4.csv', low_memory=False)

train_data.head()

Unnamed: 0,place,catu,grav,sexe,trajet,an_nais,catv,occutc,obs,obsm,...,catr,circ,nbv,prof,plan,surf,situ,secu1,secu2,secu3
0,1,1,0,1,5,1994,7,0,0,2,...,3,2,2,1,1,1,1,8,8,8
1,2,2,0,1,9,1992,7,0,0,2,...,3,2,2,1,1,1,1,1,8,8
2,1,1,0,1,5,1976,33,0,0,2,...,3,2,2,1,1,1,1,2,8,8
3,2,2,1,0,9,1972,33,0,0,2,...,3,2,2,1,1,1,1,2,8,8
4,1,1,0,0,5,1962,7,0,0,2,...,3,2,2,1,3,1,1,1,8,8


In [3]:
train_data.shape

(581730, 32)

# Test set

In [7]:
# Chargement du jeu de données 
test_data = pd.read_csv('Data/TEST/TEST/Full_Test_V4.csv', low_memory=False)

test_data.head()

Unnamed: 0,Num_Acc,place,catu,sexe,trajet,an_nais,secu1,secu2,secu3,catv,...,atm,col,dep,catr,circ,nbv,prof,plan,surf,situ
0,201200049538,1.0,1,0.0,1.0,1954.0,1.0,,,7.0,...,1.0,4.0,93.0,1,1.0,4.0,2.0,1.0,1.0,1.0
1,201200049538,1.0,1,0.0,1.0,1968.0,1.0,,,7.0,...,1.0,4.0,93.0,1,1.0,4.0,2.0,1.0,1.0,1.0
2,201200049538,1.0,1,0.0,2.0,1984.0,1.0,,,7.0,...,1.0,4.0,93.0,1,1.0,4.0,2.0,1.0,1.0,1.0
3,201200004221,1.0,1,1.0,,1973.0,2.0,,,33.0,...,1.0,6.0,46.0,3,2.0,2.0,2.0,1.0,1.0,1.0
4,201200002457,1.0,1,1.0,,1984.0,1.0,,,7.0,...,1.0,1.0,85.0,3,2.0,,,1.0,1.0,1.0


In [8]:
test_data.shape

(142422, 32)

## Définition des types de variables

Afin de construire notre modèle, il faut récupérer les variables catégorielles, ordinales et numériques. Cela a été réalisé précédemment, cependant, ces modifications de types sont perdus lors de l'écriture des "*.csv*". Ainsi, il faut redéfinir ces types pour s'assurer que le modèle se construise proprement. On notera l'absence de valeur dite ordinale.

In [9]:
list_var_num = ['occutc', 'nbv']
list_var_cat = [elm for elm in train_data.columns if elm not in list_var_num]

Par défaut, les valeurs sont des **"int"**, ainsi les valeurs numériques n'ont pas besoin d'être parsées. Nous "catégoriserons" donc uniquement les valeurs catégorielles.

In [10]:
for col_name in list_var_cat:
    train_data[col_name] = train_data[col_name].astype('category')   
    
    if col_name in test_data.columns:
        test_data[col_name] = test_data[col_name].astype('category')

Nous pouvons observer que le jeu de données est désormais séparé en variables catégorielles homogènes ou bien en variables numériques.

In [11]:
train_data.head()

Unnamed: 0,place,catu,grav,sexe,trajet,an_nais,catv,occutc,obs,obsm,...,catr,circ,nbv,prof,plan,surf,situ,secu1,secu2,secu3
0,1,1,0,1,5,1994,7,0,0,2,...,3,2,2,1,1,1,1,8,8,8
1,2,2,0,1,9,1992,7,0,0,2,...,3,2,2,1,1,1,1,1,8,8
2,1,1,0,1,5,1976,33,0,0,2,...,3,2,2,1,1,1,1,2,8,8
3,2,2,1,0,9,1972,33,0,0,2,...,3,2,2,1,1,1,1,2,8,8
4,1,1,0,0,5,1962,7,0,0,2,...,3,2,2,1,3,1,1,1,8,8


In [12]:
test_data.head()

Unnamed: 0,Num_Acc,place,catu,sexe,trajet,an_nais,secu1,secu2,secu3,catv,...,atm,col,dep,catr,circ,nbv,prof,plan,surf,situ
0,201200049538,1.0,1,0.0,1.0,1954.0,1.0,,,7.0,...,1.0,4.0,93.0,1,1.0,4.0,2.0,1.0,1.0,1.0
1,201200049538,1.0,1,0.0,1.0,1968.0,1.0,,,7.0,...,1.0,4.0,93.0,1,1.0,4.0,2.0,1.0,1.0,1.0
2,201200049538,1.0,1,0.0,2.0,1984.0,1.0,,,7.0,...,1.0,4.0,93.0,1,1.0,4.0,2.0,1.0,1.0,1.0
3,201200004221,1.0,1,1.0,,1973.0,2.0,,,33.0,...,1.0,6.0,46.0,3,2.0,2.0,2.0,1.0,1.0,1.0
4,201200002457,1.0,1,1.0,,1984.0,1.0,,,7.0,...,1.0,1.0,85.0,3,2.0,,,1.0,1.0,1.0


# Complétion des valeurs manquantes du jeu de données test

Utilisation de la technique des plus proches voisins pour compléter les valeurs manquantes.

Pour cela, il faudra :
- Importer le package de sci-kit learn
- Préparer les deux jeux de données :
    - Il ne faut pas utiliser la colonne 'grav' pour le train set
    - Il ne faut pas avoir de 'Num_acc' pour le test set

In [14]:
test_data.columns

Index(['Num_Acc', 'place', 'catu', 'sexe', 'trajet', 'an_nais', 'secu1',
       'secu2', 'secu3', 'catv', 'occutc', 'obs', 'obsm', 'choc', 'manv', 'an',
       'mois', 'jour', 'hrmn', 'lum', 'agg', 'int', 'atm', 'col', 'dep',
       'catr', 'circ', 'nbv', 'prof', 'plan', 'surf', 'situ'],
      dtype='object')

In [ ]:
from sklearn.impute import KNNImputer

# Variables catégorielles
cat_cols = ['place', 'catu', 'sexe', 'trajet', 'catv', 'obs', 'obsm', 'choc', 'manv', 'an', 'mois', 'jour',
            'hrmn', 'lum', 'agg', 'int', 'atm', 'col', 'dep', 'catr', 'circ', 'prof', 'plan', 'surf', 'situ',
            'secu1', 'secu2', 'secu3']

# Créer une instance de KNNImputer en utilisant les données de train_data comme modèle
imputer = KNNImputer(n_neighbors=5)

# Appliquer l'imputation KNN sur test_data en utilisant les valeurs présentes dans train_data
test_data_imputed_cat = imputer.fit(train_data[cat_cols]).transform(test_data[cat_cols])

# Recréer un DataFrame avec les valeurs imputées pour les variables catégorielles
test_data_imputed_cat = pd.DataFrame(test_data_imputed_cat, columns=cat_cols)

# Concaténer les variables catégorielles imputées avec les variables numériques
test_data_imputed = pd.concat([test_data_imputed_cat, test_data[['occutc', 'nbv']]], axis=1)


In [ ]:
test_data_imputed.isnull().sum().sum()

In [ ]:
test_data_imputed.to_csv('Data/TEST/TEST/Full_Test_Completed.csv', index=False)

## Réflexion autour du modèle à utiliser

Dans un premier temps, on construit un système extrêmement naïf autour d'un classifieur performant au sens de l'AUC.

In [16]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score

# Prétraitement des données (encodage des variables catégorielles, gestion des valeurs manquantes, etc.)
# X représente vos variables prédictives, y représente la variable à prédire ('grav')
X = full_data.drop('grav', axis=1)
y = full_data['grav']

# Diviser les données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Initialiser et entraîner le modèle de régression logistique
model = LogisticRegression(max_iter=1000000)
model.fit(X_train, y_train)

# Faire des prédictions de probabilité sur l'ensemble de test
probabilities = model.predict_proba(X_test)[:, 1]

# Calculer l'AUC
auc = roc_auc_score(y_test, probabilities)
print("AUC:", auc)


AUC: 0.7359990620227089
