## Packages

In [1]:
import pandas as pd             # Traitement des tableaux de données 

# Chargement des données

In [2]:
full_data = pd.read_csv('Data/TEST/TEST/Full_Test_V1.csv', sep=',', low_memory=False)

In [3]:
full_data.head()

Unnamed: 0,Num_Acc,place,catu,sexe,trajet,an_nais,num_veh,id_vehicule_x,secu1,secu2,...,vosp,prof,plan,lartpc,larrout,surf,infra,situ,env1,vma
0,201200049538,1.0,1,0.0,1.0,1954.0,A01,,1.0,,...,0.0,2.0,1.0,15.0,35.0,1.0,1.0,1.0,99.0,
1,201200049538,1.0,1,0.0,1.0,1968.0,C01,,1.0,,...,0.0,2.0,1.0,15.0,35.0,1.0,1.0,1.0,99.0,
2,201200049538,1.0,1,0.0,2.0,1984.0,B01,,1.0,,...,0.0,2.0,1.0,15.0,35.0,1.0,1.0,1.0,99.0,
3,201200004221,1.0,1,1.0,,1973.0,A01,,2.0,,...,0.0,2.0,1.0,0.0,45.0,1.0,0.0,1.0,99.0,
4,201200002457,1.0,1,1.0,,1984.0,A01,,1.0,,...,0.0,0.0,1.0,0.0,65.0,1.0,5.0,1.0,99.0,


## Traitement des données conformément à celui appliquer sur les données d'entraînement

On applique les mêmes traitements que ceux appliquer au set d'entraînement afin de conserver une homogénéité train/test assurrant au modèle de simplement travailler sur des valeurs inédites et non des formats.

### LIEUX

- **catr** : manquement de 0 valeur.
- **circ** : manquement de 7936 valeurs.
- **nbv** : manquement de 11626 valeurs.
- **prof** : manquement de 6266 valeurs.
- **plan** : manquement de 7299 valeurs.
- **surf** : manquement de 3341 valeurs.
- **situ** : manquement de 5530 valeurs.

In [4]:
def convert_float_to_int(data_frame, col_name):
    data_frame[col_name] = data_frame[col_name].astype(int)
    
def convert_float_to_cat(data_frame, col_name):
    data_frame[col_name] = data_frame[col_name].astype(int)
    data_frame[col_name] = data_frame[col_name].astype('category')
    
def convert_str_to_cat(data_frame, col_name):
    data_frame[col_name] = data_frame[col_name].astype('category')
    
def convert_str_to_int(data_frame, col_name):
    data_frame[col_name] = data_frame[col_name].astype(int)

### catr

In [5]:
possible_values = full_data['catr'].unique()
na_count = full_data['catr'].isna().sum()
obs_count = full_data.shape[0]
rep_na = na_count / obs_count * 100

print(f"Les valeurs possibles sont : {possible_values}.")
print(f"Le nombre de valeurs manquantes/incorrectes est de : {na_count} pour un total de {obs_count} observations soit {rep_na}%.")

Les valeurs possibles sont : [1 3 4 9 2 6 5 7].
Le nombre de valeurs manquantes/incorrectes est de : 0 pour un total de 142422 observations soit 0.0%.


### voie, v1, v2

In [6]:
# Suppression des colonnes voie, v1, v2 
full_data.drop(labels=['voie', 'v1', 'v2'], axis=1, inplace=True)

### circ

In [7]:
# Harmonise les données
full_data['circ'] = full_data['circ'].replace([-1, 0], pd.NA).fillna(pd.NA)

possible_values = full_data['circ'].unique()
na_count = full_data['circ'].isna().sum()
obs_count = full_data.shape[0]
rep_na = na_count / obs_count * 100

print(f"Les valeurs possibles sont : {possible_values}.")
print(f"Le nombre de valeurs manquantes/incorrectes est de : {na_count} pour un total de {obs_count} observations soit {rep_na}%.")

Les valeurs possibles sont : [1.0 2.0 3.0 <NA> 4.0].
Le nombre de valeurs manquantes/incorrectes est de : 7936 pour un total de 142422 observations soit 5.572172838465967%.


#### nbv

In [8]:
# Harmonisation des données
replace_dict = [-1., 0.0]

full_data['nbv'] = full_data['nbv'].replace(replace_dict, pd.NA).fillna(pd.NA)


possible_values = full_data['nbv'].unique()
na_count = full_data['nbv'].isna().sum()
obs_count = full_data.shape[0]
rep_na = na_count / obs_count * 100

print(f"Les valeurs possibles sont : {possible_values}.")
print(f"Le nombre de valeurs manquantes/incorrectes est de : {na_count} pour un total de {obs_count} observations soit {rep_na}%.")

Les valeurs possibles sont : [4.0 2.0 <NA> 1.0 5.0 3.0 6.0 10.0 8.0 7.0 9.0 11.0 12.0 13.0].
Le nombre de valeurs manquantes/incorrectes est de : 11626 pour un total de 142422 observations soit 8.163064695061156%.


### vosp

In [9]:
# Suppression de la colonne vosp
full_data.drop(labels=['vosp'], axis=1, inplace=True)

### prof

In [10]:
# Harmonisation des données
full_data['prof'] = full_data['prof'].replace([-1, 0], pd.NA).fillna(pd.NA)

possible_values = full_data['prof'].unique()
na_count = full_data['prof'].isna().sum()
obs_count = full_data.shape[0]
rep_na = na_count / obs_count * 100

print(f"Les valeurs possibles sont : {possible_values}.")
print(f"Le nombre de valeurs manquantes/incorrectes est de : {na_count} pour un total de {obs_count} observations soit {rep_na}%.")

Les valeurs possibles sont : [2.0 <NA> 1.0 4.0 3.0].
Le nombre de valeurs manquantes/incorrectes est de : 6266 pour un total de 142422 observations soit 4.39960118521015%.


### pr, pr1

In [11]:
# Suppression des colonnes pr, pr1
full_data.drop(labels=['pr', 'pr1'], axis=1, inplace=True)

### plan

In [12]:
# Harmonisation des données
full_data['plan'] = full_data['plan'].replace([-1, 0], pd.NA).fillna(pd.NA)

possible_values = full_data['plan'].unique()
na_count = full_data['plan'].isna().sum()
obs_count = full_data.shape[0]
rep_na = na_count / obs_count * 100

print(f"Les valeurs possibles sont : {possible_values}.")
print(f"Le nombre de valeurs manquantes/incorrectes est de : {na_count} pour un total de {obs_count} observations soit {rep_na}%.")

Les valeurs possibles sont : [1.0 2.0 3.0 <NA> 4.0].
Le nombre de valeurs manquantes/incorrectes est de : 7299 pour un total de 142422 observations soit 5.124910477313898%.


### lartpc, larrout

In [13]:
# Suppression des colonnes lartpc, larrout
full_data.drop(labels=['lartpc', 'larrout'], axis=1, inplace=True)

### surf

In [14]:
# Harmonisation des données
full_data['surf'] = full_data['surf'].replace([-1, 0], pd.NA).fillna(pd.NA)

possible_values = full_data['surf'].unique()
na_count = full_data['surf'].isna().sum()
obs_count = full_data.shape[0]
rep_na = na_count / obs_count * 100

print(f"Les valeurs possibles sont : {possible_values}.")
print(f"Le nombre de valeurs manquantes/incorrectes est de : {na_count} pour un total de {obs_count} observations soit {rep_na}%.")

Les valeurs possibles sont : [1.0 2.0 <NA> 7.0 8.0 3.0 9.0 5.0 6.0 4.0].
Le nombre de valeurs manquantes/incorrectes est de : 3341 pour un total de 142422 observations soit 2.345845445226159%.


### infra

In [15]:
# Suppression de la colonne infra
full_data.drop(labels=['infra'], axis=1, inplace=True)

#### situ

In [16]:
# Harmonisation des données
full_data['situ'] = full_data['situ'].replace([-1, 0], pd.NA).fillna(pd.NA)

possible_values = full_data['situ'].unique()
na_count = full_data['situ'].isna().sum()
obs_count = full_data.shape[0]
rep_na = na_count / obs_count * 100

print(f"Les valeurs possibles sont : {possible_values}.")
print(f"Le nombre de valeurs manquantes/incorrectes est de : {na_count} pour un total de {obs_count} observations soit {rep_na}%.")

Les valeurs possibles sont : [1.0 3.0 <NA> 2.0 4.0 5.0 6.0 8.0].
Le nombre de valeurs manquantes/incorrectes est de : 5530 pour un total de 142422 observations soit 3.882827091320161%.


### vma, env1

In [17]:
# Suppression des colonnes vma, env1
full_data.drop(labels=['vma', 'env1'], axis=1, inplace=True)

In [18]:
full_data.to_csv('Data/TEST/TEST/Full_Test_V2.csv', index=False)

In [19]:
full_data.shape

(142422, 43)