## Packages

In [1]:
import pandas as pd             # Traitement des tableaux de données 

# Chargement des données

In [2]:
full_data = pd.read_csv('Data/TEST/TEST/Full_Test_V3.csv', sep=',', low_memory=False)

In [3]:
full_data.head()

Unnamed: 0,Num_Acc,place,catu,sexe,trajet,an_nais,num_veh,id_vehicule_x,secu1,secu2,...,atm,col,dep,catr,circ,nbv,prof,plan,surf,situ
0,201200049538,1.0,1,0.0,1.0,1954.0,A01,,1.0,,...,1.0,4.0,93.0,1,1.0,4.0,2.0,1.0,1.0,1.0
1,201200049538,1.0,1,0.0,1.0,1968.0,C01,,1.0,,...,1.0,4.0,93.0,1,1.0,4.0,2.0,1.0,1.0,1.0
2,201200049538,1.0,1,0.0,2.0,1984.0,B01,,1.0,,...,1.0,4.0,93.0,1,1.0,4.0,2.0,1.0,1.0,1.0
3,201200004221,1.0,1,1.0,,1973.0,A01,,2.0,,...,1.0,6.0,46.0,3,2.0,2.0,2.0,1.0,1.0,1.0
4,201200002457,1.0,1,1.0,,1984.0,A01,,1.0,,...,1.0,1.0,85.0,3,2.0,,,1.0,1.0,1.0


## Traitement des données conformément à celui appliquer sur les données d'entraînement

On applique les mêmes traitements que ceux appliquer au set d'entraînement afin de conserver une homogénéité train/test assurrant au modèle de simplement travailler sur des valeurs inédites et non des formats.

### VEHICULES

- **senc** : manquement de 64100 valeurs.
- **catv** : manquement de 1 valeur.
- **obs** : manquement de 59 valeurs.
- **obsm** : manquement de 63 valeurs.
- **choc** : manquement de 37 valeurs.
- **manv** : manquement de 10955 valeurs.
- **occutc** : manquement de 48866 valeurs.

In [4]:
def convert_float_to_int(data_frame, col_name):
    data_frame[col_name] = data_frame[col_name].astype(int)
    
def convert_float_to_cat(data_frame, col_name):
    data_frame[col_name] = data_frame[col_name].astype(int)
    data_frame[col_name] = data_frame[col_name].astype('category')
    
def convert_str_to_cat(data_frame, col_name):
    data_frame[col_name] = data_frame[col_name].astype('category')
    
def convert_str_to_int(data_frame, col_name):
    data_frame[col_name] = data_frame[col_name].astype(int)

### senc

In [5]:
# Suppression de senc car trop vide
full_data.drop(labels=['senc'], axis=1, inplace=True)

### catv

In [6]:
# Harmonise les données
full_data['catv'] = full_data['catv'].replace([-1], pd.NA)

possible_values = full_data['catv'].unique()
na_count = full_data['catv'].isna().sum()
obs_count = full_data.shape[0]
rep_na = na_count / obs_count * 100

print(f"Les valeurs possibles sont : {possible_values}.")
print(f"Le nombre de valeurs manquantes/incorrectes est de : {na_count} pour un total de {obs_count} observations soit {rep_na}%.")

Les valeurs possibles sont : [7 33 30 10 38 1 15 14 2 34 36 32 99 31 40 37 39 17 13 3 35 21 20 16 43 50
 80 60 0 42 41 <NA>].
Le nombre de valeurs manquantes/incorrectes est de : 1 pour un total de 142422 observations soit 0.0007021387145244414%.


### obs

In [7]:
# Harmonise les données
full_data['obs'] = full_data['obs'].replace({-1: pd.NA}).fillna(pd.NA)

possible_values = full_data['obs'].unique()
na_count = full_data['obs'].isna().sum()
obs_count = full_data.shape[0]
rep_na = na_count / obs_count * 100

print(f"Les valeurs possibles sont : {possible_values}.")
print(f"Le nombre de valeurs manquantes/incorrectes est de : {na_count} pour un total de {obs_count} observations soit {rep_na}%.")

Les valeurs possibles sont : [0.0 16.0 13.0 4.0 2.0 10.0 1.0 12.0 7.0 3.0 15.0 8.0 14.0 9.0 6.0 11.0
 <NA> 5.0 17.0].
Le nombre de valeurs manquantes/incorrectes est de : 59 pour un total de 142422 observations soit 0.04142618415694205%.


### obsm

In [8]:
# Harmonise les données
full_data['obsm'] = full_data['obsm'].replace([-1], pd.NA).fillna(pd.NA)

possible_values = full_data['obsm'].unique()
na_count = full_data['obsm'].isna().sum()
obs_count = full_data.shape[0]
rep_na = na_count / obs_count * 100

print(f"Les valeurs possibles sont : {possible_values}.")
print(f"Le nombre de valeurs manquantes/incorrectes est de : {na_count} pour un total de {obs_count} observations soit {rep_na}%.")

Les valeurs possibles sont : [2.0 0.0 6.0 1.0 9.0 <NA> 5.0 4.0].
Le nombre de valeurs manquantes/incorrectes est de : 63 pour un total de 142422 observations soit 0.04423473901503981%.


### choc

In [9]:
# Harmonise les données
full_data['choc'] = full_data['choc'].replace({-1: pd.NA}).fillna(pd.NA)

possible_values = full_data['choc'].unique()
na_count = full_data['choc'].isna().sum()
obs_count = full_data.shape[0]
rep_na = na_count / obs_count * 100

print(f"Les valeurs possibles sont : {possible_values}.")
print(f"Le nombre de valeurs manquantes/incorrectes est de : {na_count} pour un total de {obs_count} observations soit {rep_na}%.")

Les valeurs possibles sont : [4.0 5.0 1.0 3.0 9.0 7.0 2.0 8.0 6.0 0.0 <NA>].
Le nombre de valeurs manquantes/incorrectes est de : 37 pour un total de 142422 observations soit 0.025979132437404337%.


### manv

In [10]:
# Harmonise les données
full_data['manv'] = full_data['manv'].replace([-1, 0], pd.NA).fillna(pd.NA)

possible_values = full_data['manv'].unique()
na_count = full_data['manv'].isna().sum()
obs_count = full_data.shape[0]
rep_na = na_count / obs_count * 100

print(f"Les valeurs possibles sont : {possible_values}.")
print(f"Le nombre de valeurs manquantes/incorrectes est de : {na_count} pour un total de {obs_count} observations soit {rep_na}%.")

Les valeurs possibles sont : [2.0 1.0 15.0 17.0 <NA> 19.0 9.0 23.0 13.0 21.0 14.0 16.0 20.0 5.0 6.0
 22.0 18.0 3.0 12.0 11.0 10.0 7.0 4.0 24.0 8.0 26.0 25.0].
Le nombre de valeurs manquantes/incorrectes est de : 10955 pour un total de 142422 observations soit 7.691929617615257%.


### motor

In [11]:
# Suppression de la colonne motor 
full_data.drop(labels=['motor'], axis=1, inplace=True)

### occutc

In [12]:
# Harmonise les données
full_data['manv'] = full_data['manv'].fillna(pd.NA)

possible_values = full_data['occutc'].unique()
na_count = full_data['occutc'].isna().sum()
obs_count = full_data.shape[0]
rep_na = na_count / obs_count * 100

print(f"Les valeurs possibles sont : {possible_values}.")
print(f"Le nombre de valeurs manquantes/incorrectes est de : {na_count} pour un total de {obs_count} observations soit {rep_na}%.")

Les valeurs possibles sont : [  0.   1.   6.  15.  10.  50.  36.  23.   2.  59.  76.  49.   4.  96.
  33.  20.  35.  25.  40.   3.  17.  13.   5.  80.  16.  21.   7.  24.
  52.   8.  32.  42.  27.  30.  39.  45.  48.  70.  54.  12. 119.   9.
 150.  11.  28. 140.  66.  44. 100.  47.  53.  77.  nan  22.].
Le nombre de valeurs manquantes/incorrectes est de : 48866 pour un total de 142422 observations soit 34.310710423951356%.


In [13]:
# Suppression de la colonne motor 
full_data.drop(labels=['id_vehicule_x', 'id_vehicule_y', 'id_usager', 'num_veh'], axis=1, inplace=True)

In [14]:
full_data.to_csv('Data/TEST/TEST/Full_Test_V4.csv', index=False)

In [15]:
full_data.shape

(142422, 32)