## Packages

In [46]:
import pandas as pd             # Traitement des tableaux de données 

whole_data = pd.read_csv('Data/TRAIN_FULL/BAAC_2012_full.csv')

# Pré-Traitement des données - USAGERS

L'objectif sera ici de comprendre les données pour chaque variables, de pouvoir les expliquer ainsi que des les classer en type de variable (catégorielle, ordinale ou numérique). De plus, si une variable manque de pertinence, il est possible de la supprimer.

In [47]:
var_cat = []
var_ord = []
var_num = []

whole_data.head(100)

Unnamed: 0,Num_Acc,place,catu,grav,sexe,trajet,secu,locp,actp,etatp,...,pr1,vosp,prof,plan,lartpc,larrout,surf,infra,situ,env1
0,201200000001,1.0,1,1,2,5.0,11.0,0.0,0.0,0.0,...,875.0,0.0,1.0,1.0,0.0,72.0,1.0,0.0,1.0,0.0
1,201200000001,,3,4,1,5.0,,3.0,3.0,2.0,...,875.0,0.0,1.0,1.0,0.0,72.0,1.0,0.0,1.0,0.0
2,201200000002,1.0,1,1,1,5.0,13.0,0.0,0.0,0.0,...,250.0,0.0,1.0,1.0,0.0,65.0,1.0,0.0,1.0,99.0
3,201200000002,2.0,2,1,1,0.0,11.0,0.0,0.0,0.0,...,250.0,0.0,1.0,1.0,0.0,65.0,1.0,0.0,1.0,99.0
4,201200000002,1.0,1,1,1,5.0,21.0,0.0,0.0,0.0,...,250.0,0.0,1.0,1.0,0.0,65.0,1.0,0.0,1.0,99.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
95,201200000048,1.0,1,3,1,5.0,11.0,0.0,0.0,0.0,...,700.0,2.0,1.0,1.0,0.0,68.0,1.0,0.0,1.0,0.0
96,201200000048,2.0,2,2,2,0.0,11.0,0.0,0.0,0.0,...,700.0,2.0,1.0,1.0,0.0,68.0,1.0,0.0,1.0,0.0
97,201200000048,2.0,2,3,2,0.0,11.0,0.0,0.0,0.0,...,700.0,2.0,1.0,1.0,0.0,68.0,1.0,0.0,1.0,0.0
98,201200000048,4.0,2,3,2,0.0,11.0,0.0,0.0,0.0,...,700.0,2.0,1.0,1.0,0.0,68.0,1.0,0.0,1.0,0.0


### Num_Acc, num_veh & id_vehicule

Identifiant de l'accident. Valeur vitale pour joindre les données. Cependant, au-delà de la fusion des données, ce numéro n'apporte rien en matière de prédiction. En effet, il est générique et ne transmet pas d'information complémentaire. On se demande alors s'il ne vaudrait pas mieux le supprimer. Dans ce cas là, on décide de ne pas stocker cette colonne dans l'une des listes traduisant son abandon, car on ne conservera que les variables stockées. 

In [48]:
print(f"Le nombre d'observations avec une absence d'identifiant d'accidant est de : {whole_data['Num_Acc'].isna().sum()}.")
print(f"Le nombre d'observations unique d'identifiant d'accidant est de : {whole_data['Num_Acc'].nunique()}.")

Le nombre d'observations avec une absence d'identifiant d'accidant est de : 0.
Le nombre d'observations unique d'identifiant d'accidant est de : 56025.


De la même manière, le numéro du véhicule ne semble pas particulièrement pertinent pour la construction d'un modèle de prédiction. Etant donné qu'il n'apporte pas d'informations sur le type de véhicule, et qu'il est propre à un accident et non à un référentiel global, on préfère écarter cette situation.

In [49]:
print(f"Le nombre d'observations avec une absence de veh est de : {whole_data['num_veh'].isna().sum()}.")
print(f"Le nombre de veh unique parmi tous les accidents est de : {whole_data['num_veh'].nunique()}.")

Le nombre d'observations avec une absence de veh est de : 0.
Le nombre de veh unique parmi tous les accidents est de : 58.


La variable **"*id_vehicule*"** n'est pas apparue dès le début. En effet, il a fallu attendre l'an 2019 pour la voir apparaître. Cependant, il s'avère que cette dernière correpsond au numéro veh au format numérique et non alpha. On décidera donc de ne pas le retenir si elle est présente.

### grav

Etant la colonne à prédire, il est évident que nous souhaitons conserver cette dernière. Nous nous penchons sur la qualité de cette dernière :

In [50]:
# On catégorise l'accident, mais sans avoir d'ordre (4 > 2 mais, gravité 4 implique un blessé léger, tandis que catégorie 2 implique un tué). Cela est donc une variable catégorielle
variable = 'grav'

if variable not in var_cat:
    var_cat.append(variable)

possible_values_grav = whole_data['grav'].unique()
na_count_grav = whole_data['grav'].isna().sum()
obs_count = whole_data.shape[0]
rep_na_grav = na_count_grav / obs_count * 100

print(f"Les valeurs possibles sont : {possible_values_grav}.")
print(f"Le nombre de valeurs manquantes est de : {na_count_grav} pour un total de {obs_count} observations soit {rep_na_grav}%.")

Les valeurs possibles sont : [1 4 3 2].
Le nombre de valeurs manquantes est de : 0 pour un total de 124598 observations soit 0.0%.


Tout semble en bon état, les valeurs possibles respectent la documentation. Cependant, dans l'exercice de prédiction, il est demandé de convertir cette colonne en binaire (**'*0*'** pour les cas sans dangers [1, 4] et **'*1*'** pour les cas graves [2, 3]) : 

In [51]:
whole_data['grav'] = whole_data['grav'].replace({1: 0, 4: 0, 2: 1, 3: 1})

possible_values_grav_2 = whole_data['grav'].unique()

print(f"Les nouvelles valeurs possibles sont : {possible_values_grav_2}.")

Les nouvelles valeurs possibles sont : [0 1].


### sexe

Certaines études ont pu démontrer des disparités dans les comportements de conduite entre les différents sexes. Nous conservons cette donnée dans l'éventualité où une corrélation existerait entre le sexe, le statut de conducteur et la gravité :

In [52]:
# On catégorise le sexe sans relation de supériorité. Cela est donc une variable catégorielle
variable = 'sexe'

if variable not in var_cat:
    var_cat.append(variable)
    
possible_values_sexe = whole_data['sexe'].unique()
na_count_sexe = whole_data['sexe'].isna().sum()
rep_na_sexe = na_count_sexe / obs_count * 100

print(f"Les valeurs possibles sont : {possible_values_sexe}.")
print(f"Le nombre de valeurs manquantes est de : {na_count_sexe} pour un total de {obs_count} observations soit {rep_na_sexe}%.")

Les valeurs possibles sont : [2 1].
Le nombre de valeurs manquantes est de : 0 pour un total de 124598 observations soit 0.0%.


### An_nais

On dispose ici de l'année de naissance et cette donnée semble pertinente. En effet, en fonction des générations, des politiques de sensibilisation plus ou moins importantes furent appliquées amenant à de potentielles disparités en matière de comportements routiers :

In [53]:
# Pour la première fois, nous faisons face à une valeur numérique
variable = 'an_nais'

if variable not in var_cat:
    var_num.append(variable)
    
possible_values_nais = whole_data['an_nais'].unique()
na_count_nais = whole_data['an_nais'].isna().sum()
rep_na_nais = na_count_nais / obs_count * 100

print(f"Les valeurs possibles sont : {possible_values_nais}.")
print(f"Le nombre de valeurs manquantes est de : {na_count_nais} pour un total de {obs_count} observations soit {rep_na_nais:.2f}%.")

Les valeurs possibles sont : [1939. 2008. 1994. 1992. 1976. 1972. 1962. 1955. 1956. 1990. 1982. 1960.
 1981. 2002. 1997. 1967. 1929. 1926. 1970. 1987. 1989. 1988. 2000. 1978.
 1966. 1948. 1959. 1950. 1949. 1961. 1979. 1973. 1927. 1986. 1946. 1995.
 1993. 1964. 1996. 1935. 1957. 1977. 1953. 1991. 2005. 1947. 1958. 1999.
 1954. 1971. 1934. 1945. 1985. 1969. 1943. 1944. 2001. 2004. 1983. 1965.
 1975. 2007. 1974. 1984. 1951. 2006. 1937. 1980. 1931. 1968. 1998. 1930.
 2010. 1963. 1952. 1942. 2012. 2009. 2011. 2003. 1925. 1941. 1933. 1936.
 1940. 1923. 1919. 1938. 1928. 1924. 1922. 1920. 1932. 1921. 1917. 1916.
 1918. 1915. 1914. 1913.   nan 1912. 1911.].
Le nombre de valeurs manquantes est de : 9 pour un total de 124598 observations soit 0.01%.


Au vu de la très faible quantité de données manquantes et de la très large quantité de données, on s'autorise une suppression de ces lignes :

In [54]:
whole_data.dropna(subset=['an_nais'], inplace=True)

possible_values_nais_2 = whole_data['an_nais'].unique()
na_count_nais_2 = whole_data['an_nais'].isna().sum()
obs_count = whole_data.shape[0]
rep_na_nais_2 = na_count_nais / obs_count * 100

print(f"Les valeurs possibles sont : {possible_values_nais_2}.")
print(f"Le nombre de valeurs manquantes est de : {na_count_nais_2} pour un total de {obs_count} observations soit {rep_na_nais_2:.2f}%.")

Les valeurs possibles sont : [1939. 2008. 1994. 1992. 1976. 1972. 1962. 1955. 1956. 1990. 1982. 1960.
 1981. 2002. 1997. 1967. 1929. 1926. 1970. 1987. 1989. 1988. 2000. 1978.
 1966. 1948. 1959. 1950. 1949. 1961. 1979. 1973. 1927. 1986. 1946. 1995.
 1993. 1964. 1996. 1935. 1957. 1977. 1953. 1991. 2005. 1947. 1958. 1999.
 1954. 1971. 1934. 1945. 1985. 1969. 1943. 1944. 2001. 2004. 1983. 1965.
 1975. 2007. 1974. 1984. 1951. 2006. 1937. 1980. 1931. 1968. 1998. 1930.
 2010. 1963. 1952. 1942. 2012. 2009. 2011. 2003. 1925. 1941. 1933. 1936.
 1940. 1923. 1919. 1938. 1928. 1924. 1922. 1920. 1932. 1921. 1917. 1916.
 1918. 1915. 1914. 1913. 1912. 1911.].
Le nombre de valeurs manquantes est de : 0 pour un total de 124589 observations soit 0.01%.


### trajet

Cette variable nous informe sur le motif du déplacement au moment de l'accident. Cela peut renvoyer au trajet entre le domicile et le travail, une promenade, etc. Il se pourrait qu'une corrélation existe entre des trajets récurrents et une augmentation des accidents. En effet, conformément au code de la route, il est indiqué qu'une baisse de la concentration est observée dans les trajets quotidiens.

Afin de normaliser les différentes valeurs, nous nous penchons sur la documentation. Conformément au document de 2005 à 2020 nous disposons des valeurs suivantes : [**-1**, **0**, **1**, **2**, **3**, **4**, **5**, **9**]. Cependant, le document de 2005 à 2018, les valeurs sont différentes : [**1**, **2**, **3**, **4**, **5**, **9**]. Les valeurs suivantes : [**1**, **2**, **3**, **4**, **5**, **9**] sont les mêmes pour les deux référentiels. Néanmoins, les valeurs [**-1**, **0**, **9**] présentent au sein du document de 2005 à 2020 n'apportent pas davantage d'information. Afin de pouvoir traiter avec pertinences ces informations et de manière cohérente, on remplacera les valeurs [**-1**, **0**, **nan**] par [**9**].

In [55]:
# On catégorise le type de trajet sans relation de supériorité entre ces derniers. Cela est donc une variable catégorielle
variable = 'trajet'

if variable not in var_cat:
    var_cat.append(variable)
    
possible_values_trajet = whole_data['trajet'].unique()
na_count_trajet = whole_data['trajet'].isna().sum()
rep_na_trajet = na_count_trajet / obs_count * 100

print(f"Les valeurs possibles sont : {possible_values_trajet}.")
print(f"Le nombre de valeurs manquantes est de : {na_count_trajet} pour un total de {obs_count} observations soit {rep_na_trajet:.2f}%.")

Les valeurs possibles sont : [ 5.  0.  3.  1.  4.  2.  9. nan].
Le nombre de valeurs manquantes est de : 53 pour un total de 124589 observations soit 0.04%.


In [56]:
whole_data['trajet'] = whole_data['trajet'].replace({-1: 9, 0: 9})
whole_data['trajet'] = whole_data['trajet'].fillna(9)

possible_values_trajet_2 = whole_data['trajet'].unique()
na_count_trajet_2 = whole_data['trajet'].isna().sum()
rep_na_trajet_2 = na_count_trajet_2 / obs_count * 100

print(f"Les valeurs possibles sont : {possible_values_trajet_2}.")
print(f"Le nombre de valeurs manquantes est de : {na_count_trajet_2} pour un total de {obs_count} observations soit {rep_na_trajet_2}%.")

Les valeurs possibles sont : [5. 9. 3. 1. 4. 2.].
Le nombre de valeurs manquantes est de : 0 pour un total de 124589 observations soit 0.0%.


### locp

Permet de localiser la position du piéton ce qui est une information importante. En effet, un piéton qui traverse sur un passage piéton sans signalisation lumineuse aura plus de chance de subir des lésions graves, voire plus qu'un piéton sur un trottoir par exemple. Cependant, en fonction des années, les valeurs peuvent changer pour ce qui est des assignations.

De 2005 à 2018, les valeurs possibles sont les suivantes : [**1**, **2**, **3**, **4**, **5**, **6**, **7**, **8**]. Ces valeurs correspondent aux mêmes situations pour celles de 2005 à 2020, cependant **'*3*'** nouvelles catégories sont apparues : [**-1**, **0**, **1**, **2**, **3**, **4**, **5**, **6**, **7**, **8**, **9**]. Globalement, [**-1**, **0**, **9**] traduisent une absence d'information précise sur la position dudit piéton. On pourra ainsi définir que nos valeurs possibles seront les suivantes : [**1**, **2**, **3**, **4**, **5**, **6**, **7**, **8**, **9**] où [**-1**, **0**, **nan**] prendront la valeur [**9**] :

In [57]:
# On catégorise la position du piéton sans relation de supériorité entre ces derniers. Cela est donc une variable catégorielle
variable = 'locp'

if variable not in var_cat:
    var_cat.append(variable)
    
possible_values_locp = whole_data['locp'].unique()
na_count_locp = whole_data['locp'].isna().sum()
rep_na_locp = na_count_locp / obs_count * 100

print(f"Les valeurs possibles sont : {possible_values_locp}.")
print(f"Le nombre de valeurs manquantes est de : {na_count_locp} pour un total de {obs_count} observations soit {rep_na_locp:.2f}%.")

Les valeurs possibles sont : [ 0.  3.  4.  2.  1.  5.  6. nan  8.  7.].
Le nombre de valeurs manquantes est de : 135 pour un total de 124589 observations soit 0.11%.


In [58]:
whole_data['locp'] = whole_data['locp'].replace({-1: 9, 0: 9})
whole_data['locp'] = whole_data['locp'].fillna(9)

possible_values_locp_2 = whole_data['locp'].unique()
na_count_locp_2 = whole_data['locp'].isna().sum()
rep_na_locp_2 = na_count_locp_2 / obs_count * 100

print(f"Les valeurs possibles sont : {possible_values_locp_2}.")
print(f"Le nombre de valeurs manquantes est de : {na_count_locp_2} pour un total de {obs_count} observations soit {rep_na_locp_2}%.")

Les valeurs possibles sont : [9. 3. 4. 2. 1. 5. 6. 8. 7.].
Le nombre de valeurs manquantes est de : 0 pour un total de 124589 observations soit 0.0%.


### etatp

Cette variable permet de préciser si le piéton accidenté était seul ou non. Il est envisageable, mais pas nécessairement vrai, que la majorité des groupes soient distraits par leurs camarades amenant à une baisse de la vigilance en matière de protection routière. On songera donc à conserver cette catégorie. Sous réserve que cette dernière se révèle impertinente, elle sera supprimée du modèle.

A l'instar de certaines variables, la documentation diffère selon les années et il est nécessaire d'harmoniser cela. Les valeurs possibles pour la documentation de 2005 à 2018 sont : [**1**, **2**, **3**] pour [**seul**, **accompagné**, **en groupe**]. Celles de 2005 à 2020 sont au format suivant : [**-1**, **1**, **2**, **3**] traduisant [**non renseigné**, **seul**, **accompagné**, **en groupe**]. On décidera donc de conserver le format [**-1**, **1**, **2**, **3**] pour la gestion des valeurs inconnues pour l'instant.

In [59]:
# On catégorise l'accompagnement du piéton sans relation de supériorité entre ces derniers. Cela est donc une variable catégorielle
variable = 'etatp'

if variable not in var_cat:
    var_cat.append(variable)
    
possible_values_etatp = whole_data['etatp'].unique()
na_count_etatp = whole_data['etatp'].isna().sum()
rep_na_etatp = na_count_locp / obs_count * 100

print(f"Les valeurs possibles sont : {possible_values_etatp}.")
print(f"Le nombre de valeurs manquantes est de : {na_count_etatp} pour un total de {obs_count} observations soit {rep_na_etatp:.2f}%.")

Les valeurs possibles sont : [ 0.  2.  1. nan  3.].
Le nombre de valeurs manquantes est de : 132 pour un total de 124589 observations soit 0.11%.


In [60]:
whole_data['etatp'] = whole_data['etatp'].replace({0: -1}).fillna(-1)

possible_values_etatp_2 = whole_data['etatp'].unique()
na_count_etatp_2 = whole_data['etatp'].isna().sum()
rep_na_etatp_2 = na_count_etatp_2 / obs_count * 100

print(f"Les valeurs possibles sont : {possible_values_etatp_2}.")
print(f"Le nombre de valeurs manquantes est de : {na_count_etatp_2} pour un total de {obs_count} observations soit {rep_na_etatp_2}%.")

Les valeurs possibles sont : [-1.  2.  1.  3.].
Le nombre de valeurs manquantes est de : 0 pour un total de 124589 observations soit 0.0%.


### catu

Correspond à la catégorie d'usager. Autrement dit, s'il s'agit d'un conducteur, d'un passager ou bien d'un piéton (ou encore d'un piéton en roller ou en trottinette conformément à la documentation de 2005 à 2018). Il est important de disposer de ces informations en cas de corrélations entre le statut de la victime et son état. On peut soumettre l'hypothèse que ce statut influe sur les situations dans lesquelles les usagers sont impliqués notamment (difficile d'aller à 130 km/h en tant que piéton).

Cependant, il est nécessaire d'harmoniser ces valeurs, car elles différent en fonction des années. D'origine, les valeurs possibles sont les suivantes : [**1**, **2**, **3**, **4**], mais depuis 2018, la catégorie [**4**] évolue vers le fichier "Véhicules" comme catégorie **"*99 - Autre véhicule*"**. Ainsi, une modification envisageable serait de remplacer les valeurs [**4**] par celle des piétons [**3**] **ET** de modifier la valeur associée au sein de la colonne **"*catv*"** par la valeur **"*99*"** :

In [61]:
# On catégorise la catégorie de l'usager. Cela est donc une variable catégorielle
variable = 'catu'

if variable not in var_cat:
    var_cat.append(variable)
    
possible_values_catu = whole_data['catu'].unique()
na_count_catu = whole_data['catu'].isna().sum()
rep_na_catu = na_count_catu / obs_count * 100

print(f"Les valeurs possibles sont : {possible_values_catu}.")
print(f"Le nombre de valeurs manquantes est de : {na_count_catu} pour un total de {obs_count} observations soit {rep_na_catu:.2f}%.")

Les valeurs possibles sont : [1 3 2 4].
Le nombre de valeurs manquantes est de : 0 pour un total de 124589 observations soit 0.00%.


In [62]:
whole_data.loc[whole_data['catu'] == 4, 'catv'] = 99

whole_data['catu'] = whole_data['catu'].replace({4: 3})

possible_values_catu_2 = whole_data['catu'].unique()
na_count_catu_2 = whole_data['catu'].isna().sum()
rep_na_catu_2 = na_count_catu_2 / obs_count * 100

print(f"Les valeurs possibles sont : {possible_values_catu_2}.")
print(f"Le nombre de valeurs manquantes est de : {na_count_catu_2} pour un total de {obs_count} observations soit {rep_na_catu_2:.2f}%.")

Les valeurs possibles sont : [1 3 2].
Le nombre de valeurs manquantes est de : 0 pour un total de 124589 observations soit 0.00%.


### place

Permet de situer la place occupée dans le véhicule par l'usager au moment de l'accident. Cette donnée est importante, car il existe certainement une relation entre la position des victimes et la gravité de l'accident. En effet, en fonction de la position, les dispositifs de sécurité ne sont pas les mêmes. On soupçonne donc une importante majeure de cette variable.
 
Les informations relatives aux positions sont différentes selon les années. Les valeurs possibles pour le document de 2005 à 2018 sont les suivantes : [**1**, **2**, **3**, **4**, **5**, **6**, **7**, **8**, **9**]. Pour le document de 2005 à 2020 : [**1**, **2**, **3**, **4**, **5**, **6**, **7**, **8**, **9**, **10**]. Le nouvel élément correspond à la position du piéton. Une harmonisation se fera où le piéton devra être catégorisé.

In [63]:
# Correspond, selon le véhicule, à une position dans le véhicule ou bien être piéton. Cela est donc une variable catégorielle
variable = 'place'

if variable not in var_cat:
    var_cat.append(variable)

possible_values_place = whole_data['place'].unique()
na_count_place = whole_data['place'].isna().sum()
rep_na_place = na_count_place / obs_count * 100

print(f"Les valeurs possibles sont : {possible_values_place}.")
print(f"Le nombre de valeurs manquantes est de : {na_count_place} pour un total de {obs_count} observations soit {rep_na_place}%.")

Les valeurs possibles sont : [ 1. nan  2.  3.  4.  8.  5.  6.  7.  9.].
Le nombre de valeurs manquantes est de : 11173 pour un total de 124589 observations soit 8.967886410517782%.


Etant donné qu'il est difficile de prédire une position manquante, car cela dépend notamment du véhicule, il est donc décidé de supprimer les lignes manquantes. Cependant, seules les lignes contenant une valeur **"*Nan*"** **et** qui ne matcheront pas la position de piéton seront supprimées.

In [64]:
# Supprime seulement si 'place' est Nan ET que ce n'est pas un piéton
whole_data = whole_data[~((whole_data['catu'] != 3) & whole_data['place'].isna())]   
whole_data['place'] = whole_data['place'].fillna(10)

possible_values_place_2 = whole_data['place'].unique()
na_count_place_2 = whole_data['place'].isna().sum()
rep_na_place_2 = na_count_place_2 / obs_count * 100

print(f"Les valeurs possibles sont : {possible_values_place_2}.")
print(f"Le nombre de valeurs manquantes est de : {na_count_place_2} pour un total de {obs_count} observations soit {rep_na_place_2}%.")

Les valeurs possibles sont : [ 1. 10.  2.  3.  4.  8.  5.  6.  7.  9.].
Le nombre de valeurs manquantes est de : 0 pour un total de 124589 observations soit 0.0%.


## secu

Ce modèle a fortement évolué au cours du temps en passant d'un format à deux caractères indiquant dans un premier temps le système de sécurité et dans un second les conditions d'utilisation (oui/non/non déterminé). 

Puis dans un nouveau format à 3 colonnes (secu1/secu2/secu3), chacune des colonnes indiquait l'utilisation d'un équipement de sécurité parmi une liste d'éléments comprenant les valeurs suivantes : [**-1**, **0**, **1**, **2**, **3**, **4**, **5**, **6**, **7**, **8**, **9**]. Globalement, [**-1**, **8**, **9**] apportent la même précision (aucune). Ainsi, il est décidé dans un premier temps de rassembler ces trois possibilités en une seule sous la bannière [**8**]. 

Dans un second temps, la première configuration à **"*secu*"** unique sera scindé en **"*3*"** où seul un équipement pourra être notifié. 

Ces décisions sont prises, car nous ne souhaitons pas perdre d'informations (précision accrue sous le format : secu1/secu2/secu3), en effet cette catégorie de variables est très intéressante. Il semble évident que des dispositifs de sécurité viennent minimiser les dégâts subits.

In [65]:
# Correspond aux mesures de sécurité en vigueur dans le véhicule selon une catégorisation de ces derniers.
variables = ['secu1', 'secu2', 'secu3']

# Add variables to var_cat if not already present
var_cat.extend(var for var in variables if var not in var_cat)

# Premier cas : données antérieures à 2019
if 'secu' in whole_data.columns:
    secu_columns = ['secu']
# Deuxième cas : données ultérieures à 2018
else:  
    secu_columns = ['secu1', 'secu2', 'secu3']

for i, column in enumerate(secu_columns, start=1):
    possible_values = whole_data[column].unique()
    na_count = whole_data[column].isna().sum()
    rep_na = na_count / obs_count * 100
    
    print(f"{i} - Les valeurs possibles sont : {possible_values}.")
    print(f"{i} - Le nombre de valeurs manquantes est de : {na_count} pour un total de {obs_count} observations soit {rep_na}%.")

1 - Les valeurs possibles sont : [11. nan 13. 21.  1.  2. 12. 23. 22. 31. 91. 42. 92. 41. 32. 93. 43.  3.
 33.].
1 - Le nombre de valeurs manquantes est de : 3803 pour un total de 124589 observations soit 3.052436410919102%.


Par défaut, les dispositifs de sécurité non utilisé **ou** non déterminable seront considérés comme non utilisés. En effet, on préfère être certain de l'utilisation d'un dispositif pour lui accorder du crédit.

Si les valeurs sont inférieures à **'*10*'** dans le premier cas, cela signifie qu'il y a eu une erreur de saisie. Dans le cas où le terme fini par **'*2*'** ou **'*3*'**, on observe que le dispositif n'a pas servi.

In [67]:
def extract_first_digit(value):
    if pd.notna(value):
        return int(str(value)[0])
    else:
        return pd.NA

# Premier cas : données antérieures à 2019
if 'secu' in whole_data.columns:
    secu_columns = ['secu']
    
    # On considère seulement les cas d'utlisation
    whole_data.loc[(whole_data['secu'] <= 10) | (whole_data['secu'] % 10 == 2) | (whole_data['secu'] % 10 == 3), 'secu'] = pd.NA
    
    # On assigne à la colonne seulement le premier digit qui correspond à l'équipement utilisé
    whole_data['secu'] = whole_data['secu'].apply(extract_first_digit)
    
    # Renomme 'secu' en 'secu1'
    whole_data.rename(columns={'secu': 'secu1'}, inplace=True)
    
    # Ajoute les deux autres colonnes pour répondre aux dimensions
    whole_data['secu2'] = pd.NA
    whole_data['secu3'] = pd.NA
# Deuxième cas : données ultérieures à 2018
else:  
    secu_columns = ['secu1', 'secu2', 'secu3']

    # Pour "secu1", "secu2", et "secu3" transforme les [-1, 9, NA] en 8
    for col in secu_columns:
        whole_data[col] = whole_data[col].apply(lambda x: 8 if pd.isna(x) or x in [-1, 9] else x)

for i, column in enumerate(['secu1', 'secu2', 'secu3'], start=1):
    possible_values = whole_data[column].unique()
    na_count = whole_data[column].isna().sum()
    rep_na = na_count / obs_count * 100
    
    print(f"{i} - Les valeurs possibles sont : {possible_values}.")
    print(f"{i} - Le nombre de valeurs manquantes est de : {na_count} pour un total de {obs_count} observations soit {rep_na}%.")

1 - Les valeurs possibles sont : [1 8 2 3 4].
1 - Le nombre de valeurs manquantes est de : 0 pour un total de 124589 observations soit 0.0%.
2 - Les valeurs possibles sont : [8].
2 - Le nombre de valeurs manquantes est de : 0 pour un total de 124589 observations soit 0.0%.
3 - Les valeurs possibles sont : [8].
3 - Le nombre de valeurs manquantes est de : 0 pour un total de 124589 observations soit 0.0%.


### actp

Concerne l'action du piéton. Diffère de nouveau selon les années. Le premier format de 2005 à 2018 est le suivant : [**0**, **1**, **2**, **3**, **4**, **5**, **6**, **9**]. Pour la version de 2005 à 2020 on a : [**-1**, **0**, **1**, **2**, **3**, **4**, **5**, **9**, **A**, **B**]. De la même manière, on définit que [**-1**, **0**, **9**, **B**, **NA**] apporte la même qualité d'information dans la seconde réforme. Nous décidons de nous calquer sur le format le plus précis soit le second.

Cette catégorie est relativement intéressante, car elle indique si des situations peuvent amener plus ou moins fréquemment à des accidents plus, ou moins graves.

In [68]:
# Correspond aux actions des piétons précédant leur accident sous formee de catégorisation.
variables = ['actp']

if variable not in var_cat:
    var_cat.append(variable)
    
possible_values_actp = whole_data['actp'].unique()
na_count_actp = whole_data['actp'].isna().sum()
rep_na_actp = na_count_actp / obs_count * 100

print(f"Les valeurs possibles sont : {possible_values_actp}.")
print(f"Le nombre de valeurs manquantes est de : {na_count_actp} pour un total de {obs_count} observations soit {rep_na_actp}%.")

Les valeurs possibles sont : [ 0.  3.  5.  9.  4.  1.  2. nan  6.].
Le nombre de valeurs manquantes est de : 139 pour un total de 124589 observations soit 0.11156683174277021%.


In [69]:
whole_data['actp'] = whole_data['actp'].replace({-1: 9, 0: 9, 'B': 9}).fillna(9)

possible_values_actp_2 = whole_data['actp'].unique()
na_count_actp_2 = whole_data['actp'].isna().sum()
rep_na_actp_2 = na_count_actp_2 / obs_count * 100

print(f"Les valeurs possibles sont : {possible_values_actp_2}.")
print(f"Le nombre de valeurs manquantes est de : {na_count_actp_2} pour un total de {obs_count} observations soit {rep_na_actp_2}%.")

Les valeurs possibles sont : [9. 3. 5. 4. 1. 2. 6.].
Le nombre de valeurs manquantes est de : 0 pour un total de 124589 observations soit 0.0%.


Désormais le traitement des variables relatives aux usagers est correcte. Il pourrait techinquement être appliqué à des versions ultérieures à 2018.

On écrit un nouveau fichier comprenant ces modifications pour pouvoir conserver ici seulement les modifications relatives aux usagers :

In [70]:
whole_data.to_csv('Data/TRAIN_FULL/BAAC_2012_full_USAGERS.csv', index=False)