# Préparation des données

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [64]:
df_usagers_22 = pd.read_csv("https://www.data.gouv.fr/fr/datasets/r/62c20524-d442-46f5-bfd8-982c59763ec8", sep=";")
df_vehicules_22 = pd.read_csv("https://www.data.gouv.fr/fr/datasets/r/c9742921-4427-41e5-81bc-f13af8bc31a0", sep=";")
df_lieux_22 = pd.read_csv("https://www.data.gouv.fr/fr/datasets/r/a6ef711a-1f03-44cb-921a-0ce8ec975995", sep=";")
df_caracs_22 = pd.read_csv("https://www.data.gouv.fr/fr/datasets/r/5fc299c0-4598-4c29-b74c-6a67b0cc27e7", sep=";")

  exec(code_obj, self.user_global_ns, self.user_ns)


In [3]:
print(len(df_usagers_22))
print(len(df_vehicules_22))
print(len(df_lieux_22))
print(len(df_caracs_22))

126662
94493
55302
55302


Un accident a des caractéristiques uniques et un lieu unique, mais il peut impliquer plusieurs véhicules, ces derniers pouvant eux-mêmes impliquer plusieurs usagers (en plus des piétons !).

Pour cette raison, les longueurs différentes ne sont pas surprenantes.

Ci-dessous, on compte le nombre de valeurs uniques pour la variable `id_vehicule` dans la base `usagers`, et on trouve bien 94 493, la longueur de la base `vehicules`.

In [4]:
(~df_usagers_22.duplicated("id_vehicule")).sum()

94493

## Base `usagers`

On remplacera à la fin les valeurs `-1` par des `NaN` pour toutes les variables catégorielles, conformément à la documentation.

In [5]:
df_usagers_22.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 126662 entries, 0 to 126661
Data columns (total 16 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   Num_Acc      126662 non-null  int64  
 1   id_usager    126662 non-null  object 
 2   id_vehicule  126662 non-null  object 
 3   num_veh      126662 non-null  object 
 4   place        126662 non-null  int64  
 5   catu         126662 non-null  int64  
 6   grav         126662 non-null  int64  
 7   sexe         126662 non-null  int64  
 8   an_nais      123788 non-null  float64
 9   trajet       126662 non-null  int64  
 10  secu1        126662 non-null  int64  
 11  secu2        126662 non-null  int64  
 12  secu3        126662 non-null  int64  
 13  locp         126662 non-null  int64  
 14  actp         126662 non-null  object 
 15  etatp        126662 non-null  int64  
dtypes: float64(1), int64(11), object(4)
memory usage: 15.5+ MB


La variable `num_veh` est difficile à comprendre. La documentation n'est pas très claire à ce sujet, notamment en quoi elle se distingue de la variable `id_vehicule`.

In [6]:
df_usagers_22["num_veh"].value_counts()

A01     76240
B01     42087
C01      4674
Z01      1939
D01      1022
E01       326
F01       114
Y01        92
G01        44
X01        18
H01        15
[01        12
T01        11
I01         8
V01         4
WX01        4
JA01        4
\01         3
FA01        3
M01         3
LA01        3
ZZ01        3
P01         2
GA01        2
PA01        2
MA01        2
IA01        2
PB01        2
J01         2
U01         2
OB01        1
UB01        1
VA01        1
LB01        1
L01         1
W01         1
RB01        1
S01         1
R01         1
Q01         1
O01         1
N01         1
K01         1
DA01        1
NA01        1
XB01        1
ZA01        1
Name: num_veh, dtype: int64

Rien à signaler sur la variable place. La valeur `-1`, qui n'est pas présente dans la documentation, correspond sans aucun doute à un champ non renseigné, comme pour les autres variables. Nous les remplacerons par des `NaN` plus tard, de façon centralisée.

In [7]:
df_usagers_22["place"].value_counts()

 1     94292
 2     14001
 10     9567
 3      2459
 4      2232
 9      1340
 7      1241
 5       728
 8       610
 6       184
-1         8
Name: place, dtype: int64

Rien à signaler sur les variables suivantes (il faudra juste remplacer les `-1` par des `np.NaN`).

In [8]:
df_usagers_22["catu"].value_counts()

1    94421
2    22675
3     9566
Name: catu, dtype: int64

In [9]:
df_usagers_22["grav"].value_counts()

 1    53630
 4    49981
 3    19260
 2     3550
-1      241
Name: grav, dtype: int64

In [10]:
df_usagers_22["sexe"].value_counts()

 1    84795
 2    39123
-1     2744
Name: sexe, dtype: int64

In [11]:
df_usagers_22["an_nais"].value_counts()

2001.0    3742
2002.0    3708
2000.0    3698
2003.0    3383
1999.0    3382
          ... 
1922.0       3
1921.0       2
1923.0       2
1920.0       1
1924.0       1
Name: an_nais, Length: 104, dtype: int64

In [12]:
df_usagers_22["trajet"].value_counts()

 5    46253
 0    32737
 1    16282
 4    11622
 9    10494
 3     3713
-1     2874
 2     2687
Name: trajet, dtype: int64

In [13]:
df_usagers_22["secu1"].value_counts()

 1    73953
 2    22651
 8    14117
 0    12144
-1     2679
 3      774
 9      115
 4      102
 6       97
 5       25
 7        5
Name: secu1, dtype: int64

In [14]:
df_usagers_22["secu2"].value_counts()

-1    58601
 0    42898
 6    11686
 8     9711
 4     1482
 5     1211
 9      422
 1      226
 3      172
 7      151
 2      102
Name: secu2, dtype: int64

In [15]:
df_usagers_22["secu3"].value_counts()

-1    125296
 9       890
 0       226
 8        71
 1        66
 6        60
 4        20
 5        19
 2         8
 7         4
 3         2
Name: secu3, dtype: int64

In [16]:
df_usagers_22["locp"].value_counts()

 0    66113
-1    51092
 3     3059
 2     1989
 4     1388
 1     1364
 5      740
 9      474
 6      298
 8      138
 7        7
Name: locp, dtype: int64

In [17]:
df_usagers_22["actp"].value_counts()


0      67558
 -1    49604
3       6959
9        647
1        639
5        347
2        334
B        300
4        120
A         98
6         23
7         21
8         12
Name: actp, dtype: int64

In [18]:
df_usagers_22["etatp"].value_counts()

-1    117189
 1      7222
 2      1892
 3       359
Name: etatp, dtype: int64

On recode toutes les variables catégorielles pour obtenir des modalités plus compréhensibles.

In [19]:
df_usagers_22["grav"].replace({2: 4, 4: 2}, inplace=True)
df_usagers_22["sexe"].replace({1: "homme", 
                               2: "femme", 
                               -1: np.NaN}, 
                               inplace=True)
df_usagers_22["catu"].replace({1: "conducteur", 
                               2: "passager", 
                               3: "piéton", 
                               -1: np.NaN}, inplace=True)
df_usagers_22["trajet"].replace({-1: np.NaN, 
                                 0: np.NaN, 
                                 1: "domicile-travail",
                                 2: "domicile-école",
                                 3: "courses-achats",
                                 4: "utilisation pro",
                                 5: "promenade-loisirs",
                                 9: "autre"},
                                 inplace=True)
df_usagers_22["etatp"].replace({-1: np.NaN,
                                1: "seul",
                                2: "accompagne",
                                3: "en groupe"},
                                inplace=True)
df_usagers_22["actp"].replace({"-1": np.NaN,
                               "0": np.NaN,
                               "1": "sens véhicule heurtant",
                               "2": "sens inverse du véhicule",
                               "3": "traversant",
                               "4": "masqué",
                               "5": "jouant - courant",
                               "6": "avec animal",
                               "9": "autre",
                               "A": "monte/descend du véhicule", 
                               "B": np.NaN}, inplace=True)
df_usagers_22["etatp"].replace({"-1": np.NaN,
                                1: "seul",
                                2: "accompagné",
                                3: "en groupe"})

0         NaN
1         NaN
2         NaN
3         NaN
4         NaN
         ... 
126657    NaN
126658    NaN
126659    NaN
126660    NaN
126661    NaN
Name: etatp, Length: 126662, dtype: object

À présent, on remplace tous les `-1` (restants) par des `NaN`.

In [20]:
df_usagers_22.replace(-1, np.NaN, inplace=True)

Regardons à quoi ressemble notre base nettoyée !

In [21]:
df_usagers_22

Unnamed: 0,Num_Acc,id_usager,id_vehicule,num_veh,place,catu,grav,sexe,an_nais,trajet,secu1,secu2,secu3,locp,actp,etatp
0,202200000001,1 099 700,813 952,A01,1.0,conducteur,3.0,homme,2008.0,promenade-loisirs,2.0,8.0,,,-1,
1,202200000001,1 099 701,813 953,B01,1.0,conducteur,1.0,homme,1948.0,promenade-loisirs,1.0,8.0,,,-1,
2,202200000002,1 099 698,813 950,B01,1.0,conducteur,2.0,homme,1988.0,autre,1.0,0.0,,0.0,,
3,202200000002,1 099 699,813 951,A01,1.0,conducteur,1.0,homme,1970.0,utilisation pro,1.0,0.0,,0.0,,
4,202200000003,1 099 696,813 948,A01,1.0,conducteur,1.0,homme,2002.0,,1.0,0.0,,,-1,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
126657,202200055301,968 230,715 631,A01,1.0,conducteur,1.0,femme,2002.0,promenade-loisirs,1.0,,,0.0,,
126658,202200055301,968 231,715 631,A01,8.0,passager,3.0,femme,2004.0,promenade-loisirs,1.0,,,0.0,,
126659,202200055301,968 232,715 632,B01,1.0,conducteur,2.0,femme,1953.0,promenade-loisirs,1.0,,,0.0,,
126660,202200055302,968 228,715 629,A01,1.0,conducteur,3.0,homme,1992.0,domicile-travail,2.0,6.0,,,-1,


## Bases `caracs`

In [22]:
df_caracs_22.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 55302 entries, 0 to 55301
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Accident_Id  55302 non-null  int64 
 1   jour         55302 non-null  int64 
 2   mois         55302 non-null  int64 
 3   an           55302 non-null  int64 
 4   hrmn         55302 non-null  object
 5   lum          55302 non-null  int64 
 6   dep          55302 non-null  object
 7   com          55302 non-null  object
 8   agg          55302 non-null  int64 
 9   int          55302 non-null  int64 
 10  atm          55302 non-null  int64 
 11  col          55302 non-null  int64 
 12  adr          54069 non-null  object
 13  lat          55302 non-null  object
 14  long         55302 non-null  object
dtypes: int64(9), object(6)
memory usage: 6.3+ MB


On modifie le nom de la variable `Accident_Id` de la base `caracs` pour faciliter la jointure tout à l'heure.

In [23]:
df_caracs_22.rename(columns={"Accident_Id": "Num_Acc"}, inplace=True)

Rien à signaler sur les variables `jour`, `mois` et `an`.

In [24]:
df_caracs_22["jour"].value_counts()

14    1978
11    1957
21    1934
10    1902
7     1901
5     1882
12    1879
16    1863
9     1863
17    1845
22    1830
15    1830
13    1822
8     1822
4     1805
18    1798
28    1793
26    1793
20    1784
25    1783
1     1783
3     1775
6     1767
2     1756
19    1754
23    1725
24    1714
27    1700
29    1671
30    1640
31     953
Name: jour, dtype: int64

In [25]:
df_caracs_22["mois"].value_counts()

6     5418
5     5299
7     5068
10    5026
9     4919
11    4542
3     4529
4     4340
8     4173
12    4106
1     3981
2     3901
Name: mois, dtype: int64

In [26]:
df_caracs_22["an"].value_counts()

2022    55302
Name: an, dtype: int64

Pour la variable `hrmn`, certaines valeurs sont précises (03:32 par exemple), tandis que la plupart sont arrondies à la demi-heure (sans doute dû aux conditions réelles de renseignement de l'information).

In [27]:
df_caracs_22["hrmn"].value_counts()

18:00    692
17:00    675
18:30    607
19:00    582
17:30    572
        ... 
03:32      1
13:59      1
06:31      1
06:56      1
04:43      1
Name: hrmn, Length: 1398, dtype: int64

Pour une bonne exploitation, il est sans doute plus utile d'homogénéiser tout ça en assimilant tous les horaires à leur heure `h`. C'est l'objet du code suivant, qui crée une nouvelle variable `heure` pour cela.

In [28]:
df_caracs_22['heure'] = pd.to_datetime(df_caracs_22['hrmn'], format='%H:%M').dt.time

La variable `lum` admet quelques valeurs `-1` (non indiquées dans la documentation) qui correspondent sans doute, à l'instar des autres variables, à des données manquantes. Nous les remplacerons plus tard (de façon centralisée avec les autres variables) par des `NaN`.

In [29]:
df_caracs_22["lum"].value_counts()

 1    36845
 5     8727
 3     5628
 2     3589
 4      511
-1        2
Name: lum, dtype: int64

In [30]:
df_caracs_22["dep"].value_counts()

75     5071
93     2756
92     2510
94     2280
13     2255
       ... 
23       45
978      21
986      14
977       7
975       3
Name: dep, Length: 107, dtype: int64

In [31]:
df_caracs_22["com"].value_counts()

75116    551
75112    421
97302    398
75119    392
75117    375
        ... 
76314      1
23139      1
73082      1
43232      1
74001      1
Name: com, Length: 11253, dtype: int64

In [32]:
df_caracs_22["agg"].value_counts()

2    35036
1    20266
Name: agg, dtype: int64

Rien à signaler sur la suite.

In [33]:
df_caracs_22["int"].value_counts()

 1    35349
 2     6759
 3     6170
 6     2415
 9     2245
 4     1280
 7      630
 5      348
 8       99
-1        7
Name: int, dtype: int64

In [34]:
df_caracs_22["atm"].value_counts()

 1    45269
 2     4934
 8     1927
 7     1143
 3      981
 5      531
 9      263
 4      130
 6      123
-1        1
Name: atm, dtype: int64

In [35]:
df_caracs_22["col"].value_counts()

 3    16838
 6    16039
 2     7419
 1     5933
 7     5531
 4     1944
 5     1535
-1       63
Name: col, dtype: int64

Pour les adresses, il y a clairement beaucoup d'hétérogénéité.

In [36]:
df_caracs_22["adr"].sample(20)

21681                  22 Route de Chemault
32030       RUE EMILE DEUTSCH DE LA MEURTHE
6383     PRINCESSE GRACE DE MONACO (AVENUE)
18698                         Route de Lyon
16987          CRIQUE FOUILLEE (ROND POINT)
1390                                 RD 958
33946               JAURES (BOULEVARD JEAN)
33825                AVENUE EMILE DESCHANEL
39579                                  D300
27153                    AVENUE DE GRAVELLE
54803                          AUTOROUTE A1
36175                                  RN24
38519               BOULEVARD SAINT GERMAIN
16500                            Rocade Est
48950                                   NaN
14874                                  A34 
31082                         AUTOROUTE A86
50452                                RD 612
32257                                    A3
7913                                   RN12
Name: adr, dtype: object

Les variables `lat` et `long` sont codées avec une virgule (convention française).

In [37]:
df_caracs_22[["lat", "long"]].sample(10)

Unnamed: 0,lat,long
16753,436293190000,51343060000
38734,162412500000,-615364200000
15792,162117400000,-614744700000
48452,451608200000,15182500000
1981,457729621773,48210740089
41857,432962000000,-3687500000
40548,488044500000,25086300000
27577,438935330000,50605940000
25593,489004260000,23888780000
23017,439309200000,21632500000


Arrangeons cela !

In [38]:
df_caracs_22['lat'] = df_caracs_22['lat'].str.replace(',', '.').astype(float)
df_caracs_22['long'] = df_caracs_22['long'].str.replace(',', '.').astype(float)

### Recodage de certaines variables

In [39]:
df_caracs_22["agg"].replace({1: "hors agglo",
                             2: "agglo"},
                             inplace=True)

df_caracs_22.replace(-1, np.NaN, inplace=True)

Regardons à quoi ressemble notre base nettoyée !

In [40]:
df_caracs_22

Unnamed: 0,Num_Acc,jour,mois,an,hrmn,lum,dep,com,agg,int,atm,col,adr,lat,long,heure
0,202200000001,19,10,2022,16:15,1.0,26,26198,agglo,3.0,1.0,3.0,TEIL(vieille route du),44.559420,4.725720,16:15:00
1,202200000002,20,10,2022,08:34,1.0,25,25204,agglo,3.0,1.0,3.0,Miranda,46.925810,6.346200,08:34:00
2,202200000003,20,10,2022,17:15,1.0,22,22360,agglo,6.0,1.0,2.0,ROND POINT DE BREZILLET,48.493162,-2.760439,17:15:00
3,202200000004,20,10,2022,18:00,1.0,16,16102,agglo,3.0,8.0,6.0,LOHMEYER (RUE),45.692652,-0.326290,18:00:00
4,202200000005,19,10,2022,11:45,1.0,13,13103,hors agglo,1.0,1.0,2.0,ROUTE DE JEAN MOULIN-RN 538,43.675579,5.092703,11:45:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
55297,202200055298,1,1,2022,03:50,3.0,2B,2B293,hors agglo,1.0,1.0,6.0,D71,42.310165,9.478583,03:50:00
55298,202200055299,1,1,2022,07:20,3.0,84,84074,hors agglo,1.0,1.0,6.0,D973,43.753164,5.224476,07:20:00
55299,202200055300,1,1,2022,04:27,3.0,74,74001,hors agglo,1.0,9.0,6.0,D22,46.282532,6.732806,04:27:00
55300,202200055301,1,1,2022,08:40,1.0,81,81099,hors agglo,3.0,1.0,3.0,Chemin Toulze,43.927265,1.915637,08:40:00


## Bases `lieux` 

In [65]:
df_lieux_22.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 55302 entries, 0 to 55301
Data columns (total 18 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Num_Acc  55302 non-null  int64 
 1   catr     55302 non-null  int64 
 2   voie     50497 non-null  object
 3   v1       55302 non-null  int64 
 4   v2       5255 non-null   object
 5   circ     55302 non-null  int64 
 6   nbv      55302 non-null  object
 7   vosp     55302 non-null  int64 
 8   prof     55302 non-null  int64 
 9   pr       55302 non-null  object
 10  pr1      55302 non-null  object
 11  plan     55302 non-null  int64 
 12  lartpc   28 non-null     object
 13  larrout  55302 non-null  object
 14  surf     55302 non-null  int64 
 15  infra    55302 non-null  int64 
 16  situ     55302 non-null  int64 
 17  vma      55302 non-null  int64 
dtypes: int64(11), object(7)
memory usage: 7.6+ MB


In [66]:
df_lieux_22

Unnamed: 0,Num_Acc,catr,voie,v1,v2,circ,nbv,vosp,prof,pr,pr1,plan,lartpc,larrout,surf,infra,situ,vma
0,202200000001,4,TEIL(vieille route du),0,,2,2,0,1,(1),(1),1,,-1,1,0,1,50
1,202200000002,4,,0,,2,2,0,1,(1),(1),1,,-1,1,0,1,50
2,202200000003,3,ROND POINT DE BREZILLET,0,,-1,2,0,1,0,0,1,,-1,1,5,1,50
3,202200000004,4,QUATORZE JUILLET (RUE DU),0,,1,1,0,2,(1),(1),1,,4,1,0,1,30
4,202200000005,3,ROUTE DE JEAN MOULIN-RN 538,0,,2,2,0,1,8,0,1,,-1,1,0,1,80
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
55297,202200055298,3,71,-1,,2,2,0,2,(1),(1),1,,-1,1,0,8,80
55298,202200055299,3,973,-1,,2,2,0,1,29,0,2,,-1,1,0,3,80
55299,202200055300,3,22,0,D,2,2,0,1,39,553,2,,-1,7,0,3,80
55300,202200055301,3,18,-1,D,2,2,0,1,30,125,1,,-1,1,0,1,80


In [67]:
df_lieux_22["catr"].value_counts()

4    22671
3    21162
1     5083
2     3584
7     2090
6      394
9      262
5       56
Name: catr, dtype: int64

In [68]:
df_lieux_22["catr"] = df_lieux_22["catr"].replace({
    1: "autoroute",
    2: "route nationale",
    3: "route departementale",
    4: "voie communale",
    5: "hors réseau public",
    6: "parc de stationnement",
    7: "route de métropole urbaine",
    9: "autre"
})


In [69]:
df_lieux_22["catr"].value_counts()

voie communale                22671
route departementale          21162
autoroute                      5083
route nationale                3584
route de métropole urbaine     2090
parc de stationnement           394
autre                           262
hors réseau public               56
Name: catr, dtype: int64

In [70]:
#df_lieux_22["surf"].replace(1, np.NaN, inplace=True)
#df_lieux_22["surf"]
#sns.countplot(data=df_lieux_22, x="surf")

In [71]:
df_lieux_22["voie"].value_counts()


1                           478
7                           401
2                           300
A4                          274
10                          262
                           ... 
ORPHELINAT (ALLEE DE L )      1
ESTAING (RUE D')              1
DELORY (R GUSTAVE )           1
RD 694                        1
2120                          1
Name: voie, Length: 16310, dtype: int64

In [72]:
df_lieux_22["voie"].dtype
df_lieux_22["voie"]

0             TEIL(vieille route du)
1                                NaN
2            ROND POINT DE BREZILLET
3          QUATORZE JUILLET (RUE DU)
4        ROUTE DE JEAN MOULIN-RN 538
                    ...             
55297                             71
55298                            973
55299                             22
55300                             18
55301                            NaN
Name: voie, Length: 55302, dtype: object

 La variable `voie`, contient des chaines de caractères, des noms de rue et des numéros, variable  difficilment exploitable et sans doute trop précise pour prédire la gravité des accidents (le type de voie sera par exemple plus pertinent).

In [73]:
df_lieux_22["v1"].value_counts()

 0    45266
-1     9924
 2       96
 3       16
Name: v1, dtype: int64

`v1` indique le numéro de la route peu d'intéret 

In [74]:
df_lieux_22["v2"].value_counts()

D     3377
A      862
N      259
E      109
M      107
R      105
C      100
B       89
 -      72
T       50
X       21
G       19
F       15
Z       11
U       10
V       10
S        9
O        8
H        7
K        4
P        4
L        3
W        2
J        1
Y        1
Name: v2, dtype: int64

idem

In [75]:
df_lieux_22["circ"].value_counts()

 2    34610
 1     9511
 3     7696
-1     3160
 4      325
Name: circ, dtype: int64

In [76]:
df_lieux_22["circ"] = df_lieux_22["circ"].replace(-1, np.nan)
df_lieux_22["circ"] = df_lieux_22["circ"].replace(1, "chaussée unidirectionnelle")
df_lieux_22["circ"] = df_lieux_22["circ"].replace(2, "chausée bidirectionnelle")
df_lieux_22["circ"] = df_lieux_22["circ"].replace(3, "chaussée séparée")
df_lieux_22["circ"] = df_lieux_22["circ"].replace(4, "avec voies d’affectation variable")

### Variable `nbv`

La variable est très sale...

In [78]:
df_lieux_22["nbv"].value_counts()

2          20311
2          13854
4           3793
1           3362
4           2735
3           2550
1           2280
3           1749
6            854
0            648
6            568
5            541
0            451
5            395
 -1          328
8            256
-1           233
8            157
7             52
7             51
10            42
10            22
9             21
9             19
12            11
12             9
11             6
11             3
#ERREUR        1
Name: nbv, dtype: int64

In [79]:
df_lieux_22["nbv"].unique().tolist()

['2',
 '1',
 '4',
 '3',
 '6',
 '0',
 '9',
 '8',
 ' -1',
 '5',
 '7',
 '12',
 '10',
 '#ERREUR',
 '11',
 2,
 3,
 4,
 1,
 5,
 0,
 6,
 -1,
 8,
 10,
 9,
 7,
 12,
 11]

In [80]:
df_lieux_22["nbv"] = df_lieux_22["nbv"].replace({"#ERREUR": np.nan}).astype(float).replace({-1: np.nan, 0: np.nan})

In [81]:
df_lieux_22["nbv"].value_counts()

2.0     34165
4.0      6528
1.0      5642
3.0      4299
6.0      1422
5.0       936
8.0       413
7.0       103
10.0       64
9.0        40
12.0       20
11.0        9
Name: nbv, dtype: int64

In [53]:
df_lieux_22["vosp"] = df_lieux_22["vosp"].replace(-1, np.nan)
df_lieux_22["vosp"] = df_lieux_22["vosp"].replace(0, np.nan)
df_lieux_22["vosp"] = df_lieux_22["vosp"].replace(1, "piste_cyclable")
df_lieux_22["vosp"] = df_lieux_22["vosp"].replace(2, "bande cyclable")
df_lieux_22["vosp"] = df_lieux_22["vosp"].replace(3, "voie réservée")


In [54]:
df_lieux_22["vosp"].value_counts()

piste_cyclable    2995
voie réservée     2129
bande cyclable    1766
Name: vosp, dtype: int64

In [55]:
df_lieux_22["vosp"].value_counts()
df_lieux_22["vosp"] = df_lieux_22["vosp"].replace(-1, np.nan)
df_lieux_22["vosp"] = df_lieux_22["vosp"].replace(1, "partie rectiligne")
df_lieux_22["vosp"] = df_lieux_22["vosp"].replace(2, "courbe gauche" )
df_lieux_22["vosp"] = df_lieux_22["vosp"].replace(3, "courbe à droite")
df_lieux_22["vosp"] = df_lieux_22["vosp"].replace(4, "courbe en S")


In [56]:
df_lieux_22["larrout"]=df_lieux_22["larrout"].replace(-1,np.nan)
df_lieux_22["larrout"].value_counts()


 -1     51456
4        1533
5         574
3         509
7         314
        ...  
6,9         1
14,5        1
5,79        1
11,3        1
9,1         1
Name: larrout, Length: 88, dtype: int64

largeur de la route 

In [57]:
df_lieux_22["surf"].value_counts()

 1    46026
 2     8429
 9      331
 7      218
 3       88
 8       87
 5       51
 6       37
 4       26
-1        9
Name: surf, dtype: int64

In [58]:
df_lieux_22["surf"] = df_lieux_22["surf"].replace(-1, np.nan)
df_lieux_22["surf"] = df_lieux_22["surf"].replace(1, "normale")
df_lieux_22["surf"] = df_lieux_22["surf"].replace(2, "mouillée")
df_lieux_22["surf"] = df_lieux_22["surf"].replace(3, "flaque")
df_lieux_22["surf"] = df_lieux_22["surf"].replace(4, "inondée")
df_lieux_22["surf"] = df_lieux_22["surf"].replace(5, "enneigée")
df_lieux_22["surf"] = df_lieux_22["surf"].replace(6, "boue")
df_lieux_22["surf"] = df_lieux_22["surf"].replace(7, "verglacée")
df_lieux_22["surf"] = df_lieux_22["surf"].replace(8, "corps gras")
df_lieux_22["surf"] = df_lieux_22["surf"].replace(9, "autre")

Surface indique le type de surface où à  l'accident à eu lieux 

In [59]:
df_lieux_22["infra"] = df_lieux_22["infra"].replace(-1, np.nan)
df_lieux_22["infra"] = df_lieux_22["infra"].replace(0, np.nan)
df_lieux_22["infra"] = df_lieux_22["infra"].replace(1, "tunnel")
df_lieux_22["infra"] = df_lieux_22["infra"].replace(2, "pont")
df_lieux_22["infra"] = df_lieux_22["infra"].replace(3, "bretelle")
df_lieux_22["infra"] = df_lieux_22["infra"].replace(4, "voie ferrée")
df_lieux_22["infra"] = df_lieux_22["infra"].replace(5, "carrefour aménagé")
df_lieux_22["infra"] = df_lieux_22["infra"].replace(6, "zone piétonne")
df_lieux_22["infra"] = df_lieux_22["infra"].replace(7, "zone de péage")
df_lieux_22["infra"] = df_lieux_22["infra"].replace(8, "chantier")
df_lieux_22["infra"] = df_lieux_22["infra"].replace(9, "autre")

In [60]:
df_lieux_22["infra"].value_counts() #vérification que le recodage à fonctionné 

carrefour aménagé    2862
autre                1970
pont                  961
bretelle              677
tunnel                656
zone piétonne         519
chantier              411
voie ferrée           135
zone de péage          31
Name: infra, dtype: int64

Infra indique le type d'infrastructure. Comme souvent dans la base il existe un item qui sembble intermédiaire entre non renseingée et autre, ici il s'agit d'aucun. à l'instar de ce nous avon fait avant je recode autre en "Nan". 


In [61]:

df_lieux_22["situ"] = df_lieux_22["situ"].replace(-1, np.nan)
df_lieux_22["situ"] = df_lieux_22["situ"].replace(0, np.nan)
df_lieux_22["situ"] = df_lieux_22["situ"].replace(1, "chaussée")
df_lieux_22["situ"] = df_lieux_22["situ"].replace(2, "bande d'arrêt d'urgence")
df_lieux_22["situ"] = df_lieux_22["situ"].replace(3, "acottement")
df_lieux_22["situ"] = df_lieux_22["situ"].replace(4, "trottoir")
df_lieux_22["situ"] = df_lieux_22["situ"].replace(5, "piste cyclable")
df_lieux_22["situ"] = df_lieux_22["situ"].replace(6, "voie spéciale")
df_lieux_22["situ"] = df_lieux_22["situ"].replace(7, np.nan)
df_lieux_22["situ"] = df_lieux_22["situ"].replace(8, "autre")



In [62]:
df_lieux_22["situ"].value_counts()

chaussée                   45401
acottement                  4118
autre                       1890
piste cyclable              1437
trottoir                    1326
voie spéciale                729
bande d'arrêt d'urgence      394
Name: situ, dtype: int64

"Situ" indique la situation de l'accident encore une fois la documentation ne mentionne pas l'entrée 7 qui à cela dit peu d'observation. 

In [63]:
df_lieux_22["vma"].value_counts(ascending=True)



 700        1
 3          2
 4          2
 35         3
 300        5
 2          5
 100        5
 6          6
 500        8
 1         15
 45        25
 15        29
 5         34
 25        35
 40        60
 60       111
 10       141
 20       157
-1        897
 130     1118
 110     1922
 70      4093
 90      4494
 80      7616
 30      9066
 50     25452
Name: vma, dtype: int64

VMA indique la vitesse maximal autorisé , les vitesses supérieur à 130 sont donc des erreurs, de fait, toutes vitesses  supérieur à 130 est une erreur, il n'existe pas d'autre base rescençant les vitesse qui permeterait d'imputer les bonnes valeurs à l'aide d'un merge, on va donc les metre en NAN/. les valeurs trés faible comme 1 sont suspectes , mais possible, il est sans doute préférable de les conserver 

In [64]:
df_lieux_22.loc[df_lieux_22['vma'] > 130, 'vma'] = np.nan

In [65]:
df_lieux_22["vma"] = df_lieux_22["vma"].replace(-1, np.nan)

In [66]:
df_lieux_22.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 55302 entries, 0 to 55301
Data columns (total 18 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Num_Acc  55302 non-null  int64  
 1   catr     55302 non-null  object 
 2   voie     50497 non-null  object 
 3   v1       55302 non-null  int64  
 4   v2       5255 non-null   object 
 5   circ     52142 non-null  object 
 6   nbv      55302 non-null  object 
 7   vosp     6890 non-null   object 
 8   prof     55302 non-null  int64  
 9   pr       55302 non-null  object 
 10  pr1      55302 non-null  object 
 11  plan     55302 non-null  int64  
 12  lartpc   28 non-null     object 
 13  larrout  55302 non-null  object 
 14  surf     55293 non-null  object 
 15  infra    8222 non-null   object 
 16  situ     55295 non-null  object 
 17  vma      54391 non-null  float64
dtypes: float64(1), int64(4), object(13)
memory usage: 7.6+ MB


In [67]:
df_lieux_22.describe()

Unnamed: 0,Num_Acc,v1,prof,plan,vma
count,55302.0,55302.0,55302.0,55302.0,54391.0
mean,202200000000.0,-0.175111,1.234838,1.312538,59.173117
std,15964.46,0.397916,0.544126,0.687786,23.248682
min,202200000000.0,-1.0,-1.0,-1.0,1.0
25%,202200000000.0,0.0,1.0,1.0,50.0
50%,202200000000.0,0.0,1.0,1.0,50.0
75%,202200000000.0,0.0,1.0,1.0,80.0
max,202200100000.0,3.0,4.0,4.0,130.0


Regardons à quoi ressemble notre base nettoyée !

In [85]:
df_lieux_22

Unnamed: 0,Num_Acc,catr,voie,v1,v2,circ,nbv,vosp,prof,pr,pr1,plan,lartpc,larrout,surf,infra,situ,vma
0,202200000001,voie communale,TEIL(vieille route du),0,,chausée bidirectionnelle,2,,1,(1),(1),1,,-1,normale,,chaussée,50.0
1,202200000002,voie communale,,0,,chausée bidirectionnelle,2,,1,(1),(1),1,,-1,normale,,chaussée,50.0
2,202200000003,route departementale,ROND POINT DE BREZILLET,0,,,2,,1,0,0,1,,-1,normale,carrefour aménagé,chaussée,50.0
3,202200000004,voie communale,QUATORZE JUILLET (RUE DU),0,,chaussée unidirectionnelle,1,,2,(1),(1),1,,4,normale,,chaussée,30.0
4,202200000005,route departementale,ROUTE DE JEAN MOULIN-RN 538,0,,chausée bidirectionnelle,2,,1,8,0,1,,-1,normale,,chaussée,80.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
55297,202200055298,route departementale,71,-1,,chausée bidirectionnelle,2,,2,(1),(1),1,,-1,normale,,autre,80.0
55298,202200055299,route departementale,973,-1,,chausée bidirectionnelle,2,,1,29,0,2,,-1,normale,,acottement,80.0
55299,202200055300,route departementale,22,0,D,chausée bidirectionnelle,2,,1,39,553,2,,-1,verglacée,,acottement,80.0
55300,202200055301,route departementale,18,-1,D,chausée bidirectionnelle,2,,1,30,125,1,,-1,normale,,chaussée,80.0


## Base `vehicules` 

Dans cette DF  il y à parfois plus de 40 entrées valeur possible pour une colone, on  ne recodera pas ces variables catégorielles 
et on se referra à la documentation pour connaître leur signification


In [68]:
df_vehicules_22.head()

Unnamed: 0,Num_Acc,id_vehicule,num_veh,senc,catv,obs,obsm,choc,manv,motor,occutc
0,202200000001,813 952,A01,1,2,0,2,1,9,1,
1,202200000001,813 953,B01,1,7,0,2,2,1,1,
2,202200000002,813 950,B01,2,7,0,2,8,15,1,
3,202200000002,813 951,A01,2,10,0,2,1,1,1,
4,202200000003,813 948,A01,2,7,0,2,1,2,1,


In [69]:
df_vehicules_22.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 94493 entries, 0 to 94492
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Num_Acc      94493 non-null  int64  
 1   id_vehicule  94493 non-null  object 
 2   num_veh      94493 non-null  object 
 3   senc         94493 non-null  int64  
 4   catv         94493 non-null  int64  
 5   obs          94493 non-null  int64  
 6   obsm         94493 non-null  int64  
 7   choc         94493 non-null  int64  
 8   manv         94493 non-null  int64  
 9   motor        94493 non-null  int64  
 10  occutc       817 non-null    float64
dtypes: float64(1), int64(8), object(2)
memory usage: 7.9+ MB


In [70]:
df_vehicules_22.describe()

Unnamed: 0,Num_Acc,senc,catv,obs,obsm,choc,manv,motor,occutc
count,94493.0,94493.0,94493.0,94493.0,94493.0,94493.0,94493.0,94493.0,817.0
mean,202200000000.0,1.573439,13.456245,1.027579,1.664515,2.876837,6.92427,1.320352,1.919217
std,15921.68,0.822237,14.322038,3.128954,1.265675,2.419628,7.888078,1.080011,3.432234
min,202200000000.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,1.0
25%,202200000000.0,1.0,7.0,0.0,1.0,1.0,1.0,1.0,1.0
50%,202200000000.0,1.0,7.0,0.0,2.0,2.0,2.0,1.0,1.0
75%,202200000000.0,2.0,10.0,0.0,2.0,4.0,15.0,1.0,1.0
max,202200100000.0,3.0,99.0,17.0,9.0,9.0,26.0,6.0,38.0


In [71]:
df_vehicules_22["senc"].value_counts()
df_vehicules_22["senc"] = df_vehicules_22["senc"].replace(-1, np.nan)

Senc indique le sens de circulation

In [72]:
df_vehicules_22["catv"].value_counts()

 7     55406
 33     7349
 10     6759
 1      5320
 2      3304
 30     2724
 32     2121
 50     2087
 31     1603
 34      947
 15      923
 14      723
 80      680
 37      637
 17      627
 43      612
 3       506
 99      405
 13      381
 0       273
 21      235
 60      201
 38      180
 36      173
 40      125
 20       77
 39       29
 16       26
 35       21
 42       18
 41       17
-1         4
Name: catv, dtype: int64

In [73]:
df_vehicules_22["catv"] = df_vehicules_22["catv"].replace(00, np.nan)
df_vehicules_22["senc"] = df_vehicules_22["senc"].replace(-1, np.nan)

Catv est la catégorie du véhicule
00 correspond  à " indetérminable" l'imputé sera utile pour déterminer quel types de véhicules sont les plus dangereu( I.E cause les accidents les plus graves )

In [74]:
df_vehicules_22["obs"].value_counts()

 0     80425
 1      2247
 13     1661
 2      1507
 4      1301
 3      1292
 8      1183
 6      1099
 12      758
 14      644
 15      552
 9       503
 16      415
 7       259
 5       194
 11      171
 17      116
 10       98
-1        68
Name: obs, dtype: int64

In [75]:

df_vehicules_22["obs"] = df_vehicules_22["obs"].replace(-1, np.nan)

Obs correspond  à l'obstacle fixe heurté ici il est nécessaire de garder la valeur 0 qui indique qu'aucun obstacle fixe n'a été heurté .
 

In [76]:
df_vehicules_22["obsm"].value_counts()

 2    66333
 0    17638
 1     8551
 9     1621
 6      119
 4      102
 5       81
-1       48
Name: obsm, dtype: int64

In [77]:
df_vehicules_22["obsm"] = df_vehicules_22["obsm"].replace(-1, np.nan)

Obsm : obstacle mobile

In [78]:
df_vehicules_22["choc"].value_counts()

 1    34362
 3    14010
 2    11301
 4     9208
 8     6467
 0     6185
 7     5568
 6     3317
 5     2656
 9     1354
-1       65
Name: choc, dtype: int64

In [79]:
df_vehicules_22["choc"] = df_vehicules_22["choc"].replace(-1, np.nan)

Ici le point de choc initial est renseigné 

In [80]:
df_vehicules_22["manv"].value_counts()

 1     38754
 2     11073
 15     7533
 0      6170
 13     4154
 17     3120
 9      2914
 26     2732
 16     2490
 23     2251
 19     2250
 14     1894
 21     1360
 5      1155
 11     1042
 3      1024
 12      992
 10      617
 20      563
 18      533
 4       427
 24      406
 22      291
 25      265
 7       231
 6       173
 8        41
-1        38
Name: manv, dtype: int64

In [81]:
df_vehicules_22["manv"] = df_vehicules_22["manv"].replace(-1, np.nan)
df_vehicules_22["manv"] = df_vehicules_22["manv"].replace(0, np.nan)

Manv indique la manoeuvre initial entamé avant l'accident, ici  0 correspond à non renseigné là encore l'imputé semble utile pour prédire la graviter d'un acident 

In [82]:
df_vehicules_22["motor"].value_counts()

 1    77750
 5     5440
 3     4353
 0     3994
 2     2429
 6      322
-1      171
 4       34
Name: motor, dtype: int64

In [83]:
df_vehicules_22["motor"] = df_vehicules_22["motor"].replace(-1, np.nan)
df_vehicules_22["motor"] = df_vehicules_22["motor"].replace(0, np.nan)

Motor indique le type de motorisation du véhicule 

In [84]:
df_vehicules_22["occutc"].value_counts()

1.0     620
2.0      94
3.0      37
4.0      16
6.0       9
7.0       8
5.0       7
9.0       4
8.0       4
10.0      3
11.0      2
19.0      2
13.0      1
16.0      1
31.0      1
38.0      1
22.0      1
12.0      1
27.0      1
37.0      1
35.0      1
15.0      1
36.0      1
Name: occutc, dtype: int64

Cette var indique le nombre de personne présente dans un le véhicule si ce dernier est un transport en commun 

Regardons à quoi ressemble notre base nettoyée !

In [86]:
df_vehicules_22

Unnamed: 0,Num_Acc,id_vehicule,num_veh,senc,catv,obs,obsm,choc,manv,motor,occutc
0,202200000001,813 952,A01,1.0,2.0,0.0,2.0,1.0,9.0,1.0,
1,202200000001,813 953,B01,1.0,7.0,0.0,2.0,2.0,1.0,1.0,
2,202200000002,813 950,B01,2.0,7.0,0.0,2.0,8.0,15.0,1.0,
3,202200000002,813 951,A01,2.0,10.0,0.0,2.0,1.0,1.0,1.0,
4,202200000003,813 948,A01,2.0,7.0,0.0,2.0,1.0,2.0,1.0,
...,...,...,...,...,...,...,...,...,...,...,...
94488,202200055300,715 633,A01,2.0,7.0,2.0,0.0,1.0,1.0,1.0,
94489,202200055301,715 631,A01,2.0,7.0,0.0,0.0,8.0,19.0,1.0,
94490,202200055301,715 632,B01,2.0,7.0,0.0,2.0,1.0,1.0,1.0,
94491,202200055302,715 629,A01,1.0,33.0,0.0,2.0,1.0,1.0,1.0,


## La jointure en pratique

In [87]:
df_usagers_22.info(), df_vehicules_22.info(), df_lieux_22.info(), df_caracs_22.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 126662 entries, 0 to 126661
Data columns (total 16 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   Num_Acc      126662 non-null  int64  
 1   id_usager    126662 non-null  object 
 2   id_vehicule  126662 non-null  object 
 3   num_veh      126662 non-null  object 
 4   place        126662 non-null  int64  
 5   catu         126662 non-null  object 
 6   grav         126662 non-null  int64  
 7   sexe         123918 non-null  object 
 8   an_nais      123788 non-null  float64
 9   trajet       91051 non-null   object 
 10  secu1        126662 non-null  int64  
 11  secu2        126662 non-null  int64  
 12  secu3        126662 non-null  int64  
 13  locp         126662 non-null  int64  
 14  actp         58804 non-null   object 
 15  etatp        9473 non-null    object 
dtypes: float64(1), int64(7), object(8)
memory usage: 15.5+ MB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 94

(None, None, None, None)

On s'assure qu'on a bien autant d'observations dont le triplet `(Num_Acc, id_vehicule, num_veh)` est unique dans les bases `usagers` et `véhicules`.

In [88]:
(~df_usagers_22.duplicated(["Num_Acc", "id_vehicule", "num_veh"])).sum()

94493

In [89]:
(~df_vehicules_22.duplicated(["Num_Acc", "id_vehicule", "num_veh"])).sum()

94493

À présent, on peut procéder à la jointure à l'aide de `pd.merge`. On joint d'abord les bases `usagers` et `vehicules` sur `(Num_Acc, id_vehicule, num_veh)`, puis on joint également les bases `lieux` et `caracs` sur l'identifiant de l'accident, codé par `Num_Acc`.

In [92]:
df_merged_22 = pd.merge(pd.merge(pd.merge(df_usagers_22, df_vehicules_22, on=["Num_Acc", "id_vehicule", "num_veh"]), \
    df_lieux_22, on="Num_Acc"), df_caracs_22, on="Num_Acc")


In [93]:
df_merged_22.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 126662 entries, 0 to 126661
Data columns (total 56 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   Num_Acc      126662 non-null  int64  
 1   id_usager    126662 non-null  object 
 2   id_vehicule  126662 non-null  object 
 3   num_veh      126662 non-null  object 
 4   place        126662 non-null  int64  
 5   catu         126662 non-null  object 
 6   grav         126662 non-null  int64  
 7   sexe         123918 non-null  object 
 8   an_nais      123788 non-null  float64
 9   trajet       91051 non-null   object 
 10  secu1        126662 non-null  int64  
 11  secu2        126662 non-null  int64  
 12  secu3        126662 non-null  int64  
 13  locp         126662 non-null  int64  
 14  actp         58804 non-null   object 
 15  etatp        9473 non-null    object 
 16  senc         126292 non-null  float64
 17  catv         126281 non-null  float64
 18  obs          126575 non-

On retombe bien sur un total de 126 662 observations, soit la longueur de la base usagers.

In [None]:
df_merged_22.to_csv('df_merged_22.csv', index=False)