# Préparation des données

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [42]:
df_usagers_22 = pd.read_csv("https://www.data.gouv.fr/fr/datasets/r/62c20524-d442-46f5-bfd8-982c59763ec8", sep=";")
df_vehicules_22 = pd.read_csv("https://www.data.gouv.fr/fr/datasets/r/c9742921-4427-41e5-81bc-f13af8bc31a0", sep=";")
df_lieux_22 = pd.read_csv("https://www.data.gouv.fr/fr/datasets/r/a6ef711a-1f03-44cb-921a-0ce8ec975995", sep=";")
df_caracs_22 = pd.read_csv("https://www.data.gouv.fr/fr/datasets/r/5fc299c0-4598-4c29-b74c-6a67b0cc27e7", sep=";")

  exec(code_obj, self.user_global_ns, self.user_ns)


In [43]:
print(len(df_usagers_22))
print(len(df_vehicules_22))
print(len(df_lieux_22))
print(len(df_caracs_22))

126662
94493
55302
55302


Un accident a des caractéristiques uniques et un lieu unique, mais il peut impliquer plusieurs véhicules, ces derniers pouvant eux-mêmes impliquer plusieurs usagers (en plus des piétons !).

Pour cette raison, les longueurs différentes ne sont pas surprenantes.

Ci-dessous, on compte le nombre de valeurs uniques pour la variable `id_vehicule` dans la base `usagers`, et on trouve bien 94 493, la longueur de la base `vehicules`.

In [44]:
(~df_usagers_22.duplicated("id_vehicule")).sum()

94493

## Base `usagers`

On remplacera à la fin les valeurs `-1` par des `NaN` pour toutes les variables catégorielles, conformément à la documentation.

In [7]:
df_usagers_22.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 126662 entries, 0 to 126661
Data columns (total 16 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   Num_Acc      126662 non-null  int64  
 1   id_usager    126662 non-null  object 
 2   id_vehicule  126662 non-null  object 
 3   num_veh      126662 non-null  object 
 4   place        126662 non-null  int64  
 5   catu         126662 non-null  int64  
 6   grav         126662 non-null  int64  
 7   sexe         126662 non-null  int64  
 8   an_nais      123788 non-null  float64
 9   trajet       126662 non-null  int64  
 10  secu1        126662 non-null  int64  
 11  secu2        126662 non-null  int64  
 12  secu3        126662 non-null  int64  
 13  locp         126662 non-null  int64  
 14  actp         126662 non-null  object 
 15  etatp        126662 non-null  int64  
dtypes: float64(1), int64(11), object(4)
memory usage: 15.5+ MB


La variable `num_veh` est difficile à comprendre. La documentation n'est pas très claire à ce sujet, notamment en quoi elle se distingue de la variable `id_vehicule`.

In [39]:
df_usagers_22["num_veh"].value_counts()

A01     76240
B01     42087
C01      4674
Z01      1939
D01      1022
E01       326
F01       114
Y01        92
G01        44
X01        18
H01        15
[01        12
T01        11
I01         8
V01         4
WX01        4
JA01        4
\01         3
FA01        3
M01         3
LA01        3
ZZ01        3
P01         2
GA01        2
PA01        2
MA01        2
IA01        2
PB01        2
J01         2
U01         2
OB01        1
UB01        1
VA01        1
LB01        1
L01         1
W01         1
RB01        1
S01         1
R01         1
Q01         1
O01         1
N01         1
K01         1
DA01        1
NA01        1
XB01        1
ZA01        1
Name: num_veh, dtype: int64

Rien à signaler sur la variable place. La valeur `-1`, qui n'est pas présente dans la documentation, correspond sans aucun doute à un champ non renseigné, comme pour les autres variables. Nous les remplacerons par des `NaN` plus tard, de façon centralisée.

In [40]:
df_usagers_22["place"].value_counts()

 1     94292
 2     14001
 10     9567
 3      2459
 4      2232
 9      1340
 7      1241
 5       728
 8       610
 6       184
-1         8
Name: place, dtype: int64

Rien à signaler sur les variables suivantes (il faudra juste remplacer les `-1` par des `np.NaN`).

In [45]:
df_usagers_22["catu"].value_counts()

1    94421
2    22675
3     9566
Name: catu, dtype: int64

In [46]:
df_usagers_22["grav"].value_counts()

 1    53630
 4    49981
 3    19260
 2     3550
-1      241
Name: grav, dtype: int64

In [47]:
df_usagers_22["sexe"].value_counts()

 1    84795
 2    39123
-1     2744
Name: sexe, dtype: int64

In [48]:
df_usagers_22["an_nais"].value_counts()

2001.0    3742
2002.0    3708
2000.0    3698
2003.0    3383
1999.0    3382
          ... 
1922.0       3
1921.0       2
1923.0       2
1920.0       1
1924.0       1
Name: an_nais, Length: 104, dtype: int64

In [49]:
df_usagers_22["trajet"].value_counts()

 5    46253
 0    32737
 1    16282
 4    11622
 9    10494
 3     3713
-1     2874
 2     2687
Name: trajet, dtype: int64

In [54]:
df_usagers_22["secu1"].value_counts()

 1    73953
 2    22651
 8    14117
 0    12144
-1     2679
 3      774
 9      115
 4      102
 6       97
 5       25
 7        5
Name: secu1, dtype: int64

In [56]:
df_usagers_22["secu2"].value_counts()

-1    58601
 0    42898
 6    11686
 8     9711
 4     1482
 5     1211
 9      422
 1      226
 3      172
 7      151
 2      102
Name: secu2, dtype: int64

In [57]:
df_usagers_22["secu3"].value_counts()

-1    125296
 9       890
 0       226
 8        71
 1        66
 6        60
 4        20
 5        19
 2         8
 7         4
 3         2
Name: secu3, dtype: int64

In [58]:
df_usagers_22["locp"].value_counts()

 0    66113
-1    51092
 3     3059
 2     1989
 4     1388
 1     1364
 5      740
 9      474
 6      298
 8      138
 7        7
Name: locp, dtype: int64

In [59]:
df_usagers_22["actp"].value_counts()


0      67558
 -1    49604
3       6959
9        647
1        639
5        347
2        334
B        300
4        120
A         98
6         23
7         21
8         12
Name: actp, dtype: int64

In [60]:
df_usagers_22["etatp"].value_counts()

-1    117189
 1      7222
 2      1892
 3       359
Name: etatp, dtype: int64

On recode toutes les variables catégorielles pour obtenir des modalités plus compréhensibles.

In [8]:
df_usagers_22["grav"].replace({2: 4, 4: 2}, inplace=True)
df_usagers_22["sexe"].replace({1: "homme", 
                               2: "femme", 
                               -1: np.NaN}, 
                               inplace=True)
df_usagers_22["catu"].replace({1: "conducteur", 
                               2: "passager", 
                               3: "piéton", 
                               -1: np.NaN}, inplace=True)
df_usagers_22["trajet"].replace({-1: np.NaN, 
                                 0: np.NaN, 
                                 1: "domicile-travail",
                                 2: "domicile-école",
                                 3: "courses-achats",
                                 4: "utilisation pro",
                                 5: "promenade-loisirs",
                                 9: "autre"},
                                 inplace=True)
df_usagers_22["etatp"].replace({-1: np.NaN,
                                1: "seul",
                                2: "accompagne",
                                3: "en groupe"},
                                inplace=True)
df_usagers_22["actp"].replace({"-1": np.NaN,
                               "0": np.NaN,
                               "1": "sens véhicule heurtant",
                               "2": "sens inverse du véhicule",
                               "3": "traversant",
                               "4": "masqué",
                               "5": "jouant - courant",
                               "6": "avec animal",
                               "9": "autre",
                               "A": "monte/descend du véhicule", 
                               "B": np.NaN}, inplace=True)
df_usagers_22["etatp"].replace({"-1": np.NaN,
                                1: "seul",
                                2: "accompagné",
                                3: "en groupe"})

À présent, on remplace tous les `-1` (restants) par des `NaN`.

In [None]:
df_caracs_22.replace(-1, np.NaN, inplace=True)

## Bases `caracs`

In [9]:
df_caracs_22.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 55302 entries, 0 to 55301
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Accident_Id  55302 non-null  int64 
 1   jour         55302 non-null  int64 
 2   mois         55302 non-null  int64 
 3   an           55302 non-null  int64 
 4   hrmn         55302 non-null  object
 5   lum          55302 non-null  int64 
 6   dep          55302 non-null  object
 7   com          55302 non-null  object
 8   agg          55302 non-null  int64 
 9   int          55302 non-null  int64 
 10  atm          55302 non-null  int64 
 11  col          55302 non-null  int64 
 12  adr          54069 non-null  object
 13  lat          55302 non-null  object
 14  long         55302 non-null  object
dtypes: int64(9), object(6)
memory usage: 6.3+ MB


On modifie le nom de la variable `Accident_Id` de la base `caracs` pour faciliter la jointure tout à l'heure.

In [10]:
df_caracs_22.rename(columns={"Accident_Id": "Num_Acc"}, inplace=True)

Rien à signaler sur les variables `jour`, `mois` et `an`.

In [11]:
df_caracs_22["jour"].value_counts()

14    1978
11    1957
21    1934
10    1902
7     1901
5     1882
12    1879
16    1863
9     1863
17    1845
22    1830
15    1830
13    1822
8     1822
4     1805
18    1798
28    1793
26    1793
20    1784
25    1783
1     1783
3     1775
6     1767
2     1756
19    1754
23    1725
24    1714
27    1700
29    1671
30    1640
31     953
Name: jour, dtype: int64

In [12]:
df_caracs_22["mois"].value_counts()

6     5418
5     5299
7     5068
10    5026
9     4919
11    4542
3     4529
4     4340
8     4173
12    4106
1     3981
2     3901
Name: mois, dtype: int64

In [13]:
df_caracs_22["an"].value_counts()

2022    55302
Name: an, dtype: int64

Pour la variable `hrmn`, certaines valeurs sont précises (03:32 par exemple), tandis que la plupart sont arrondies à la demi-heure (sans doute dû aux conditions réelles de renseignement de l'information).

In [14]:
df_caracs_22["hrmn"].value_counts()

18:00    692
17:00    675
18:30    607
19:00    582
17:30    572
        ... 
03:32      1
13:59      1
06:31      1
06:56      1
04:43      1
Name: hrmn, Length: 1398, dtype: int64

Pour une bonne exploitation, il est sans doute plus utile d'homogénéiser tout ça en assimilant tous les horaires à leur heure `h`. C'est l'objet du code suivant, qui crée une nouvelle variable `heure` pour cela.

In [15]:
df_caracs_22['heure'] = pd.to_datetime(df_caracs_22['hrmn'], format='%H:%M').dt.time

La variable `lum` admet quelques valeurs `-1` (non indiquées dans la documentation) qui correspondent sans doute, à l'instar des autres variables, à des données manquantes. Nous les remplacerons plus tard (de façon centralisée avec les autres variables) par des `NaN`.

In [16]:
df_caracs_22["lum"].value_counts()

 1    36845
 5     8727
 3     5628
 2     3589
 4      511
-1        2
Name: lum, dtype: int64

In [17]:
df_caracs_22["dep"].value_counts()

75     5071
93     2756
92     2510
94     2280
13     2255
       ... 
23       45
978      21
986      14
977       7
975       3
Name: dep, Length: 107, dtype: int64

In [18]:
df_caracs_22["com"].value_counts()

75116    551
75112    421
97302    398
75119    392
75117    375
        ... 
76314      1
23139      1
73082      1
43232      1
74001      1
Name: com, Length: 11253, dtype: int64

In [19]:
df_caracs_22["agg"].value_counts()

2    35036
1    20266
Name: agg, dtype: int64

Rien à signaler sur la suite.

In [20]:
df_caracs_22["int"].value_counts()

 1    35349
 2     6759
 3     6170
 6     2415
 9     2245
 4     1280
 7      630
 5      348
 8       99
-1        7
Name: int, dtype: int64

In [21]:
df_caracs_22["atm"].value_counts()

 1    45269
 2     4934
 8     1927
 7     1143
 3      981
 5      531
 9      263
 4      130
 6      123
-1        1
Name: atm, dtype: int64

In [22]:
df_caracs_22["col"].value_counts()

 3    16838
 6    16039
 2     7419
 1     5933
 7     5531
 4     1944
 5     1535
-1       63
Name: col, dtype: int64

Pour les adresses, il y a clairement beaucoup d'hétérogénéité.

In [23]:
df_caracs_22["adr"].sample(20)

24531                                     D809
3904                                       NaN
27231                                RN1 PK197
6919                                      D408
20992                                      D65
51166                        Avenue d’Alphasis
42540                            AUTOROUTE A86
51691                   Louis VILLECROZE (Bld)
22041                          METZ (ROUTE DE)
13343              AEROPORT (ROND POINT DE L')
20551                      Route de Villeneuve
52760                   TROIS FERMES (RUE DES)
49916    Rue de la République / Rue Emile Zola
20461               MENDES FRANCE (RUE PIERRE)
27357                        Rue Paul Langevin
36849                  Avenue Gaston Bonnardel
50136                  Avenue de la République
37554                           Avenue Pasteur
3649                      AVRANCHES (ROUTE D')
6001                            Autoroute A.35
Name: adr, dtype: object

Les variables `lat` et `long` sont codées avec une virgule (convention française).

In [24]:
df_caracs_22[["lat", "long"]].sample(10)

Unnamed: 0,lat,long
21247,436102790000,15196650000
34040,488632310000,23516670000
42733,473623593892,6958803535
24238,475520930000,9212500000
10951,431134400000,61296700000
16713,473317916342,7062309980
54294,488592890000,22829240000
27235,54346709360,-537412333488
32995,488527010000,24061170000
38354,434134100000,52808700000


Arrangeons cela !

In [25]:
df_caracs_22['lat'] = df_caracs_22['lat'].str.replace(',', '.').astype(float)
df_caracs_22['long'] = df_caracs_22['long'].str.replace(',', '.').astype(float)

### Recodage de certaines variables

In [26]:
df_caracs_22["agg"].replace({1: "hors agglo",
                             2: "agglo"},
                             inplace=True)

df_caracs_22.replace(-1, np.NaN, inplace=True)

# Base

## La jointure en pratique

In [27]:
df_usagers_22.info(), df_vehicules_22.info(), df_lieux_22.info(), df_caracs_22.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 126662 entries, 0 to 126661
Data columns (total 16 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   Num_Acc      126662 non-null  int64  
 1   id_usager    126662 non-null  object 
 2   id_vehicule  126662 non-null  object 
 3   num_veh      126662 non-null  object 
 4   place        126662 non-null  int64  
 5   catu         126662 non-null  object 
 6   grav         126662 non-null  int64  
 7   sexe         123918 non-null  object 
 8   an_nais      123788 non-null  float64
 9   trajet       91051 non-null   object 
 10  secu1        126662 non-null  int64  
 11  secu2        126662 non-null  int64  
 12  secu3        126662 non-null  int64  
 13  locp         126662 non-null  int64  
 14  actp         126662 non-null  object 
 15  etatp        9473 non-null    object 
dtypes: float64(1), int64(7), object(8)
memory usage: 15.5+ MB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 94

(None, None, None, None)

On s'assure qu'on a bien autant d'observations dont le triplet `(Num_Acc, id_vehicule, num_veh)` est unique dans les bases `usagers` et `véhicules`.

In [28]:
(~df_usagers_22.duplicated(["Num_Acc", "id_vehicule", "num_veh"])).sum()

94493

In [29]:
(~df_vehicules_22.duplicated(["Num_Acc", "id_vehicule", "num_veh"])).sum()

94493

À présent, on peut procéder à la jointure à l'aide de `pd.merge`. On joint d'abord les bases `usagers` et `vehicules` sur `(Num_Acc, id_vehicule, num_veh)`, puis on joint également les bases `lieux` et `caracs` sur l'identifiant de l'accident, codé par `Num_Acc`.

In [30]:
df_merged_22 = pd.merge(pd.merge(pd.merge(df_usagers_22, df_vehicules_22, on=["Num_Acc", "id_vehicule", "num_veh"]), \
    df_lieux_22, on="Num_Acc"), df_caracs_22, on="Num_Acc")


On retombe bien sur un total de 126 662 observations, soit la longueur de la base usagers.

In [35]:
df_merged_22.to_csv("df_merged_22.csv", index=False)