# Préparation des données

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
df_usagers_22 = pd.read_csv("https://www.data.gouv.fr/fr/datasets/r/62c20524-d442-46f5-bfd8-982c59763ec8", sep=";")
df_vehicules_22 = pd.read_csv("https://www.data.gouv.fr/fr/datasets/r/c9742921-4427-41e5-81bc-f13af8bc31a0", sep=";")
df_lieux_22 = pd.read_csv("https://www.data.gouv.fr/fr/datasets/r/a6ef711a-1f03-44cb-921a-0ce8ec975995", sep=";")
df_caracs_22 = pd.read_csv("https://www.data.gouv.fr/fr/datasets/r/5fc299c0-4598-4c29-b74c-6a67b0cc27e7", sep=";")

  exec(code_obj, self.user_global_ns, self.user_ns)


In [5]:
print(len(df_usagers_22))
print(len(df_vehicules_22))
print(len(df_lieux_22))
print(len(df_caracs_22))

126662
94493
55302
55302


Un accident a des caractéristiques uniques et un lieu unique, mais il peut impliquer plusieurs véhicules, ces derniers pouvant eux-mêmes impliquer plusieurs usagers (en plus des piétons !).

Pour cette raison, les longueurs différentes ne sont pas surprenantes.

Ci-dessous, on compte le nombre de valeurs uniques pour la variable `id_vehicule` dans la base `usagers`, et on trouve bien 94 493, la longueur de la base `vehicules`.

In [10]:
(~df_usagers_22.duplicated("id_vehicule")).sum()

94493

## Base `usagers`

In [4]:
df_usagers_22.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 126662 entries, 0 to 126661
Data columns (total 16 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   Num_Acc      126662 non-null  int64  
 1   id_usager    126662 non-null  object 
 2   id_vehicule  126662 non-null  object 
 3   num_veh      126662 non-null  object 
 4   place        126662 non-null  int64  
 5   catu         126662 non-null  object 
 6   grav         126662 non-null  int64  
 7   sexe         123918 non-null  object 
 8   an_nais      123788 non-null  float64
 9   trajet       91051 non-null   object 
 10  secu1        126662 non-null  int64  
 11  secu2        126662 non-null  int64  
 12  secu3        126662 non-null  int64  
 13  locp         126662 non-null  int64  
 14  actp         126662 non-null  object 
 15  etatp        126662 non-null  int64  
dtypes: float64(1), int64(8), object(7)
memory usage: 15.5+ MB


In [9]:
df_usagers_22["grav"].replace({2: 4, 4: 2}, inplace=True)
df_usagers_22["sexe"].replace({1: "homme", 
                               2: "femme", 
                               -1: np.NaN}, 
                               inplace=True)
df_usagers_22["catu"].replace({1: "conducteur", 
                               2: "passager", 
                               3: "pieton", 
                               -1: np.NaN}, inplace=True)
df_usagers_22["trajet"].replace({-1: np.NaN, 
                                 0: np.NaN, 
                                 1: "domicile-travail",
                                 2: "domicile-ecole",
                                 3: "courses-achats",
                                 4: "utilisation pro",
                                 5: "promenade-loisirs",
                                 9: "autre"},
                                 inplace=True)
df_usagers_22["etatp"].replace({-1: np.NaN,
                                1: "seul",
                                2: "accompagne",
                                3: "en groupe"},
                                inplace=True)

## Bases `caracs`

In [10]:
df_caracs_22.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 55302 entries, 0 to 55301
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Accident_Id  55302 non-null  int64 
 1   jour         55302 non-null  int64 
 2   mois         55302 non-null  int64 
 3   an           55302 non-null  int64 
 4   hrmn         55302 non-null  object
 5   lum          55302 non-null  int64 
 6   dep          55302 non-null  object
 7   com          55302 non-null  object
 8   agg          55302 non-null  int64 
 9   int          55302 non-null  int64 
 10  atm          55302 non-null  int64 
 11  col          55302 non-null  int64 
 12  adr          54069 non-null  object
 13  lat          55302 non-null  object
 14  long         55302 non-null  object
dtypes: int64(9), object(6)
memory usage: 6.3+ MB


On modifie le nom de la variable `Accident_Id` de la base `caracs` pour faciliter la jointure tout à l'heure.

In [31]:
df_caracs_22.rename(columns={"Accident_Id": "Num_Acc"}, inplace=True)

Rien à signaler sur les variables `jour`, `mois` et `an`.

In [13]:
df_caracs_22["jour"].value_counts()

14    1978
11    1957
21    1934
10    1902
7     1901
5     1882
12    1879
16    1863
9     1863
17    1845
22    1830
15    1830
13    1822
8     1822
4     1805
18    1798
28    1793
26    1793
20    1784
25    1783
1     1783
3     1775
6     1767
2     1756
19    1754
23    1725
24    1714
27    1700
29    1671
30    1640
31     953
Name: jour, dtype: int64

In [12]:
df_caracs_22["mois"].value_counts()

6     5418
5     5299
7     5068
10    5026
9     4919
11    4542
3     4529
4     4340
8     4173
12    4106
1     3981
2     3901
Name: mois, dtype: int64

In [14]:
df_caracs_22["an"].value_counts()

2022    55302
Name: an, dtype: int64

Pour la variable `hrmn`, certaines valeurs sont précises (03:32 par exemple), tandis que la plupart sont arrondies à la demi-heure (sans doute dû aux conditions réelles de renseignement de l'information).

In [15]:
df_caracs_22["hrmn"].value_counts()

18:00    692
17:00    675
18:30    607
19:00    582
17:30    572
        ... 
03:32      1
13:59      1
06:31      1
06:56      1
04:43      1
Name: hrmn, Length: 1398, dtype: int64

Pour une bonne exploitation, il est sans doute plus utile d'homogénéiser tout ça en assimilant tous les horaires à leur heure `h`. C'est l'objet du code suivant, qui crée une nouvelle variable `heure` pour cela.

In [17]:
df_caracs_22['heure'] = pd.to_datetime(df_caracs_22['hrmn'], format='%H:%M').dt.time

La variable `lum` admet quelques valeurs `-1` (non indiquées dans la documentation) qui correspondent sans doute, à l'instar des autres variables, à des données manquantes. Nous les remplacerons plus tard (de façon centralisée avec les autres variables) par des `NaN`.

In [19]:
df_caracs_22["lum"].value_counts()

 1    36845
 5     8727
 3     5628
 2     3589
 4      511
-1        2
Name: lum, dtype: int64

In [21]:
df_caracs_22["dep"].value_counts()

75     5071
93     2756
92     2510
94     2280
13     2255
       ... 
23       45
978      21
986      14
977       7
975       3
Name: dep, Length: 107, dtype: int64

In [24]:
df_caracs_22["com"].value_counts()

75116    551
75112    421
97302    398
75119    392
75117    375
        ... 
76314      1
23139      1
73082      1
43232      1
74001      1
Name: com, Length: 11253, dtype: int64

In [25]:
df_caracs_22["agg"].value_counts()

2    35036
1    20266
Name: agg, dtype: int64

Rien à signaler sur la suite.

In [28]:
df_caracs_22["int"].value_counts()

 1    35349
 2     6759
 3     6170
 6     2415
 9     2245
 4     1280
 7      630
 5      348
 8       99
-1        7
Name: int, dtype: int64

In [30]:
df_caracs_22["atm"].value_counts()

 1    45269
 2     4934
 8     1927
 7     1143
 3      981
 5      531
 9      263
 4      130
 6      123
-1        1
Name: atm, dtype: int64

In [32]:
df_caracs_22["col"].value_counts()

 3    16838
 6    16039
 2     7419
 1     5933
 7     5531
 4     1944
 5     1535
-1       63
Name: col, dtype: int64

Pour les adresses, il y a clairement beaucoup d'hétérogénéité.

In [37]:
df_caracs_22["adr"].sample(20)

38770               PLACE DE L OPERA
3343               Route de Tramoyes
18231              ARAGON (AV LOUIS)
42132                            D53
46814              Route de Guissény
17767                         CD1029
53797       Avenue du Docteur Lamaze
19763                          RD 14
44282        GENERAL LECLERC (AV DU)
36179                             N2
17233    LECLERCQ AVENUE DU GENERAL.
8084               8 Rue de l'Eglise
32779                           D316
15084             départementale 109
38379                            A15
29268     RUE DE LA CHAUSSEE D ANTIN
43354                            A13
28048                  Rue Léon Blum
419              63 Rue Roger Gibrat
4300                             NaN
Name: adr, dtype: object

Les variables `lat` et `long` sont codées avec une virgule (convention française).

In [43]:
df_caracs_22[["lat", "long"]].sample(10)

Unnamed: 0,lat,long
423,488802183655,22739046514
27640,457639200000,31157000000
52077,489778790000,10035000000
23364,448426000000,-5699000000
54652,481178300000,-16855500000
38261,487646930000,23067860000
48744,444510530000,53706410000
26400,49373000000,-522980800000
33921,435506000000,69965000000
28108,491233720000,-1887380000


Arrangeons cela !

In [44]:
df_caracs_22['lat'] = df_caracs_22['lat'].str.replace(',', '.').astype(float)
df_caracs_22['long'] = df_caracs_22['long'].str.replace(',', '.').astype(float)

### Recodage de certaines variables

In [34]:
df_caracs_22["agg"].replace({1: "hors agglo",
                             2: "agglo"},
                             inplace=True)

df_caracs_22.replace(-1, np.NaN, inplace=True)

## La jointure en pratique

In [30]:
df_usagers_22.info(), df_vehicules_22.info(), df_lieux_22.info(), df_caracs_22.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 126662 entries, 0 to 126661
Data columns (total 16 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   Num_Acc      126662 non-null  int64  
 1   id_usager    126662 non-null  object 
 2   id_vehicule  126662 non-null  object 
 3   num_veh      126662 non-null  object 
 4   place        126662 non-null  int64  
 5   catu         126662 non-null  int64  
 6   grav         126662 non-null  int64  
 7   sexe         126662 non-null  int64  
 8   an_nais      123788 non-null  float64
 9   trajet       126662 non-null  int64  
 10  secu1        126662 non-null  int64  
 11  secu2        126662 non-null  int64  
 12  secu3        126662 non-null  int64  
 13  locp         126662 non-null  int64  
 14  actp         126662 non-null  object 
 15  etatp        126662 non-null  int64  
dtypes: float64(1), int64(11), object(4)
memory usage: 15.5+ MB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9

(None, None, None, None)

On s'assure qu'on a bien autant d'observations dont le triplet `(Num_Acc, id_vehicule, num_veh)` est unique dans les bases `usagers` et `véhicules`.

In [20]:
(~df_usagers_22.duplicated(["Num_Acc", "id_vehicule", "num_veh"])).sum()

94493

In [21]:
(~df_vehicules_22.duplicated(["Num_Acc", "id_vehicule", "num_veh"])).sum()

94493

À présent, on peut procéder à la jointure à l'aide de `pd.merge`. On joint d'abord les bases `usagers` et `vehicules` sur `(Num_Acc, id_vehicule, num_veh)`, puis on joint également les bases `lieux` et `caracs` sur l'identifiant de l'accident, codé par `Num_Acc`.

In [32]:
pd.merge(pd.merge(pd.merge(df_usagers_22, df_vehicules_22, on=["Num_Acc", "id_vehicule", "num_veh"]), \
    df_lieux_22, on="Num_Acc"), df_caracs_22, on="Num_Acc")


Unnamed: 0,Num_Acc,id_usager,id_vehicule,num_veh,place,catu,grav,sexe,an_nais,trajet,...,lum,dep,com,agg,int,atm,col,adr,lat,long
0,202200000001,1 099 700,813 952,A01,1,1,3,1,2008.0,5,...,1,26,26198,2,3,1,3,TEIL(vieille route du),445594200000,47257200000
1,202200000001,1 099 701,813 953,B01,1,1,1,1,1948.0,5,...,1,26,26198,2,3,1,3,TEIL(vieille route du),445594200000,47257200000
2,202200000002,1 099 698,813 950,B01,1,1,4,1,1988.0,9,...,1,25,25204,2,3,1,3,Miranda,469258100000,63462000000
3,202200000002,1 099 699,813 951,A01,1,1,1,1,1970.0,4,...,1,25,25204,2,3,1,3,Miranda,469258100000,63462000000
4,202200000003,1 099 696,813 948,A01,1,1,1,1,2002.0,0,...,1,22,22360,2,6,1,2,ROND POINT DE BREZILLET,484931620000,-27604390000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
126657,202200055301,968 230,715 631,A01,1,1,1,2,2002.0,5,...,1,81,81099,1,3,1,3,Chemin Toulze,439272650000,19156370000
126658,202200055301,968 231,715 631,A01,8,2,3,2,2004.0,5,...,1,81,81099,1,3,1,3,Chemin Toulze,439272650000,19156370000
126659,202200055301,968 232,715 632,B01,1,1,4,2,1953.0,5,...,1,81,81099,1,3,1,3,Chemin Toulze,439272650000,19156370000
126660,202200055302,968 228,715 629,A01,1,1,3,1,1992.0,1,...,1,41,41018,2,1,1,2,RD956 - Pont Charles De Gaulle,475944040000,13533290000


On retombe bien sur un total de 126 662 observations, soit la longueur de la base usagers.