# Mai24_CMLOPS_Accidents_Cdc_#1_Analyse_data

## 1- Exploration des données

In [1]:
# Import des bibliothèques nécessaires au projet
import pandas as pd
import numpy as np
import warnings
import matplotlib.pyplot as plt
import plotly.express as px
from plotly.offline import init_notebook_mode, iplot

# Ignorer les avertissements
warnings.filterwarnings("ignore", category=pd.errors.DtypeWarning)

### 1.1 Données 'lieux'

In [2]:
df_lieux=pd.read_csv ('../src/data/lieux_2005a2021.csv', index_col=0)
df_lieux.head()

Unnamed: 0,num_acc,catr,voie,v1,v2,circ,nbv,pr,pr1,vosp,prof,plan,lartpc,larrout,surf,infra,situ,env1,annee,vma
1,200500000001,3.0,41.0,0.0,B,2.0,2.0,1.0,430.0,0.0,1.0,1.0,0.0,63.0,1.0,0.0,1.0,0.0,2005,
2,200500000002,2.0,41.0,0.0,,0.0,2.0,0.0,0.0,1.0,1.0,1.0,0.0,100.0,1.0,0.0,5.0,0.0,2005,
3,200500000003,2.0,41.0,0.0,,0.0,0.0,0.0,0.0,1.0,1.0,1.0,0.0,0.0,2.0,0.0,5.0,0.0,2005,
4,200500000004,3.0,916.0,0.0,,2.0,2.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,1.0,0.0,1.0,0.0,2005,
5,200500000005,3.0,110.0,0.0,,2.0,2.0,24.0,630.0,0.0,1.0,3.0,0.0,59.0,2.0,0.0,3.0,0.0,2005,


In [3]:
df_lieux.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1017309 entries, 1 to 1017309
Data columns (total 20 columns):
 #   Column   Non-Null Count    Dtype  
---  ------   --------------    -----  
 0   num_acc  1017309 non-null  int64  
 1   catr     1017308 non-null  float64
 2   voie     925463 non-null   object 
 3   v1       381485 non-null   float64
 4   v2       43515 non-null    object 
 5   circ     1015735 non-null  float64
 6   nbv      1014578 non-null  float64
 7   pr       541825 non-null   object 
 8   pr1      540006 non-null   object 
 9   vosp     1014548 non-null  float64
 10  prof     1015360 non-null  float64
 11  plan     1015028 non-null  float64
 12  lartpc   902482 non-null   float64
 13  larrout  904468 non-null   float64
 14  surf     1015385 non-null  float64
 15  infra    1011901 non-null  float64
 16  situ     1012339 non-null  float64
 17  env1     953029 non-null   float64
 18  annee    1017309 non-null  int64  
 19  vma      58840 non-null    float64
dtypes: floa

In [4]:
# au vue du nombre de valeurs manquantes, nous pouvons supprimer : voie, v1, v2, pr, pr1, env1, vma
colonnes_a_supprimer = ['voie','v1', 'v2', 'pr', 'pr1', 'env1', 'vma']
df_lieux = df_lieux.drop(columns=colonnes_a_supprimer,axis=1)

In [5]:
# uniformisation du type de données parmi tous les dataframes
a_convertir = ['catr', 'circ', 'nbv', 'vosp', 'prof', 'plan', 'lartpc', 'larrout', 'surf', 'infra', 'situ']
df_lieux[a_convertir] = df_lieux[a_convertir].fillna(0).astype('int64')

In [6]:
for item in ['catr', 'circ', 'vosp', 'prof', 'plan', 'surf', 'infra', 'situ']:
    valeurs_uniques = df_lieux[item].unique()
    print(f'Les valeurs prises par {item} sont : {valeurs_uniques}')

Les valeurs prises par catr sont : [3 2 4 6 9 5 1 0 7]
Les valeurs prises par circ sont : [ 2  0  3  4  1 -1]
Les valeurs prises par vosp sont : [ 0  1  3  2 -1]
Les valeurs prises par prof sont : [ 1  0  2  3  4 -1]
Les valeurs prises par plan sont : [ 1  3  2  0  4 -1]
Les valeurs prises par surf sont : [ 1  2  0  9  7  8  5  6  3  4 -1]
Les valeurs prises par infra sont : [ 0  5  4  2  3  6  1  7  9  8 -1]
Les valeurs prises par situ sont : [ 1  5  3  4  0  2  6  8 -1]


Pour le reste du projet, on considère que -1, nan sont équivalents et correspondent à des valeurs manquantes car non renseignées

In [7]:
# afin de permettre la fusion ultérieure des dataframes, on supprime la colonne commune 'annee' que nous laisserons dans df_usagers
df_lieux = df_lieux.drop(columns=['annee'],axis=1)

In [8]:
# quelques visualisations dans le cadre de l analyse des données manipulées

# représentation du nombre d accidents en fonction du type de routes

effectifs = df_lieux['catr'].value_counts().reset_index()
effectifs.columns = ['Catégorie de Route', 'Nombre d\'Accidents']


fig = px.bar(effectifs, x='Catégorie de Route', y='Nombre d\'Accidents',
    title='Effectif des Accidents en Fonction du Type de Route',
    labels={'Catégorie de Route': 'Catégorie de Route', 'Nombre d\'Accidents': 'Nombre d\'Accidents'},
    color='Nombre d\'Accidents',
    color_continuous_scale='Blues')
fig.show()

In [9]:
# quelques visualisations dans le cadre de l analyse des données manipulées

# représentation du nombre d accidents en fonction de l'état de surface des routes

effectifs = df_lieux['surf'].value_counts().reset_index()
effectifs.columns = ['Etat de surface de la route', 'Nombre d\'Accidents']


fig = px.bar(effectifs, x='Etat de surface de la route', y='Nombre d\'Accidents',
        title='Effectif des Accidents en Fonction de l\'État de Surface des Routes',
        labels={'Etat de surface de la route': 'État de surface', 'Nombre d\'Accidents': 'Nombre d\'Accidents'},
        color='Nombre d\'Accidents',
        color_continuous_scale='Blues')

fig.update_layout(
        xaxis=dict(
            tickmode='array',
            tickvals=effectifs['Etat de surface de la route'],
            ticktext=effectifs['Etat de surface de la route'],
            automargin=True
        )
    )
fig.show()

### 1.2 Données 'caractéristiques'

In [10]:
df_carac = pd.read_csv('../src/data/caracteristiques_2005a2021.csv', encoding='iso-8859-1', index_col=0)
df_carac.head()

Unnamed: 0,num_acc,mois,jour,hrmn,lum,agg,int,atm,col,com,adr,gps,lat,long,dep,annee
1,200500000001,1,12,1900,3,2,1,1.0,3.0,11,CD41B,M,5051500.0,294400.0,590,2005
2,200500000002,1,21,1600,1,2,1,1.0,1.0,51,rue de Lille,M,5053700.0,280200.0,590,2005
3,200500000003,1,21,1845,3,1,1,2.0,1.0,51,,M,5054600.0,280000.0,590,2005
4,200500000004,1,4,1615,1,1,1,1.0,5.0,82,,M,5098700.0,240800.0,590,2005
5,200500000005,1,10,1945,3,1,1,3.0,6.0,478,,M,5096400.0,247500.0,590,2005


In [11]:
df_carac.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1121571 entries, 1 to 1121571
Data columns (total 16 columns):
 #   Column   Non-Null Count    Dtype  
---  ------   --------------    -----  
 0   num_acc  1121571 non-null  int64  
 1   mois     1121571 non-null  int64  
 2   jour     1121571 non-null  int64  
 3   hrmn     1121571 non-null  object 
 4   lum      1121571 non-null  int64  
 5   agg      1121571 non-null  int64  
 6   int      1121571 non-null  int64  
 7   atm      1121498 non-null  float64
 8   col      1121552 non-null  float64
 9   com      1121569 non-null  object 
 10  adr      978295 non-null   object 
 11  gps      643154 non-null   object 
 12  lat      634503 non-null   object 
 13  long     634499 non-null   object 
 14  dep      1121571 non-null  object 
 15  annee    1121571 non-null  int64  
dtypes: float64(2), int64(7), object(7)
memory usage: 145.5+ MB


In [12]:
!pip install notebook plotly


[notice] A new release of pip is available: 24.0 -> 24.2
[notice] To update, run: python.exe -m pip install --upgrade pip




In [13]:
# Initialiser Plotly pour s'assurer qu'il fonctionne bien dans Jupyter Notebook
init_notebook_mode(connected=True)

In [14]:
# On regarde si les latitudes et longitudes font ressortir des insights particuliers
# Si non, au vue du nombre de valeurs manquantes, nous supprimerons ces colonnes

"""
df_carac['lat'] = pd.to_numeric(df_carac['lat'], errors='coerce')
df_carac['long'] = pd.to_numeric(df_carac['long'], errors='coerce')

df_carac.dropna(subset=['lat', 'long'], inplace=True)

fig = px.scatter_mapbox(df_carac, lat='lat', lon='long', zoom=5, height=600)

fig.update_layout(mapbox_style="open-street-map")
fig.update_layout(margin={"r":0,"t":0,"l":0,"b":0})

fig.show()
"""

'\ndf_carac[\'lat\'] = pd.to_numeric(df_carac[\'lat\'], errors=\'coerce\')\ndf_carac[\'long\'] = pd.to_numeric(df_carac[\'long\'], errors=\'coerce\')\n\ndf_carac.dropna(subset=[\'lat\', \'long\'], inplace=True)\n\nfig = px.scatter_mapbox(df_carac, lat=\'lat\', lon=\'long\', zoom=5, height=600)\n\nfig.update_layout(mapbox_style="open-street-map")\nfig.update_layout(margin={"r":0,"t":0,"l":0,"b":0})\n\nfig.show()\n'

In [15]:
# au vue du nombre de valeurs manquantes, nous pouvons supprimer : adr, gps, lat, long
colonnes_a_supprimer = ['adr','gps', 'lat', 'long']
df_carac = df_carac.drop(columns=colonnes_a_supprimer,axis=1)

In [16]:
df_carac.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1121571 entries, 1 to 1121571
Data columns (total 12 columns):
 #   Column   Non-Null Count    Dtype  
---  ------   --------------    -----  
 0   num_acc  1121571 non-null  int64  
 1   mois     1121571 non-null  int64  
 2   jour     1121571 non-null  int64  
 3   hrmn     1121571 non-null  object 
 4   lum      1121571 non-null  int64  
 5   agg      1121571 non-null  int64  
 6   int      1121571 non-null  int64  
 7   atm      1121498 non-null  float64
 8   col      1121552 non-null  float64
 9   com      1121569 non-null  object 
 10  dep      1121571 non-null  object 
 11  annee    1121571 non-null  int64  
dtypes: float64(2), int64(7), object(3)
memory usage: 111.2+ MB


In [17]:
# on encode les variables le nécessitant
df_carac['dep'] = df_carac['dep'].replace({'2A': 1000, '2B': 1001})

In [18]:
# on supprime les données qui ne sont pas entières (bien que leur format laisse à penser que 'dep' et 'com' ont été fusionnés)
def filter_non_int(com):
    try:
        int(com)
        return com
    except ValueError:
        return None

df_carac = df_carac.applymap(filter_non_int)


DataFrame.applymap has been deprecated. Use DataFrame.map instead.



In [19]:
# on distingue les heures et les minutes
df_carac[['hr', 'mn']] = df_carac['hrmn'].str.extract(r'(\d{2})(\d{2})')
df_carac.drop('hrmn', axis=1, inplace=True)

In [20]:
# uniformisation du type de données parmi tous les dataframes
a_convertir = ['atm', 'col','dep', 'com', 'hr', 'mn' ]
df_carac[a_convertir] = df_carac[a_convertir].fillna(0).astype('int64')

In [21]:
df_carac.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1121571 entries, 1 to 1121571
Data columns (total 13 columns):
 #   Column   Non-Null Count    Dtype
---  ------   --------------    -----
 0   num_acc  1121571 non-null  int64
 1   mois     1121571 non-null  int64
 2   jour     1121571 non-null  int64
 3   lum      1121571 non-null  int64
 4   agg      1121571 non-null  int64
 5   int      1121571 non-null  int64
 6   atm      1121571 non-null  int64
 7   col      1121571 non-null  int64
 8   com      1121571 non-null  int64
 9   dep      1121571 non-null  int64
 10  annee    1121571 non-null  int64
 11  hr       1121571 non-null  int64
 12  mn       1121571 non-null  int64
dtypes: int64(13)
memory usage: 119.8 MB


In [22]:
for item in ['lum', 'agg', 'int', 'atm', 'col', 'jour', 'mois']:
    valeurs_uniques = df_carac[item].unique()
    print(f'Les valeurs prises par {item} sont : {valeurs_uniques}')

Les valeurs prises par lum sont : [ 3  1  5  4  2 -1]
Les valeurs prises par agg sont : [2 1]
Les valeurs prises par int sont : [ 1  2  9  0  6  8  3  4  7  5 -1]
Les valeurs prises par atm sont : [ 1  2  3  8  9  7  6  4  5  0 -1]
Les valeurs prises par col sont : [ 3  1  5  6  2  4  7  0 -1]
Les valeurs prises par jour sont : [12 21  4 10 28  3 18 25 29 23 11  1 30 19  9 31 15 13 26  2  6  8 20 16
  7  5 24 14 17 22 27]
Les valeurs prises par mois sont : [ 1  2  3  4  5  6  7  8  9 10 11 12]


Remarques
- dep : code insee du département
- com : code composé du code INSEE du département (ci dessus) suivi par 3 chiffres - il n'y en a que 2

In [23]:
# afin de permettre la fusion ultérieure des dataframes, on supprime la colonne commune 'annee' que nous laisserons dans df_usagers
df_carac = df_carac.drop(columns=['annee'])

### 1.3 Données 'usagers'

In [24]:
df_usagers=pd.read_csv ('../src/data/usagers_2005a2021.csv', index_col=0)
df_usagers.head()

Unnamed: 0,num_acc,place,catu,grav,sexe,trajet,secu,locp,actp,etatp,an_nais,num_veh,annee,id_vehicule,secu1,secu2,secu3
1,200500000000.0,1.0,1,4,1,1.0,11.0,0.0,0,0.0,1976.0,A01,2005,,,,
2,200500000000.0,1.0,1,3,2,3.0,11.0,0.0,0,0.0,1968.0,B02,2005,,,,
3,200500000000.0,2.0,2,1,1,0.0,11.0,0.0,0,0.0,1964.0,B02,2005,,,,
4,200500000000.0,4.0,2,1,1,0.0,31.0,0.0,0,0.0,2004.0,B02,2005,,,,
5,200500000000.0,5.0,2,1,1,0.0,11.0,0.0,0,0.0,1998.0,B02,2005,,,,


In [25]:
df_usagers.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2509620 entries, 1 to 2509620
Data columns (total 17 columns):
 #   Column       Dtype  
---  ------       -----  
 0   num_acc      float64
 1   place        float64
 2   catu         int64  
 3   grav         int64  
 4   sexe         int64  
 5   trajet       float64
 6   secu         float64
 7   locp         float64
 8   actp         object 
 9   etatp        float64
 10  an_nais      float64
 11  num_veh      object 
 12  annee        int64  
 13  id_vehicule  object 
 14  secu1        float64
 15  secu2        float64
 16  secu3        float64
dtypes: float64(10), int64(4), object(3)
memory usage: 344.6+ MB


In [26]:
df_usagers.isna().sum() / len(df_usagers) * 100

num_acc         0.000000
place           4.906241
catu            0.000000
grav            0.000000
sexe            0.000000
trajet          0.019684
secu           16.893474
locp            2.245798
actp            2.249823
etatp           2.248069
an_nais         0.218559
num_veh         0.000000
annee           0.000000
id_vehicule    85.359337
secu1          85.359337
secu2          85.359337
secu3          85.359337
dtype: float64

In [27]:
# au vue du nombre de valeurs manquantes, nous pouvons supprimer :
colonnes_a_supprimer = ["id_vehicule", "secu1", "secu2", "secu3", "secu"]
df_usagers = df_usagers.drop(columns=colonnes_a_supprimer)

In [28]:
# on encode les variables le nécessitant
df_usagers['actp'] = df_usagers['actp'].replace({'A': 10, 'B': -1})

In [29]:
# uniformisation du type de données parmi tous les dataframes
a_convertir = ['num_acc', 'place', 'trajet', 'locp', 'actp', 'etatp', 'an_nais']
df_usagers [a_convertir] = df_usagers [a_convertir].fillna(0).astype('int64')

In [30]:
for item in ['catu', 'grav', 'sexe', 'trajet','locp', 'actp', 'etatp']:
    valeurs_uniques = df_usagers[item].unique()
    print(f'Les valeurs prises par {item} sont : {valeurs_uniques}')

Les valeurs prises par catu sont : [1 2 3 4]
Les valeurs prises par grav sont : [ 4  3  1  2 -1]
Les valeurs prises par sexe sont : [ 1  2 -1]
Les valeurs prises par trajet sont : [ 1  3  0  5  9  4  2 -1]
Les valeurs prises par locp sont : [ 0  2  4  1  5  6  3  8  7 -1  9]
Les valeurs prises par actp sont : [ 0  3  1  5  2  9  6  4 -1 10  8  7]
Les valeurs prises par etatp sont : [ 0  2  1  3 -1]


In [31]:
# les colonnes catu ne peuvent pas intégrer la valeur '4'
# les colonnes sans la valeur cible du projet 'grav' renseignée n'ont aucune utilité, nous les supprimons donc
condition = (df_usagers['catu'] == 4) | (df_usagers['grav'] == -1)
df_usagers.drop(df_usagers[condition].index, inplace=True)

NOTA 1
 - L’indicateur « blessé hospitalisé » n’est plus labellisé par l’autorité de la statistique publique depuis 2019.
 Il nous faut donc le changer.

 NOTA 2
 - A partir des données de 2021, les usagers en fuite ont été rajoutés, cela entraîne des manques d’informations sur ces derniers, notamment le sexe, l’âge, voire la gravité des blessures (indemne, blessé léger ou blessé hospitalisé)
 Notre analyse s'arrêtant en 2021, cela n aura - pour notre projet - pas d'impact.

In [32]:
# on rassemble les blessés de type 4 avec les personnes indemne
df_usagers['grav'] = df_usagers['grav'].replace({4 : 1})

In [33]:
# quelques visualisations dans le cadre de l analyse des données manipulées

# représentation du nombre d accidents en fonction du type de routes

effectifs = df_usagers['grav'].value_counts().reset_index()
effectifs.columns = ['Gravité accident', 'Nombre de blessés']

effectifs['Gravité accident'] = effectifs['Gravité accident'].astype(str)
category_order = ['1', '2', '3']

fig = px.bar(effectifs, x='Gravité accident', y='Nombre de blessés',
    title='Effectif des Accidents en Fonction de leur gravité',
    labels={'Gravité accident': 'Gravité accident', 'Nombre de blessés': 'Nombre de blessés'},
    color='Nombre de blessés',
    color_continuous_scale='Blues',
    category_orders={'Gravité accident': category_order}
)

fig.update_xaxes(tickvals=category_order)

fig.show()

In [34]:
# quelques visualisations dans le cadre de l analyse des données manipulées

# représentation du nombre d accidents en fonction du type de trajet

effectifs = df_usagers['trajet'].value_counts().reset_index()
effectifs.columns = ['Type de trajet', 'Nombre de blessés']

effectifs['Type de trajet'] = effectifs['Type de trajet'].astype(str)

category_order = ['-1', '1', '2', '3', '4', '5', '9']

fig = px.bar(effectifs, x='Type de trajet', y='Nombre de blessés',
    title='Effectif des Accidents en Fonction du Type de trajet',
    labels={'Type de trajet': 'Type de trajet', 'Nombre de blessés': 'Nombre de blessés'},
    color='Nombre de blessés',
    color_continuous_scale='Blues'
            )

fig.show()

In [35]:
df_usagers.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2506000 entries, 1 to 2509620
Data columns (total 12 columns):
 #   Column   Dtype 
---  ------   ----- 
 0   num_acc  int64 
 1   place    int64 
 2   catu     int64 
 3   grav     int64 
 4   sexe     int64 
 5   trajet   int64 
 6   locp     int64 
 7   actp     int64 
 8   etatp    int64 
 9   an_nais  int64 
 10  num_veh  object
 11  annee    int64 
dtypes: int64(11), object(1)
memory usage: 248.6+ MB


### 1.4 Données 'vehicules'

In [36]:
df_vehicules=pd.read_csv ('../src/data/vehicules_2005a2021.csv', index_col=0)
df_vehicules.head()

Unnamed: 0,num_acc,senc,catv,occutc,obs,obsm,choc,manv,num_veh,annee,id_vehicule,motor
1,200500000001,0.0,7,0.0,0.0,2.0,1.0,1.0,A01,2005,,
2,200500000001,0.0,7,0.0,0.0,2.0,8.0,10.0,B02,2005,,
3,200500000002,0.0,7,0.0,0.0,2.0,7.0,16.0,A01,2005,,
4,200500000002,0.0,2,0.0,0.0,2.0,1.0,1.0,B02,2005,,
5,200500000003,0.0,2,0.0,0.0,2.0,1.0,1.0,A01,2005,,


In [37]:
df_vehicules.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1914902 entries, 1 to 1914902
Data columns (total 12 columns):
 #   Column       Dtype  
---  ------       -----  
 0   num_acc      int64  
 1   senc         float64
 2   catv         int64  
 3   occutc       float64
 4   obs          float64
 5   obsm         float64
 6   choc         float64
 7   manv         float64
 8   num_veh      object 
 9   annee        int64  
 10  id_vehicule  object 
 11  motor        float64
dtypes: float64(7), int64(3), object(2)
memory usage: 189.9+ MB


In [38]:
df_vehicules.isna().sum() / len(df_vehicules) * 100

num_acc         0.000000
senc            0.014204
catv            0.000000
occutc         14.456823
obs             0.052535
obsm            0.040629
choc            0.020732
manv            0.024440
num_veh         0.000000
annee           0.000000
id_vehicule    85.425312
motor          85.425312
dtype: float64

In [39]:
# au vue du nombre de valeurs manquantes, nous pouvons supprimer :
colonnes_a_supprimer = ['occutc', 'id_vehicule', 'motor']
df_vehicules.drop(columns=colonnes_a_supprimer, inplace=True)

In [40]:
# uniformisation du type de données parmi tous les dataframes
a_convertir = ['senc', 'obs', 'obsm', 'choc', 'manv' ]
df_vehicules[a_convertir] = df_vehicules [a_convertir].fillna(0).astype('int64')

In [41]:
for item in ['senc', 'catv', 'obs', 'obsm', 'choc', 'manv']:
    valeurs_uniques = df_vehicules[item].unique()
    valeurs_uniques = sorted(valeurs_uniques)
    print(f'Les valeurs prises par {item} sont : {valeurs_uniques}')

Les valeurs prises par senc sont : [-1, 0, 1, 2, 3]
Les valeurs prises par catv sont : [-1, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 50, 60, 80, 99]
Les valeurs prises par obs sont : [-1, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17]
Les valeurs prises par obsm sont : [-1, 0, 1, 2, 4, 5, 6, 9]
Les valeurs prises par choc sont : [-1, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
Les valeurs prises par manv sont : [-1, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26]


In [42]:
# afin de permettre la fusion ultérieure des dataframes, on supprime la colonne commune 'annee' que nous laisserons dans df_usagers
df_vehicules = df_vehicules.drop(columns=['annee'])

## 1.5 Fusion des dataframes

In [43]:
# Jonction de df_usagers avec df_vehicules
df = pd.merge(df_carac, df_vehicules, on='num_acc', how="inner")

# Jonction du résultat avec df_usagers
df = pd.merge(df, df_usagers, on=["num_acc","num_veh"], how='inner')
# Jonction du résultat avec df_lieux
df = pd.merge(df, df_lieux, on='num_acc', how='inner')

In [44]:
# on affiche l integralite des colonnes pour tout voir
pd.set_option('display.max_info_rows', len(df.columns))

In [45]:
# on transforme les -1 et 0 en NaN (signification identique)

# colonne non catégorielle
colonne_Non_cat=['num_acc', 'an_nais', "num_veh_x", 'annee', "num_veh_y", 'mois', 'jour', 'com', 'dep', 'hr', 'mn','nbv','lartpc','larrout']

# colonne catégorielle
cat_columns = [col for col in df.columns if col not in colonne_Non_cat]

df[cat_columns] = df[cat_columns].replace({-1: np.nan})

In [46]:
df.isna().sum() / len(df) * 100

num_acc    0.000000
mois       0.000000
jour       0.000000
lum        0.000000
agg        0.000000
int        0.000000
atm        0.000046
col        0.000092
com        0.000000
dep        0.000000
hr         0.000000
mn         0.000000
senc       0.000688
catv       0.000000
obs        0.000779
obsm       0.001788
choc       0.000779
manv       0.000733
num_veh    0.000000
place      0.000000
catu       0.000000
grav       0.000000
sexe       0.000000
trajet     0.008205
locp       0.720104
actp       0.383500
etatp      1.809956
an_nais    0.000000
annee      0.000000
catr       0.000000
circ       0.103186
nbv        0.000000
vosp       0.023333
prof       0.000504
plan       0.000458
lartpc     0.000000
larrout    0.000000
surf       0.001100
infra      0.002384
situ       0.004676
dtype: float64

In [47]:
# au vue du nombre de valeurs manquantes, nous pouvons supprimer :
colonnes_a_supprimer = ['locp','actp', 'etatp', 'senc', 'obs', 'obsm', 'vosp', 'infra']
df = df.drop(columns=colonnes_a_supprimer)

In [48]:
# on supprime désormais les lignes avec des NaN (ne pouvant les remplacer par d'autres catégories de façon aléatoire)
df_cleaned = df.dropna()

In [49]:
df_cleaned.isna().sum() / len(df_cleaned) * 100

num_acc    0.0
mois       0.0
jour       0.0
lum        0.0
agg        0.0
int        0.0
atm        0.0
col        0.0
com        0.0
dep        0.0
hr         0.0
mn         0.0
catv       0.0
choc       0.0
manv       0.0
num_veh    0.0
place      0.0
catu       0.0
grav       0.0
sexe       0.0
trajet     0.0
an_nais    0.0
annee      0.0
catr       0.0
circ       0.0
nbv        0.0
prof       0.0
plan       0.0
lartpc     0.0
larrout    0.0
surf       0.0
situ       0.0
dtype: float64

In [50]:
df_cleaned.info() 

<class 'pandas.core.frame.DataFrame'>
Index: 2178973 entries, 0 to 2181488
Data columns (total 32 columns):
 #   Column   Dtype  
---  ------   -----  
 0   num_acc  int64  
 1   mois     int64  
 2   jour     int64  
 3   lum      int64  
 4   agg      int64  
 5   int      int64  
 6   atm      float64
 7   col      float64
 8   com      int64  
 9   dep      int64  
 10  hr       int64  
 11  mn       int64  
 12  catv     int64  
 13  choc     float64
 14  manv     float64
 15  num_veh  object 
 16  place    int64  
 17  catu     int64  
 18  grav     int64  
 19  sexe     int64  
 20  trajet   float64
 21  an_nais  int64  
 22  annee    int64  
 23  catr     int64  
 24  circ     float64
 25  nbv      int64  
 26  prof     float64
 27  plan     float64
 28  lartpc   int64  
 29  larrout  int64  
 30  surf     float64
 31  situ     float64
dtypes: float64(10), int64(21), object(1)
memory usage: 548.6+ MB


In [51]:
# on crée un .csv du jeu de données après nettoyage
df_cleaned.to_csv('data 2005a2021.csv', index=False)

In [3]:
# identifier le lieu de stockage du document
import os
repertoire_courant = os.getcwd()
print(repertoire_courant)

c:\Users\Administrateur\Documents\MLOPS\Projet\Mai24_MLOps_accidents\notebooks


In [2]:
# etape supplémentaire pour réduire le jeu de données (et pouvoir le déposer sur github)
import pandas as pd

df = pd.read_csv('../src/data/data 2005a2021.csv')

print(df['grav'].value_counts())

total_lignes = 200000 # on divise par +5 la quantité de données initiale
colonne_classe = 'grav'  

# on vérifie que le nombre de lignes par classe en fonction des proportions existantes est égal car le jeu de données a fait l objet d un undersampling au préalable
prop_classes = df['grav'].value_counts(normalize=True)
lignes_par_classe = (prop_classes * total_lignes).astype(int)

df_final = pd.DataFrame()

for classe, n in lignes_par_classe.items():
    df_classe = df[df['grav'] == classe].sample(n=n, random_state=42)
    df_final = pd.concat([df_final, df_classe])

print(df_final['grav'].value_counts())

df_final.to_csv('data 2005a2021 final.csv', index=False)

grav
1    1669817
3     450462
2      58694
Name: count, dtype: int64
grav
1    153266
3     41346
2      5387
Name: count, dtype: int64
