In [108]:
# Controle data .gouv
# 1. caracteristics
import pandas as pd
import numpy as np

# Chemins d'accès aux données
repData = '../../dataBrutes.gouv/'
repDataConcat = '../../dataConcat.gouv/'

# Liste des fichiers usagers disponibles
!ls {repData}l* -lrt
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)

ls: -lrt: No such file or directory
../../dataBrutes.gouv/lieux-2017.csv ../../dataBrutes.gouv/lieux_2008.csv
../../dataBrutes.gouv/lieux-2018.csv ../../dataBrutes.gouv/lieux_2009.csv
../../dataBrutes.gouv/lieux-2019.csv ../../dataBrutes.gouv/lieux_2010.csv
../../dataBrutes.gouv/lieux-2020.csv ../../dataBrutes.gouv/lieux_2011.csv
../../dataBrutes.gouv/lieux-2021.csv ../../dataBrutes.gouv/lieux_2012.csv
../../dataBrutes.gouv/lieux-2022.csv ../../dataBrutes.gouv/lieux_2013.csv
../../dataBrutes.gouv/lieux_2005.csv ../../dataBrutes.gouv/lieux_2014.csv
../../dataBrutes.gouv/lieux_2006.csv ../../dataBrutes.gouv/lieux_2015.csv
../../dataBrutes.gouv/lieux_2007.csv ../../dataBrutes.gouv/lieux_2016.csv


#### Consolidation de 'lieux.csv' - modus operandi
0. Chgt de tous les fichiers 
      - nom des fichiers de 2005 à 2016 : '_'
      - nom des fichiers de 2017 à 2022 : remplacement de '_' par '-'
      - séparateur ',' jusqu'en 2018 inclus et 2019 à 2022=';'

1. Renommer la Variable 'Num_Acc' en 'id_accident' 
2. Variable 'catr' à passer de  float64 à int64 sur le fichier 2005 : une valeur à NaN --> retrouve l'info via l'adresse : 
   La valeur devait être soit 3, soit 4 : décision de privilégier la valeur la plus fréquentes --> '4'
3. Variable 'circ', remplacé les NaN --> -1=non renseigné
4. Variable 'vosp', remplacé les NaN --> -1=non renseigné
5. Variable 'prof', remplacé les NaN --> -1=non renseigné
6. Variable 'plan', remplacé les NaN --> -1=non renseigné
7. Variable 'surf', remplacé les NaN --> -1=non renseigné
8. Variable 'infra', remplacé les NaN --> -1=non renseigné
9. Variable 'situ', remplacer les NaN --> -1=non renseigné
10. Variable 'vma', vitesse max autorisée apparait en 2019 et après : créer la colonne en NaN pour les fichiers antiérieurs
11. Variable 'env1', proximité d'une école, supprimée des données à partir de 2019 : créer la colonne en NaN pour les fichiers >= 2019
12. Variable 'nbv' Forcer les Nan --> -1 et  typage en 'int64' 
13. Variable 'lartpc', le taux de saisie passe de plus de 96% jusqu'en 2017 à 23% en 2018 et moins de 1% à partir de 2019.
    Cela trahie un changement dans la façon de saisir cette information. En analysant les données, il s'avère que les valeurs 0 en large majorité jusqu'en 2017 ne sont plus saisies en cours d'année 2018.
    Nous décidons de corriger ce comportement en forçant les NaN --> 0
15. Variable 'larrout', Forcer le typage en 'float64'
16. Variable 'voie', Forcer en 'str' sur tous les df
17. Variable 'pr', Forcer en 'str' sur tous les df
18. Variable 'pr1', Forcer en 'str' sur tous les df
19. Ordonner les colonnes de chaque df dans le même ordre
20. Concaténation en un seul fichier 
21. Controles et ajustement
22. Sauvegarde du df consolidé sous un fichier caracteristiques.csv

In [109]:
# 0. chargement et merge de tous les fichiers de 2005 à 2016 --> lieux
df_2005 = pd.read_csv(repData + "lieux_2005.csv", sep = ',')
df_2006 = pd.read_csv(repData + "lieux_2006.csv", sep = ',')
df_2007 = pd.read_csv(repData + "lieux_2007.csv", sep = ',')
df_2008 = pd.read_csv(repData + "lieux_2008.csv", sep = ',')
df_2009 = pd.read_csv(repData + "lieux_2009.csv", sep = ',')
df_2010 = pd.read_csv(repData + "lieux_2010.csv", sep = ',')
df_2011 = pd.read_csv(repData + "lieux_2011.csv", sep = ',')
df_2012 = pd.read_csv(repData + "lieux_2012.csv", sep = ',')
df_2013 = pd.read_csv(repData + "lieux_2013.csv", sep = ',')
df_2014 = pd.read_csv(repData + "lieux_2014.csv", sep = ',')
df_2015 = pd.read_csv(repData + "lieux_2015.csv", sep = ',')
df_2016 = pd.read_csv(repData + "lieux_2016.csv", sep = ',', dtype={'voie': str, 'pr' : str, 'pr1': str})
df_2017 = pd.read_csv(repData + "lieux-2017.csv", sep = ',', dtype={'voie': str, 'pr' : str, 'pr1': str})
df_2018 = pd.read_csv(repData + "lieux-2018.csv", sep = ',', dtype={'voie': str, 'pr' : str, 'pr1': str})
df_2019 = pd.read_csv(repData + "lieux-2019.csv", sep = ';', dtype={'voie': str, 'pr' : str, 'pr1': str})
df_2020 = pd.read_csv(repData + "lieux-2020.csv", sep = ';', dtype={'voie': str, 'pr' : str, 'pr1': str})
df_2021 = pd.read_csv(repData + "lieux-2021.csv", sep = ';', dtype={'voie': str, 'pr' : str, 'pr1': str})
df_2022 = pd.read_csv(repData + "lieux-2022.csv", sep = ';', dtype={'voie': str, 'pr' : str, 'pr1': str, 'nbv' : str})



In [110]:
# 1. Renommer 'Num_Acc' en 'id_accident' dans tous les df lieux
new_colname = {'Num_Acc' : 'id_accident'}
df_2005 = df_2005.rename(columns=new_colname)
df_2006 = df_2006.rename(columns=new_colname)
df_2007 = df_2007.rename(columns=new_colname)
df_2008 = df_2008.rename(columns=new_colname)
df_2009 = df_2009.rename(columns=new_colname)
df_2010 = df_2010.rename(columns=new_colname)
df_2011 = df_2011.rename(columns=new_colname)
df_2012 = df_2012.rename(columns=new_colname)
df_2013 = df_2013.rename(columns=new_colname)
df_2014 = df_2014.rename(columns=new_colname)
df_2015 = df_2015.rename(columns=new_colname)
df_2016 = df_2016.rename(columns=new_colname)
df_2017 = df_2017.rename(columns=new_colname)
df_2018 = df_2018.rename(columns=new_colname)
df_2019 = df_2019.rename(columns=new_colname)
df_2020 = df_2020.rename(columns=new_colname)
df_2021 = df_2021.rename(columns=new_colname)
df_2022 = df_2022.rename(columns=new_colname)

In [111]:
# 2.1 'catr' --> renseigner à '4' le seul NaN du jeu de données : id_accident=200500068514
df_2005.loc[(df_2005.id_accident == 200500068514), 'catr'] = 4

# 2.2 Transcoder le type de 'float64' -> 'int64'
df_2005['catr'] = df_2005['catr'].astype('int') 
#df_2016.info()


In [112]:
# 3. 'circ', passer les NaN en -1= Non renseigné et forcer le type de 'float64' --> 'int64'
df_2005['circ'] = df_2005.circ.fillna(-1).astype('int')
df_2006['circ'] = df_2006.circ.fillna(-1).astype('int')
df_2007['circ'] = df_2007.circ.fillna(-1).astype('int')
df_2008['circ'] = df_2008.circ.fillna(-1).astype('int')
df_2009['circ'] = df_2009.circ.fillna(-1).astype('int')
df_2010['circ'] = df_2010.circ.fillna(-1).astype('int')
df_2011['circ'] = df_2011.circ.fillna(-1).astype('int')
df_2012['circ'] = df_2012.circ.fillna(-1).astype('int')
df_2013['circ'] = df_2013.circ.fillna(-1).astype('int')
df_2014['circ'] = df_2014.circ.fillna(-1).astype('int')
df_2015['circ'] = df_2015.circ.fillna(-1).astype('int')
df_2016['circ'] = df_2016.circ.fillna(-1).astype('int')
df_2017['circ'] = df_2017.circ.fillna(-1).astype('int')
df_2018['circ'] = df_2018.circ.fillna(-1).astype('int')
df_2019['circ'] = df_2019.circ.fillna(-1).astype('int')
df_2020['circ'] = df_2020.circ.fillna(-1).astype('int')
df_2021['circ'] = df_2021.circ.fillna(-1).astype('int')
df_2022['circ'] = df_2022.circ.fillna(-1).astype('int')


In [113]:
# 4. vosp - remplacer les NaN --> -1=non renseigné et forcer le type de 'float64' --> 'int64'
df_2005['vosp'] = df_2005.vosp.fillna(-1).astype('int')
df_2006['vosp'] = df_2006.vosp.fillna(-1).astype('int')
df_2007['vosp'] = df_2007.vosp.fillna(-1).astype('int')
df_2008['vosp'] = df_2008.vosp.fillna(-1).astype('int')
df_2009['vosp'] = df_2009.vosp.fillna(-1).astype('int')
df_2010['vosp'] = df_2010.vosp.fillna(-1).astype('int')
df_2011['vosp'] = df_2011.vosp.fillna(-1).astype('int')
df_2012['vosp'] = df_2012.vosp.fillna(-1).astype('int')
df_2013['vosp'] = df_2013.vosp.fillna(-1).astype('int')
df_2014['vosp'] = df_2014.vosp.fillna(-1).astype('int')
df_2015['vosp'] = df_2015.vosp.fillna(-1).astype('int')
df_2016['vosp'] = df_2016.vosp.fillna(-1).astype('int')
df_2017['vosp'] = df_2017.vosp.fillna(-1).astype('int')
df_2018['vosp'] = df_2018.vosp.fillna(-1).astype('int')
df_2019['vosp'] = df_2019.vosp.fillna(-1).astype('int')
df_2020['vosp'] = df_2020.vosp.fillna(-1).astype('int')
df_2021['vosp'] = df_2021.vosp.fillna(-1).astype('int')
df_2022['vosp'] = df_2022.vosp.fillna(-1).astype('int')



In [114]:
# 5. prof - remplacer les NaN --> -1=non renseigné et forcer le type de 'float64' --> 'int64'
df_2005['prof'] = df_2005.prof.fillna(-1).astype('int')
df_2006['prof'] = df_2006.prof.fillna(-1).astype('int')
df_2007['prof'] = df_2007.prof.fillna(-1).astype('int')
df_2008['prof'] = df_2008.prof.fillna(-1).astype('int')
df_2009['prof'] = df_2009.prof.fillna(-1).astype('int')
df_2010['prof'] = df_2010.prof.fillna(-1).astype('int')
df_2011['prof'] = df_2011.prof.fillna(-1).astype('int')
df_2012['prof'] = df_2012.prof.fillna(-1).astype('int')
df_2013['prof'] = df_2013.prof.fillna(-1).astype('int')
df_2014['prof'] = df_2014.prof.fillna(-1).astype('int')
df_2015['prof'] = df_2015.prof.fillna(-1).astype('int')
df_2016['prof'] = df_2016.prof.fillna(-1).astype('int')
df_2017['prof'] = df_2017.prof.fillna(-1).astype('int')
df_2018['prof'] = df_2018.prof.fillna(-1).astype('int')
df_2019['prof'] = df_2019.prof.fillna(-1).astype('int')
df_2020['prof'] = df_2020.prof.fillna(-1).astype('int')
df_2021['prof'] = df_2021.prof.fillna(-1).astype('int')
df_2022['prof'] = df_2022.prof.fillna(-1).astype('int')



In [115]:
# 6. plan - remplacer les NaN --> -1=non renseigné et forcer le type de 'float64' --> 'int64'
df_2005['plan'] = df_2005.plan.fillna(-1).astype('int')
df_2006['plan'] = df_2006.plan.fillna(-1).astype('int')
df_2007['plan'] = df_2007.plan.fillna(-1).astype('int')
df_2008['plan'] = df_2008.plan.fillna(-1).astype('int')
df_2009['plan'] = df_2009.plan.fillna(-1).astype('int')
df_2010['plan'] = df_2010.plan.fillna(-1).astype('int')
df_2011['plan'] = df_2011.plan.fillna(-1).astype('int')
df_2012['plan'] = df_2012.plan.fillna(-1).astype('int')
df_2013['plan'] = df_2013.plan.fillna(-1).astype('int')
df_2014['plan'] = df_2014.plan.fillna(-1).astype('int')
df_2015['plan'] = df_2015.plan.fillna(-1).astype('int')
df_2016['plan'] = df_2016.plan.fillna(-1).astype('int')
df_2017['plan'] = df_2017.plan.fillna(-1).astype('int')
df_2018['plan'] = df_2018.plan.fillna(-1).astype('int')
df_2019['plan'] = df_2019.plan.fillna(-1).astype('int')
df_2020['plan'] = df_2020.plan.fillna(-1).astype('int')
df_2021['plan'] = df_2021.plan.fillna(-1).astype('int')
df_2022['plan'] = df_2022.plan.fillna(-1).astype('int')


In [116]:
# 7. surf - remplacer les NaN --> -1=non renseigné et forcer le type de 'float64' --> 'int64'
df_2005['surf'] = df_2005.surf.fillna(-1).astype('int')
df_2006['surf'] = df_2006.surf.fillna(-1).astype('int')
df_2007['surf'] = df_2007.surf.fillna(-1).astype('int')
df_2008['surf'] = df_2008.surf.fillna(-1).astype('int')
df_2009['surf'] = df_2009.surf.fillna(-1).astype('int')
df_2010['surf'] = df_2010.surf.fillna(-1).astype('int')
df_2011['surf'] = df_2011.surf.fillna(-1).astype('int')
df_2012['surf'] = df_2012.surf.fillna(-1).astype('int')
df_2013['surf'] = df_2013.surf.fillna(-1).astype('int')
df_2014['surf'] = df_2014.surf.fillna(-1).astype('int')
df_2015['surf'] = df_2015.surf.fillna(-1).astype('int')
df_2016['surf'] = df_2016.surf.fillna(-1).astype('int')
df_2017['surf'] = df_2017.surf.fillna(-1).astype('int')
df_2018['surf'] = df_2018.surf.fillna(-1).astype('int')
df_2019['surf'] = df_2019.surf.fillna(-1).astype('int')
df_2020['surf'] = df_2020.surf.fillna(-1).astype('int')
df_2021['surf'] = df_2021.surf.fillna(-1).astype('int')
df_2022['surf'] = df_2022.surf.fillna(-1).astype('int')


In [117]:
# 8. infra - remplacer les NaN --> -1=non renseigné et forcer le type de 'float64' --> 'int64'
df_2005['infra'] = df_2005.infra.fillna(-1).astype('int')
df_2006['infra'] = df_2006.infra.fillna(-1).astype('int')
df_2007['infra'] = df_2007.infra.fillna(-1).astype('int')
df_2008['infra'] = df_2008.infra.fillna(-1).astype('int')
df_2009['infra'] = df_2009.infra.fillna(-1).astype('int')
df_2010['infra'] = df_2010.infra.fillna(-1).astype('int')
df_2011['infra'] = df_2011.infra.fillna(-1).astype('int')
df_2012['infra'] = df_2012.infra.fillna(-1).astype('int')
df_2013['infra'] = df_2013.infra.fillna(-1).astype('int')
df_2014['infra'] = df_2014.infra.fillna(-1).astype('int')
df_2015['infra'] = df_2015.infra.fillna(-1).astype('int')
df_2016['infra'] = df_2016.infra.fillna(-1).astype('int')
df_2017['infra'] = df_2017.infra.fillna(-1).astype('int')
df_2018['infra'] = df_2018.infra.fillna(-1).astype('int')
df_2019['infra'] = df_2019.infra.fillna(-1).astype('int')
df_2020['infra'] = df_2020.infra.fillna(-1).astype('int')
df_2021['infra'] = df_2021.infra.fillna(-1).astype('int')
df_2022['infra'] = df_2022.infra.fillna(-1).astype('int')


In [118]:
# 8. situ - remplacer les NaN --> -1=non renseigné et forcer le type de 'float64' --> 'int64'
df_2005['situ'] = df_2005.situ.fillna(-1).astype('int')
df_2006['situ'] = df_2006.situ.fillna(-1).astype('int')
df_2007['situ'] = df_2007.situ.fillna(-1).astype('int')
df_2008['situ'] = df_2008.situ.fillna(-1).astype('int')
df_2009['situ'] = df_2009.situ.fillna(-1).astype('int')
df_2010['situ'] = df_2010.situ.fillna(-1).astype('int')
df_2011['situ'] = df_2011.situ.fillna(-1).astype('int')
df_2012['situ'] = df_2012.situ.fillna(-1).astype('int')
df_2013['situ'] = df_2013.situ.fillna(-1).astype('int')
df_2014['situ'] = df_2014.situ.fillna(-1).astype('int')
df_2015['situ'] = df_2015.situ.fillna(-1).astype('int')
df_2016['situ'] = df_2016.situ.fillna(-1).astype('int')
df_2017['situ'] = df_2017.situ.fillna(-1).astype('int')
df_2018['situ'] = df_2018.situ.fillna(-1).astype('int')
df_2019['situ'] = df_2019.situ.fillna(-1).astype('int')
df_2020['situ'] = df_2020.situ.fillna(-1).astype('int')
df_2021['situ'] = df_2021.situ.fillna(-1).astype('int')
df_2022['situ'] = df_2022.situ.fillna(-1).astype('int')


In [119]:
# 9. Création Colonne 'vma' pour les fichiers antérieurs à 2019
df_2005['vma'] = None
df_2006['vma'] = None
df_2007['vma'] = None
df_2008['vma'] = None
df_2009['vma'] = None
df_2010['vma'] = None
df_2011['vma'] = None
df_2012['vma'] = None
df_2013['vma'] = None
df_2013['vma'] = None
df_2014['vma'] = None
df_2015['vma'] = None
df_2016['vma'] = None
df_2017['vma'] = None
df_2018['vma'] = None

# 9.2 Colonne 'vma' -> Bascule de object --> float64 sur les fichiers postérieurs à 2018
df_2019['vma'] = df_2019['vma'].astype('float')
df_2020['vma'] = df_2020['vma'].astype('float')
df_2021['vma'] = df_2021['vma'].astype('float')
df_2022['vma'] = df_2022['vma'].astype('float')


In [120]:
# 10.1 Création Colonne 'env1' pour les fichiers postérieurs à 2018
df_2019['env1'] = None
df_2020['env1'] = None
df_2021['env1'] = None
df_2022['env1'] = None

# 10.2 Colonne 'env1' -> Bascule de object --> float64 sur les fichiers antérieurs à 2019
df_2005['env1'] = df_2005['env1'].astype('float')
df_2006['env1'] = df_2006['env1'].astype('float')
df_2007['env1'] = df_2007['env1'].astype('float')
df_2008['env1'] = df_2008['env1'].astype('float')
df_2009['env1'] = df_2009['env1'].astype('float')
df_2010['env1'] = df_2010['env1'].astype('float')
df_2011['env1'] = df_2011['env1'].astype('float')
df_2012['env1'] = df_2012['env1'].astype('float')
df_2013['env1'] = df_2013['env1'].astype('float')
df_2014['env1'] = df_2014['env1'].astype('float')
df_2015['env1'] = df_2015['env1'].astype('float')
df_2016['env1'] = df_2016['env1'].astype('float')
df_2017['env1'] = df_2017['env1'].astype('float')
df_2018['env1'] = df_2018['env1'].astype('float')


In [121]:
# 11.1 - Forcer à NaN, la valeur #ERREUR sur enregistrement id_accident=202200009886
df_2022.loc[(df_2022['id_accident'] == 202200009886), 'nbv'] = '-1'

# 11.2 fillna('-1')
df_2005['nbv'] = df_2005.nbv.fillna(-1).astype('int')
df_2006['nbv'] = df_2006.nbv.fillna(-1).astype('int')
df_2007['nbv'] = df_2007.nbv.fillna(-1).astype('int')
df_2008['nbv'] = df_2008.nbv.fillna(-1).astype('int')
df_2009['nbv'] = df_2009.nbv.fillna(-1).astype('int')
df_2010['nbv'] = df_2010.nbv.fillna(-1).astype('int')
df_2011['nbv'] = df_2011.nbv.fillna(-1).astype('int')
df_2012['nbv'] = df_2012.nbv.fillna(-1).astype('int')
df_2013['nbv'] = df_2013.nbv.fillna(-1).astype('int')
df_2014['nbv'] = df_2014.nbv.fillna(-1).astype('int')
df_2015['nbv'] = df_2015.nbv.fillna(-1).astype('int')
df_2016['nbv'] = df_2016.nbv.fillna(-1).astype('int')
df_2017['nbv'] = df_2017.nbv.fillna(-1).astype('int')
df_2018['nbv'] = df_2018.nbv.fillna(-1).astype('int')
df_2019['nbv'] = df_2019.nbv.fillna(-1).astype('int')
df_2020['nbv'] = df_2020.nbv.fillna(-1).astype('int')
df_2021['nbv'] = df_2021.nbv.fillna(-1).astype('int')
df_2022['nbv'] = df_2022.nbv.fillna(-1).astype('int')


In [122]:
# 12.1 Prise en compte changement de règle de saisie --> NaN --> 0=pas de terre_plein
df_2005['lartpc'] = df_2005.lartpc.fillna(0)
df_2006['lartpc'] = df_2006.lartpc.fillna(0)
df_2007['lartpc'] = df_2007.lartpc.fillna(0)
df_2008['lartpc'] = df_2008.lartpc.fillna(0)
df_2009['lartpc'] = df_2009.lartpc.fillna(0)
df_2010['lartpc'] = df_2010.lartpc.fillna(0)
df_2011['lartpc'] = df_2011.lartpc.fillna(0)
df_2012['lartpc'] = df_2012.lartpc.fillna(0)
df_2013['lartpc'] = df_2013.lartpc.fillna(0)
df_2014['lartpc'] = df_2014.lartpc.fillna(0)
df_2015['lartpc'] = df_2015.lartpc.fillna(0)
df_2016['lartpc'] = df_2016.lartpc.fillna(0)
df_2017['lartpc'] = df_2017.lartpc.fillna(0)
df_2018['lartpc'] = df_2018.lartpc.fillna(0)
df_2019['lartpc'] = df_2019.lartpc.fillna(0)
df_2020['lartpc'] = df_2020.lartpc.fillna(0)
df_2021['lartpc'] = df_2021.lartpc.fillna(0)
df_2022['lartpc'] = df_2022.lartpc.fillna(0)

# 12.2 Colonne 'lartpc' à typer en 'float'
df_2005['lartpc'] = df_2005['lartpc'].astype(str).str.replace(',', '.').astype('float')
df_2006['lartpc'] = df_2006['lartpc'].astype(str).str.replace(',', '.').astype('float')
df_2007['lartpc'] = df_2007['lartpc'].astype(str).str.replace(',', '.').astype('float')
df_2008['lartpc'] = df_2008['lartpc'].astype(str).str.replace(',', '.').astype('float')
df_2009['lartpc'] = df_2009['lartpc'].astype(str).str.replace(',', '.').astype('float')
df_2010['lartpc'] = df_2010['lartpc'].astype(str).str.replace(',', '.').astype('float')
df_2011['lartpc'] = df_2011['lartpc'].astype(str).str.replace(',', '.').astype('float')
df_2012['lartpc'] = df_2012['lartpc'].astype(str).str.replace(',', '.').astype('float')
df_2013['lartpc'] = df_2013['lartpc'].astype(str).str.replace(',', '.').astype('float')
df_2014['lartpc'] = df_2014['lartpc'].astype(str).str.replace(',', '.').astype('float')
df_2015['lartpc'] = df_2015['lartpc'].astype(str).str.replace(',', '.').astype('float')
df_2016['lartpc'] = df_2016['lartpc'].astype(str).str.replace(',', '.').astype('float')
df_2017['lartpc'] = df_2017['lartpc'].astype(str).str.replace(',', '.').astype('float')
df_2018['lartpc'] = df_2018['lartpc'].astype(str).str.replace(',', '.').astype('float')
df_2019['lartpc'] = df_2019['lartpc'].astype(str).str.replace(',', '.').astype('float')
df_2020['lartpc'] = df_2020['lartpc'].astype(str).str.replace(',', '.').astype('float')
df_2021['lartpc'] = df_2021['lartpc'].astype(str).str.replace(',', '.').astype('float')
df_2022['lartpc'] = df_2022['lartpc'].astype(str).str.replace(',', '.').astype('float')

In [123]:
# 13. Colonne 'larrout' à typer en 'float'
df_2005['larrout'] = df_2005['larrout'].astype(str).str.replace(',', '.').astype('float')
df_2006['larrout'] = df_2006['larrout'].astype(str).str.replace(',', '.').astype('float')
df_2007['larrout'] = df_2007['larrout'].astype(str).str.replace(',', '.').astype('float')
df_2008['larrout'] = df_2008['larrout'].astype(str).str.replace(',', '.').astype('float')
df_2009['larrout'] = df_2009['larrout'].astype(str).str.replace(',', '.').astype('float')
df_2010['larrout'] = df_2010['larrout'].astype(str).str.replace(',', '.').astype('float')
df_2011['larrout'] = df_2011['larrout'].astype(str).str.replace(',', '.').astype('float')
df_2012['larrout'] = df_2012['larrout'].astype(str).str.replace(',', '.').astype('float')
df_2013['larrout'] = df_2013['larrout'].astype(str).str.replace(',', '.').astype('float')
df_2014['larrout'] = df_2014['larrout'].astype(str).str.replace(',', '.').astype('float')
df_2015['larrout'] = df_2015['larrout'].astype(str).str.replace(',', '.').astype('float')
df_2016['larrout'] = df_2016['larrout'].astype(str).str.replace(',', '.').astype('float')
df_2017['larrout'] = df_2017['larrout'].astype(str).str.replace(',', '.').astype('float')
df_2018['larrout'] = df_2018['larrout'].astype(str).str.replace(',', '.').astype('float')
df_2019['larrout'] = df_2019['larrout'].astype(str).str.replace(',', '.').astype('float')
df_2020['larrout'] = df_2020['larrout'].astype(str).str.replace(',', '.').astype('float')
df_2021['larrout'] = df_2021['larrout'].astype(str).str.replace(',', '.').astype('float')
df_2022['larrout'] = df_2022['larrout'].astype(str).str.replace(',', '.').astype('float')

In [124]:
df_2017.larrout.value_counts()

larrout
0.0      22497
60.0      4111
70.0      3245
10.0      1803
50.0      1601
140.0     1506
80.0      1389
105.0     1222
100.0     1094
35.0       998
30.0       989
40.0       939
120.0      803
90.0       783
210.0      750
15.0       616
65.0       578
75.0       528
150.0      409
20.0       402
55.0       369
62.0       339
25.0       327
72.0       304
68.0       301
110.0      288
58.0       288
73.0       280
63.0       261
64.0       261
45.0       252
74.0       245
61.0       235
66.0       214
71.0       206
59.0       201
67.0       201
510.0      200
69.0       196
76.0       187
56.0       185
57.0       170
130.0      166
52.0       164
78.0       162
54.0       160
53.0       144
85.0       142
180.0      133
160.0      132
200.0      131
48.0       112
77.0       108
95.0       103
51.0        96
49.0        93
82.0        91
115.0       90
280.0       89
46.0        88
47.0        86
175.0       86
32.0        84
135.0       83
79.0        82
84.0        80
81

In [125]:
# 14. 'voie', Forcer le type en 'str' pour être iso entre chaque df 
df_2005['voie'] = df_2005.voie.astype('str')
df_2006['voie'] = df_2006.voie.astype('str')
df_2007['voie'] = df_2007.voie.astype('str')
df_2008['voie'] = df_2008.voie.astype('str')
df_2009['voie'] = df_2009.voie.astype('str')
df_2010['voie'] = df_2010.voie.astype('str')
df_2011['voie'] = df_2011.voie.astype('str')
df_2012['voie'] = df_2012.voie.astype('str')
df_2013['voie'] = df_2013.voie.astype('str')
df_2014['voie'] = df_2014.voie.astype('str')
df_2015['voie'] = df_2015.voie.astype('str')
df_2016['voie'] = df_2016.voie.astype('str')
df_2017['voie'] = df_2017.voie.astype('str')
df_2018['voie'] = df_2018.voie.astype('str')
df_2019['voie'] = df_2019.voie.astype('str')
df_2020['voie'] = df_2020.voie.astype('str')
df_2021['voie'] = df_2021.voie.astype('str')
df_2022['voie'] = df_2022.voie.astype('str')


In [126]:
# 15. 'pr', Forcer le type en 'str' pour être iso entre chaque df 
df_2005['pr'] = df_2005.voie.astype('str')
df_2006['pr'] = df_2006.voie.astype('str')
df_2007['pr'] = df_2007.voie.astype('str')
df_2008['pr'] = df_2008.voie.astype('str')
df_2009['pr'] = df_2009.voie.astype('str')
df_2010['pr'] = df_2010.voie.astype('str')
df_2011['pr'] = df_2011.voie.astype('str')
df_2012['pr'] = df_2012.voie.astype('str')
df_2013['pr'] = df_2013.voie.astype('str')
df_2014['pr'] = df_2014.voie.astype('str')
df_2015['pr'] = df_2015.voie.astype('str')
df_2016['pr'] = df_2016.voie.astype('str')
df_2017['pr'] = df_2017.voie.astype('str')
df_2018['pr'] = df_2018.voie.astype('str')
df_2019['pr'] = df_2019.voie.astype('str')
df_2020['pr'] = df_2020.voie.astype('str')
df_2021['pr'] = df_2021.voie.astype('str')
df_2022['pr'] = df_2022.voie.astype('str')


In [127]:
# 16. 'pr1', Forcer le type en 'str' pour être iso entre chaque df 
df_2005['pr1'] = df_2005.voie.astype('str')
df_2006['pr1'] = df_2006.voie.astype('str')
df_2007['pr1'] = df_2007.voie.astype('str')
df_2008['pr1'] = df_2008.voie.astype('str')
df_2009['pr1'] = df_2009.voie.astype('str')
df_2010['pr1'] = df_2010.voie.astype('str')
df_2011['pr1'] = df_2011.voie.astype('str')
df_2012['pr1'] = df_2012.voie.astype('str')
df_2013['pr1'] = df_2013.voie.astype('str')
df_2014['pr1'] = df_2014.voie.astype('str')
df_2015['pr1'] = df_2015.voie.astype('str')
df_2016['pr1'] = df_2016.voie.astype('str')
df_2017['pr1'] = df_2017.voie.astype('str')
df_2018['pr1'] = df_2018.voie.astype('str')
df_2019['pr1'] = df_2019.voie.astype('str')
df_2020['pr1'] = df_2020.voie.astype('str')
df_2021['pr1'] = df_2021.voie.astype('str')
df_2022['pr1'] = df_2022.voie.astype('str')


In [128]:
# 14. Réindexer les colonnes de chaque df
ordre_colonnes = ['id_accident', 'catr', 'voie', 'v1', 'v2', 'circ', 'nbv', 'pr', 'pr1', 'vosp', 'prof', 'plan', 'lartpc', 'larrout', 'surf', 'infra', 'situ', 'env1', 'vma']
df_2005 = df_2005.reindex(columns=ordre_colonnes)
df_2006 = df_2006.reindex(columns=ordre_colonnes)
df_2007 = df_2007.reindex(columns=ordre_colonnes)
df_2008 = df_2008.reindex(columns=ordre_colonnes)
df_2009 = df_2009.reindex(columns=ordre_colonnes)
df_2010 = df_2010.reindex(columns=ordre_colonnes)
df_2011 = df_2011.reindex(columns=ordre_colonnes)
df_2012 = df_2012.reindex(columns=ordre_colonnes)
df_2013 = df_2013.reindex(columns=ordre_colonnes)
df_2014 = df_2014.reindex(columns=ordre_colonnes)
df_2015 = df_2015.reindex(columns=ordre_colonnes)
df_2016 = df_2016.reindex(columns=ordre_colonnes)
df_2017 = df_2017.reindex(columns=ordre_colonnes)
df_2018 = df_2018.reindex(columns=ordre_colonnes)
df_2019 = df_2019.reindex(columns=ordre_colonnes)
df_2020 = df_2020.reindex(columns=ordre_colonnes)
df_2021 = df_2021.reindex(columns=ordre_colonnes)
df_2022 = df_2022.reindex(columns=ordre_colonnes)


In [129]:
# 15. Concaténer les df en un seul
lieux = df_2005.copy()
lieux = pd.concat ([lieux, df_2006], axis = 0)
lieux = pd.concat ([lieux, df_2007], axis = 0)
lieux = pd.concat ([lieux, df_2008], axis = 0)
lieux = pd.concat ([lieux, df_2009], axis = 0)
lieux = pd.concat ([lieux, df_2010], axis = 0)
lieux = pd.concat ([lieux, df_2011], axis = 0)
lieux = pd.concat ([lieux, df_2012], axis = 0)
lieux = pd.concat ([lieux, df_2013], axis = 0)
lieux = pd.concat ([lieux, df_2014], axis = 0)
lieux = pd.concat ([lieux, df_2015], axis = 0)
lieux = pd.concat ([lieux, df_2016], axis = 0)  
lieux = pd.concat ([lieux, df_2017], axis = 0)  
lieux = pd.concat ([lieux, df_2018], axis = 0)
lieux = pd.concat ([lieux, df_2019], axis = 0)
lieux = pd.concat ([lieux, df_2020], axis = 0)
lieux = pd.concat ([lieux, df_2021], axis = 0)
lieux = pd.concat ([lieux, df_2022], axis = 0)


  lieux = pd.concat ([lieux, df_2019], axis = 0)
  lieux = pd.concat ([lieux, df_2020], axis = 0)
  lieux = pd.concat ([lieux, df_2021], axis = 0)
  lieux = pd.concat ([lieux, df_2022], axis = 0)


In [130]:
# 16. Controles
df_2022.info()

# Format de nbv
#df_2022[df_2022['nbv'] == '#ERREUR']

#lieux[(lieux.nbv == '#ERREUR')]
#df_2022[(df_2022.nbv == '#ERREUR')]
#lieux['nbv'] = lieux['nbv'].astype('float')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 55302 entries, 0 to 55301
Data columns (total 19 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   id_accident  55302 non-null  int64  
 1   catr         55302 non-null  int64  
 2   voie         55302 non-null  object 
 3   v1           55302 non-null  int64  
 4   v2           5255 non-null   object 
 5   circ         55302 non-null  int64  
 6   nbv          55302 non-null  int64  
 7   pr           55302 non-null  object 
 8   pr1          55302 non-null  object 
 9   vosp         55302 non-null  int64  
 10  prof         55302 non-null  int64  
 11  plan         55302 non-null  int64  
 12  lartpc       55302 non-null  float64
 13  larrout      55302 non-null  float64
 14  surf         55302 non-null  int64  
 15  infra        55302 non-null  int64  
 16  situ         55302 non-null  int64  
 17  env1         0 non-null      object 
 18  vma          55302 non-null  float64
dtypes: f

In [131]:
# 17. Sauvegarde du fichier en csv (sans index) 
lieux.to_csv(repDataConcat + "lieux.csv", index=False, encoding='utf-8')

# 17.2 Sauvegarde fichier 2022 pour pré analyse des données (corrélation entre features / target, etc.)
#df_2022.to_csv(repDataConcat + "lieux_2022.csv", index=False, encoding='utf-8')