In [110]:
%run ./database_functions.ipynb
%run ./dataframe_cleaning_functions.ipynb

In [66]:
from pathlib import Path
from typing import List, Optional
from sqlalchemy import create_engine
from psycopg2.extras import execute_values
from sqlalchemy_utils import database_exists, create_database
import logging
import pandas as pd
from sqlalchemy import text, Engine

CLEAN_DIR = Path("../data/cleaned")
RAW_DIR = Path("../data/raw")
CLEAN_DIR.mkdir(parents=True, exist_ok=True)
RAW_DIR.mkdir(parents=True, exist_ok=True)


logger = logging.getLogger(__name__)
logging.basicConfig(level=logging.INFO)

ADMIN_DB_URL = "postgresql+psycopg2://postgres:postgres2025%40@localhost:54785/postgres"
DB_NAME = "db_accident"
DB_URL = ADMIN_DB_URL.rsplit("/", 1)[0] + f"/{DB_NAME}" 



In [None]:
script_silver_ddl = """
CREATE SCHEMA IF NOT EXISTS silver;

CREATE TABLE IF NOT EXISTS silver.caracteristiques (
  identifiant_de_l_accident VARCHAR(64),
  date_et_heure TIMESTAMP,
  jour SMALLINT,
  mois SMALLINT,
  annee SMALLINT,
  heure_minute TIME,
  date DATE,
  year_georef SMALLINT,
  lumiere VARCHAR(10),
  code_postal VARCHAR(10),
  code_insee VARCHAR(20),
  departement VARCHAR(6),
  commune VARCHAR(10),
  code_commune VARCHAR(10),
  code_officiel_commune VARCHAR(20),
  nom_officiel_commune VARCHAR(255),
  nom_officiel_commune_arrondissement_municipal VARCHAR(255),
  code_officiel_departement VARCHAR(10),
  nom_officiel_departement VARCHAR(255),
  code_officiel_region VARCHAR(10),
  nom_officiel_region VARCHAR(255),
  code_officiel_epci VARCHAR(20),
  nom_officiel_epci VARCHAR(255),
  localisation SMALLINT,
  intersection SMALLINT,
  conditions_atmospheriques SMALLINT,
  collision SMALLINT,
  adresse VARCHAR(512),
  gps CHAR(1),
  latitude DOUBLE PRECISION,
  longitude DOUBLE PRECISION,
  coordonnees VARCHAR(255),
  numero VARCHAR(64)
);

CREATE TABLE IF NOT EXISTS silver.lieux(
  identifiant_de_l_accident VARCHAR(64),
  categorie_route SMALLINT,
  voie VARCHAR(128),
  v1 VARCHAR(32),
  v2 VARCHAR(32),
  circulation SMALLINT,
  nombre_de_voies SMALLINT,
  voie_reservee SMALLINT,
  profil SMALLINT,
  pr VARCHAR(64),
  pr1 INT,
  plan SMALLINT,
  largeur_terre_plein_central DOUBLE PRECISION,
  largeur_de_la_chaussee DOUBLE PRECISION,
  surface SMALLINT,
  infrastructure SMALLINT,
  situation SMALLINT,
  env1 SMALLINT
);

CREATE TABLE IF NOT EXISTS silver.vehicules (
  identifiant_de_l_accident VARCHAR(64),
  identifiant_vehicule VARCHAR(64),
  sens SMALLINT,
  categorie_vehicule SMALLINT,
  obstacle_fixe_heurte SMALLINT,
  obstacle_mobile_heurte SMALLINT,
  point_de_choc SMALLINT,
  manoeuvre SMALLINT,
  nombre_d_occupants SMALLINT
);

CREATE TABLE IF NOT EXISTS silver.usagers (
  identifiant_de_l_accident VARCHAR(64),
  identifiant_vehicule VARCHAR(64),
  place VARCHAR(128),
  categorie_d_usager SMALLINT,
  gravite SMALLINT,
  sexe SMALLINT,
  annee_de_naissance SMALLINT,
  motif_trajet SMALLINT,
  existence_equipement_de_securite VARCHAR(8),
  utilisation_equipement_de_securite SMALLINT,
  localisation_du_pieton SMALLINT,
  action_pieton SMALLINT,
  pieton_seul_ou_non SMALLINT
);
"""
engine = get_engine(DB_URL) 
execute_script(engine, script_silver_ddl)




INFO:__main__:Ex√©cution du script SQL...
INFO:__main__:Script SQL ex√©cut√© avec succ√®s
INFO:__main__:Connexion ferm√©e et engine lib√©r√©.


# üßπ Nettoyage de la table `caracteristiques`


In [127]:
query = "SELECT COUNT(*) FROM bronze.caracteristiques_raw"
count= get_single_value(engine, query)
print(f"Nombre de lignes dans bronze.caracteristiques_raw : {count}")


Nombre de lignes dans bronze.caracteristiques_raw : 475911


In [128]:
#afficher un echantillon de 20 lignes
df_caracteristiques = get_df_from_table(engine, "bronze", "caracteristiques_raw")
# df_caracteristiques_sample = df_caracteristiques.sample(100, random_state=42)
# df_caracteristiques_sample.head()
df_caracteristiques.head()


Unnamed: 0,identifiant_de_l_accident,date_et_heure,jour,mois,annee,heure_minute,date,year_georef,lumiere,code_postal,...,localisation,intersection,conditions_atmospheriques,collision,adresse,gps,latitude,longitude,coordonnees,numero
0,201700033619,2017-05-19T17:40:00+02:00,19,5,2017,17:40,,2017,Plein jour,66100,...,Hors agglom√©ration,6,Normale,Deux v√©hicules ‚Äì par l‚Äôarri√®re,COPENHAGUE (ROND POINT D,M√©tropole,4269110.0,285200.0,"42.668322, 2.897617",
1,201700048262,2017-12-25T17:55:00+01:00,25,12,2017,17:55,,2017,Cr√©puscule ou aube,93200,...,Hors agglom√©ration,1,Normale,Trois v√©hicules et plus ‚Äì en cha√Æne,AUTOROUTE A1,M√©tropole,,,,1.0
2,201700048288,2017-01-01T17:25:00+01:00,1,1,2017,17:25,,2017,Nuit sans √©clairage public,92230,...,Hors agglom√©ration,1,Temps couvert,Trois v√©hicules et plus ‚Äì en cha√Æne,A86,,,,"48.925197, 2.293085",86.0
3,201700048486,2017-05-04T00:04:00+02:00,4,5,2017,00:04,,2017,Nuit avec √©clairage public non allum√©,78330,...,Hors agglom√©ration,1,Autre,Autre collision,A12 Y,M√©tropole,4880700.0,205200.0,"48.812878, 2.048119",12.0
4,201700048639,2017-07-11T08:10:00+02:00,11,7,2017,08:10,,2017,Plein jour,78140,...,Hors agglom√©ration,1,Normale,Deux v√©hicules ‚Äì par le cot√©,N118,M√©tropole,4878430.0,222310.0,"48.783326, 2.187486",118.0


In [129]:
# Supprimer les doublons
print(f"Nombre de lignes avant suppression des doublons : {df_caracteristiques.shape[0]}")
df_caracteristiques = df_caracteristiques.drop_duplicates()
print(f"Nombre de lignes apr√®s suppression des doublons : {df_caracteristiques.shape[0]}")

#remplacer les valeurs nulles
remplacer_valeurs_null(df_caracteristiques)

Nombre de lignes avant suppression des doublons : 475911
Nombre de lignes apr√®s suppression des doublons : 475911


Unnamed: 0,identifiant_de_l_accident,date_et_heure,jour,mois,annee,heure_minute,date,year_georef,lumiere,code_postal,...,localisation,intersection,conditions_atmospheriques,collision,adresse,gps,latitude,longitude,coordonnees,numero
0,201700033619,2017-05-19T17:40:00+02:00,19,05,2017,17:40,Inconnu,2017,Plein jour,66100,...,Hors agglom√©ration,6,Normale,Deux v√©hicules ‚Äì par l‚Äôarri√®re,COPENHAGUE (ROND POINT D,M√©tropole,4269110,0285200,"42.668322, 2.897617",Inconnu
1,201700048262,2017-12-25T17:55:00+01:00,25,12,2017,17:55,Inconnu,2017,Cr√©puscule ou aube,93200,...,Hors agglom√©ration,1,Normale,Trois v√©hicules et plus ‚Äì en cha√Æne,AUTOROUTE A1,M√©tropole,Inconnu,Inconnu,Inconnu,1
2,201700048288,2017-01-01T17:25:00+01:00,01,01,2017,17:25,Inconnu,2017,Nuit sans √©clairage public,92230,...,Hors agglom√©ration,1,Temps couvert,Trois v√©hicules et plus ‚Äì en cha√Æne,A86,Inconnu,Inconnu,Inconnu,"48.925197, 2.293085",86
3,201700048486,2017-05-04T00:04:00+02:00,04,05,2017,00:04,Inconnu,2017,Nuit avec √©clairage public non allum√©,78330,...,Hors agglom√©ration,1,Autre,Autre collision,A12 Y,M√©tropole,4880700,0205200,"48.812878, 2.048119",12
4,201700048639,2017-07-11T08:10:00+02:00,11,07,2017,08:10,Inconnu,2017,Plein jour,78140,...,Hors agglom√©ration,1,Normale,Deux v√©hicules ‚Äì par le cot√©,N118,M√©tropole,4878430,0222310,"48.783326, 2.187486",118
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
475906,201600004642,2016-01-01T05:00:00+01:00,01,01,2016,05:00,Inconnu,2016,Nuit sans √©clairage public,01290,...,En agglom√©ration,1,Brouillard - fum√©e,Deux v√©hicules - frontale,Les Allouets,M√©tropole,Inconnu,Inconnu,"46.21663, 4.951376",Inconnu
475907,201600004875,2016-07-27T16:15:00+02:00,27,07,2016,16:15,Inconnu,2016,Plein jour,38530,...,En agglom√©ration,9,Normale,Autre collision,parking av de la gare,M√©tropole,Inconnu,Inconnu,"45.433123, 6.015207",Inconnu
475908,201600000781,2016-01-14T08:00:00+01:00,14,01,2016,08:00,Inconnu,2016,Nuit avec √©clairage public allum√©,27400,...,En agglom√©ration,2,Pluie forte,Deux v√©hicules - frontale,RD 164,M√©tropole,Inconnu,Inconnu,Inconnu,164
475909,201400047990,2014-03-08T17:15:00+01:00,08,03,2014,17:15,Inconnu,2015,Plein jour,92210,...,Hors agglom√©ration,1,Normale,Trois v√©hicules et plus - collisions multiples,A13,Inconnu,Inconnu,Inconnu,"48.845569, 2.215131",13


In [130]:
#changer type de colonne date_et_heure

df_caracteristiques['date_et_heure'] =pd.to_datetime(

    df_caracteristiques['date_et_heure'],
    errors='raise',
    utc=True
    ).to_frame()
# df_caracteristiques_sample.drop(['annee', 'mois', 'jour', 'heure_minute'], axis=1, inplace=True) 
df_caracteristiques

Unnamed: 0,identifiant_de_l_accident,date_et_heure,jour,mois,annee,heure_minute,date,year_georef,lumiere,code_postal,...,localisation,intersection,conditions_atmospheriques,collision,adresse,gps,latitude,longitude,coordonnees,numero
0,201700033619,2017-05-19 15:40:00+00:00,19,05,2017,17:40,,2017,Plein jour,66100,...,Hors agglom√©ration,6,Normale,Deux v√©hicules ‚Äì par l‚Äôarri√®re,COPENHAGUE (ROND POINT D,M√©tropole,4269110,0285200,"42.668322, 2.897617",
1,201700048262,2017-12-25 16:55:00+00:00,25,12,2017,17:55,,2017,Cr√©puscule ou aube,93200,...,Hors agglom√©ration,1,Normale,Trois v√©hicules et plus ‚Äì en cha√Æne,AUTOROUTE A1,M√©tropole,,,,1
2,201700048288,2017-01-01 16:25:00+00:00,01,01,2017,17:25,,2017,Nuit sans √©clairage public,92230,...,Hors agglom√©ration,1,Temps couvert,Trois v√©hicules et plus ‚Äì en cha√Æne,A86,,,,"48.925197, 2.293085",86
3,201700048486,2017-05-03 22:04:00+00:00,04,05,2017,00:04,,2017,Nuit avec √©clairage public non allum√©,78330,...,Hors agglom√©ration,1,Autre,Autre collision,A12 Y,M√©tropole,4880700,0205200,"48.812878, 2.048119",12
4,201700048639,2017-07-11 06:10:00+00:00,11,07,2017,08:10,,2017,Plein jour,78140,...,Hors agglom√©ration,1,Normale,Deux v√©hicules ‚Äì par le cot√©,N118,M√©tropole,4878430,0222310,"48.783326, 2.187486",118
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
475906,201600004642,2016-01-01 04:00:00+00:00,01,01,2016,05:00,,2016,Nuit sans √©clairage public,01290,...,En agglom√©ration,1,Brouillard - fum√©e,Deux v√©hicules - frontale,Les Allouets,M√©tropole,,,"46.21663, 4.951376",
475907,201600004875,2016-07-27 14:15:00+00:00,27,07,2016,16:15,,2016,Plein jour,38530,...,En agglom√©ration,9,Normale,Autre collision,parking av de la gare,M√©tropole,,,"45.433123, 6.015207",
475908,201600000781,2016-01-14 07:00:00+00:00,14,01,2016,08:00,,2016,Nuit avec √©clairage public allum√©,27400,...,En agglom√©ration,2,Pluie forte,Deux v√©hicules - frontale,RD 164,M√©tropole,,,,164
475909,201400047990,2014-03-08 16:15:00+00:00,08,03,2014,17:15,,2015,Plein jour,92210,...,Hors agglom√©ration,1,Normale,Trois v√©hicules et plus - collisions multiples,A13,,,,"48.845569, 2.215131",13


In [131]:
#Harmonisation de la colonne 'intersection'
print(df_caracteristiques.groupby('intersection').size().reset_index(name='counts').sort_values(by='counts', ascending=False))
mapping_intersection = {
    '0': 'non renseign√©',
    '1': 'hors intersection',
    '2': 'intersection en x',
    '3': 'intersection en t',
    '4': 'intersection en y',
    '5': 'intersection √† plus de 4 branches',
    '6': 'giratoire',
    '7': 'place',
    '8': 'passage √† niveau',
    '9': 'autre intersection'
}
harmonise_colonne_df(df_caracteristiques,'intersection',mapping_intersection)
print('\napres harmonisation:')
print(df_caracteristiques.groupby('intersection').size().reset_index(name='counts').sort_values(by='counts', ascending=False))

  intersection  counts
1            1  328937
2            2   56882
3            3   44672
6            6   15386
9            9   10060
4            4    8361
7            7    6100
5            5    4833
8            8     590
0            0      90

apres harmonisation:
                        intersection  counts
2                  hors intersection  328937
4                  intersection en x   56882
3                  intersection en t   44672
1                          giratoire   15386
0                 autre intersection   10060
5                  intersection en y    8361
9                              place    6100
6  intersection √† plus de 4 branches    4833
8                   passage √† niveau     590
7                      non renseign√©      90


In [132]:
# -1 
print(df_caracteristiques.groupby('collision').size().reset_index(name='counts').sort_values(by='counts', ascending=False))

df_caracteristiques = remplacer_valeur(
    df_caracteristiques,
    'collision',
    '-1',
    'Inconnu'
)
print(df_caracteristiques.groupby('collision').size().reset_index(name='counts').sort_values(by='counts', ascending=False))

                                        collision  counts
1                                 Autre collision  161298
3                    Deux v√©hicules ‚Äì par le cot√©  132605
4                  Deux v√©hicules ‚Äì par l‚Äôarri√®re   58352
5                                  Sans collision   46028
2                       Deux v√©hicules - frontale   45192
7             Trois v√©hicules et plus ‚Äì en cha√Æne   16916
6  Trois v√©hicules et plus - collisions multiples   15508
0                                              -1       2
                                        collision  counts
0                                 Autre collision  161298
2                    Deux v√©hicules ‚Äì par le cot√©  132605
3                  Deux v√©hicules ‚Äì par l‚Äôarri√®re   58352
5                                  Sans collision   46028
1                       Deux v√©hicules - frontale   45192
7             Trois v√©hicules et plus ‚Äì en cha√Æne   16916
6  Trois v√©hicules et plus - collisions 

In [133]:

#supprimer les colonnes avec missing values sup√©rieures √† 50%
# col_a_supprimer = ['infrastructure']

# df_caracteristiques = supprimer_colonnes(df_caracteristiques, col_a_supprimer)

df_caracteristiques

Unnamed: 0,identifiant_de_l_accident,date_et_heure,jour,mois,annee,heure_minute,date,year_georef,lumiere,code_postal,...,localisation,intersection,conditions_atmospheriques,collision,adresse,gps,latitude,longitude,coordonnees,numero
0,201700033619,2017-05-19 15:40:00+00:00,19,05,2017,17:40,,2017,Plein jour,66100,...,Hors agglom√©ration,giratoire,Normale,Deux v√©hicules ‚Äì par l‚Äôarri√®re,COPENHAGUE (ROND POINT D,M√©tropole,4269110,0285200,"42.668322, 2.897617",
1,201700048262,2017-12-25 16:55:00+00:00,25,12,2017,17:55,,2017,Cr√©puscule ou aube,93200,...,Hors agglom√©ration,hors intersection,Normale,Trois v√©hicules et plus ‚Äì en cha√Æne,AUTOROUTE A1,M√©tropole,,,,1
2,201700048288,2017-01-01 16:25:00+00:00,01,01,2017,17:25,,2017,Nuit sans √©clairage public,92230,...,Hors agglom√©ration,hors intersection,Temps couvert,Trois v√©hicules et plus ‚Äì en cha√Æne,A86,,,,"48.925197, 2.293085",86
3,201700048486,2017-05-03 22:04:00+00:00,04,05,2017,00:04,,2017,Nuit avec √©clairage public non allum√©,78330,...,Hors agglom√©ration,hors intersection,Autre,Autre collision,A12 Y,M√©tropole,4880700,0205200,"48.812878, 2.048119",12
4,201700048639,2017-07-11 06:10:00+00:00,11,07,2017,08:10,,2017,Plein jour,78140,...,Hors agglom√©ration,hors intersection,Normale,Deux v√©hicules ‚Äì par le cot√©,N118,M√©tropole,4878430,0222310,"48.783326, 2.187486",118
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
475906,201600004642,2016-01-01 04:00:00+00:00,01,01,2016,05:00,,2016,Nuit sans √©clairage public,01290,...,En agglom√©ration,hors intersection,Brouillard - fum√©e,Deux v√©hicules - frontale,Les Allouets,M√©tropole,,,"46.21663, 4.951376",
475907,201600004875,2016-07-27 14:15:00+00:00,27,07,2016,16:15,,2016,Plein jour,38530,...,En agglom√©ration,autre intersection,Normale,Autre collision,parking av de la gare,M√©tropole,,,"45.433123, 6.015207",
475908,201600000781,2016-01-14 07:00:00+00:00,14,01,2016,08:00,,2016,Nuit avec √©clairage public allum√©,27400,...,En agglom√©ration,intersection en x,Pluie forte,Deux v√©hicules - frontale,RD 164,M√©tropole,,,,164
475909,201400047990,2014-03-08 16:15:00+00:00,08,03,2014,17:15,,2015,Plein jour,92210,...,Hors agglom√©ration,hors intersection,Normale,Trois v√©hicules et plus - collisions multiples,A13,,,,"48.845569, 2.215131",13


# üßπ Nettoyage de la table V√©hicule 


In [134]:
df_vehicles = get_df_from_table(engine, "bronze", "vehicules_raw")
df_vehicles.head()

Unnamed: 0,identifiant_de_l_accident,identifiant_vehicule,sens,categorie_vehicule,obstacle_fixe_heurte,obstacle_mobile_heurte,point_de_choc,manoeuvre,nombre_d_occupants
0,201700033619,"B01,A01",,"VL seul,VL seul",,"V√©hicule,V√©hicule","Arri√®re,Avant",Sans changement de direction,
1,201700048262,"A01,E01,C01,B01,D01",PK ou PR ou num√©ro d‚Äôadresse postale croissant...,"VL seul,VL seul,VL seul,VL seul,VL seul",,"V√©hicule,V√©hicule,V√©hicule,V√©hicule,V√©hicule","Avant droit,Arri√®re,C√¥t√© gauche,Arri√®re droit,...","Man≈ìuvre d‚Äô√©vitement,Arr√™t√© (hors stationnemen...",
2,201700048288,"D01,B01,A01,C01",PK ou PR ou num√©ro d‚Äôadresse postale d√©croissa...,"VL seul,VL seul,VL seul,VL seul",,"V√©hicule,V√©hicule,V√©hicule,V√©hicule","Arri√®re,Avant,Avant,Arri√®re","M√™me sens,M√™me sens,M√™me sens,M√™me sens",
3,201700048486,"A01,B01",PK ou PR ou num√©ro d‚Äôadresse postale croissant...,"VL seul,VL seul",,"V√©hicule,V√©hicule","Avant gauche,C√¥t√© gauche","Changeant de file A gauche,D√©port√© A gauche",
4,201700048639,"Z01,A01",PK ou PR ou num√©ro d‚Äôadresse postale d√©croissa...,"VL seul,Motocyclette > 125 cm3",,"V√©hicule,V√©hicule",Avant droit,Sans changement de direction,


In [None]:
#supprimer les colonnes avec missing values sup√©rieures √† 50%
col_a_supprimer = ['sens', 'obstacle_fixe_heurte', 'obstacle_mobile_heurte', 'nombre_d_occupants']
df_vehicles = supprimer_colonnes(df_vehicles, col_a_supprimer)

# üßπ Nettoyage de la table usagers 


In [157]:
df_usagers = get_df_from_table(engine, "bronze", "usagers_raw")
df_usagers.head()

Unnamed: 0,identifiant_de_l_accident,identifiant_vehicule,place,categorie_d_usager,gravite,sexe,annee_de_naissance,motif_trajet,existence_equipement_de_securite,utilisation_equipement_de_securite,localisation_du_pieton,action_pieton,pieton_seul_ou_non
0,201700033619,"B01,A01",1122,"Conducteur,Conducteur,Passager,Passager","Bless√©,Bless√©,Bless√©,Bless√©","Masculin,Masculin,Masculin,Masculin",1996193919961931,"Promenade ‚Äì loisirs,Promenade ‚Äì loisirs,Promen...","Ceinture,Ceinture,Ceinture,Ceinture","Oui,Oui,Oui,Oui",,"Se d√©pla√ßant,Se d√©pla√ßant,Se d√©pla√ßant,Se d√©pl...",
1,201700048262,"A01,E01,C01,B01,D01",11111,"Conducteur,Conducteur,Conducteur,Conducteur,Co...","Indemne,Indemne,Bless√©,Indemne,Indemne","Masculin,Masculin,F√©minin,F√©minin,Masculin",19521934197919861978,,"Ceinture,Ceinture,Ceinture,Ceinture,Ceinture","Oui,Oui,Oui,Oui,Oui",,"Se d√©pla√ßant,Se d√©pla√ßant,Se d√©pla√ßant,Se d√©pl...",
2,201700048288,"D01,B01,A01,C01",11121,"Conducteur,Conducteur,Conducteur,Passager,Cond...","Indemne,Indemne,Indemne,Bless√©,Indemne","Masculin,Masculin,Masculin,Masculin,Masculin",19821978199020041978,,"Ceinture,Ceinture,Ceinture,Ceinture,Ceinture","Oui,Oui,Oui,Oui,Oui",,"Se d√©pla√ßant,Se d√©pla√ßant,Se d√©pla√ßant,Se d√©pl...",
3,201700048486,"A01,B01",112,"Conducteur,Conducteur,Passager","Bless√©,Indemne,Bless√©","Masculin,Masculin,Masculin",199219901992,Autre,"Ceinture,Ceinture,Ceinture","Oui,Oui,Oui",,"Se d√©pla√ßant,Se d√©pla√ßant,Se d√©pla√ßant",
4,201700048639,"Z01,A01",11,"Conducteur,Conducteur","Indemne,Bless√©","Masculin,Masculin",19921960,"Domicile ‚Äì travail,Domicile ‚Äì travail","Ceinture,Casque","Oui,Oui",,"Se d√©pla√ßant,Se d√©pla√ßant",


In [158]:
#supprimer les colonnes avec missing values sup√©rieures √† 50%
col_a_supprimer = ['localisation_du_pieton', 'pieton_seul_ou_non']
df_usagers = supprimer_colonnes(df_usagers, col_a_supprimer)

In [159]:
#Harmonisation de la colonne 'sexe'
# prend les 2 premiers caract√®res
df_usagers['sexe'] = df_usagers['sexe'].astype(str).str[:2].str.lower().str.replace(' ', '')  
df_usagers.groupby('sexe').size().reset_index(name='counts').sort_values(by='counts', ascending=False)
mapping_sexe = {
    'ma': 'homme',
    'f√©': 'femme'
}
harmonise_colonne_df(df_usagers,'sexe',mapping_sexe)
print('\napres harmonisation:')
print(df_usagers.groupby('sexe').size().reset_index(name='counts').sort_values(by='counts', ascending=False))


apres harmonisation:
    sexe  counts
1  homme  332112
0  femme  143799


In [164]:
df_usagers.head(1)

Unnamed: 0,identifiant_de_l_accident,identifiant_vehicule,place,categorie_d_usager,gravite,sexe,annee_de_naissance,motif_trajet,existence_equipement_de_securite,utilisation_equipement_de_securite,action_pieton
0,201700033619,"B01,A01",1122,"Conducteur,Conducteur,Passager,Passager","Bless√©,Bless√©,Bless√©,Bless√©",homme,1996193919961931,"Promenade ‚Äì loisirs,Promenade ‚Äì loisirs,Promen...","Ceinture,Ceinture,Ceinture,Ceinture","Oui,Oui,Oui,Oui","Se d√©pla√ßant,Se d√©pla√ßant,Se d√©pla√ßant,Se d√©pl..."


In [170]:
# df_usagers.groupby('categorie_d_usager').size().reset_index(name='counts').sort_values(by='counts', ascending=False)
# df_usagers.groupby('gravite').size().reset_index(name='counts').sort_values(by='counts', ascending=False)
# df_usagers.groupby('gravite').size().reset_index(name='counts').sort_values(by='counts', ascending=False)
# df_usagers.groupby('motif_trajet').size().reset_index(name='counts').sort_values(by='counts', ascending=False)
# df_usagers.groupby('motif_trajet').size().reset_index(name='counts').sort_values(by='counts', ascending=False)
# df_usagers.groupby('existence_equipement_de_securite').size().reset_index(name='counts').sort_values(by='counts', ascending=False)
# df_usagers.groupby('utilisation_equipement_de_securite').size().reset_index(name='counts').sort_values(by='counts', ascending=False)
df_usagers.groupby('action_pieton').size().reset_index(name='counts').sort_values(by='counts', ascending=False)


Unnamed: 0,action_pieton,counts
520,"Se d√©pla√ßant,Se d√©pla√ßant",182556
312,Se d√©pla√ßant,78113
617,"Se d√©pla√ßant,Se d√©pla√ßant,Se d√©pla√ßant",58645
792,"Se d√©pla√ßant,Traversant",25868
847,"Traversant,Se d√©pla√ßant",23818
...,...,...
889,"Traversant,Traversant,Se d√©pla√ßant,-1",1
890,"Traversant,Traversant,Se d√©pla√ßant,Autre",1
891,"Traversant,Traversant,Se d√©pla√ßant,Autre,Trave...",1
38,"-1,-1,-1,Se d√©pla√ßant,Se d√©pla√ßant,-1",1


INFO:__main__:Ex√©cution du script SQL...


INFO:__main__:Script SQL ex√©cut√© avec succ√®s
INFO:__main__:Connexion ferm√©e et engine lib√©r√©.
