In [2]:
import os
import pandas as pd
import numpy as np
from scipy.stats import chi2_contingency
path = os.path.join( "..", "data", "processed", "accidents_clean.csv")
accidents_clean = pd.read_csv(path)

In [3]:
# Effectue un test de Chi2 + V de Cramer sur les variables catégorielles

target_variable = 'grav'
variables_exclues = ['id_vehicule', 'num_veh', 'hrmn','lat', 'long', 'age', 'date']

def cramers_v(chi2, n, min_dim):
    """Calculer le V de Cramer."""
    return np.sqrt(chi2 / (n * (min_dim - 1)))


for column in accidents_clean.columns:
    # Ignorer la variable cible elle-même
    if column == target_variable or column in variables_exclues:
        continue

    # Créer une table de contingence
    contingency_table = pd.crosstab(accidents_clean[target_variable], accidents_clean[column])

    # Effectuer le test du chi-carré
    chi2_result = chi2_contingency(contingency_table)

    # Calculer le V de Cramer
    n = contingency_table.sum().sum()
    min_dim = min(contingency_table.shape) - 1
    cramers_v_value = cramers_v(chi2_result[0], n, min_dim)

    # Afficher les résultats
    print(f"Effet de {column} sur la gravité : X2 = {chi2_result[0]}, p = {chi2_result[1]}, V de Cramer = {cramers_v_value}")

Effet de catv sur la gravité : X2 = 121146.86122461755, p = 0.0, V de Cramer = 0.3035453561297433
Effet de obs sur la gravité : X2 = 48085.144520324924, p = 0.0, V de Cramer = 0.19123746257365998
Effet de obsm sur la gravité : X2 = 39208.17572166269, p = 0.0, V de Cramer = 0.17268548225400326
Effet de choc sur la gravité : X2 = 29355.922650280263, p = 0.0, V de Cramer = 0.1494222862775858
Effet de manv sur la gravité : X2 = 51717.520710248835, p = 0.0, V de Cramer = 0.19832906220420485
Effet de motor sur la gravité : X2 = 21312.74217875996, p = 0.0, V de Cramer = 0.1273172283039901
Effet de place sur la gravité : X2 = 41651.87772864203, p = 0.0, V de Cramer = 0.17798557347374977
Effet de catu sur la gravité : X2 = 39838.94031922893, p = 0.0, V de Cramer = 0.24617072044963664
Effet de sexe sur la gravité : X2 = 5535.572681566634, p = 0.0, V de Cramer = inf
Effet de trajet sur la gravité : X2 = 23261.0310693029, p = 0.0, V de Cramer = 0.13300929468147568
Effet de secu1 sur la gravité : X

  return np.sqrt(chi2 / (n * (min_dim - 1)))


Effet de an sur la gravité : X2 = 283.0040164108619, p = 1.724245879866543e-53, V de Cramer = 0.01467113824260116
Effet de lum sur la gravité : X2 = 9151.717946320008, p = 0.0, V de Cramer = 0.08342934293415331
Effet de dep sur la gravité : X2 = 50583.84442942424, p = 0.0, V de Cramer = 0.19614327678442955
Effet de com sur la gravité : X2 = 233702.6217364219, p = 0.0, V de Cramer = 0.4215987378387823
Effet de agg sur la gravité : X2 = 19143.769209007998, p = 0.0, V de Cramer = inf
Effet de int sur la gravité : X2 = 6247.871878990457, p = 0.0, V de Cramer = 0.0689340139006183
Effet de atm sur la gravité : X2 = 2049.2564893726885, p = 0.0, V de Cramer = 0.03947895689727697
Effet de col sur la gravité : X2 = 43158.2032793381, p = 0.0, V de Cramer = 0.1811753829434853
Effet de catr sur la gravité : X2 = 22265.69808840702, p = 0.0, V de Cramer = 0.13013246842193402
Effet de circ sur la gravité : X2 = 12407.79923269426, p = 0.0, V de Cramer = 0.09714375543371169
Effet de nbv sur la gravité :

  return np.sqrt(chi2 / (n * (min_dim - 1)))


Effet de plan sur la gravité : X2 = 9909.518859614862, p = 0.0, V de Cramer = 0.0868148049994313
Effet de surf sur la gravité : X2 = 1472.106900937895, p = 1.894198581258894e-296, V de Cramer = 0.03346086656782447
Effet de infra sur la gravité : X2 = 1344.2158984619275, p = 1.6796595287699025e-266, V de Cramer = 0.03197437201882516
Effet de situ sur la gravité : X2 = 32214.69214276467, p = 0.0, V de Cramer = 0.15652888891563269
Effet de vma sur la gravité : X2 = 33335.64496991466, p = 0.0, V de Cramer = 0.15922891687132648


In [None]:
# GLM avec distribution de Poisson pour tester l'effet de l'age sur la gravité de l'accident
# Important : Install statsmodels !


import statsmodels.api as sm
import statsmodels.formula.api as smf

glm_model = smf.glm(formula='grav ~ age',
                    data=accidents_clean,
                    family=sm.families.Poisson()).fit()

# Afficher le résumé du modèle
print(glm_model.summary())

                 Generalized Linear Model Regression Results                  
Dep. Variable:                   grav   No. Observations:               657408
Model:                            GLM   Df Residuals:                   657406
Model Family:                 Poisson   Df Model:                            1
Link Function:                    Log   Scale:                          1.0000
Method:                          IRLS   Log-Likelihood:            -9.0995e+05
Date:                Wed, 11 Jun 2025   Deviance:                   2.2358e+05
Time:                        17:35:11   Pearson chi2:                 2.32e+05
No. Iterations:                     4   Pseudo R-squ. (CS):          4.938e-05
Covariance Type:            nonrobust                                         
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      0.5660      0.002    270.025      0.0

In [10]:
# GLM avec distribution de Poisson pour tester l'effet de l'age et la gravité sur le nombre d'accidents
# Important : Install statsmodels !

import statsmodels.api as sm
import statsmodels.formula.api as smf

accidents_age = accidents_clean.groupby(['age', 'grav']).size().reset_index(name='accident_count')

# Ajustement du GLM avec une distribution de Poisson
# La formule spécifie que 'accident_count' est modélisé en fonction de 'age' et 'grav'
glm_model = smf.glm(formula='accident_count ~ age * grav',
                    data=accidents_age,
                    family=sm.families.Poisson()).fit()

# Afficher le résumé du modèle
print(glm_model.summary())

                 Generalized Linear Model Regression Results                  
Dep. Variable:         accident_count   No. Observations:                  428
Model:                            GLM   Df Residuals:                      424
Model Family:                 Poisson   Df Model:                            3
Link Function:                    Log   Scale:                          1.0000
Method:                          IRLS   Log-Likelihood:            -2.4210e+05
Date:                Wed, 11 Jun 2025   Deviance:                   4.8080e+05
Time:                        17:35:44   Pearson chi2:                 4.43e+05
No. Iterations:                     6   Pseudo R-squ. (CS):              1.000
Covariance Type:            nonrobust                                         
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      9.4603      0.004   2177.442      0.0