# Analyse des données issues du site datagouv.fr

In [57]:
import pandas as pd

## 1. Caractéristiques

In [58]:
# Fichier fourni par Datascientest:
caracteristiques_21 = pd.read_csv("../data/raw/caracteristiques-2021.csv", sep=';')
caracteristiques_21.head()

Unnamed: 0,Num_Acc,jour,mois,an,hrmn,lum,dep,com,agg,int,atm,col,adr,lat,long
0,202100000001,30,11,2021,07:32,2,30,30319,1,1,1,1,CD 981,440389580000,43480220000
1,202100000002,25,9,2021,14:20,1,51,51544,1,3,1,3,Aire de repos croisement D20E9 aprÃ¨s sortie D977,492421290000,45545460000
2,202100000003,15,7,2021,07:55,1,85,85048,2,1,7,6,15 rue FranÃ§ois Nicolas,469219500000,-9644600000
3,202100000004,27,3,2021,19:45,5,93,93005,2,2,3,6,Route de Mitry,489493634583,25196639908
4,202100000005,25,2,2021,07:20,5,76,76429,2,1,1,2,PARIS. ROUTE DE,494083800000,11458100000


In [59]:
# Fichier téléchargé par download_raw_data.py:
caracteristiques_22 = pd.read_csv("../data/raw/caracteristiques-2022.csv", sep=';')
caracteristiques_22.head()

Unnamed: 0,Accident_Id,jour,mois,an,hrmn,lum,dep,com,agg,int,atm,col,adr,lat,long
0,202200000001,19,10,2022,16:15,1,26,26198,2,3,1,3,TEIL(vieille route du),445594200000,47257200000
1,202200000002,20,10,2022,08:34,1,25,25204,2,3,1,3,Miranda,469258100000,63462000000
2,202200000003,20,10,2022,17:15,1,22,22360,2,6,1,2,ROND POINT DE BREZILLET,484931620000,-27604390000
3,202200000004,20,10,2022,18:00,1,16,16102,2,3,8,6,LOHMEYER (RUE),456926520000,-3262900000
4,202200000005,19,10,2022,11:45,1,13,13103,1,1,1,2,ROUTE DE JEAN MOULIN-RN 538,436755790366,50927031775


In [60]:
def test_columns(dataset):
    """
    Fonction qui compare les colonnes d'un tableau de données issues de datagouv.fr via donwload_raw_data.py.

    Args: Doit correspondre à un des quatre intitulés de données:
        * caracteristiques
        * lieux
        * vehicules
        * usagers
    
    Returns:
        * "Les colonnes sont toutes identiques" le cas échéant;
        * "Les colonnes ne sont pas toutes identiques" avec le détail des différences. 
    """
    datascientest = pd.read_csv(f"../data/raw/{dataset}-2021.csv", sep=';')
    gouv = pd.read_csv(f"../data/raw/{dataset}-2022.csv", sep=';')

    if set(datascientest.columns) != set(gouv.columns):
        print("Les colonnes ne sont pas toutes identiques.")
        differences_in_columns = set(datascientest.columns) - set(gouv.columns)
        differences_in_columns_2 = set(gouv.columns) - set(datascientest.columns)
        print("La colonne", differences_in_columns, "du dataset de datascientest s'intitule", differences_in_columns_2, "dans le dataset du gouvernement.")
    else:
        print("Les colonnes sont toutes identiques.")

In [61]:
test_columns("caracteristiques")

Les colonnes ne sont pas toutes identiques.
La colonne {'Num_Acc'} du dataset de datascientest s'intitule {'Accident_Id'} dans le dataset du gouvernement.


In [62]:
# Bilan: En 2022, la première colonne du tableau 'caracteristiques' fournie par le gouv s'appelle 'Accident_Id' contre 'Num_acc' dans le fichier 2021 fourni par datascientest.
# TODO: patcher ça dans 'donwload_raw_data.csv'

## Lieux

In [63]:
# Fichier fourni par Datascientest:
lieux_2021 = pd.read_csv("../data/raw/lieux-2021.csv", sep=';')
lieux_2021.head()

Unnamed: 0,Num_Acc,catr,voie,v1,v2,circ,nbv,vosp,prof,pr,pr1,plan,lartpc,larrout,surf,infra,situ,vma
0,202100000001,3,981,-1,,2,2,0,1,(1),(1),1,,-1,1,0,1,80
1,202100000002,3,20,0,E,2,2,0,1,0,10,1,,-1,1,0,1,80
2,202100000003,4,GENERAL GALLIENI (BOULEVARD DU),0,,2,2,0,1,(1),(1),1,,-1,1,0,1,50
3,202100000004,3,GENERAL GALLIENI (BOULEVARD DU),0,,2,4,0,1,0,1,1,,-1,1,0,1,50
4,202100000005,7,PARIS. ROUTE DE,-1,,2,2,-1,1,11,150,1,,-1,1,0,1,50


In [64]:
# Fichier téléchargé par download_raw_data.py:
lieux_22 = pd.read_csv("../data/raw/lieux-2022.csv", sep=';')
lieux_22.head()

  lieux_22 = pd.read_csv("../data/raw/lieux-2022.csv", sep=';')


Unnamed: 0,Num_Acc,catr,voie,v1,v2,circ,nbv,vosp,prof,pr,pr1,plan,lartpc,larrout,surf,infra,situ,vma
0,202200000001,4,TEIL(vieille route du),0,,2,2,0,1,(1),(1),1,,-1,1,0,1,50
1,202200000002,4,,0,,2,2,0,1,(1),(1),1,,-1,1,0,1,50
2,202200000003,3,ROND POINT DE BREZILLET,0,,-1,2,0,1,0,0,1,,-1,1,5,1,50
3,202200000004,4,QUATORZE JUILLET (RUE DU),0,,1,1,0,2,(1),(1),1,,4,1,0,1,30
4,202200000005,3,ROUTE DE JEAN MOULIN-RN 538,0,,2,2,0,1,8,0,1,,-1,1,0,1,80


In [65]:
test_columns("lieux")

Les colonnes sont toutes identiques.


  gouv = pd.read_csv(f"../data/raw/{dataset}-2022.csv", sep=';')


In [66]:
# Bilan: les colonnes sont indentiques, mais la colonne 6 'nbv' du gouv en 22 pose problème avec son Mixed types.
# Voir ici:
# https://medium.com/@dataproducts/pandas-detect-mixed-data-types-and-fix-it-7f0bd3b8d071

In [82]:
lieux_22.dtypes
# Cela ne nous apprend rien de particulier, les types mélangés n'étant pas précisés pour la colonne problématique'nbv'.

Num_Acc     int64
catr        int64
voie       object
v1          int64
v2         object
circ        int64
nbv        object
vosp        int64
prof        int64
pr         object
pr1        object
plan        int64
lartpc     object
larrout    object
surf        int64
infra       int64
situ        int64
vma         int64
dtype: object

In [81]:
for column in lieux_22.columns:
    print("Colonne", column, ":", pd.api.types.infer_dtype(lieux_22[column]))

Colonne Num_Acc : integer
Colonne catr : integer
Colonne voie : string
Colonne v1 : integer
Colonne v2 : string
Colonne circ : integer
Colonne nbv : mixed-integer
Colonne vosp : integer
Colonne prof : integer
Colonne pr : string
Colonne pr1 : string
Colonne plan : integer
Colonne lartpc : string
Colonne larrout : string
Colonne surf : integer
Colonne infra : integer
Colonne situ : integer
Colonne vma : integer


In [None]:
# Deux options:
#   * régler le problème et tout convertir en int, 
#   * supprimer la colonne, car cette feature n'est pas utilisée par le modèle.

In [85]:
# Solution 1: convertir
lieux_22[column] = lieux_22[column].apply(lambda x: pd.to_numeric(x))

# Vérif:
print("Colonne", "nbv", ":", pd.api.types.infer_dtype(lieux_22["nbv"]))

# Bilan: ça n'a pas l'air de marcher... je préconise donc la solution 2: la suppression de la colonne.


Colonne nbv : mixed-integer


## Vehicules

In [67]:
# Fichier fourni par Datascientest:
vehicules_2021 = pd.read_csv("../data/raw/vehicules-2021.csv", sep=';')
vehicules_2021.head()

Unnamed: 0,Num_Acc,id_vehicule,num_veh,senc,catv,obs,obsm,choc,manv,motor,occutc
0,202100000001,201Â 764,B01,1,1,0,2,1,1,5,
1,202100000001,201Â 765,A01,1,7,0,9,3,17,1,
2,202100000002,201Â 762,A01,0,7,2,2,1,1,0,
3,202100000002,201Â 763,B01,0,7,0,2,1,9,0,
4,202100000003,201Â 761,A01,1,7,0,1,3,1,1,


In [68]:
# Fichier téléchargé par download_raw_data.py:
vehicules_22 = pd.read_csv("../data/raw/vehicules-2022.csv", sep=';')
vehicules_22.head()

Unnamed: 0,Num_Acc,id_vehicule,num_veh,senc,catv,obs,obsm,choc,manv,motor,occutc
0,202200000001,813Â 952,A01,1,2,0,2,1,9,1,
1,202200000001,813Â 953,B01,1,7,0,2,2,1,1,
2,202200000002,813Â 950,B01,2,7,0,2,8,15,1,
3,202200000002,813Â 951,A01,2,10,0,2,1,1,1,
4,202200000003,813Â 948,A01,2,7,0,2,1,2,1,


In [69]:
test_columns("vehicules")

Les colonnes sont toutes identiques.


In [70]:
# Bilan: pas de problèmes pour vehicules.

## Usagers:

In [71]:
# Fichier fourni par Datascientest:
usagers_2021 = pd.read_csv("../data/raw/usagers-2021.csv", sep=';')
usagers_2021.head()

Unnamed: 0,Num_Acc,id_vehicule,num_veh,place,catu,grav,sexe,an_nais,trajet,secu1,secu2,secu3,locp,actp,etatp
0,202100000001,201Â 764,B01,1,1,3,1,2000.0,1,0,9,-1,0,0,-1
1,202100000001,201Â 765,A01,1,1,1,1,1978.0,1,1,-1,-1,0,0,-1
2,202100000002,201Â 762,A01,1,1,4,1,1983.0,0,1,-1,-1,0,0,-1
3,202100000002,201Â 763,B01,1,1,3,1,1993.0,0,1,-1,-1,0,0,-1
4,202100000003,201Â 761,A01,1,1,1,1,1995.0,1,1,0,-1,0,0,-1


In [72]:
# Fichier téléchargé par download_raw_data.py:
usagers_22 = pd.read_csv("../data/raw/usagers-2022.csv", sep=';')
usagers_22.head()

Unnamed: 0,Num_Acc,id_vehicule,num_veh,place,catu,grav,sexe,an_nais,trajet,secu1,secu2,secu3,locp,actp,etatp
0,202200000001,813Â 952,A01,1,1,3,1,2008.0,5,2,8,-1,-1,-1,-1
1,202200000001,813Â 953,B01,1,1,1,1,1948.0,5,1,8,-1,-1,-1,-1
2,202200000002,813Â 950,B01,1,1,4,1,1988.0,9,1,0,-1,0,0,-1
3,202200000002,813Â 951,A01,1,1,1,1,1970.0,4,1,0,-1,0,0,-1
4,202200000003,813Â 948,A01,1,1,1,1,2002.0,0,1,0,-1,-1,-1,-1


In [73]:
test_columns("usagers")

Les colonnes sont toutes identiques.


In [74]:
# Bilan: pas de problèmes grâce au patch de Fabrice