# Analyse des données issues du site datagouv.fr

## Import et fonction

In [2]:
import pandas as pd

In [82]:
def test_columns(dataset, year):
    """
    Fonction qui compare les colonnes d'un tableau de données issues de datagouv.fr via donwload_raw_data.py.

    Args: 
    - dataset: str
        Doit correspondre à un des quatre intitulés de données:
            * caracteristiques
            * lieux
            * vehicules
            * usagers
    - year: str
        Doit être 2019, 2020 ou 2022
    
    Returns:
        * "Les colonnes sont toutes identiques" le cas échéant;
        * "Les colonnes ne sont pas toutes identiques" avec le détail des différences. 
    """
    datascientest = pd.read_csv(f"../data/raw/{dataset}-2021.csv", sep=';')
    gouv = pd.read_csv(f"../data/raw/{dataset}-{year}.csv", sep=';')

    if year != '2021':
        if set(datascientest.columns) != set(gouv.columns):
            #print("Les colonnes ne sont pas toutes identiques.")
            differences_in_columns = set(datascientest.columns) - set(gouv.columns)
            differences_in_columns_2 = set(gouv.columns) - set(datascientest.columns)
            print("La colonne", differences_in_columns, "du dataset", dataset,  "de datascientest s'intitule", differences_in_columns_2, "dans le dataset du gouvernement de", year, ".")
        else:
            print("Les colonnes du dataset", dataset, "en", year, "sont toutes identiques à celles de datascientest.")

## 1. Caractéristiques

In [58]:
# Fichier fourni par Datascientest:
caracteristiques_21 = pd.read_csv("../data/raw/caracteristiques-2021.csv", sep=';')
caracteristiques_21.head()

Unnamed: 0,Num_Acc,jour,mois,an,hrmn,lum,dep,com,agg,int,atm,col,adr,lat,long
0,202100000001,30,11,2021,07:32,2,30,30319,1,1,1,1,CD 981,440389580000,43480220000
1,202100000002,25,9,2021,14:20,1,51,51544,1,3,1,3,Aire de repos croisement D20E9 aprÃ¨s sortie D977,492421290000,45545460000
2,202100000003,15,7,2021,07:55,1,85,85048,2,1,7,6,15 rue FranÃ§ois Nicolas,469219500000,-9644600000
3,202100000004,27,3,2021,19:45,5,93,93005,2,2,3,6,Route de Mitry,489493634583,25196639908
4,202100000005,25,2,2021,07:20,5,76,76429,2,1,1,2,PARIS. ROUTE DE,494083800000,11458100000


In [59]:
# Fichier téléchargé par download_raw_data.py:
caracteristiques_22 = pd.read_csv("../data/raw/caracteristiques-2022.csv", sep=';')
caracteristiques_22.head()

Unnamed: 0,Accident_Id,jour,mois,an,hrmn,lum,dep,com,agg,int,atm,col,adr,lat,long
0,202200000001,19,10,2022,16:15,1,26,26198,2,3,1,3,TEIL(vieille route du),445594200000,47257200000
1,202200000002,20,10,2022,08:34,1,25,25204,2,3,1,3,Miranda,469258100000,63462000000
2,202200000003,20,10,2022,17:15,1,22,22360,2,6,1,2,ROND POINT DE BREZILLET,484931620000,-27604390000
3,202200000004,20,10,2022,18:00,1,16,16102,2,3,8,6,LOHMEYER (RUE),456926520000,-3262900000
4,202200000005,19,10,2022,11:45,1,13,13103,1,1,1,2,ROUTE DE JEAN MOULIN-RN 538,436755790366,50927031775


In [77]:
test_columns("caracteristiques", "2022")

La colonne {'Num_Acc'} du dataset caracteristiques de datascientest s'intitule {'Accident_Id'} dans le dataset du gouvernement de 2022 .


In [62]:
# Bilan: En 2022, la première colonne du tableau 'caracteristiques' fournie par le gouv s'appelle 'Accident_Id' contre 'Num_acc' dans le fichier 2021 fourni par datascientest.
# TODO: patcher ça dans 'donwload_raw_data.csv'

## 2. Lieux

In [63]:
# Fichier fourni par Datascientest:
lieux_2021 = pd.read_csv("../data/raw/lieux-2021.csv", sep=';')
lieux_2021.head()

Unnamed: 0,Num_Acc,catr,voie,v1,v2,circ,nbv,vosp,prof,pr,pr1,plan,lartpc,larrout,surf,infra,situ,vma
0,202100000001,3,981,-1,,2,2,0,1,(1),(1),1,,-1,1,0,1,80
1,202100000002,3,20,0,E,2,2,0,1,0,10,1,,-1,1,0,1,80
2,202100000003,4,GENERAL GALLIENI (BOULEVARD DU),0,,2,2,0,1,(1),(1),1,,-1,1,0,1,50
3,202100000004,3,GENERAL GALLIENI (BOULEVARD DU),0,,2,4,0,1,0,1,1,,-1,1,0,1,50
4,202100000005,7,PARIS. ROUTE DE,-1,,2,2,-1,1,11,150,1,,-1,1,0,1,50


In [64]:
# Fichier téléchargé par download_raw_data.py:
lieux_22 = pd.read_csv("../data/raw/lieux-2022.csv", sep=';')
lieux_22.head()

  lieux_22 = pd.read_csv("../data/raw/lieux-2022.csv", sep=';')


Unnamed: 0,Num_Acc,catr,voie,v1,v2,circ,nbv,vosp,prof,pr,pr1,plan,lartpc,larrout,surf,infra,situ,vma
0,202200000001,4,TEIL(vieille route du),0,,2,2,0,1,(1),(1),1,,-1,1,0,1,50
1,202200000002,4,,0,,2,2,0,1,(1),(1),1,,-1,1,0,1,50
2,202200000003,3,ROND POINT DE BREZILLET,0,,-1,2,0,1,0,0,1,,-1,1,5,1,50
3,202200000004,4,QUATORZE JUILLET (RUE DU),0,,1,1,0,2,(1),(1),1,,4,1,0,1,30
4,202200000005,3,ROUTE DE JEAN MOULIN-RN 538,0,,2,2,0,1,8,0,1,,-1,1,0,1,80


In [73]:
test_columns("lieux", "2022")

Les colonnes du dataset lieux en 2022 sont toutes identiques à celles de datascientest.


  gouv = pd.read_csv(f"../data/raw/{dataset}-{year}.csv", sep=';')


In [66]:
# Bilan: les colonnes sont indentiques, mais la colonne 6 'nbv' du gouv en 22 pose problème avec son Mixed types.
# Voir ici:
# https://medium.com/@dataproducts/pandas-detect-mixed-data-types-and-fix-it-7f0bd3b8d071

In [82]:
lieux_22.dtypes
# Cela ne nous apprend rien de particulier, les types mélangés n'étant pas précisés pour la colonne problématique'nbv'.

Num_Acc     int64
catr        int64
voie       object
v1          int64
v2         object
circ        int64
nbv        object
vosp        int64
prof        int64
pr         object
pr1        object
plan        int64
lartpc     object
larrout    object
surf        int64
infra       int64
situ        int64
vma         int64
dtype: object

In [81]:
for column in lieux_22.columns:
    print("Colonne", column, ":", pd.api.types.infer_dtype(lieux_22[column]))

Colonne Num_Acc : integer
Colonne catr : integer
Colonne voie : string
Colonne v1 : integer
Colonne v2 : string
Colonne circ : integer
Colonne nbv : mixed-integer
Colonne vosp : integer
Colonne prof : integer
Colonne pr : string
Colonne pr1 : string
Colonne plan : integer
Colonne lartpc : string
Colonne larrout : string
Colonne surf : integer
Colonne infra : integer
Colonne situ : integer
Colonne vma : integer


In [None]:
# Deux options:
#   * régler le problème et tout convertir en int, 
#   * supprimer la colonne, car cette feature n'est pas utilisée par le modèle.

In [85]:
# Solution 1: convertir
lieux_22[column] = lieux_22[column].apply(lambda x: pd.to_numeric(x))

# Vérif:
print("Colonne", "nbv", ":", pd.api.types.infer_dtype(lieux_22["nbv"]))

# Bilan: ça n'a pas l'air de marcher... je préconise donc la solution 2: la suppression de la colonne.


Colonne nbv : mixed-integer


## 3. Vehicules

In [67]:
# Fichier fourni par Datascientest:
vehicules_2021 = pd.read_csv("../data/raw/vehicules-2021.csv", sep=';')
vehicules_2021.head()

Unnamed: 0,Num_Acc,id_vehicule,num_veh,senc,catv,obs,obsm,choc,manv,motor,occutc
0,202100000001,201Â 764,B01,1,1,0,2,1,1,5,
1,202100000001,201Â 765,A01,1,7,0,9,3,17,1,
2,202100000002,201Â 762,A01,0,7,2,2,1,1,0,
3,202100000002,201Â 763,B01,0,7,0,2,1,9,0,
4,202100000003,201Â 761,A01,1,7,0,1,3,1,1,


In [68]:
# Fichier téléchargé par download_raw_data.py:
vehicules_22 = pd.read_csv("../data/raw/vehicules-2022.csv", sep=';')
vehicules_22.head()

Unnamed: 0,Num_Acc,id_vehicule,num_veh,senc,catv,obs,obsm,choc,manv,motor,occutc
0,202200000001,813Â 952,A01,1,2,0,2,1,9,1,
1,202200000001,813Â 953,B01,1,7,0,2,2,1,1,
2,202200000002,813Â 950,B01,2,7,0,2,8,15,1,
3,202200000002,813Â 951,A01,2,10,0,2,1,1,1,
4,202200000003,813Â 948,A01,2,7,0,2,1,2,1,


In [74]:
test_columns("vehicules", "2022")

Les colonnes du dataset vehicules en 2022 sont toutes identiques à celles de datascientest.


In [70]:
# Bilan: pas de problèmes pour vehicules.

## 4. Usagers:

In [79]:
# Fichier fourni par Datascientest:
usagers_2021 = pd.read_csv("../data/raw/usagers-2021.csv", sep=';')
usagers_2021.head()

Unnamed: 0,Num_Acc,id_vehicule,num_veh,place,catu,grav,sexe,an_nais,trajet,secu1,secu2,secu3,locp,actp,etatp
0,202100000001,201Â 764,B01,1,1,3,1,2000.0,1,0,9,-1,0,0,-1
1,202100000001,201Â 765,A01,1,1,1,1,1978.0,1,1,-1,-1,0,0,-1
2,202100000002,201Â 762,A01,1,1,4,1,1983.0,0,1,-1,-1,0,0,-1
3,202100000002,201Â 763,B01,1,1,3,1,1993.0,0,1,-1,-1,0,0,-1
4,202100000003,201Â 761,A01,1,1,1,1,1995.0,1,1,0,-1,0,0,-1


In [80]:
# Fichier téléchargé par download_raw_data.py:
usagers_22 = pd.read_csv("../data/raw/usagers-2022.csv", sep=';')
usagers_22.head()

Unnamed: 0,Num_Acc,id_usager,id_vehicule,num_veh,place,catu,grav,sexe,an_nais,trajet,secu1,secu2,secu3,locp,actp,etatp
0,202200000001,1Â 099Â 700,813Â 952,A01,1,1,3,1,2008.0,5,2,8,-1,-1,-1,-1
1,202200000001,1Â 099Â 701,813Â 953,B01,1,1,1,1,1948.0,5,1,8,-1,-1,-1,-1
2,202200000002,1Â 099Â 698,813Â 950,B01,1,1,4,1,1988.0,9,1,0,-1,0,0,-1
3,202200000002,1Â 099Â 699,813Â 951,A01,1,1,1,1,1970.0,4,1,0,-1,0,0,-1
4,202200000003,1Â 099Â 696,813Â 948,A01,1,1,1,1,2002.0,0,1,0,-1,-1,-1,-1


In [81]:
test_columns("usagers", "2022")

La colonne set() du dataset usagers de datascientest s'intitule {'id_usager'} dans le dataset du gouvernement de 2022 .


In [83]:
set(usagers_2021.columns)-set(usagers_22.columns)

set()

In [85]:
set(usagers_22.columns)-set(usagers_2021.columns)

{'id_usager'}

In [74]:
# Bilan: pas de problèmes grâce au patch de Fabrice

## 5. Fichier `ressources.csv`

In [6]:
df = pd.read_csv("../data/raw/ressources.csv", sep=";")
pd.set_option('display.max_columns', None)
df.head()
# dataset.title
# dataset.slug
# dataset.url
# dataset.organization
# url
# title
# description

Unnamed: 0,dataset.id,dataset.title,dataset.slug,dataset.url,dataset.organization,dataset.organization_id,dataset.license,dataset.private,dataset.archived,id,url,title,description,filetype,type,format,mime,filesize,checksum.type,checksum.value,created_at,modified,downloads,harvest.created_at,harvest.modified_at
0,65fb8ca86d034c1e78611e38,Liste des meilleures agences de rÃ©fÃ©rencemen...,liste-des-meilleures-agences-de-referencement-...,http://www.data.gouv.fr/fr/datasets/liste-des-...,Tremplin NumÃ©rique,65fb8b71614e2d0f244ce81d,License Not Specified,False,False,de4ab6b9-1862-4f65-8644-0df85ff76c75,https://www.tremplin-numerique.org/,Tremplin NumÃ©rique,[https://www.tremplin-numerique.org/](https://...,remote,documentation,other,,,,,2024-03-21T01:26:45.627000,2024-03-21T01:26:45.627000,0,,
1,65fb7cf532bd903f367ba548,Zonage Permis de Louer - DÃ©libÃ©rÃ©,zonage-permis-de-louer-delibere,http://www.data.gouv.fr/fr/datasets/zonage-per...,CommunautÃ© d'AgglomÃ©ration Plaine VallÃ©e,56dfe50288ee384349cfd996,License Not Specified,False,False,de90f370-40cc-4c8f-aba6-e893381218f7,https://portail-agglo-plainevallee.opendata.ar...,ArcGIS Hub Dataset,,remote,main,web page,text/html,,,,2024-03-21T00:19:01.338000,2024-03-21T00:19:01.339000,0,,
2,65fb7cf532bd903f367ba548,Zonage Permis de Louer - DÃ©libÃ©rÃ©,zonage-permis-de-louer-delibere,http://www.data.gouv.fr/fr/datasets/zonage-per...,CommunautÃ© d'AgglomÃ©ration Plaine VallÃ©e,56dfe50288ee384349cfd996,License Not Specified,False,False,3eec18ec-0a19-448b-b7c2-01aaf6ce46c0,https://services2.arcgis.com/rDH2Z04XoJ9VRLop/...,ArcGIS GeoService,,remote,main,arcgis geoservices rest api,application/json,,,,2024-03-21T00:19:01.339000,2024-03-21T00:19:01.339000,0,,
3,65fb7cf532bd903f367ba548,Zonage Permis de Louer - DÃ©libÃ©rÃ©,zonage-permis-de-louer-delibere,http://www.data.gouv.fr/fr/datasets/zonage-per...,CommunautÃ© d'AgglomÃ©ration Plaine VallÃ©e,56dfe50288ee384349cfd996,License Not Specified,False,False,4617cde6-ac3d-4325-bd87-9bb6d42f3a65,https://portail-agglo-plainevallee.opendata.ar...,CSV,,remote,main,csv,text/csv,,,,2024-03-21T00:19:01.340000,2024-03-21T00:19:01.340000,0,,
4,65fb7cf532bd903f367ba548,Zonage Permis de Louer - DÃ©libÃ©rÃ©,zonage-permis-de-louer-delibere,http://www.data.gouv.fr/fr/datasets/zonage-per...,CommunautÃ© d'AgglomÃ©ration Plaine VallÃ©e,56dfe50288ee384349cfd996,License Not Specified,False,False,59599ebc-18d3-4379-af02-099390929355,https://portail-agglo-plainevallee.opendata.ar...,GeoJSON,,remote,main,geojson,application/vnd.geo+json,,,,2024-03-21T00:19:01.340000,2024-03-21T00:19:01.340000,0,,


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 422634 entries, 0 to 422633
Data columns (total 25 columns):
 #   Column                   Non-Null Count   Dtype  
---  ------                   --------------   -----  
 0   dataset.id               422634 non-null  object 
 1   dataset.title            422634 non-null  object 
 2   dataset.slug             422634 non-null  object 
 3   dataset.url              422634 non-null  object 
 4   dataset.organization     401901 non-null  object 
 5   dataset.organization_id  401901 non-null  object 
 6   dataset.license          404966 non-null  object 
 7   dataset.private          422634 non-null  bool   
 8   dataset.archived         422634 non-null  object 
 9   id                       422634 non-null  object 
 10  url                      422634 non-null  object 
 11  title                    421283 non-null  object 
 12  description              196609 non-null  object 
 13  filetype                 422634 non-null  object 
 14  type

In [9]:
# Define a search function
def search_string(s, search):
    return search in str(s).lower()

# Search for the string 'al' in all columns
mask = df.apply(lambda x: x.map(lambda s: search_string(s, 'usagers')))

# Filter the DataFrame based on the mask
filtered_df = df.loc[mask.any(axis=1)]
filtered_df

Unnamed: 0,dataset.id,dataset.title,dataset.slug,dataset.url,dataset.organization,dataset.organization_id,dataset.license,dataset.private,dataset.archived,id,url,title,description,filetype,type,format,mime,filesize,checksum.type,checksum.value,created_at,modified,downloads,harvest.created_at,harvest.modified_at
14162,6582b5bc76e9b26dcb75059e,Base de donnÃ©es questionnaire usagers de la V...,base-de-donnees-questionnaire-usagers-de-la-vi...,http://www.data.gouv.fr/fr/datasets/base-de-do...,"UMR 5600 Environnement, Ville, SociÃ©tÃ©",6582a9d2c1803af627ff6c88,License Not Specified,False,2023-12-21T00:22:46.720000,dd0e8cc1-1db6-4a05-8376-c6b67bca3ae1,http://www.graie.org/zabr/,Site de la ZABR,,remote,main,www:link-1.0-http--link,,,,,2023-12-20T09:37:00.130000,2023-12-20T09:37:00.130000,2,,
14163,6582b5bc76e9b26dcb75059e,Base de donnÃ©es questionnaire usagers de la V...,base-de-donnees-questionnaire-usagers-de-la-vi...,http://www.data.gouv.fr/fr/datasets/base-de-do...,"UMR 5600 Environnement, Ville, SociÃ©tÃ©",6582a9d2c1803af627ff6c88,License Not Specified,False,2023-12-21T00:22:46.720000,9e54d97d-5efd-417e-b0b6-e16df2473a82,https://www.graie.org/zabr/zabrdoc/Prg_Rech/C4...,2016-FRechercheprojet-C45,,remote,main,www:link-1.0-http--link,,,,,2023-12-20T09:37:00.130000,2023-12-20T09:37:00.130000,2,,
14297,6582b5b777dd16f5387505ab,Entretiens usagers de la ViaRhÃ´na et patrimoi...,entretiens-usagers-de-la-viarhona-et-patrimoin...,http://www.data.gouv.fr/fr/datasets/entretiens...,"UMR 5600 Environnement, Ville, SociÃ©tÃ©",6582a9d2c1803af627ff6c88,License Not Specified,False,2023-12-21T00:22:48.340000,3457cada-9543-49d3-b7b0-e57903478da1,https://www.graie.org/zabr/zabrdoc/Prg_Rech/C4...,2016-FRechercheprojet-C45,,remote,main,www:link-1.0-http--link,,,,,2023-12-20T09:36:55.140000,2023-12-20T09:36:55.140000,2,,
14298,6582b5b777dd16f5387505ab,Entretiens usagers de la ViaRhÃ´na et patrimoi...,entretiens-usagers-de-la-viarhona-et-patrimoin...,http://www.data.gouv.fr/fr/datasets/entretiens...,"UMR 5600 Environnement, Ville, SociÃ©tÃ©",6582a9d2c1803af627ff6c88,License Not Specified,False,2023-12-21T00:22:48.340000,0374013f-26f9-4ba1-9ba5-8865a79ea7b8,http://www.graie.org/zabr/,Site de la ZABR,,remote,main,www:link-1.0-http--link,,,,,2023-12-20T09:36:55.141000,2023-12-20T09:36:55.141000,2,,
14702,6582b5a855fa5e0a1a554dcf,Questionnaire usagers de la ViaRhÃ´na et patri...,questionnaire-usagers-de-la-viarhona-et-patrim...,http://www.data.gouv.fr/fr/datasets/questionna...,"UMR 5600 Environnement, Ville, SociÃ©tÃ©",6582a9d2c1803af627ff6c88,License Not Specified,False,2023-12-21T00:22:52.833000,eb702f88-e0c0-41c9-9e03-f0aab0accd6d,https://www.graie.org/zabr/zabrdoc/Prg_Rech/C4...,2016-FRechercheprojet-C45,,remote,main,www:link-1.0-http--link,,,,,2023-12-20T09:36:40.819000,2023-12-20T09:36:40.819000,2,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
421280,53698f4ca3a729239d2036df,Bases de donnÃ©es annuelles des accidents corp...,bases-de-donnees-annuelles-des-accidents-corpo...,http://www.data.gouv.fr/fr/datasets/bases-de-d...,MinistÃ¨re de l'IntÃ©rieur et des Outre-Mer,534fff91a3a7292c64a77f53,Licence Ouverte / Open Licence,False,False,2387db3d-11ee-4df4-aa31-4c3c748244d4,https://static.data.gouv.fr/resources/base-de-...,usagers_2009.csv,,file,main,csv,text/csv,6943989.0,sha1,d30f15010ed238f75790730dddb50e0fc3041e07,2016-04-22T11:21:05.883000,2016-04-22T11:21:13.128000,725,,
421284,53698f4ca3a729239d2036df,Bases de donnÃ©es annuelles des accidents corp...,bases-de-donnees-annuelles-des-accidents-corpo...,http://www.data.gouv.fr/fr/datasets/bases-de-d...,MinistÃ¨re de l'IntÃ©rieur et des Outre-Mer,534fff91a3a7292c64a77f53,Licence Ouverte / Open Licence,False,False,433e26cf-d4c8-4dd9-b3f2-ecbc8a8f0509,https://static.data.gouv.fr/resources/base-de-...,usagers_2008.csv,,file,main,csv,text/csv,7180190.0,sha1,84a6ccec258d87c80bf6a1c2b943e3c35af31987,2016-09-09T18:08:39.484000,2016-09-09T18:09:01.501000,735,,
421288,53698f4ca3a729239d2036df,Bases de donnÃ©es annuelles des accidents corp...,bases-de-donnees-annuelles-des-accidents-corpo...,http://www.data.gouv.fr/fr/datasets/bases-de-d...,MinistÃ¨re de l'IntÃ©rieur et des Outre-Mer,534fff91a3a7292c64a77f53,Licence Ouverte / Open Licence,False,False,c5c30fc2-9bfd-4bcd-b45b-f01a31f1d087,https://static.data.gouv.fr/resources/base-de-...,usagers_2007.csv,,file,main,csv,text/csv,7914032.0,sha1,2137778ac815319fa7cbe420f0871f536bf86191,2016-09-09T18:05:36.455000,2016-09-09T18:05:40.447000,695,,
421292,53698f4ca3a729239d2036df,Bases de donnÃ©es annuelles des accidents corp...,bases-de-donnees-annuelles-des-accidents-corpo...,http://www.data.gouv.fr/fr/datasets/bases-de-d...,MinistÃ¨re de l'IntÃ©rieur et des Outre-Mer,534fff91a3a7292c64a77f53,Licence Ouverte / Open Licence,False,False,ebb4c37e-1616-497d-b5ed-f8113bed2ae7,https://static.data.gouv.fr/resources/base-de-...,usagers_2006.csv,,file,main,csv,text/csv,7853454.0,sha1,09e88506131820fb7649c8c2d61c3b6a802c2b2f,2016-09-09T18:01:13.774000,2016-09-09T18:01:21.114000,702,,


In [10]:
df.iloc[421296]

dataset.id                                          53698f4ca3a729239d2036df
dataset.title              Bases de donnÃ©es annuelles des accidents corp...
dataset.slug               bases-de-donnees-annuelles-des-accidents-corpo...
dataset.url                http://www.data.gouv.fr/fr/datasets/bases-de-d...
dataset.organization             MinistÃ¨re de l'IntÃ©rieur et des Outre-Mer
dataset.organization_id                             534fff91a3a7292c64a77f53
dataset.license                               Licence Ouverte / Open Licence
dataset.private                                                        False
dataset.archived                                                       False
id                                      cecdbd46-11f2-41fa-b0bd-e6e223de6b3c
url                        https://static.data.gouv.fr/resources/base-de-...
title                                                       usagers_2005.csv
description                                                              NaN

In [12]:
df.iloc[421296]['dataset.slug']

'bases-de-donnees-annuelles-des-accidents-corporels-de-la-circulation-routiere-annees-de-2005-a-2022'

In [16]:
ressources_acc = df.loc[df['dataset.slug']=="bases-de-donnees-annuelles-des-accidents-corporels-de-la-circulation-routiere-annees-de-2005-a-2022"]


In [20]:
ressources_acc.to_csv("../data/raw/ressources_acc.csv", index=False)
df = pd.read_csv("../data/raw/ressources_acc.csv")
df.head()

Unnamed: 0,dataset.id,dataset.title,dataset.slug,dataset.url,dataset.organization,dataset.organization_id,dataset.license,dataset.private,dataset.archived,id,url,title,description,filetype,type,format,mime,filesize,checksum.type,checksum.value,created_at,modified,downloads,harvest.created_at,harvest.modified_at
0,53698f4ca3a729239d2036df,Bases de donnÃ©es annuelles des accidents corp...,bases-de-donnees-annuelles-des-accidents-corpo...,http://www.data.gouv.fr/fr/datasets/bases-de-d...,MinistÃ¨re de l'IntÃ©rieur et des Outre-Mer,534fff91a3a7292c64a77f53,Licence Ouverte / Open Licence,False,False,62c20524-d442-46f5-bfd8-982c59763ec8,https://static.data.gouv.fr/resources/bases-de...,usagers-2022.csv,Table des usagers impliquÃ©s dans les accident...,file,main,csv,text/csv,13013255.0,sha1,df4761c5df6837b109ce80d73014a78800871b9e,2023-10-05T09:42:30.446000,2023-10-05T09:42:43.684000,8378,,
1,53698f4ca3a729239d2036df,Bases de donnÃ©es annuelles des accidents corp...,bases-de-donnees-annuelles-des-accidents-corpo...,http://www.data.gouv.fr/fr/datasets/bases-de-d...,MinistÃ¨re de l'IntÃ©rieur et des Outre-Mer,534fff91a3a7292c64a77f53,Licence Ouverte / Open Licence,False,False,c9742921-4427-41e5-81bc-f13af8bc31a0,https://static.data.gouv.fr/resources/bases-de...,vehicules-2022.csv,Table des vÃ©hicules impliquÃ©s dans les accid...,file,main,csv,text/csv,6021965.0,sha1,9eebc6381965ba230926e8d2681862b5ddd8c23b,2023-10-05T09:41:48.102000,2023-10-05T09:41:54.634000,5711,,
2,53698f4ca3a729239d2036df,Bases de donnÃ©es annuelles des accidents corp...,bases-de-donnees-annuelles-des-accidents-corpo...,http://www.data.gouv.fr/fr/datasets/bases-de-d...,MinistÃ¨re de l'IntÃ©rieur et des Outre-Mer,534fff91a3a7292c64a77f53,Licence Ouverte / Open Licence,False,False,a6ef711a-1f03-44cb-921a-0ce8ec975995,https://static.data.gouv.fr/resources/bases-de...,lieux-2022.csv,Table des lieux des accidents corporels de la ...,file,main,csv,text/csv,5617313.0,sha1,7e2dcda426636df97fc4c28e16d9b3df0602028f,2023-10-05T09:41:12.934000,2023-10-05T09:41:20.327000,3876,,
3,53698f4ca3a729239d2036df,Bases de donnÃ©es annuelles des accidents corp...,bases-de-donnees-annuelles-des-accidents-corpo...,http://www.data.gouv.fr/fr/datasets/bases-de-d...,MinistÃ¨re de l'IntÃ©rieur et des Outre-Mer,534fff91a3a7292c64a77f53,Licence Ouverte / Open Licence,False,False,5fc299c0-4598-4c29-b74c-6a67b0cc27e7,https://static.data.gouv.fr/resources/bases-de...,carcteristiques-2022.csv,Table des caractÃ©ristiques des accidents corp...,file,main,csv,text/csv,6884406.0,sha1,494fd2adbc676a35b565583f284f32ee55baeeae,2023-10-05T09:39:28.232000,2023-10-05T09:39:41.721000,8161,,
4,53698f4ca3a729239d2036df,Bases de donnÃ©es annuelles des accidents corp...,bases-de-donnees-annuelles-des-accidents-corpo...,http://www.data.gouv.fr/fr/datasets/bases-de-d...,MinistÃ¨re de l'IntÃ©rieur et des Outre-Mer,534fff91a3a7292c64a77f53,Licence Ouverte / Open Licence,False,False,8ef4c2a3-91a0-4d98-ae3a-989bde87b62a,https://static.data.gouv.fr/resources/bases-de...,description-des-bases-de-donnees-annuelles-202...,Description de la source et des variables de l...,file,main,pdf,application/pdf,511059.0,sha1,a320bb9c452c702b7c04b1cace52eaea26da3c79,2021-11-24T13:18:37.618000,2023-10-05T09:43:20.137000,10003,,


In [46]:
df.iloc[1]['url']

'https://static.data.gouv.fr/resources/bases-de-donnees-annuelles-des-accidents-corporels-de-la-circulation-routiere-annees-de-2005-a-2021/20231005-094147/vehicules-2022.csv'

In [42]:
df.iloc[28]['url'][:92]

'https://static.data.gouv.fr/resources/base-de-donnees-accidents-corporels-de-la-circulation/'

In [43]:
files = []
for i in range(len(df)):
    files.append(df.iloc[i]['url'][92:])

In [44]:
files

['la-circulation-routiere-annees-de-2005-a-2021/20231005-094229/usagers-2022.csv',
 'la-circulation-routiere-annees-de-2005-a-2021/20231005-094147/vehicules-2022.csv',
 'la-circulation-routiere-annees-de-2005-a-2021/20231005-094112/lieux-2022.csv',
 'la-circulation-routiere-annees-de-2005-a-2021/20231005-093927/carcteristiques-2022.csv',
 'la-circulation-routiere-annees-de-2005-a-2021/20231005-094302/description-des-bases-de-donnees-annuelles-2022.pdf',
 'la-circulation-routiere-annees-de-2005-a-2022/20231009-140337/usagers-2021.csv',
 'la-circulation-routiere-annees-de-2005-a-2020/20221024-113925/vehicules-2021.csv',
 'la-circulation-routiere-annees-de-2005-a-2020/20221024-113901/lieux-2021.csv',
 'la-circulation-routiere-annees-de-2005-a-2020/20221024-113743/carcteristiques-2021.csv',
 'la-circulation-routiere-annees-de-2005-a-2021/20221130-142333/description-de-la-liste-des-vehicules-immatricules-impliques-dans-les-accidents-corporels.pdf',
 'la-circulation-routiere-annees-de-2005-a

In [None]:
def download_file(input_url, output_file):
    response = requests.get(input_url)
    if response.status_code == 200:
        # Process the response content as needed
        content = response.text
        text_file = open(output_file, "wb")
        text_file.write(content.encode("utf-8"))  # to be check...
        text_file.close()
        print(f"{output_file} loaded")
    else:
        print(f"Error accessing the object {input_url}:", response.status_code)

download_file()

## 6. Analyse globale des colonnes

In [78]:
import os

for filename in os.listdir("../data/raw"):
    dataset = filename[:-9]
    year = filename[-8:-4]
    test_columns(dataset, year)
    

Les colonnes du dataset caracteristiques en 2019 sont toutes identiques à celles de datascientest.
Les colonnes du dataset caracteristiques en 2020 sont toutes identiques à celles de datascientest.
La colonne {'Num_Acc'} du dataset caracteristiques de datascientest s'intitule {'Accident_Id'} dans le dataset du gouvernement de 2022 .
Les colonnes du dataset lieux en 2019 sont toutes identiques à celles de datascientest.
Les colonnes du dataset lieux en 2020 sont toutes identiques à celles de datascientest.


  gouv = pd.read_csv(f"../data/raw/{dataset}-{year}.csv", sep=';')


Les colonnes du dataset lieux en 2022 sont toutes identiques à celles de datascientest.
Les colonnes du dataset usagers en 2019 sont toutes identiques à celles de datascientest.
Les colonnes du dataset usagers en 2020 sont toutes identiques à celles de datascientest.
La colonne set() du dataset usagers de datascientest s'intitule {'id_usager'} dans le dataset du gouvernement de 2022 .
Les colonnes du dataset vehicules en 2019 sont toutes identiques à celles de datascientest.
Les colonnes du dataset vehicules en 2020 sont toutes identiques à celles de datascientest.
Les colonnes du dataset vehicules en 2022 sont toutes identiques à celles de datascientest.


Bilan: On se restreint à la période **[2019-2022]** en raison d'un changement effectué en 2022 (cf "description_bdd_annuelles_2005-2022", page 4)
* La colonne {'Num_Acc'} du dataset caracteristiques de datascientest s'intitule {'Accident_Id'} dans le dataset du gouvernement de 2022 .
* La colonne set() du dataset usagers de datascientest s'intitule {'id_usager'} dans le dataset du gouvernement de 2022 .
* Le dataset "lieux" en 2022 a un problème de mixed types dans la colonne 6 intitulée 'nbv'

Les problèmes ont lieu en **2022**, pour les dataset `caractéristiques`, `usagers` et `lieux`.
