# Découverte de la base de donnée sur les incidents
## Chargement de la base et visualisation de quelques lignes

In [37]:
##################################################################################
import ssl
try:
    _create_unverified_https_context = ssl._create_unverified_context
except AttributeError:
    # Legacy Python that doesn't verify HTTPS certificates by default
    pass
else:
    # Handle target environment that doesn't support HTTPS verification
    ssl._create_default_https_context = _create_unverified_https_context
##################################################################################
import numpy as np
import pandas as pd
url_api="https://ressources.data.sncf.com/api/v2/catalog/datasets/incidents-securite/exports/json?limit=-1&offset=0&lang=fr&timezone=Europe%2FParis"
incident= pd.read_json(url_api)
incident.head()

Unnamed: 0,id,origine,numero_isic,type_event,date,nature,region,lieu,niveau_gravite
0,18212,Mobilités,0.0,Dépassement de la vitesse limite de plus de 40...,2015-01-12,Dépassement de vitesse supérieur à 40 km/h,RA,Montbrison (42),
1,18152,Réseau,,RFC,2015-01-14,"Un TGV franchi le PN 25 barrières hautes, la s...",,Lunel (34),
2,18196,Réseau,,Défaillance voie,2015-01-19,Défaut de géométrie nécessitant l'arrêt des ci...,LR,Entre Sète et Le Castellas,
3,18203,Mobilités,17347.0,Franchissement intempestif d'un signal d'arrêt...,2015-01-20,Le signal C348 est franchit fermé par le train...,CEN,Orléans,
4,18379,Réseau,17477.0,Engagement intempestif d'un train sur une voie...,2015-02-04,Engagement intempestif d'une circulation sur u...,RA,Lyon Perrache (69),


## Description

Ce jeu de données porte sur les incidents de sécurité survenus sur le réseau de la SNCF depuis janvier 2015 jusqu'au 28 octobre 2022. Il contient 1651 observations qui sont enrégistrées mensuellement. Ne sont listés dans ce fichier que les événements de sécurité impliquant un dysfonctionnement du système ferroviaire, qu'il soit d'origine interne ou externe. Il contient 9 variables à savoir:
* *id et numero_isic*: pour l'identifiant des incidents
* *origine*: 
* *type_event*: elle renseigne sur le type d'évenement survenu,
* *date*: elle renseigne sur la date de survenue de l'événement
* *nature*: elle renseigne sur la nature de l'événement
* *region*: elle renseigne sur la région dans laquelle est survenu l'événement
* *lieu*: elle renseigne sur le lieu où est survenu l'événement
* *niveau_gravite*: elle renseigne sur le niveau de gravité de l'incident. L'échelle de gravité couvre 6 niveaux, le niveau 1 correspond à un événement "mineur"  et le niveau 6 correspond à un évènement qui a eu des conséquences graves. 

## Données manquantes
Nous nous intéressons dans cette partie aux données manquantes sur les différentes variables exceptées les variables id et numero_isic qui ne présentent aucun intérêt pour notre étude.

In [20]:
df1 = incident.drop(columns=['numero_isic', 'id'])   # on retire l'id et numero_isic
df1= df1[df1.isnull().any(axis=1)] # filtrage aux observations comportant des données manquantes
len(df1)

482

Au total, 482 incidents ont été enrégistrés avec des informations manquantes sur l'une au moins des variables. 

Regardons les données manquantes par variable.


In [26]:
df1.isnull().sum()

origine            19
type_event         20
date               19
nature             10
region             61
lieu               20
niveau_gravite    466
dtype: int64

Exceptée la variable *niveau_gravite* dont environ 28% de ces données sont manquantes, les autre variables ont une proprtion relativement faible de données manquantes.