# Analyses des accidents d'avion (1962-2023)

## Contexte métier

Dans le cadre de sa stratégie de diversification, notre entreprise envisage d’entrer dans le secteur de l’aviation commerciale et privée. Elle souhaite acquérir une flotte d’avions afin de proposer des services de transport aérien. Toutefois, avant de lancer cette nouvelle activité, une étude des risques liés à l’exploitation aérienne est nécessaire.

En particulier, la direction souhaite identifier **les modèles d’avions les plus sûrs**, sur la base d’un historique fiable d’incidents et d’accidents. Nous avons été mandaté pour mener cette analyse en utilisant un ensemble de données fourni par le **National Transportation Safety Board (NTSB)**, couvrant les accidents d’aviation civile entre **1962 et 2023**.

Notre rôle est de :
- Nettoyer et préparer les données ;
- Identifier les types d’aéronefs les plus impliqués dans des accidents ;
- Mettre en évidence les causes récurrentes d’accidents ;
- Visualiser les données de manière claire et interactive ;
- Fournir des **recommandations exploitables** à la division aéronautique pour orienter ses **choix d’acquisition**.

Cette analyse permettra à l’entreprise de limiter les risques humains, financiers et opérationnels associés à cette nouvelle activité, tout en assurant un **niveau de sécurité optimal** pour ses futurs clients.


### Importation des librairies et une petite configuration de base pour l'affichage des graphes

In [39]:
# Data Manipulation
import pandas as pd
import numpy as np

# Visualization
import matplotlib.pyplot as plt
import seaborn as sns

# Configuration de base pour les graphiques
sns.set_theme(style="whitegrid")
plt.rcParams["figure.figsize"] = (12,6)

### Chargement des données

In [40]:
df = pd.read_csv('AviationData.csv', encoding='latin1')
df_uss_codes = pd.read_csv('USState_Codes.csv')

  df = pd.read_csv('AviationData.csv', encoding='latin1')


### Fusionner les deux dataframes
Dans ce processus la colonne `Location` du dataframe principale sera spliter pour donner deux nouvelles colonnes `Abbreviation` et `US_State`, de plus pour les location qui se trouvent en dehors des US seront remplies par **Outside US**

In [None]:
# Etape 1 : extraire l'abréviation dpuis la colonne 'Location'
df['State_Abbrev'] = df['Location'].str.extract(r",\s*([A-Z]{2})$")

# Etape 2 : Melanger pour récupérer le nom complet de l'Etat
df = df.merge(df_uss_codes, how='left', left_on='State_Abbrev', right_on='Abbreviation')

# Etape 3 : remplacer les valeurs nulles par "Outside US"
df['US_State'] = df['US_State'].fillna('Outside US')

# Etape 4 : Supprimer la colonne State_Abbrev pour eviter le redondance des données
df = df.drop('State_Abbrev', axis=1)

### Exploration initiale

In [None]:
df.head()

In [None]:
df.info()

In [None]:
df.describe(include="all")

In [None]:
df.isna().sum()

### Netoyage des données

Dans ce processus un nouveau dataframe sera crée appelé `df_clean` qui aura pour but comme sont nom l'indique de contenir les données exploitable pour notre analyse.