In [None]:
import pandas as pd
import plotly.express as px

In [None]:
data = pd.read_csv('data/2018.csv')

In [None]:
for bite in data.columns:
    print(bite)

In [None]:
data.drop('Unnamed: 27', axis=1, inplace=True)

In [None]:
# Utiliser Plotly Express pour créer un histogramme
fig = px.histogram(data, x='FL_DATE', title='Histogramme du nombre d\'entrées pour chaque valeur unique dans FL_DATE')

# Afficher le graphique
fig.show()

In [None]:
# Tri des données par fréquence décroissante
sorted_data = data['ORIGIN'].value_counts().reset_index().rename(columns={'index': 'ORIGIN', 'ORIGIN': 'count'})
sorted_data = sorted_data.head(50)

# Création de l'histogramme avec Plotly Express
fig = px.bar(sorted_data, x='ORIGIN', y='count', title='Histogramme des 50 plus grandes entrées dans ORIGIN')

# Affichage du graphique
fig.show()


In [None]:
# Tri des données par fréquence décroissante
sorted_data = data['DEST'].value_counts().reset_index().rename(columns={'index': 'DEST', 'DEST': 'count'})
sorted_data = sorted_data.head(50)

# Création de l'histogramme avec Plotly Express
fig = px.bar(sorted_data, x='DEST', y='count', title='Histogramme des 50 plus grandes entrées dans DEST')

# Affichage du graphique
fig.show()


In [None]:
# Tri des données par fréquence décroissante des compagnies aériennes avec des vols annulés
cancelled_data = data[data['CANCELLED'] == 1]['OP_CARRIER'].value_counts().reset_index().rename(columns={'index': 'OP_CARRIER', 'OP_CARRIER': 'count'})
cancelled_data = cancelled_data.head(50)

# Création de l'histogramme avec Plotly Express
fig_cancelled = px.bar(cancelled_data, x='OP_CARRIER', y='count', title='Compagnies aériennes avec le plus d\'annulations')

# Affichage du graphique
fig_cancelled.show()


In [None]:
# Distribution des compagnies aériennes
carrier_distribution = data['OP_CARRIER'].value_counts().reset_index().rename(columns={'index': 'OP_CARRIER', 'OP_CARRIER': 'count'})

# Création du diagramme circulaire avec Plotly Express
fig_pie = px.pie(carrier_distribution, names='OP_CARRIER', values='count', title='Distribution des compagnies aériennes')

# Affichage du graphique
fig_pie.show()


In [None]:
# Remplacement des valeurs nulles par 0 dans les colonnes spécifiées
columns_to_fill = ['CARRIER_DELAY', 'WEATHER_DELAY', 'NAS_DELAY', 'SECURITY_DELAY', 'LATE_AIRCRAFT_DELAY']
data[columns_to_fill] = data[columns_to_fill].fillna(0)

In [None]:
# Filtrer les données où CANCELLED est égal à 1
cancelled_data = data[data['CANCELLED'] == 1]

# Distribution des codes d'annulation
cancellation_code_distribution = cancelled_data['CANCELLATION_CODE'].value_counts().reset_index().rename(columns={'index': 'CANCELLATION_CODE', 'CANCELLATION_CODE': 'count'})

# Mapping des codes d'annulation à des légendes personnalisées
code_labels = {'A': 'Carrier', 'B': 'Weather', 'C': 'NAS', 'D': 'Security'}
cancellation_code_distribution['CANCELLATION_LABEL'] = cancellation_code_distribution['CANCELLATION_CODE'].map(code_labels)

# Création du diagramme circulaire avec Plotly Express
fig_cancelled_pie = px.pie(cancellation_code_distribution, names='CANCELLATION_LABEL', values='count', title='Distribution des codes d\'annulation pour les vols annulés')

# Affichage du graphique
fig_cancelled_pie.show()


In [None]:
# Calcul du temps moyen de retard par compagnie aérienne
mean_delay_by_carrier = data.groupby('OP_CARRIER')['ARR_DELAY'].mean().reset_index()

# Création du graphique à barres avec Plotly Express
fig = px.bar(mean_delay_by_carrier, x='OP_CARRIER', y='ARR_DELAY',
             labels={'ARR_DELAY': 'Temps Moyen de Retard (min)', 'OP_CARRIER': 'Compagnie Aérienne'},
             title='Temps Moyen de Retard par Compagnie Aérienne')
fig.update_layout(xaxis={'categoryorder':'total ascending'})
fig.show()


In [None]:
len(data['OP_CARRIER'].unique())