# Exploratory Data Analysis: Toussaint Louverture International Airport 2017 - 2020

In [1]:
# Import the required packages
import pandas as pd 
import numpy as np  # linear algebra
import pylab as plt
import seaborn as sns
import plotly.express as px
import matplotlib.pyplot as plt
import plotly.graph_objects as go
from plotly.subplots import make_subplots

### Adjusting `matplotlib` parameters

In [2]:
SMALL_SIZE = 12
MEDIUM_SIZE = 14
BIGGER_SIZE = 16

plt.rc('font', size=SMALL_SIZE)          # controls default text sizes
plt.rc('axes', titlesize=SMALL_SIZE)     # fontsize of the axes title
plt.rc('axes', labelsize=MEDIUM_SIZE)    # fontsize of the x and y labels
plt.rc('xtick', labelsize=SMALL_SIZE)    # fontsize of the tick labels
plt.rc('ytick', labelsize=SMALL_SIZE)    # fontsize of the tick labels
plt.rc('legend', fontsize=SMALL_SIZE)    # legend fontsize
plt.rc('figure', titlesize=BIGGER_SIZE)  # fontsize of the figure title

# Data Preparation

### Obtaining the data

The original data can be seen on the site Toussaint Louverture International Airport (https://www.flightera.net/fr/airport/Port-au-Prince/MTPP/arrival "Toussaint Louverture International Airport"). The selected columns are the same as in this older.

Please refer to [this](https://github.com/Shito3/Airplanes_Analysis/tree/master/Results) notebook on how to scrap the raw data to CSV format.

### Read in the data

In [3]:
# Import Customer Churn Dataset 
url = 'Dataset/airplane_data.csv'
# Read in the data
df = pd.read_csv(url)
# Quick insights into the dataset
df.head()

Unnamed: 0,Date / Statut,Vol,De,Arrivée Planifiée,Départ,Arrivé,Durée,Unnamed: 7,Unnamed: 8,Unnamed: 9,Unnamed: 10,Unnamed: 11
0,"lun, 18. sept 2017 10:35 EDT A Atterri",S613 Flag of Haiti Sunrise Airways (S6 / KSZ),Flag of Haiti Cap-Haitien (CAP / MTCH),10:35 EDT,10:00 EDT à temps,10:35 EDT à temps,35m,,,,,
1,"lun, 18. sept 2017 13:30 EDT A Atterri",S615 Flag of Haiti Sunrise Airways (S6 / KSZ),Flag of Haiti Cap-Haitien (CAP / MTCH),13:30 EDT,13:00 EDT à temps,13:30 EDT à temps,30m,,,,,
2,"lun, 18. sept 2017 14:35 EDT A Atterri",DL685 Delta Air Lines (DL / DAL),Atlanta (ATL / KATL),14:35 EDT,11:30 EDT à temps,14:35 EDT planifié,3h 5m,,,,,
3,"lun, 18. sept 2017 16:45 EDT A Atterri",S617 Flag of Haiti Sunrise Airways (S6 / KSZ),Flag of Haiti Cap-Haitien (CAP / MTCH),16:45 EDT,16:15 EDT à temps,16:45 EDT à temps,30m,,,,,
4,"mar, 19. sept 2017 08:30 EDT A Atterri",S611 Flag of Haiti Sunrise Airways (S6 / KSZ),Flag of Haiti Cap-Haitien (CAP / MTCH),08:30 EDT,08:00 EDT à temps,08:30 EDT à temps,30m,,,,,


### Let's delete the columns that are not part of the table.

In [4]:
df = df.drop(['Unnamed: 7','Unnamed: 8','Unnamed: 9','Unnamed: 10','Unnamed: 11'],axis=1)

In [5]:
df.head() #Let's look at the result now.

Unnamed: 0,Date / Statut,Vol,De,Arrivée Planifiée,Départ,Arrivé,Durée
0,"lun, 18. sept 2017 10:35 EDT A Atterri",S613 Flag of Haiti Sunrise Airways (S6 / KSZ),Flag of Haiti Cap-Haitien (CAP / MTCH),10:35 EDT,10:00 EDT à temps,10:35 EDT à temps,35m
1,"lun, 18. sept 2017 13:30 EDT A Atterri",S615 Flag of Haiti Sunrise Airways (S6 / KSZ),Flag of Haiti Cap-Haitien (CAP / MTCH),13:30 EDT,13:00 EDT à temps,13:30 EDT à temps,30m
2,"lun, 18. sept 2017 14:35 EDT A Atterri",DL685 Delta Air Lines (DL / DAL),Atlanta (ATL / KATL),14:35 EDT,11:30 EDT à temps,14:35 EDT planifié,3h 5m
3,"lun, 18. sept 2017 16:45 EDT A Atterri",S617 Flag of Haiti Sunrise Airways (S6 / KSZ),Flag of Haiti Cap-Haitien (CAP / MTCH),16:45 EDT,16:15 EDT à temps,16:45 EDT à temps,30m
4,"mar, 19. sept 2017 08:30 EDT A Atterri",S611 Flag of Haiti Sunrise Airways (S6 / KSZ),Flag of Haiti Cap-Haitien (CAP / MTCH),08:30 EDT,08:00 EDT à temps,08:30 EDT à temps,30m


In [6]:
df.info() # About DF

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5510 entries, 0 to 5509
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   Date / Statut      5205 non-null   object
 1   Vol                5205 non-null   object
 2   De                 5205 non-null   object
 3   Arrivée Planifiée  5205 non-null   object
 4   Départ             5125 non-null   object
 5   Arrivé             5125 non-null   object
 6   Durée              5205 non-null   object
dtypes: object(7)
memory usage: 150.7+ KB


In [7]:
df.isnull().sum() #

Date / Statut        305
Vol                  305
De                   305
Arrivée Planifiée    305
Départ               385
Arrivé               385
Durée                305
dtype: int64

In [22]:
df.shape

(5510, 7)

In [23]:
df.drop_duplicates(subset=None, keep='first', inplace=False)

Unnamed: 0,Date / Statut,Vol,De,Arrivée Planifiée,Départ,Arrivé,Durée
0,"lun, 18. sept 2017 10:35 EDT A Atterri",S613 Flag of Haiti Sunrise Airways (S6 / KSZ),Flag of Haiti Cap-Haitien (CAP / MTCH),10:35 EDT,10:00 EDT à temps,10:35 EDT à temps,35m
1,"lun, 18. sept 2017 13:30 EDT A Atterri",S615 Flag of Haiti Sunrise Airways (S6 / KSZ),Flag of Haiti Cap-Haitien (CAP / MTCH),13:30 EDT,13:00 EDT à temps,13:30 EDT à temps,30m
2,"lun, 18. sept 2017 14:35 EDT A Atterri",DL685 Delta Air Lines (DL / DAL),Atlanta (ATL / KATL),14:35 EDT,11:30 EDT à temps,14:35 EDT planifié,3h 5m
3,"lun, 18. sept 2017 16:45 EDT A Atterri",S617 Flag of Haiti Sunrise Airways (S6 / KSZ),Flag of Haiti Cap-Haitien (CAP / MTCH),16:45 EDT,16:15 EDT à temps,16:45 EDT à temps,30m
4,"mar, 19. sept 2017 08:30 EDT A Atterri",S611 Flag of Haiti Sunrise Airways (S6 / KSZ),Flag of Haiti Cap-Haitien (CAP / MTCH),08:30 EDT,08:00 EDT à temps,08:30 EDT à temps,30m
...,...,...,...,...,...,...,...
5504,"mar, 13. févr 2018 11:07 EST A Atterri",CM202 CMP202 Copa Airlines (CM / CMP),Panama City (PTY / MPTO),11:07 EST,08:52 EST 10 min retard,10:43 EST 23 min tôt,1h 50m
5505,"mar, 13. févr 2018 11:14 EST A Atterri",B61835 JBU1835 JetBlue Airways (B6 / JBU),New York (JFK / KJFK),11:14 EST,07:36 EST 16 min retard,10:45 EST 28 min tôt,3h 9m
5506,"mar, 13. févr 2018 11:24 EST A Atterri",AA2175 AAL2175 American Airlines (AA / AAL),New York (JFK / KJFK),11:24 EST,07:15 EST planifié,11:02 EST 22 min tôt,3h 47m
5507,"mar, 13. févr 2018 13:06 EST A Atterri",AA949 AAL949 American Airlines (AA / AAL),Miami (MIA / KMIA),13:06 EST,11:30 EST 35 min retard,13:13 EST 7 min retard,1h 43m


In [24]:
df.shape

(5510, 7)

In [11]:
df.dropna() # Delete a missing values

Unnamed: 0,Date / Statut,Vol,De,Arrivée Planifiée,Départ,Arrivé,Durée
0,"lun, 18. sept 2017 10:35 EDT A Atterri",S613 Flag of Haiti Sunrise Airways (S6 / KSZ),Flag of Haiti Cap-Haitien (CAP / MTCH),10:35 EDT,10:00 EDT à temps,10:35 EDT à temps,35m
1,"lun, 18. sept 2017 13:30 EDT A Atterri",S615 Flag of Haiti Sunrise Airways (S6 / KSZ),Flag of Haiti Cap-Haitien (CAP / MTCH),13:30 EDT,13:00 EDT à temps,13:30 EDT à temps,30m
2,"lun, 18. sept 2017 14:35 EDT A Atterri",DL685 Delta Air Lines (DL / DAL),Atlanta (ATL / KATL),14:35 EDT,11:30 EDT à temps,14:35 EDT planifié,3h 5m
3,"lun, 18. sept 2017 16:45 EDT A Atterri",S617 Flag of Haiti Sunrise Airways (S6 / KSZ),Flag of Haiti Cap-Haitien (CAP / MTCH),16:45 EDT,16:15 EDT à temps,16:45 EDT à temps,30m
4,"mar, 19. sept 2017 08:30 EDT A Atterri",S611 Flag of Haiti Sunrise Airways (S6 / KSZ),Flag of Haiti Cap-Haitien (CAP / MTCH),08:30 EDT,08:00 EDT à temps,08:30 EDT à temps,30m
...,...,...,...,...,...,...,...
5505,"mar, 13. févr 2018 11:14 EST A Atterri",B61835 JBU1835 JetBlue Airways (B6 / JBU),New York (JFK / KJFK),11:14 EST,07:36 EST 16 min retard,10:45 EST 28 min tôt,3h 9m
5506,"mar, 13. févr 2018 11:24 EST A Atterri",AA2175 AAL2175 American Airlines (AA / AAL),New York (JFK / KJFK),11:24 EST,07:15 EST planifié,11:02 EST 22 min tôt,3h 47m
5507,"mar, 13. févr 2018 13:06 EST A Atterri",AA949 AAL949 American Airlines (AA / AAL),Miami (MIA / KMIA),13:06 EST,11:30 EST 35 min retard,13:13 EST 7 min retard,1h 43m
5508,(adsbygoogle = window.adsbygoogle || []).push(...,(adsbygoogle = window.adsbygoogle || []).push(...,(adsbygoogle = window.adsbygoogle || []).push(...,(adsbygoogle = window.adsbygoogle || []).push(...,(adsbygoogle = window.adsbygoogle || []).push(...,(adsbygoogle = window.adsbygoogle || []).push(...,(adsbygoogle = window.adsbygoogle || []).push(...


In [12]:
df.tail()

Unnamed: 0,Date / Statut,Vol,De,Arrivée Planifiée,Départ,Arrivé,Durée
5505,"mar, 13. févr 2018 11:14 EST A Atterri",B61835 JBU1835 JetBlue Airways (B6 / JBU),New York (JFK / KJFK),11:14 EST,07:36 EST 16 min retard,10:45 EST 28 min tôt,3h 9m
5506,"mar, 13. févr 2018 11:24 EST A Atterri",AA2175 AAL2175 American Airlines (AA / AAL),New York (JFK / KJFK),11:24 EST,07:15 EST planifié,11:02 EST 22 min tôt,3h 47m
5507,"mar, 13. févr 2018 13:06 EST A Atterri",AA949 AAL949 American Airlines (AA / AAL),Miami (MIA / KMIA),13:06 EST,11:30 EST 35 min retard,13:13 EST 7 min retard,1h 43m
5508,(adsbygoogle = window.adsbygoogle || []).push(...,(adsbygoogle = window.adsbygoogle || []).push(...,(adsbygoogle = window.adsbygoogle || []).push(...,(adsbygoogle = window.adsbygoogle || []).push(...,(adsbygoogle = window.adsbygoogle || []).push(...,(adsbygoogle = window.adsbygoogle || []).push(...,(adsbygoogle = window.adsbygoogle || []).push(...
5509,"mar, 13. févr 2018 13:55 EST A Atterri",TX556 FWI556 Air Caraïbes (TX / FWI),Paris (ORY / LFPO),13:55 EST,11:53 CET 1 h 53 min retard,14:51 EST 56 min retard,8h 58m


In [13]:
df.shape

(5510, 7)

In [15]:
# # Get a high level overview of the DataFrame
df.describe()

Unnamed: 0,Date / Statut,Vol,De,Arrivée Planifiée,Départ,Arrivé,Durée
count,5205,5205,5205,5205,5125,5125,5205
unique,3434,183,40,420,1817,2131,333
top,(adsbygoogle = window.adsbygoogle || []).push(...,(adsbygoogle = window.adsbygoogle || []).push(...,Fort Lauderdale (FLL / KFLL),(adsbygoogle = window.adsbygoogle || []).push(...,(adsbygoogle = window.adsbygoogle || []).push(...,(adsbygoogle = window.adsbygoogle || []).push(...,(adsbygoogle = window.adsbygoogle || []).push(...
freq,612,612,950,612,612,612,612


### Filtering on the base `df.describe()`

This filters out the unphisical measurements.

In [50]:
#df2 = df.set_index('(adsbygoogle = window.adsbygoogle || []).push({});') 
df2 = df.filter("adsbygoogle", axis=0)