## EDA dengan Visualisasi Data
> **Exploratory Data Analysis (EDA)** adalah proses statistik yang bertujuan untuk mengidentifikasi karakteristik dan hubungan antar variabel serta menyusun ringkasan deskriptif dari dataset sebelum analisis lebih lanjut.

EDA bukanlah analisis akhir, melainkan langkah awal dalam mengenal dataset secara menyeluruh. Proses ini membantu seorang analis atau data scientist memahami pola, *outliers*, tren, dan keterkaitan antar variabel yang tersembunyi di dalam data. Dari sini, kita bisa merumuskan hipotesis awal, mengenali anomali, dan mengidentifikasi variabel yang relevan untuk analisis mendalam berikutnya.

### Mengapa EDA Penting?
EDA sangat penting untuk memastikan data sudah dipahami dengan baik sebelum masuk ke tahap analisis yang lebih kompleks. Melalui EDA, kita dapat:
- Mengidentifikasi pola umum dalam data.
- Mengenali *outliers* atau anomali yang mungkin memengaruhi analisis.
- Melakukan pengecekan kualitas data, seperti missing values atau data duplikat.
- Menemukan keterkaitan antar variabel yang mungkin signifikan dalam analisis lebih lanjut.
- Menyusun dasar yang lebih kuat untuk model prediktif atau analisis lanjutan.

### Pengantar ke Visualisasi Data dalam EDA
Salah satu cara efektif dalam EDA adalah dengan menggunakan visualisasi data. Visualisasi dapat mempercepat proses pemahaman karakteristik data, seperti distribusi, tren, dan korelasi. Dengan visualisasi, kita dapat menangkap informasi penting yang mungkin tidak terlihat hanya dengan memeriksa tabel data.

Pada sesi ini, kita akan melakukan beberapa teknik visualisasi seperti histogram, box plot, dan scatter plot untuk menjelajahi variabel dalam dataset *Flights*. Teknik-teknik ini akan membantu kita mengidentifikasi tren musiman, rata-rata keterlambatan, dan pola-pola lainnya.

### Praktik EDA dengan Profiling Data
Untuk memperkenalkan EDA, kita akan melakukan praktik profiling data terhadap dataset *Flights*, yang mencakup teknik peringkasan statistik dan visualisasi data. Sesi ini bertujuan untuk menggali informasi terkait pembatalan penerbangan, keterlambatan keberangkatan, dan faktor-faktor lain yang memengaruhi kinerja maskapai dan bandara sepanjang tahun 2013.

### DATASETS
#### Flights
Dataset *Flights* adalah dataset utama yang akan kita gunakan untuk praktik EDA. Dataset ini berisi informasi penerbangan yang mencakup berbagai maskapai dari beberapa bandara di AS sepanjang tahun 2013. Terdapat variabel penting dalam dataset ini, seperti:
- Waktu keberangkatan dan kedatangan.
- Keterlambatan keberangkatan dan kedatangan.
- Jarak tempuh.
- Waktu tempuh penerbangan.

Dengan informasi tersebut, kita dapat menganalisis pola keterlambatan dan frekuensi penerbangan, serta faktor-faktor yang mungkin berkontribusi terhadap pembatalan atau keterlambatan.

Dokumentasi lengkap terkait dataset ini bisa ditemukan pada [link ini](https://vincentarelbundock.github.io/Rdatasets/doc/nycflights13/flights.html).

#### Airports
Dataset *Airports* adalah data pendukung untuk dataset *Flights*. Dataset ini berisi:
- Kode bandara (FAA code).
- Nama bandara.
- Lokasi geografis (lintang dan bujur).
- Zona waktu bandara.

Dataset ini memungkinkan kita untuk menggabungkan data lokasi bandara dengan data penerbangan, sehingga kita dapat menganalisis pola keterlambatan yang mungkin berbeda di setiap lokasi atau zona waktu.

#### Airlines
Dataset *Airlines* juga mendukung dataset *Flights* dengan memberikan informasi tambahan terkait maskapai. Dataset ini berisi:
- Kode maskapai.
- Nama maskapai yang beroperasi sepanjang tahun 2013 di AS.

Informasi ini memungkinkan kita mengidentifikasi maskapai mana yang paling sering mengalami keterlambatan atau memiliki performa tepat waktu.

### LINGKUP ANALISIS

Untuk praktik kali ini, fokus kita adalah menggali informasi mengenai keterlambatan dan pembatalan penerbangan. Beberapa analisis yang akan kita lakukan meliputi:
- **Pembatalan Penerbangan**: Melihat tren pembatalan penerbangan, frekuensi berdasarkan bulan, serta apakah ada faktor musiman yang memengaruhi pembatalan.
- **Keterlambatan Keberangkatan**: Meneliti rata-rata keterlambatan keberangkatan untuk setiap maskapai dan bandara, serta mengidentifikasi jam-jam atau bulan-bulan dengan keterlambatan tertinggi.
  
Beberapa contoh visualisasi yang akan kita buat:
1. **Histogram atau Box Plot untuk Keterlambatan**: Untuk menunjukkan distribusi keterlambatan keberangkatan, kita akan menggunakan histogram atau box plot. Visualisasi ini akan membantu dalam memahami apakah keterlambatan biasanya berada dalam rentang tertentu atau ada outlier signifikan.
2. **Scatter Plot untuk Menilai Keterkaitan**: Dengan scatter plot, kita bisa melihat korelasi antara durasi keterlambatan dengan jumlah penerbangan pada bandara atau maskapai tertentu.
3. **Heatmap untuk Pola Musiman**: Heatmap bisa kita gunakan untuk melihat pola musiman atau harian dalam keterlambatan penerbangan. Dengan ini, kita dapat menganalisis kapan keterlambatan paling sering terjadi.

### Langkah-Langkah EDA
Dalam melakukan EDA, kita akan melalui beberapa langkah berikut:
1. **Pengecekan Data Awal**: Memastikan data sudah lengkap dan memeriksa apakah ada missing values, duplikat, atau inkonsistensi lainnya.
2. **Ringkasan Statistik**: Menghasilkan ringkasan deskriptif seperti rata-rata, median, dan standar deviasi untuk variabel-variabel utama.
3. **Visualisasi Dasar**: Melihat distribusi, outliers, dan pola-pola dasar melalui grafik histogram, box plot, atau bar plot.
4. **Pemeriksaan Keterkaitan Antar Variabel**: Mengidentifikasi korelasi atau hubungan antar variabel dengan menggunakan scatter plot dan perhitungan koefisien korelasi.
5. **Analisis Pola Musiman**: Memanfaatkan heatmap atau line plot untuk melihat tren musiman dalam keterlambatan atau frekuensi penerbangan.

Dengan menyelesaikan langkah-langkah ini, kita akan memiliki pemahaman awal yang kuat mengenai struktur dan karakteristik dari dataset *Flights*. Pemahaman ini akan membantu kita dalam menyusun hipotesis awal atau melakukan analisis lanjutan yang lebih mendalam.

### Parsing & Checking Dataset

In [None]:
import pandas as pd, matplotlib.pyplot as plt, seaborn as sns, numpy as np

In [None]:
flights_file_path = "https://vincentarelbundock.github.io/Rdatasets/csv/nycflights13/flights.csv"
airports_file_path = "https://vincentarelbundock.github.io/Rdatasets/csv/nycflights13/airports.csv"
airlines_file_path = "https://vincentarelbundock.github.io/Rdatasets/csv/nycflights13/airlines.csv"

In [None]:
df = pd.read_csv(flights_file_path, index_col='rownames', nrows=5)
airports = pd.read_csv(airports_file_path, index_col='rownames', nrows=5)
airlines = pd.read_csv(airlines_file_path, index_col='rownames', nrows=5)

#### Check Structure

In [None]:
df.info()

In [None]:
df

In [None]:
airlines.info()

In [None]:
airlines

In [None]:
airports.info()

In [None]:
airports

#### Descriptive Statistics: Flights Dataset

In [None]:
pd.read_csv(flights_file_path, index_col='rownames').describe(include='all')

#### Missing Values

In [None]:
df.isna().sum()

In [None]:
df.loc[df['dep_time'].isna(), :].isna().sum()

In [None]:
df.loc[df['arr_time'].isna(), :].isna().sum()

In [None]:
df.loc[df['arr_delay'].isna(), :]

____
**RESUME**

1. `dep_time`, perlu dijadikan data `datetime`;
2. `sched_dep_time`, perlu dijadikan data `datetime`;
3. `arr_time`, perlu dijadikan data `datetime`;
4. `sched_arr_time`, perlu dijadikan data `datetime`;
5. `dep_time` missing values adalah cancelled flights;

____

### Data Manipulation

In [None]:
# Parsing flights dataset ke dataframe bernama df_flights
df_flights = (pd.read_csv(flights_file_path, index_col='rownames')
# Data Manipulations:
.assign(
     # Casting departure time ke format 'YYYY-mm-dd HH:MM'
     dep_datetime=lambda df: (
         pd.to_datetime(
             # Menyisipkan format 'YYYY
             df['year'].astype(str)+'-'+
             # Menyisipkan format 'mm'
             df['month'].astype(str)+'-'+
             # Menyisipkan format 'dd'
             df['day'].astype(str)+' '+
             # Menyusun format 'HH:MM'
             (
                 df['dep_time']                      # Ambil elemen dep_time
                 .fillna(2500)                       # isi missing value dengan 2500
                 .astype(int)                        # cast semua elemen menjadi integer (menghilangkan karakter'.0')
                 .astype(str)                        # cast semua elemen menjadi string
                 .str                                # lakukan operasi string
                 .zfill(4)                           # gunakan method zfill mengisi '0' di awal elemen jika jumlah karakter kurang dari 4
                 .apply(lambda x: x[:2]+':'+x[2:])), # menyisipkan ':' di tengah elemen
             # Melengkapi parameter format & errors
             format='%Y-%m-%d %H:%M',                # Memberi informasi pola tanggal yang harus dikonversi
             errors='coerce')),                      # Memastikan agar jika casting gagal, isi dengan 'NaT'
     # Casting Scheduled departure time ke format 'YYYY-mm-dd HH:MM'
     sched_dep_datetime=lambda df: (
         pd.to_datetime(
            # Menyusun format 'YYYY-mm-dd'
            df['year'].astype(str)+'-'+
            df['month'].astype(str)+'-'+
            df['day'].astype(str)+' '+
            # Menyisipkan format 'HH:MM'
            (
                df['sched_dep_time']
                .fillna(2500)
                .astype(int)
                .astype(str)
                .str
                .zfill(4)
                .apply(lambda x: x[:2]+':'+x[2:])),
         # Lengkapi parameter format dan errors
         format='%Y-%m-%d %H:%M', errors='coerce')),
     # Casting Scheduled Arrival Time ke format 'YYYY-mm-dd HH:MM'
     sched_arr_datetime=lambda df: (
         pd.to_datetime(
             # Menyusun format 'YYYY-mm-dd HH:MM'
             df['year'].astype(str)+'-'+
             df['month'].astype(str)+'-'+
             df['day'].astype(str)+' '+
             (
                 df['sched_arr_time']
                 .fillna(2500)
                 .astype(int)
                 .astype(str)
                 .str
                 .zfill(4)
                 .apply(lambda x: x[:2]+':'+x[2:])),
             # Lengkapi parameter format dan errors
             format='%Y-%m-%d %H:%M', errors='coerce')+
         # Operasi penambahan hari jika terjadi penerbangan antar hari
         pd.to_timedelta(
             # Buat operasi kondisional
             np.where(
                 df['arr_time']<df['dep_time'], # Kondisi yang dicek
                 1,                             # Value jika True
                 0),                            # Value jika False
             unit='d')),                        # Set satuan bagi timedelta=day
     # Casting Arrival Time ke format 'YYYY-mm-dd HH:MM'
     arr_datetime=lambda df: (
         pd.to_datetime(
             # Menyusun format 'YYYY-mm-dd HH:MM'
             df['year'].astype(str)+'-'+
             df['month'].astype(str)+'-'+
             df['day'].astype(str)+' '+
             (
                 df['arr_time']
                 .fillna(2500)
                 .astype(int)
                 .astype(str)
                 .str
                 .zfill(4)
                 .apply(lambda x: x[:2]+':'+x[2:])),
             format='%Y-%m-%d %H:%M', errors='coerce')+
         # Tambahkan 1 hari untuk penerbangan antar hari
         pd.to_timedelta(np.where(df['arr_time']<df['dep_time'], 1, 0), unit='d')),
)
# Tambahkan informasi nama Bandara Asal
.merge(
     # Parse dataset airports
     pd.read_csv(airports_file_path, index_col='rownames', usecols=['rownames', 'faa', 'name']),
     left_on='origin',
     right_on='faa',
     how='left',
     suffixes=('', '_origin'))
# Tambahkan informasi nama Tandara Tujuan
.merge(
     # Parse dataset airports
     pd.read_csv(airports_file_path, index_col='rownames', usecols=['rownames', 'faa', 'name']),
     left_on='dest',
     right_on='faa',
     how='left',
     suffixes=('', '_dest'))
# Tambahkan informasi nama Maskapai
.merge(
     # Parse dataset airlines
     pd.read_csv(airlines_file_path, index_col='rownames', usecols=['rownames', 'carrier', 'name']),
     left_on='carrier',
     right_on='carrier',
     how='left',
     suffixes=('', '_airlines'))
# Rubah beberapa nama kolom
.rename(
     columns={
         'name':'from',
         'name_dest':'to',
         'name_airlines':'airline'})
# Filter hanya kolom-kolom penting saja
.loc[:, [
     'flight', 'airline', 'tailnum', 'origin', 'from', 'dest', 'to',
     'sched_dep_datetime', 'dep_datetime', 'sched_arr_datetime', 'arr_datetime',
     'dep_delay']])

In [None]:
df_flights.head()

In [None]:
df_flights.info()

In [None]:
df_flights.isna().sum()

In [None]:
df_flights.describe()

In [None]:
df_flights.loc[df_flights['to'].isna(), :]['dest'].unique()

In [None]:
df_flights.info()

In [None]:
df_flights.describe()

In [None]:
df_flights.describe(include='O')

## Cek Duplikat

In [None]:
# Mengecek apakah ada duplikat berdasarkan seluruh row
filter_duplikasi = df_flights.duplicated(keep=False)
df_flights.loc[filter_duplikasi, :]

## Summarizing data dengan `pd.DataFrame.groupby` dan `pd.pivot_table`

In [None]:
# Menghitung maskapai dengan pembatalan penerbangan terbanyak
(df_flights
 .loc[df_flights['dep_datetime'].isna()]
 .groupby(['airline'])
 .agg({'sched_dep_datetime':'count'})
 .rename(columns={'sched_dep_datetime':'Cancelled Flights'}))

In [None]:
# Menghitung tingkat pembatalan penerbangan per maskapai
(pd.pivot_table(
    data=df_flights,
    index='airline',
    values=['dep_datetime', 'sched_dep_datetime'],
    aggfunc='count')
.rename(
    columns={
        'dep_datetime':'Actual_Flights',
        'sched_dep_datetime':'Scheduled_Flights'})
.assign(
    Cancelled_Flights=lambda df: df['Scheduled_Flights']-df['Actual_Flights'],
    Cancelled_Flights_Percentage=lambda df: round(df['Cancelled_Flights']/df['Scheduled_Flights']*100, 2))
.sort_values(by='Cancelled_Flights_Percentage', ascending=False)
.loc[:, ['Cancelled_Flights', 'Cancelled_Flights_Percentage']])

In [None]:
# Menghitung tingkat pembatalan penerbangan per Bandara
(pd.pivot_table(
    data=df_flights,
    index=['from'],
    values=['dep_datetime', 'sched_dep_datetime'],
    aggfunc='count')
.assign(
    Cancelled_Flights=lambda df: df['sched_dep_datetime']-df['dep_datetime'],
    Cancelled_Flights_Percentage=lambda df: round(df['Cancelled_Flights']/df['sched_dep_datetime']*100, 2))
.sort_values(by='Cancelled_Flights_Percentage', ascending=False))

In [None]:
# Menghitung Rata-rata Keterlambatan Keberangkatan per maskapai
(df_flights
 .assign(
     departure_delay=lambda df: (
         df['dep_delay']
         .apply(lambda x: 0 if x<0 else x ))
     )
 .groupby(['airline'])
 .agg({'flight':'count', 'departure_delay':'mean'})
 .sort_values(by='departure_delay', ascending=False)
 ).round(2)

In [None]:
# Menghitung Rata-rata Keterlambatan Keberangkatan bulanan per Bandara
# 1. Buat list berisi nama-nama bulan
month_categories = ['January', 'February', 'March', 'April', 'May', 'June', 'July', 'August', 'September', 'October', 'November', 'December']

# 2. Olah data
pd.pivot_table(
    data=(
        df_flights
        .assign(
            departure_delay=lambda df: (
                df['dep_delay']
                .apply(lambda x: 0 if x<0 else x)),
            month=pd.Categorical(
                df_flights['dep_datetime'].dt.month_name(),
                categories=month_categories,
                ordered=True
                ))),
    index=['from'],
    values='departure_delay',
    columns=['month'],
    aggfunc='mean',
    observed=False
).round(2)

In [None]:
# Menghitung Rata-rata Keterlambatan Keberangkatan bulanan per Maskapai
pd.pivot_table(
    data=(df_flights
        .assign(
            departure_delay=lambda df: (
                df['dep_delay']
                .apply(lambda x: 0 if x<0 else x)),
            month=pd.Categorical(
                df_flights['dep_datetime'].dt.month_name(),
                categories=month_categories,
                ordered=True
                ))),
    index=['airline'],
    values='departure_delay',
    columns=['month'],
    aggfunc='mean',
    observed=False
).fillna(0).round(2)

## Line Plot

In [None]:
plt.figure(figsize=(15, 5))
fig = sns.lineplot(
    data=(df_flights
          .assign(month=pd.Categorical(
              df_flights['dep_datetime'].dt.month_name(),
              categories=month_categories, ordered=True))
          .groupby(['from', 'month'], observed=False)
          .agg({'arr_datetime':'count'}).reset_index()),
    x='month',
    y='arr_datetime',
    hue='from'
  )
plt.xlabel('Bulan')
plt.ylabel('Jumlah Penerbangan')
plt.title("Jumlah Penerbangan Bulanan Tiga Bandara Terpilih, 2013")
plt.grid()
plt.show()

In [None]:
plt.figure(figsize=(15, 5))
fig = sns.lineplot(
    data = (df_flights
            .assign(month=pd.Categorical(
                df_flights['dep_datetime'].dt.month_name(),
                categories=month_categories,
                ordered=True
            )).groupby(['airline', 'month'], observed=False)
            .agg({'flight':'count'})).reset_index(),
    x='month',
    y='flight',
    hue='airline'
)
plt.legend(loc='upper right', )
plt.xlabel('Bulan')
plt.ylabel('Jumlah Keberangkatan')
plt.grid()
plt.show()

In [None]:
plt.figure(figsize=(15, 5))
fig = sns.lineplot(
    data = (df_flights
            .assign(month=pd.Categorical(
                df_flights['dep_datetime'].dt.month_name(),
                categories=month_categories,
                ordered=True
            )).groupby(['from', 'month'], observed=False)
            .agg({'dep_delay':'mean'})).reset_index(),
    x='month',
    y='dep_delay',
    hue='from'
)
plt.xlabel('Bulan')
plt.ylabel('Keterlambatan Keberangkatan (Menit)')
plt.title("Rata-rata Keterlambatan Keberangkatan Perbulan di Bandara Terpilih, 2013")
plt.grid()
plt.show()

In [None]:
plt.figure(figsize=(15, 5))
fig = sns.lineplot(
    data = (df_flights
            .assign(month=pd.Categorical(
                df_flights['dep_datetime'].dt.month_name(),
                categories=month_categories,
                ordered=True
            )).groupby(['airline', 'month'], observed=False)
            .agg({'dep_delay':'mean'})).reset_index(),
    x='month',
    y='dep_delay',
    hue='airline'
)
plt.legend(loc='upper right', )
plt.xlabel('Bulan')
plt.ylabel('Keterlambatan Keberangkatan (Menit)')
plt.grid()
plt.show()

In [None]:
plt.figure(figsize=[15, 5])
fig = sns.lineplot(
    data=(df_flights.loc[df_flights['dep_datetime'].notnull(), :]
          .groupby([df_flights['dep_datetime'].dt.isocalendar().week, 'from'])
          .agg({'flight':'count'})).reset_index(),
    x='week',
    y='flight',
    hue='from'
)
plt.xlabel('Tanggal')
plt.ylabel('Jumlah Penerbangan')
plt.title("Jumlah Penerbangan Mingguan di Tiga Bandara Terpilih, 2013")
plt.grid()
plt.show()

In [None]:
plt.figure(figsize=[15, 5])
fig = sns.lineplot(
    data=(df_flights.loc[df_flights['dep_datetime'].notnull(), :]
          .groupby([df_flights['dep_datetime'].dt.isocalendar().week, 'from'])
          .agg({'dep_delay':'mean'})).reset_index(),
    x='week',
    y='dep_delay',
    hue='from'
)
plt.xlabel('Tanggal')
plt.ylabel('Keterlambatan Keberangkatan (menit)')
plt.title("Rata-rata Keterlambatan Keberangkatan per Penerbangan Mingguan di Bandara NYC, 2013")
plt.grid()
plt.show()

In [None]:
plt.figure(figsize=[15, 5])
fig = sns.lineplot(
    data=(df_flights.loc[df_flights['dep_datetime'].notnull(), :]
          .groupby([df_flights['dep_datetime'].dt.date, 'from'])
          .agg({'flight':'count'})).reset_index(),
    x='dep_datetime',
    y='flight',
    hue='from'
)
plt.xlabel('Tanggal')
plt.ylabel('Jumlah Penerbangan')
plt.title("Jumlah Penerbangan Harian di Bandara NYC, 2013")
plt.grid()
plt.show()

In [None]:
plt.figure(figsize=[15, 5])
fig = sns.lineplot(
    data=(df_flights
          .groupby([df_flights['dep_datetime'].dt.date, 'from'])
          .agg({'dep_delay':'mean'})).reset_index(),
    x='dep_datetime',
    y='dep_delay',
    hue='from'
)
plt.xlabel('Tanggal')
plt.ylabel('Keterlambatan Keberangkatan (menit)')
plt.title("Rata-rata Keterlambatan Keberangkatan Harian di Bandara NYC, 2013")
plt.grid()
plt.show()

## Barplot

In [None]:
plt.figure(figsize=(10, 5))
fig = sns.barplot(
    data=(df_flights
          .groupby('from')
          .agg({'flight':'count'})
          .reset_index()),
    x='from',
    y='flight'
)
for container in fig.containers:
  fig.bar_label(container, fmt="{:,.0f}", fontsize=10, color='maroon', fontweight='bold')

plt.xlabel('Bandara')
plt.ylabel('Jumlah Penerbangan')
plt.title("Jumlah Penerbangan dari Bandara NYC, 2013")
plt.grid(axis='y')
plt.show()

In [None]:
plt.figure(figsize=(10, 5))
fig = sns.barplot(
    data=(df_flights
          .assign(
              departure_delay=lambda df: (
                  df['dep_delay']
                  .apply(lambda x: 0 if x<0 else x ))
              )
          .groupby(['from'])
          .agg({'departure_delay':'mean'})
          .sort_values(by='departure_delay', ascending=False)
          ).round(2),
    x='from',
    y='departure_delay'
)

for container in fig.containers:
  fig.bar_label(container, fmt="{:,.2f}", fontsize=10, color='maroon', fontweight='bold')

plt.xlabel('Bandara')
plt.ylabel('Keterlambatan Keberangkatan (Menit)')
plt.title("Rata-rata Keterlambatan Keberangkatan per Bandara NYC, 2013")
plt.grid(axis='y')
plt.show()

In [None]:
plt.figure(figsize=(15, 5))
fig = sns.barplot(
    data=(df_flights
          .groupby(['airline'])
          .agg({'flight':'count'})
          .reset_index()
          .sort_values(by='flight')),
    x='airline',
    y='flight'
)

for container in fig.containers:
  fig.bar_label(container, fmt="{:,.0f}", fontsize=10, color='maroon', fontweight='bold')

plt.xlabel('Maskapai')
plt.ylabel('Jumlah Penerbangan')
plt.title("Jumlah Penerbangan per Maskapai, 2013")
plt.xticks(rotation=45)
plt.grid(axis='y')
plt.show()

In [None]:
plt.figure(figsize=(15, 5))
fig = sns.barplot(
    data=(df_flights
          .assign(
              departure_delay=lambda df: (
                  df['dep_delay']
                  .apply(lambda x: 0 if x<0 else x ))
              )
          .groupby(['airline'])
          .agg({'departure_delay':'mean'})
          .sort_values(by='departure_delay', ascending=True)
          ).round(2),
    x='airline',
    y='departure_delay',
    hue='departure_delay',
    alpha=0.5,
    edgecolor='yellow',
    palette='Reds',
    linewidth=2
)

for container in fig.containers:
  fig.bar_label(container, fmt="{:,.2f}", fontsize=10, color='maroon', fontweight='bold')

plt.xlabel('Maskapai')
plt.ylabel('Keterlambatan Keberangkatan (Menit)')
plt.title("Rata-rata Keterlambatan Keberangkatan per Maskapai, 2013")
plt.xticks(rotation=45)
plt.grid(axis='y')
plt.show()

In [None]:
airline = input("Tuliskan Nama Maskapai: ")
plt.figure(figsize=(15, 5))
fig = sns.barplot(
    data=(df_flights
          .loc[df_flights['airline'].str.contains(f'\\b{airline}\\b'), :]
          .assign(
              departure_delay=lambda df: (
                  df['dep_delay']
                  .apply(lambda x: 0 if x<0 else x ))
              )
          .groupby(['from'])
          .agg({'departure_delay':'mean'})
          .reset_index()),
    x='from',
    y='departure_delay',
    alpha=0.8,
    hue='departure_delay',
    palette='Greens',
    edgecolor='yellow',
    linewidth=3
)

for container in fig.containers:
  fig.bar_label(container, fmt="{:,.2f}", fontsize=10, color='maroon', fontweight='bold')

plt.xlabel('Bandara')
plt.ylabel('Keterlambatan Keberangkatan (Menit)')
plt.title(f"Rata-rata Keterlambatan Keberangkatan Maskapai {airline} per Bandara, 2013")
plt.grid(axis='y')
plt.show()

In [None]:
bandara = input("Tuliskan Nama Bandara: ")
plt.figure(figsize=(15, 5))
fig = sns.barplot(
    data=(df_flights
          .assign(
              departure_delay=lambda df: (
                  df['dep_delay']
                  .apply(lambda x: 0 if x<0 else x ))
              )
          .loc[df_flights['from'].str.lower().str.contains(pat=f"\\b{bandara}\\b")]
          .groupby(df_flights['dep_datetime'].dt.hour)
          .agg({'departure_delay':'mean'})
          .reset_index()),
    x='dep_datetime',
    y='departure_delay',
    alpha=0.8,
    palette='Blues',
    edgecolor='yellow',
    linewidth=3,
    hue='departure_delay'
)

for container in fig.containers:
  fig.bar_label(container, fmt="{:,.1f}", fontsize=9, color='maroon', fontweight='bold')

plt.xlabel('Jam Keberangkatan')
plt.ylabel('Keterlambatan Keberangkatan (Menit)')
plt.title(f"Rata-rata Keterlambatan Keberangkatan di Bandara {bandara.title()}\nBerdasarkan Jam Operasional, 2013")
plt.grid(axis='y')
plt.show()

## Histogram

In [None]:
for airport in df_flights['from'].unique():
  plt.figure(figsize=(10, 5))
  fig = sns.histplot(
      data=(df_flights
            .loc[df_flights['from']==airport, :]
            .groupby([df_flights['dep_datetime'].dt.date, 'airline', 'from'])
            .agg({'dep_delay':'mean'})),
      x='dep_delay',
      bins=100,
      multiple='stack',
      element='step',
      alpha=0.3,
      kde=True,
      hue='airline')
  plt.title(f"Sebaran Data Keterlambatan Keberangkatan Harian di {airport} Airport, 2013")
  plt.xlim(None, 100)
  plt.grid()
  plt.show()

# Boxplot

In [None]:
plt.figure(figsize=(10, 5))
sns.boxplot(
    data=(df_flights
          .groupby([df_flights['dep_datetime'].dt.month_name(), 'airline', 'from'])
          .agg({'dep_delay':'mean'})),
    y='dep_delay',
    hue='from')
plt.show()

In [None]:
plt.figure(figsize=(15,5))
sns.boxplot(data=(df_flights
                  .assign(month=lambda df: pd.Categorical(
                      df['dep_datetime'].dt.month_name(),
                      categories=month_categories,
                      ordered=True
                  ))
                  .groupby(['month','airline', 'from'], observed=True)
                  .agg({'dep_delay':'mean'})),
            y='dep_delay',
            x='month',
            hue='from')
plt.grid()
plt.show()

# Violin Plot

In [None]:
plt.figure(figsize=(15,5))
sns.violinplot(data=(df_flights
                     .assign(
                         month=lambda df: pd.Categorical(
                             df['dep_datetime'].dt.month_name(),
                             categories=month_categories,
                             ordered=True))
                     .groupby(['month', 'airline', 'from'], observed=False)
                     .agg({'dep_delay':'mean'})),
               y='dep_delay',
               x='month',
               hue='from')
plt.grid()
plt.show()

## Scatterplot

In [None]:
airlines_delay_flights = (df_flights
                          .assign(
                              departure_delay=lambda df: (
                                  df['dep_delay']
                                  .apply(lambda x: 0 if x<0 else x)))
                          .groupby([df_flights['dep_datetime'].dt.date, 'from'])
                          .agg({'departure_delay':'mean', 'flight':'count'})
                          .reset_index().
                          rename(columns={'departure_delay':'departureDelay', 'flight':'flights'}))
korelasi_delay_flights = round(np.corrcoef(airlines_delay_flights['departureDelay'], airlines_delay_flights['flights'])[0][1]*100, 2)
plt.figure(figsize=(10, 10))
sns.scatterplot(data=airlines_delay_flights, x='departureDelay', y='flights', hue='from')
plt.title(f"Koefisien Korelasi 'departureDelay' & 'flights' = {korelasi_delay_flights}" )
plt.show()

In [None]:
delay_flights_by_hour = (df_flights
                         .assign(
                             departure_delay=lambda df: (
                                  df['dep_delay']
                                  .apply(lambda x: 0 if x<0 else x)),
                             jam=lambda df: df['dep_datetime'].dt.hour)
                         .groupby(['jam', 'from'])
                         .agg({'flight':'count', 'departure_delay':'mean'})
                         .reset_index()
                         .rename(columns={'flight':'flights', 'departure_delay':'departureDelay'}))
korelasi_delay_hour = round(np.corrcoef(delay_flights_by_hour['flights'], delay_flights_by_hour['departureDelay'])[0][1]*100, 2)
plt.figure(figsize=(10, 10))
sns.scatterplot(data=delay_flights_by_hour, x='departureDelay', y='flights', hue='from')
plt.title(f"Koefisien Korelasi 'flights' & 'departureDelay' = {korelasi_delay_hour}")
plt.show()

In [None]:
delay_flights_by_day = (df_flights
                         .assign(
                             departure_delay=lambda df: (
                                  df['dep_delay']
                                  .apply(lambda x: 0 if x<0 else x)),
                             hari=lambda df: df['dep_datetime'].dt.date)
                         .groupby(['hari', 'airline'])
                         .agg({'dep_datetime':'count', 'departure_delay':'mean'})
                         .reset_index()
                         .rename(columns={'dep_datetime':'flights', 'departure_delay':'departureDelay'}))
korelasi_delay_day = round(np.corrcoef(delay_flights_by_day['flights'], delay_flights_by_day['departureDelay'])[0][1]*100, 2)
plt.figure(figsize=(10, 10))
sns.scatterplot(data=delay_flights_by_day, x='departureDelay', y='flights', hue='airline')
plt.title(f"Koefisien Korelasi 'flights' & 'departureDelay' = {korelasi_delay_day}" )
plt.show()

In [None]:
delay_flights_by_month = (df_flights
                         .assign(
                             departure_delay=lambda df: (
                                  df['dep_delay']
                                  .apply(lambda x: 0 if x<0 else x)),
                             month=lambda df: df['dep_datetime'].dt.month)
                         .groupby(['month', 'airline'])
                         .agg({'dep_datetime':'count', 'departure_delay':'mean'})
                         .reset_index()
                         .rename(columns={'dep_datetime':'flights', 'departure_delay':'departureDelay'}))
korelasi_delay_month = round(np.corrcoef(delay_flights_by_month['flights'], delay_flights_by_month['departureDelay'])[0][1]*100, 2)
plt.figure(figsize=(10, 10))
sns.scatterplot(data=delay_flights_by_month, x='departureDelay', y='flights', hue='airline')
plt.title(f"Koefisien Korelasi 'flights' & 'departureDelay' = {korelasi_delay_month}" )
plt.show()

## Heatmap

In [None]:
data = pd.pivot_table(
    data=df_flights.assign(month=lambda df: pd.Categorical(df['dep_datetime'].dt.month_name(), categories=month_categories, ordered=True)),
    index=['airline', 'month'],
    columns='from',
    values='dep_delay',
    aggfunc='mean',
    observed=False
).fillna(0)
data

In [None]:
maskapai = input("Tuliskan Nama Maskapai: ")
plt.figure(figsize=(15, 5))
sns.heatmap(data.loc[maskapai, :], cmap='magma')
plt.title(f"Heatmap Rataan Keterlambatan Keberangkatan Bulanan Maskapai {maskapai} di Tiga Bandara, 2013." )
plt.show()

In [None]:
dt_by_hour = pd.pivot_table(
    data=df_flights.assign(jam=lambda df: df['dep_datetime'].dt.hour),
    index=['airline', 'jam'],
    columns='from',
    values='dep_delay',
    aggfunc='mean',
    observed=False
).fillna(0)
maskapai = input("Tuliskan Nama Maskapai: ")
plt.figure(figsize=(10, 5))
sns.heatmap(data = dt_by_hour.loc[maskapai, :], cmap='magma')
plt.title(f"Heatmap Rataan Keterlambatan Keberangkatan per Jam Operasi Maskapai {maskapai}\ndi Bandara NYC, 2013." )
plt.show()

In [None]:
df_flights['airline'].unique()