# 📊 Exploratory Data Analysis

Exploratory Data Analysis (EDA) adalah suatu pendekatan analisis data yang bertujuan untuk menyelidiki dan memahami sifat-sifat dataset tanpa membuat asumsi yang mendalam atau mengaplikasikan metode statistik formal.

EDA membantu analis data untuk <b>mengidentifikasi pola, tren, anomali, dan informasi penting lainnya dalam dataset</b>.

# **🤖 Langkah - Langkah EDA**

1. Pahami struktur data, periksa dan tangani nilai yang hilang atau anomali.
2. Hitung statistik deskriptif untuk mendapatkan gambaran awal tentang data.
3. Gunakan visualisasi seperti grafik dan plot untuk memahami distribusi dan hubungan antara variabel.
4. Bersihkan data dengan menghapus atau mengisi nilai yang tidak valid atau hilang.
5. Analisis korelasi antara variabel numerik.
6. Analisis variabel kategorikal dengan menghitung frekuensi dan distribusinya.
7. Jika memungkinkan, segmentasikan data berdasarkan kategori tertentu dan lakukan analisis pada setiap subset.
8. Identifikasi tren, pola musiman, atau pola lainnya dalam data.

# **🗿 DQ-Challenge!**

<img src="https://raw.githubusercontent.com/bachtiyarmawork/DQLab-Project/main/EDA%20-%20DQChallenge.png">

# **✈️ Dataset**

**Airline Passanger Satisfaction** dataset atau skor kepuasan pelanggan adalah data yang merekam lebih dari lebih dari 100.000 penumpang maskapai penerbangan, termasuk informasi tambahan tentang setiap penumpang, penerbangan mereka, dan jenis perjalanan, serta penilaian mereka terhadap faktor-faktor yang berbeda seperti kebersihan, kenyamanan, pelayanan, dan pengalaman secara keseluruhan.

List kolom pada dataset :     
* ID : ID unik untuk setiap entri data
* Gender : Jenis kelamin penumpang
* Age : Usia penumpang
* Customer Type : Jenis pelanggan
* Type of Travel : Jenis perjalanan
* Class : Kelas penerbangan
* Flight Distance : Jarak penerbangan
* Departure Delay : Keterlambatan keberangkatan
* Arrival Delay : Keterlambatan kedatangan
* Departure and Arrival Time Convenience : Kenyamanan waktu keberangkatan dan kedatangan
* Ease of Online Booking : Kemudahan pemesanan tiket online
* Check-in Service : Kualitas pelayanan saat check-in
* Online Boarding : Pengalaman proses boarding online
* Gate Location : Penilaian lokasi gerbang keberangkatan
* On-board Service : Kualitas layanan di dalam pesawat
* Seat Comfort : Tingkat kenyamanan tempat duduk
* Leg Room Service : Kualitas pelayanan ruang kaki
* Cleanliness : Penilaian kebersihan pesawat
* Food and Drink : Kualitas makanan dan minuman
* In-flight Service : Kualitas layanan di dalam pesawat
* In-flight Wifi Service : Kualitas layanan WiFi di dalam pesawat
* In-flight Entertainment : Kualitas hiburan di dalam pesawat
* Baggage Handling : Kualitas penanganan bagasi
* Satisfaction : Penilaian kepuasan penumpang secara keseluruhan

<br>

source data : https://raw.githubusercontent.com/bachtiyarmawork/DQLab-Project/main/airline_passenger_satisfaction.csv

## **⛏️ Extract Data**

Proses ekstraksi data dari sumber dilakukan dengan library pandas dengan mengimpor method <a href="https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html">read_csv</a> dan menginisialisasikan *filepath_or_buffer* dengan url yang tertera diatas (sumber data)

In [None]:
# Abaikan pesan warning
import warnings
warnings.filterwarnings("ignore")

In [None]:
# Import library yang dibutuhkan
import pandas as pd
pd.set_option('display.max_columns', None)

# Proses ekstraksi data
url = 'https://raw.githubusercontent.com/bachtiyarmawork/DQLab-Project/main/airline_passenger_satisfaction.csv'
data = pd.read_csv(
    url,
    sep = ',',
    dtype = {
        'ID' : 'category'
    }
)

# Tampilkan data
display(data)

Unnamed: 0,ID,Gender,Age,Customer Type,Type of Travel,Class,Flight Distance,Departure Delay,Arrival Delay,Departure and Arrival Time Convenience,Ease of Online Booking,Check-in Service,Online Boarding,Gate Location,On-board Service,Seat Comfort,Leg Room Service,Cleanliness,Food and Drink,In-flight Service,In-flight Wifi Service,In-flight Entertainment,Baggage Handling,Satisfaction
0,1,Male,48,First-time,Business,Business,821,2,5.0,3,3,4,3,3,3,5,2,5,5,5,3,5,5,Neutral or Dissatisfied
1,2,Female,35,Returning,Business,Business,821,26,39.0,2,2,3,5,2,5,4,5,5,3,5,2,5,5,Satisfied
2,3,Male,41,Returning,Business,Business,853,0,0.0,4,4,4,5,4,3,5,3,5,5,3,4,3,3,Satisfied
3,4,Male,50,Returning,Business,Business,1905,0,0.0,2,2,3,4,2,5,5,5,4,4,5,2,5,5,Satisfied
4,5,Female,49,Returning,Business,Business,3470,0,1.0,3,3,3,5,3,3,4,4,5,4,3,3,3,3,Satisfied
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
129875,129876,Male,28,Returning,Personal,Economy Plus,447,2,3.0,4,4,4,4,2,5,1,4,4,4,5,4,4,4,Neutral or Dissatisfied
129876,129877,Male,41,Returning,Personal,Economy Plus,308,0,0.0,5,3,5,3,4,5,2,5,2,2,4,3,2,5,Neutral or Dissatisfied
129877,129878,Male,42,Returning,Personal,Economy Plus,337,6,14.0,5,2,4,2,1,3,3,4,3,3,4,2,3,5,Neutral or Dissatisfied
129878,129879,Male,50,Returning,Personal,Economy Plus,337,31,22.0,4,4,3,4,1,4,4,5,3,3,4,5,3,5,Satisfied


## **🔍 Memahami Tipe Data**

Memahami atau memeriksa tipe data dari setiap kolom pada data penting dilakukan untuk memastikan bahwa tipe data yang diharapkan sesuai dengan yang sebenarnya. Hal ini berguna untuk memastikan bahwa analis data dapat melakukan proses analisia yang sesuai dengan jenis data yang ada. Gunakan sintaks berikut untuk mendapatkan informasi umum pada data
<p align="center"><code>DataFrame.info()</code></p>

docs : https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html

In [None]:
data.columns.tolist()

['ID',
 'Gender',
 'Age',
 'Customer Type',
 'Type of Travel',
 'Class',
 'Flight Distance',
 'Departure Delay',
 'Arrival Delay',
 'Departure and Arrival Time Convenience',
 'Ease of Online Booking',
 'Check-in Service',
 'Online Boarding',
 'Gate Location',
 'On-board Service',
 'Seat Comfort',
 'Leg Room Service',
 'Cleanliness',
 'Food and Drink',
 'In-flight Service',
 'In-flight Wifi Service',
 'In-flight Entertainment',
 'Baggage Handling',
 'Satisfaction']

In [None]:
# Mengakses informasi umum data
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 129880 entries, 0 to 129879
Data columns (total 24 columns):
 #   Column                                  Non-Null Count   Dtype   
---  ------                                  --------------   -----   
 0   ID                                      129880 non-null  category
 1   Gender                                  129880 non-null  object  
 2   Age                                     129880 non-null  int64   
 3   Customer Type                           129880 non-null  object  
 4   Type of Travel                          129880 non-null  object  
 5   Class                                   129880 non-null  object  
 6   Flight Distance                         129880 non-null  int64   
 7   Departure Delay                         129880 non-null  int64   
 8   Arrival Delay                           129487 non-null  float64 
 9   Departure and Arrival Time Convenience  129880 non-null  int64   
 10  Ease of Online Booking          

#### 👨‍💻 Task 1

Setelah diperoleh informasi umum pada data diatas, berikan kesimpulan / analisa sederhana dari perhitungan yang telah dilakukan!

Kesimpulan :

Dataset airline passenger satisfaction adalah kumpulan data yang berisi informasi mengenai kepuasan penumpang maskapai penerbangan. Data tersebut mencakup berbagai variabel seperti jenis kelamin, usia, tipe pelanggan, jenis perjalanan, kelas penerbangan, jarak penerbangan, keterlambatan keberangkatan dan kedatangan, kenyamanan waktu keberangkatan dan kedatangan, kemudahan pemesanan tiket online, layanan check-in, layanan online boarding, lokasi gerbang keberangkatan, kualitas layanan di dalam pesawat, kenyamanan kursi, layanan ruang kaki, kebersihan, makanan dan minuman, layanan di dalam pesawat seperti wifi dan hiburan, penanganan bagasi, serta tingkat kepuasan penumpang.

Data ini dapat digunakan untuk menganalisis faktor-faktor yang mempengaruhi kepuasan penumpang, mengevaluasi kualitas layanan yang ditawarkan oleh maskapai penerbangan, dan mengidentifikasi area di mana perbaikan dapat dilakukan untuk meningkatkan pengalaman penumpang.

---

##💡**Identifikasi *Main Problem***

Mengidentifikasi masalah utama pada data adalah langkah penting dalam analisis data karena hal ini membantu untuk memahami tantangan atau isu-isu utama yang dihadapi dalam hal yang sedang diteliti. Dengan mengidentifikasi masalah utama, analis dapat fokus pada area yang membutuhkan perhatian lebih, mengarahkan upaya kita untuk mencari solusi, dan mengambil tindakan yang sesuai.



<h2><b>Quest 1</b>: <i>Berapa persentase penumpang maskapai penerbangan yang merasa puas dengan pelayanan maskapai penerbangan?</i></h2>

In [None]:
# Lakukan proses agregasi
satisfaction_perc = data.groupby(['Satisfaction'], as_index = False).agg(Total = ('Satisfaction', 'count'))

# Tampilkan hasil
display(satisfaction_perc)

Unnamed: 0,Satisfaction,Total
0,Neutral or Dissatisfied,73452
1,Satisfied,56428


In [None]:
# Import library untuk visualisasi
import plotly.express as px

# Buat pie chart
fig = px.pie(
    values = satisfaction_perc['Total'],
    names = satisfaction_perc['Satisfaction'],
    color_discrete_sequence = ['#FF4B5C', '#E0ECE4'],
    hole = 0.65
)

# Atur posisi label
fig.update_traces(
    textposition = 'outside',
    textinfo = 'percent+label',
    hovertemplate='<b>%{label}</b><br>%{value} Customers'
)

# Atur luas grafik, hapus legend dan beri judul
fig.update_layout(
    width = 800,
    height = 600,
    showlegend = False,
    margin = dict(l=160, r=200, t=100, b=30),
    title = dict(
        text = "<b>Proporsi Kepuasan Pelayanan Pelanggan Maskapai Penerbangan</b><br><sup>Lebih dari setengah responden merasa pelayanan maskapai <span style='color:#FF4B5C'><b>Mengecewakan!</b></span></sup>",
        font = dict(
            size = 20,
            color = '#757882'
        ),
        y = 0.92
    )
)

fig.add_annotation(
    text = f'Total Responden<br><b><span style="font-size: 28px;">{satisfaction_perc["Total"].sum()}</b></span><br><sup>Pelanggan</sup>',
    x = 0.5,
    y = 0.5,
    showarrow = False,
    font = dict(size = 20)
)

# Tampilkan grafik
fig.show()

#### 👨‍💻 Task 2

Setelah diperoleh proporsi kepuasan pelayanan pelanggan maskapai penerbangan dari perhitungan diatas, berikan kesimpulan / analisa sederhana dari perhitungan yang telah dilakukan!

...

---

## **🎲 Statistika Deskriptif**

Statistik deskriptif adalah cabang statistika yang berfokus pada pengumpulan, penyajian, dan interpretasi data secara deskriptif. Tujuan utama statistik deskriptif adalah untuk menggambarkan dan merangkum data sehingga dapat memberikan pemahaman yang lebih baik tentang karakteristik dan pola yang ada dalam data tersebut.

###**🎯 Central Tendency dan Dispertion**

In [None]:
number_data = data.select_dtypes(include = 'number')

statistics = pd.DataFrame({
    'mean' : number_data.mean().round(2),
    'median': number_data.median(),
    'modus': number_data.mode().iloc[0],
    'min': number_data.min(),
    'max': number_data.max(),
    'q1' : number_data.quantile(0.25),
    'q2' : number_data.quantile(0.50),
    'q3' : number_data.quantile(0.75),
    'stdev' : number_data.std().round(2)
})

display(statistics)

Unnamed: 0,mean,median,modus,min,max,q1,q2,q3,stdev
Age,39.43,40.0,39.0,7.0,85.0,27.0,40.0,51.0,15.12
Flight Distance,1190.32,844.0,337.0,31.0,4983.0,414.0,844.0,1744.0,997.45
Departure Delay,14.71,0.0,0.0,0.0,1592.0,0.0,0.0,12.0,38.07
Arrival Delay,15.09,0.0,0.0,0.0,1584.0,0.0,0.0,13.0,38.47
Departure and Arrival Time Convenience,3.06,3.0,4.0,0.0,5.0,2.0,3.0,4.0,1.53
Ease of Online Booking,2.76,3.0,3.0,0.0,5.0,2.0,3.0,4.0,1.4
Check-in Service,3.31,3.0,4.0,0.0,5.0,3.0,3.0,4.0,1.27
Online Boarding,3.25,3.0,4.0,0.0,5.0,2.0,3.0,4.0,1.35
Gate Location,2.98,3.0,3.0,0.0,5.0,2.0,3.0,4.0,1.28
On-board Service,3.38,4.0,4.0,0.0,5.0,2.0,4.0,4.0,1.29


#### 👨‍💻 Task 3

Setelah diperoleh beberapa nilai statistik pada data diatas, berikan kesimpulan / analisa sederhana dari perhitungan yang telah dilakukan!

Kesimpulan :

...

---

### **➗ Proporsi**

Proporsi data adalah perbandingan atau persentase dari jumlah observasi yang termasuk dalam suatu kategori atau kelompok tertentu dalam hubungannya dengan jumlah total data. Proporsi data memberikan gambaran tentang sejauh mana suatu kategori atau kelompok mewakili keseluruhan data.



<h2><b>Quest 2</b>: <i>Bagaimana proporsi pelanggan maskapai penerbangan berdasarkan gender (jenis kelamin) pelanggan? </i></h2>

<h2><b>Answer</b></h2>

Untuk mengetahui proporsi pelanggan maskapai penerbangan, lakukan perhitungan banyak data (count) yang dikelompokan berdasarkan kolom Gender. Setelah diperoleh hasilnya, plot grafik *pie* dari data hasil agregasi

In [None]:
# Lakukan proses agregasi
gender_perc = data.groupby(['Gender'], as_index = False).agg(Total = ('Gender', 'count'))

# Tampilkan hasil
display(gender_perc)

Unnamed: 0,Gender,Total
0,Female,65899
1,Male,63981


In [None]:
# Import library untuk visualisasi
import plotly.express as px

# Buat pie chart
fig = px.pie(
    values = gender_perc['Total'],
    names = gender_perc['Gender'],
    color_discrete_sequence = ['#EA047E', '#FCE700'],
)

# Atur posisi label
fig.update_traces(
    textfont = dict(
        size = 27,
        family = 'Comic Sans MS'
    ),
    textposition = 'inside',
    textinfo = 'percent+label',
    hovertemplate='<b>%{label}</b><br>%{value} Customers'
)

# Atur luas grafik, hapus legend dan beri judul
fig.update_layout(
    width = 800,
    height = 600,
    showlegend = False,
    margin = dict(l=160, r=200, t=100, b=30),
    title = dict(
        text = "<b>Proporsi <i>Gender</i> Pelanggan<br>Maskapai Penerbangan</b>",
        font = dict(
            size = 25,
            color = '#FF6D28',
            family = 'Comic Sans MS'
        ),
        y = 0.92,
        x = 0.47
    )
)

# Tampilkan grafik
fig.show()

<h2><b>Quest 3</b>: <i>Bagaimana proporsi lain pelanggan maskapai penerbangan berdasarkan Tipe Class, Tipe Customer dan Tujuan Penerbangan pelanggan? </i></h2>

In [None]:
agg_data = dict()
columns_agg = ['Customer Type', 'Type of Travel', 'Class']
color_list = {
    'Customer Type' : ['#5C4B99', '#9F91CC'],
    'Type of Travel' : ['#FF6C22', '#FF9209'],
    'Class' : ['#0C356A', '#FFC436', '#0174BE']
}

for col in columns_agg:
    label = data[col].value_counts().index.tolist()
    value = data[col].value_counts().values.tolist()
    agg_data.update({col : {'labels' : label, 'values' : value, 'colors' : color_list.get(col)}})

print(agg_data)

{'Customer Type': {'labels': ['Returning', 'First-time'], 'values': [106100, 23780], 'colors': ['#5C4B99', '#9F91CC']}, 'Type of Travel': {'labels': ['Business', 'Personal'], 'values': [89693, 40187], 'colors': ['#FF6C22', '#FF9209']}, 'Class': {'labels': ['Business', 'Economy', 'Economy Plus'], 'values': [62160, 58309, 9411], 'colors': ['#0C356A', '#FFC436', '#0174BE']}}


In [None]:
import plotly.graph_objects as go
from plotly.subplots import make_subplots

fig = make_subplots(
    rows = 1,
    cols = 3,
    specs = [[{'type':'domain'}, {'type':'domain'}, {'type':'domain'}]]
)

cols = 1
for data_key in agg_data.keys():
    fig.add_trace(
        go.Pie(
            labels = agg_data.get(data_key).get('labels'),
            values = agg_data.get(data_key).get('values'),
            name = data_key,
            marker_colors = agg_data.get(data_key).get('colors')
        ), 1, cols
    )
    cols += 1

fig.update_traces(
    hole = 0.6,
    textposition = 'outside',
    textinfo = 'label+percent',
    hoverinfo = 'label+percent+name'
)

fig.update_layout(
    showlegend = False,
    annotations=[
        dict(text = '<b>Customer Type</b>', x=0.052, y=0.5, font_size=20, showarrow=False),
        dict(text = '<b>Type of Travel</b>', x=0.50, y=0.5, font_size=20, showarrow=False),
        dict(text = '<b>Class</b>', x=0.88, y=0.5, font_size=20, showarrow=False)
    ],
    title = dict(
        text = "<b>Proporsi Pelanggan Maskapai Penerbangan</b>",
        font = dict(
            size = 25,
        ),
        y = 0.96,
        x = 0.50
    )
)

fig.show()

#### 👨‍💻 Task 4

Setelah diperoleh proporsi berbagai demografi pelanggan maskapai penerbangan dari perhitungan diatas, berikan kesimpulan / analisa sederhana dari perhitungan yang telah dilakukan!

...

---

### **📈 Distribusi**

Dalam konteks analisis data, distribusi menggambarkan pola atau karakteristik bagaimana data tersebar. Tujuan melihat distribusi data :

* Identifikasi Pusat Data: Distribusi membantu mengidentifikasi nilai tengah data, seperti mean, median, dan modus.
* Deteksi Pencilan (Outliers): Distribusi membantu mendeteksi adanya pencilan dalam data.
* Normalitas: Distribusi digunakan untuk mengevaluasi apakah data mengikuti distribusi normal atau tidak.
* Pemilihan Model: Distribusi membantu memilih model yang tepat untuk menganalisis data.
* Perhitungan Statistik Deskriptif: Distribusi penting untuk menghitung statistik deskriptif seperti deviasi standar, kuartil, dan persentil.



<h2><b>Quest 4</b>: <i>Bagaimana penyebaran usia pelanggan maskapai penerbangan? </i></h2>

In [None]:
import plotly.express as px

fig = px.histogram(
    data,
    x = 'Age',
    color_discrete_sequence  = ['#3498db'],
    nbins = 10
)

fig.update_traces(
      marker_line_width = 1,
      marker_line_color = 'white'
)

fig.update_layout(
    plot_bgcolor = 'rgba(0, 0, 0, 0)',
    title = dict(
        text = "<b>Distribusi <span style='color:#3498db'>Usia</b> Pelanggan<br><sup><sup>Maskapai Penerbangan</sup></sup>",
        font = dict(
            size = 28,
            color = '#757882'
        ),
        y = 0.92,
        x = 0.5
    ),
    yaxis = dict(
        title = '',
        showgrid = False,
        showline = False,
        showticklabels = False,
        zeroline = False,
    ),
    margin = dict(
        t = 80,
        b = 10,
        r = 20
    )
)

fig.show()

#### 👨‍💻 Task 5

Setelah diperoleh distribusi usia pelanggan maskapai penerbangan dari perhitungan diatas, berikan kesimpulan / analisa sederhana dari perhitungan yang telah dilakukan!

...

---

### **💥 Outliers**

Outliers (pencilan) adalah nilai-nilai yang sangat berbeda atau jauh dari nilai-nilai lain dalam suatu dataset. Mereka adalah observasi yang ekstrem atau tidak biasa dibandingkan dengan nilai-nilai lainnya. Outliers bisa menjadi hasil dari kesalahan pengukuran, perbedaan dalam populasi atau sebenarnya, atau mungkin merupakan indikasi dari variasi yang signifikan dalam data.

Outliers dapat diidentifikasi menggunakan metode statistik, seperti menggunakan batas atas dan batas bawah berdasarkan kriteria tertentu, atau dengan memvisualisasikan data menggunakan grafik seperti box plot atau scatter plot. Pendekatan yang umum digunakan adalah dengan menggunakan metode seperti kuartil (interquartile range/IQR) atau tiga kali deviasi standar.

<p align="center">
<img src="https://miro.medium.com/v2/resize:fit:9000/1*2c21SkzJMf3frPXPAR_gZA.png" width="550" height="275">
<p align="center"><b>Gambar 1. Box-Plot</b></p>
</p>


docs : *https://plotly.com/python/box-plots/*

<h2><b>Quest 5</b>: <i>Apakah terdapat Jarak Penerbangan (<i>Flight Distance</i>) yang cukup jauh dari jarak penerbangan yang ditempuh biasanya?</i></h2>

In [None]:
import plotly.express as px

# Create the horizontal box plot
fig = px.box(
    data['Flight Distance'],
    orientation = 'h',
    color_discrete_sequence  = ['#0E2954']
)

# Update layout and display the plot
fig.update_layout(
    title = 'Horizontal Box Plot',
    yaxis = dict(
        title = '',
        showgrid = False,
        showline = False,
        showticklabels = False,
        zeroline = False,
    ),
    xaxis = dict(
        title = 'Flight Distance',
        showgrid = False,
        showline = True,
        showticklabels = True,
        zeroline = False,
    )
)
fig.show()

In [None]:
import plotly.express as px

fig = px.histogram(
    data,
    x = 'Flight Distance',
    marginal = 'box',
    color_discrete_sequence  = ['#0E2954'],
    nbins = 50
)

fig.update_traces(
      marker_line_width = 1,
      marker_line_color = 'white'
)

fig.update_layout(
    plot_bgcolor = 'rgba(0, 0, 0, 0)',
    title = dict(
        text = "<b>Distribusi <span style='color:#0E2954'>Jarak Penerbangan</b> Pelanggan<br><sup><sup>Maskapai Penerbangan</sup></sup>",
        font = dict(
            size = 28,
            color = '#757882'
        ),
        y = 0.92,
        x = 0.5
    ),
    yaxis = dict(
        title = '',
        showgrid = False,
        showline = False,
        showticklabels = False,
        zeroline = False,
    ),
    margin = dict(
        t = 80,
        b = 10,
        r = 20
    )
)

fig.show()

#### 👨‍💻 Task 6

Setelah diperoleh distribusi jarak penerbangan dari perhitungan diatas, berikan kesimpulan / analisa sederhana dari perhitungan yang telah dilakukan!

...

---

### **🔗 Korelasi**

Korelasi adalah sebuah konsep statistik yang mengukur sejauh mana dua variabel berkaitan satu sama lain. Korelasi menggambarkan hubungan linier antara dua variabel, yaitu sejauh mana perubahan dalam satu variabel berhubungan dengan perubahan dalam variabel lainnya. Dua variabel dikatakan berkorelasi apabila perubahan salah satu variabel disertai dengan perubahan variabel lainnya, baik dalam arah yang sama ataupun arah yang sebaliknya.
<br><br>

<p align="center">
<img src="https://www.mathsisfun.com/data/images/correlation-examples.svg">
<p align="center"><b>Gambar 2. Korelasi</b></p>

Untuk dapat menggambarkan kekuatan dan arah hubungan linier antara dua variabel dapat menggunakan koefisien korelasi yang nilainya berkisar antara -1 <= r <= 1.

<p align="center">
<img src="https://www.researchgate.net/profile/Fermin-Rodriguez-3/publication/344691053/figure/fig2/AS:947264293974017@1602856815816/Pearson-correlation-scale.png" width="600" height="151">
<p align="center"><b>Gambar 3. Skala Korelasi</b></p><br>

Penting untuk dicatat bahwa korelasi tidak menunjukkan hubungan sebab-akibat antara variabel. Korelasi hanya menggambarkan hubungan linier antara variabel-variabel tersebut.

**Korelasi Pearson**

Sebuah metode untuk mengukur hubungan linier antara dua variabel interval numerik. Untuk menghitung koefisien korelasi Pearson dapat menggunakan sintaks

<center><code>DataFrame.corr(method = 'pearson')</code></center>


docs : *https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.corr.html*

<h2><b>Quest 6</b>: <i>Adakah korelasi (hubungan linear) antara jarak penerbangan dengan kejadian keterlambatan maskapai?</i></h2>

In [None]:
col_nominal = ['Flight Distance', 'Departure Delay', 'Arrival Delay']

delay_corr = data[col_nominal].corr(method='pearson')

delay_corr = delay_corr.round(4)

display(delay_corr)

Unnamed: 0,Flight Distance,Departure Delay,Arrival Delay
Flight Distance,1.0,0.0024,-0.0019
Departure Delay,0.0024,1.0,0.9653
Arrival Delay,-0.0019,0.9653,1.0


In [None]:
import plotly.express as px

fig = px.imshow(
    delay_corr,
    text_auto = True,
    color_continuous_scale = 'Blues'
)

fig.update_coloraxes(
    showscale = False
)

fig.update_layout(
    width = 800,
    height = 600,
    title = dict(
        text = "<b>Korelasi Jarak Penerbangan Terhadap Kejadian<br>Keterlambatan Maskapai</b>",
        font = dict(
            size = 19,
            color = '#0E2954'
        ),
        y = 0.95,
        x = 0.5
    ),
    margin = dict(
        t = 80,
        b = 30,
        r = 50,
        l = 50
    )
)

fig.show()

In [None]:
fig = px.scatter(
    data,
    x = 'Arrival Delay',
    y = 'Departure Delay',
    trendline = 'ols',
    color_discrete_sequence  = ['#0E2954']
)

fig.show()

#### 👨‍💻 Task 7

Setelah diperoleh korelasi dari ketiga variabel diatas, berikan kesimpulan / analisa sederhana dari perhitungan yang telah dilakukan!

...

---

**Korelasi Spearman**

Metode Spearman digunakan untuk menghitung korelasi antara variabel ordinal karena metode ini tidak bergantung pada asumsi bahwa data berdistribusi normal dan memperlakukan data ordinal sebagai peringkat atau urutan. Untuk menghitung koefisien korelasi Spearman dapat menggunakan sintaks

<center><code>DataFrame.corr(method = 'spearman')</code></center>

docs : *https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.corr.html*

<h2><b>Quest 7</b>: <i>Bagaimana dengan korelasi antar variabel indikator kepuasan pelayanan pelanggan?</i></h2>

In [None]:
list_survey = [
    'Departure and Arrival Time Convenience', 'Ease of Online Booking', 'Check-in Service', 'Online Boarding',
    'Gate Location', 'On-board Service', 'Seat Comfort', 'Leg Room Service', 'Cleanliness', 'Food and Drink',
    'In-flight Service', 'In-flight Wifi Service', 'In-flight Entertainment', 'Baggage Handling'
]

survey_corr = data[list_survey].corr(method='spearman').round(4)

display(survey_corr)

Unnamed: 0,Departure and Arrival Time Convenience,Ease of Online Booking,Check-in Service,Online Boarding,Gate Location,On-board Service,Seat Comfort,Leg Room Service,Cleanliness,Food and Drink,In-flight Service,In-flight Wifi Service,In-flight Entertainment,Baggage Handling
Departure and Arrival Time Convenience,1.0,0.4405,0.0974,0.0634,0.453,0.0696,0.0092,0.0053,0.0093,-0.0012,0.0892,0.3398,-0.0126,0.0864
Ease of Online Booking,0.4405,1.0,0.0086,0.368,0.4634,0.0377,0.0249,0.0964,0.0138,0.028,0.0349,0.7109,0.0421,0.0367
Check-in Service,0.0974,0.0086,1.0,0.2173,-0.0396,0.2357,0.1972,0.1453,0.172,0.0816,0.2505,0.0433,0.1204,0.2465
Online Boarding,0.0634,0.368,0.2173,1.0,-0.0007,0.1749,0.4395,0.1378,0.3437,0.2403,0.1083,0.4358,0.3012,0.1184
Gate Location,0.453,0.4634,-0.0396,-0.0007,1.0,-0.0288,0.0008,-0.0049,-0.006,-0.0029,-0.0086,0.3354,0.002,-0.0084
On-board Service,0.0696,0.0377,0.2357,0.1749,-0.0288,1.0,0.1464,0.3661,0.1242,0.0566,0.5694,0.1151,0.4357,0.5366
Seat Comfort,0.0092,0.0249,0.1972,0.4395,0.0008,0.1464,1.0,0.1184,0.668,0.5583,0.0985,0.1175,0.6047,0.1054
Leg Room Service,0.0053,0.0964,0.1453,0.1378,-0.0049,0.3661,0.1184,1.0,0.0971,0.0319,0.374,0.1496,0.3144,0.3745
Cleanliness,0.0093,0.0138,0.172,0.3437,-0.006,0.1242,0.668,0.0971,1.0,0.6471,0.1024,0.1289,0.681,0.1098
Food and Drink,-0.0012,0.028,0.0816,0.2403,-0.0029,0.0566,0.5583,0.0319,0.6471,1.0,0.0453,0.1301,0.6109,0.0465


In [None]:
import plotly.express as px

fig = px.imshow(
    survey_corr,
    text_auto = True,
    color_continuous_scale = 'Blues'
)

fig.update_coloraxes(
    showscale = False
)

fig.update_layout(
    width = 900,
    height = 800,
    title = dict(
        text = "<b>Korelasi Antar Hasil Survey<br>Pelayanan Maskapai Penerbangan</b>",
        font = dict(
            size = 19,
            color = '#0E2954'
        ),
        y = 0.95,
        x = 0.5
    ),
    margin = dict(
        t = 80,
        b = 30,
        r = 50,
        l = 50
    )
)

fig.show()

#### 👨‍💻 Task 8

Setelah diperoleh korelasi dari beberapa variabel diatas, berikan kesimpulan / analisa sederhana dari perhitungan yang telah dilakukan!

...

---

##**🤿 Deep-Dive Analysis**

*Deep dive analysis*, juga dikenal sebagai analisis mendalam, adalah pendekatan yang digunakan untuk melakukan penyelidikan yang komprehensif dan terperinci terhadap suatu topik, masalah, atau data tertentu. Tujuannya adalah untuk mendapatkan pemahaman yang lebih mendalam dan rinci tentang subjek yang sedang diteliti.

<h2><b>Quest 8</b>: <i>Berdasarkan kelas maskapai, bagaimana presentase tingkat kepuasan pelayanan maskapai penerbangan?</i></h2>

In [None]:
satisfaction_by_class = data.groupby(['Class', 'Satisfaction'], as_index=False).agg(Total=('Satisfaction', 'count'))
class_totals = satisfaction_by_class.groupby('Class')['Total'].sum()
satisfaction_by_class['Percentage'] = (satisfaction_by_class['Total'] / satisfaction_by_class['Class'].map(class_totals)).round(4) * 100

display(satisfaction_by_class)

Unnamed: 0,Class,Satisfaction,Total,Percentage
0,Business,Neutral or Dissatisfied,18994,30.56
1,Business,Satisfied,43166,69.44
2,Economy,Neutral or Dissatisfied,47366,81.23
3,Economy,Satisfied,10943,18.77
4,Economy Plus,Neutral or Dissatisfied,7092,75.36
5,Economy Plus,Satisfied,2319,24.64


In [None]:
pvt_satisfaction_by_class = satisfaction_by_class.pivot_table(
    values = 'Percentage',
    index = 'Class',
    columns = ['Satisfaction']
)

pvt_satisfaction_by_class = pvt_satisfaction_by_class[['Satisfied', 'Neutral or Dissatisfied']]
pvt_satisfaction_by_class = pvt_satisfaction_by_class.sort_values(by = ['Class'], ascending = False)

display(pvt_satisfaction_by_class)

Satisfaction,Satisfied,Neutral or Dissatisfied
Class,Unnamed: 1_level_1,Unnamed: 2_level_1
Economy Plus,24.64,75.36
Economy,18.77,81.23
Business,69.44,30.56


In [None]:
import plotly.graph_objects as go

top_labels = pvt_satisfaction_by_class.columns.tolist()
x_data = pvt_satisfaction_by_class.values.tolist()
y_data = pvt_satisfaction_by_class.index.tolist()
colors = ['#9ADE7B', '#FF6D60']

fig = go.Figure()

for i in range(0, len(x_data[0])):
    for xd, yd in zip(x_data, y_data):
        fig.add_trace(go.Bar(
            x=[xd[i]], y=[yd],
            orientation='h',
            marker=dict(
                color=colors[i],
                line=dict(color='rgb(248, 248, 249)', width=1)
            )
        ))

fig.update_layout(
    height = 500,
    width = 900,
    title = dict(
        text = '''
        <b><span style="color:#D9DD6B"><i><b>Satisfaction Score</b></i></span> tiap Kelas Penumpang</b><br><sup><sup>Kelas Ekonomi dan Ekonomi+ Perlu Segera \'Berbenah\'<sup><sup>
        ''',
        font = dict(
            family = 'sans serif',
            size = 30,
            color = '#00917C'
        ),
        y = 0.9,
        x = 0.5 #0.025
    ),
    xaxis=dict(
        showgrid=False,
        showline=False,
        showticklabels=False,
        zeroline=False,
        domain=[0.02, 1]
    ),
    yaxis=dict(
        showgrid=False,
        showline=False,
        showticklabels=False,
        zeroline=False,
    ),
    barmode='stack',
    paper_bgcolor='rgb(248, 248, 255)',
    plot_bgcolor='rgb(248, 248, 255)',
    margin=dict(l=120, r=10, t=140, b=40),
    showlegend=False,
)

# Atur posisi label
fig.update_traces(
    hovertemplate='<b>%{label} Class</b><br>%{value}%'
)

annotations = []

for yd, xd in zip(y_data, x_data):
    # labeling the y-axis
    annotations.append(dict(xref='paper', yref='y',
                            x=0, y=yd,
                            xanchor='right',
                            text=str(yd),
                            font=dict(family='Arial', size=14,
                                      color='rgb(67, 67, 67)'),
                            showarrow=False, align='right'))
    # labeling the first percentage of each bar (x_axis)
    annotations.append(dict(xref='x', yref='y',
                            x=xd[0] / 2, y=yd,
                            text=str(xd[0]) + '%',
                            font=dict(family='Arial', size=14,
                                      color='rgb(248, 248, 255)'),
                            showarrow=False))
    # labeling the first Likert scale (on the top)
    if yd == y_data[-1]:
        annotations.append(dict(xref='x', yref='paper',
                                x=xd[0] / 2, y=1.05,
                                text=top_labels[0],
                                font=dict(family='Arial', size=14,
                                          color='rgb(67, 67, 67)'),
                                showarrow=False))
    space = xd[0]
    for i in range(1, len(xd)):
            # labeling the rest of percentages for each bar (x_axis)
            annotations.append(dict(xref='x', yref='y',
                                    x=space + (xd[i]/2), y=yd,
                                    text=str(xd[i]) + '%',
                                    font=dict(family='Arial', size=14,
                                              color='rgb(248, 248, 255)'),
                                    showarrow=False))
            # labeling the Likert scale
            if yd == y_data[-1]:
                annotations.append(dict(xref='x', yref='paper',
                                        x=space + (xd[i]/2), y=1.05,
                                        text=top_labels[i],
                                        font=dict(family='Arial', size=14,
                                                  color='rgb(67, 67, 67)'),
                                        showarrow=False))
            space += xd[i]

fig.update_layout(annotations=annotations)

fig.show()

#### 👨‍💻 Task 9

Berikan kesimpulan / analisa sederhana dari perhitungan yang telah dilakukan!

...

---

<h2><b>Quest 10</b>: <i>Pelayanan apa yang paling menjadi concern untuk segera diperbaiki karena mendapat review yang cukup buruk?</i></h2>

In [None]:
list_columns_survey = [
    'Departure and Arrival Time Convenience',
    'Ease of Online Booking',
    'Check-in Service',
    'Online Boarding',
    'Gate Location',
    'On-board Service',
    'Seat Comfort',
    'Leg Room Service',
    'Cleanliness',
    'Food and Drink',
    'In-flight Service',
    'In-flight Wifi Service',
    'In-flight Entertainment',
    'Baggage Handling'
]

mean_values = data[list_columns_survey].mean(axis=0)

# Create a new DataFrame to store the mean values
mean_df = pd.DataFrame(
    mean_values,
    columns=['Mean']
)

mean_df = mean_df.reset_index(names = 'Survey Type')
mean_df['Mean'] = mean_df['Mean'].round(2)
mean_df = mean_df.sort_values(by = ['Mean'], ignore_index = True)

mean_df['Mean Star'] = '★ ' + mean_df['Mean'].astype(str)
# Print the mean DataFrame
display(mean_df)

Unnamed: 0,Survey Type,Mean,Mean Star
0,In-flight Wifi Service,2.73,★ 2.73
1,Ease of Online Booking,2.76,★ 2.76
2,Gate Location,2.98,★ 2.98
3,Departure and Arrival Time Convenience,3.06,★ 3.06
4,Food and Drink,3.2,★ 3.2
5,Online Boarding,3.25,★ 3.25
6,Cleanliness,3.29,★ 3.29
7,Check-in Service,3.31,★ 3.31
8,Leg Room Service,3.35,★ 3.35
9,In-flight Entertainment,3.36,★ 3.36


In [None]:
import plotly.express as px

mean_df['Color'] = 'Other'
mean_df.loc[:2, 'Color'] = 'Bottom'

fig = px.bar(
    mean_df,
    x = 'Mean',
    y = 'Survey Type',
    orientation = 'h',
    color = 'Color',
    color_discrete_map = {
        'Bottom': '#FF6D60',
        'Other': '#9ADE7B'
    },
    text_auto = True
)

fig.update_layout(
    width = 1200,
    height = 600,
    title = '<b>Rataan Review Pelayanan Maskapai Penerbangan</b>',
    xaxis_title = '',
    yaxis_title = '',
    showlegend = False,
    paper_bgcolor = 'rgb(255, 255, 255, 1)',
    plot_bgcolor = 'rgb(255, 255, 255, 0)',
)

fig.update_traces(
    text = '%{label}/5',
    textposition = 'outside',
    hovertemplate = '<b>%{label}</b><br>★%{value} / 5.00'
)

fig.show()

#### 👨‍💻 Task 10

Berikan kesimpulan / analisa sederhana dari perhitungan yang telah dilakukan!

...

---

In [None]:
list_columns_survey = [
    'Departure and Arrival Time Convenience',
    'Ease of Online Booking',
    'Check-in Service',
    'Online Boarding',
    'Gate Location',
    'On-board Service',
    'Seat Comfort',
    'Leg Room Service',
    'Cleanliness',
    'Food and Drink',
    'In-flight Service',
    'In-flight Wifi Service',
    'In-flight Entertainment',
    'Baggage Handling'
]

counts_rating = data[list_columns_survey].apply(pd.value_counts)
counts_rating = counts_rating.fillna(0)

counts_rating


Unnamed: 0,Departure and Arrival Time Convenience,Ease of Online Booking,Check-in Service,Online Boarding,Gate Location,On-board Service,Seat Comfort,Leg Room Service,Cleanliness,Food and Drink,In-flight Service,In-flight Wifi Service,In-flight Entertainment,Baggage Handling
0,6681,5682,1,3080,1,5,1,598,14,132,5,3916,18,0.0
1,19409,21886,16108,13261,21991,14787,15108,12895,16729,16051,8862,22328,15675,9028.0
2,21534,30051,16102,21934,24296,18351,18529,24540,20113,27383,14308,32320,21968,14362.0
3,22378,30393,35453,27117,35717,28542,23328,25056,30639,27794,25316,32185,23884,25851.0
4,31880,24444,36333,38468,30466,38703,39756,35886,33969,30563,47323,24775,36791,46761.0
5,27998,17424,25883,26020,17409,29492,33158,30905,28416,27957,34066,14356,31544,33878.0


In [None]:
import plotly.graph_objects as go
from plotly.subplots import make_subplots

n_rows = 3
n_cols = 5

col_name = counts_rating.columns.tolist()
ratings = ['⭐' + str(x) + ' ' for x in counts_rating.index.tolist()]

fig = make_subplots(
    rows = n_rows,
    cols = n_cols,
    vertical_spacing = 0.1,
    subplot_titles = col_name
)

i = 0
for r in range(n_rows):
    for c in range(n_cols):
        if(i < len(col_name)):
            fig.add_trace(
                go.Bar(
                    x = counts_rating[col_name[i]],
                    y = ratings,
                    orientation = 'h',
                    marker = dict(
                        color = '#2db83d'
                    ),
                    name = col_name[i]
                ), r+1, c+1
            )

            fig.update_xaxes(
                title_text = '',
                tickvals = [],
                row = r+1,
                col = c+1
            )
            i += 1

fig.update_layout(
    height = 600,
    showlegend = False,
    title = dict(
        text = '<b>Hasil Survey tiap Jenis Pelayanan</b><br>Maskapai Penerbangan',
        font = dict(
            family = 'sans serif',
            size = 20,
            color = '#000000'
        ),
        y = 0.96,
        x = 0.5
    ),
    annotations = [
        {'font': {'size': 12}, 'xanchor': 'center'},
    ],
    paper_bgcolor = 'rgb(255, 255, 255, 1)',
    plot_bgcolor = 'rgb(255, 255, 255, 0)',
    xaxis = dict(
        showticklabels = False
    )
)

fig.show()

<h2><b>Quest 11</b>: <i>In-Flight Wifi Service, menjadi pelayanan dengan nilai paling tidak memuaskan. Apa yang bisa dilakukan pihak maskapai penerbangan?</i></h2>

In [None]:
conditions = data['In-flight Wifi Service'] <= 3

data_wifi_unstsfd = data[conditions]

data_wifi_unstsfd.groupby(by = 'Customer Type', as_index = False).agg(Total = ('Customer Type', 'count'))

Unnamed: 0,Customer Type,Total
0,First-time,16752
1,Returning,73997


---