# 📊 Exploratory Data Analysis

Exploratory Data Analysis (EDA) adalah suatu pendekatan analisis data yang bertujuan untuk menyelidiki dan memahami sifat-sifat dataset tanpa membuat asumsi yang mendalam atau mengaplikasikan metode statistik formal.

EDA membantu analis data untuk <b>mengidentifikasi pola, tren, anomali, dan informasi penting lainnya dalam dataset</b>.

# **🤖 Langkah - Langkah EDA**

1. Pahami struktur data, periksa dan tangani nilai yang hilang atau anomali.
2. Hitung statistik deskriptif untuk mendapatkan gambaran awal tentang data.
3. Gunakan visualisasi seperti grafik dan plot untuk memahami distribusi dan hubungan antara variabel.
4. Bersihkan data dengan menghapus atau mengisi nilai yang tidak valid atau hilang.
5. Analisis korelasi antara variabel numerik.
6. Analisis variabel kategorikal dengan menghitung frekuensi dan distribusinya.
7. Jika memungkinkan, segmentasikan data berdasarkan kategori tertentu dan lakukan analisis pada setiap subset.
8. Identifikasi tren, pola musiman, atau pola lainnya dalam data.

# **🗿 DQ-Challenge!**

<img src="https://raw.githubusercontent.com/bachtiyarmawork/DQLab-Project/main/EDA%20-%20DQChallenge.png">

# **✈️ Dataset**

**Airline Passanger Satisfaction** dataset atau skor kepuasan pelanggan adalah data yang merekam lebih dari lebih dari 100.000 penumpang maskapai penerbangan, termasuk informasi tambahan tentang setiap penumpang, penerbangan mereka, dan jenis perjalanan, serta penilaian mereka terhadap faktor-faktor yang berbeda seperti kebersihan, kenyamanan, pelayanan, dan pengalaman secara keseluruhan.

List kolom pada dataset :     
* ID : ID unik untuk setiap entri data
* Gender : Jenis kelamin penumpang
* Age : Usia penumpang
* Customer Type : Jenis pelanggan
* Type of Travel : Jenis perjalanan
* Class : Kelas penerbangan
* Flight Distance : Jarak penerbangan
* Departure Delay : Keterlambatan keberangkatan
* Arrival Delay : Keterlambatan kedatangan
* Departure and Arrival Time Convenience : Kenyamanan waktu keberangkatan dan kedatangan
* Ease of Online Booking : Kemudahan pemesanan tiket online
* Check-in Service : Kualitas pelayanan saat check-in
* Online Boarding : Pengalaman proses boarding online
* Gate Location : Penilaian lokasi gerbang keberangkatan
* On-board Service : Kualitas layanan di dalam pesawat
* Seat Comfort : Tingkat kenyamanan tempat duduk
* Leg Room Service : Kualitas pelayanan ruang kaki
* Cleanliness : Penilaian kebersihan pesawat
* Food and Drink : Kualitas makanan dan minuman
* In-flight Service : Kualitas layanan di dalam pesawat
* In-flight Wifi Service : Kualitas layanan WiFi di dalam pesawat
* In-flight Entertainment : Kualitas hiburan di dalam pesawat
* Baggage Handling : Kualitas penanganan bagasi
* Satisfaction : Penilaian kepuasan penumpang secara keseluruhan

<br>

source data : https://raw.githubusercontent.com/steve-mdc/DQLab/refs/heads/main/airline_passenger_satisfaction.csv

## **⛏️ Extract Data**

Proses ekstraksi data dari sumber dilakukan dengan library pandas dengan mengimpor method <a href="https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html">read_csv</a> dan menginisialisasikan *filepath_or_buffer* dengan url yang tertera diatas (sumber data)

In [1]:
# Abaikan pesan warning
import warnings
warnings.filterwarnings("ignore")

In [2]:
# Import library yang dibutuhkan
import pandas as pd
pd.set_option('display.max_columns', None)

# Proses ekstraksi data
url = 'https://raw.githubusercontent.com/steve-mdc/DQLab/refs/heads/main/airline_passenger_satisfaction.csv'
data_airline = pd.read_csv(
    url,
    sep = ',',
    dtype = {
        'ID' : 'category'  #Forces the ID column to be interpreted as a category data type
    }
)

# Tampilkan data
display(data_airline)

Unnamed: 0,ID,Gender,Age,Customer Type,Type of Travel,Class,Flight Distance,Departure Delay,Arrival Delay,Departure and Arrival Time Convenience,Ease of Online Booking,Check-in Service,Online Boarding,Gate Location,On-board Service,Seat Comfort,Leg Room Service,Cleanliness,Food and Drink,In-flight Service,In-flight Wifi Service,In-flight Entertainment,Baggage Handling,Satisfaction
0,1,Male,48,First-time,Business,Business,821,2,5.0,3,3,4,3,3,3,5,2,5,5,5,3,5,5,Neutral or Dissatisfied
1,2,Female,35,Returning,Business,Business,821,26,39.0,2,2,3,5,2,5,4,5,5,3,5,2,5,5,Satisfied
2,3,Male,41,Returning,Business,Business,853,0,0.0,4,4,4,5,4,3,5,3,5,5,3,4,3,3,Satisfied
3,4,Male,50,Returning,Business,Business,1905,0,0.0,2,2,3,4,2,5,5,5,4,4,5,2,5,5,Satisfied
4,5,Female,49,Returning,Business,Business,3470,0,1.0,3,3,3,5,3,3,4,4,5,4,3,3,3,3,Satisfied
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
129875,129876,Male,28,Returning,Personal,Economy Plus,447,2,3.0,4,4,4,4,2,5,1,4,4,4,5,4,4,4,Neutral or Dissatisfied
129876,129877,Male,41,Returning,Personal,Economy Plus,308,0,0.0,5,3,5,3,4,5,2,5,2,2,4,3,2,5,Neutral or Dissatisfied
129877,129878,Male,42,Returning,Personal,Economy Plus,337,6,14.0,5,2,4,2,1,3,3,4,3,3,4,2,3,5,Neutral or Dissatisfied
129878,129879,Male,50,Returning,Personal,Economy Plus,337,31,22.0,4,4,3,4,1,4,4,5,3,3,4,5,3,5,Satisfied


## **🔍 Memahami Tipe Data**

Memahami atau memeriksa tipe data dari setiap kolom pada data penting dilakukan untuk memastikan bahwa tipe data yang diharapkan sesuai dengan yang sebenarnya. Hal ini berguna untuk memastikan bahwa analis data dapat melakukan proses analisia yang sesuai dengan jenis data yang ada. Gunakan sintaks berikut untuk mendapatkan informasi umum pada data
<p align="center"><code>DataFrame.info()</code></p>

docs : https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html

In [3]:
data_airline.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 129880 entries, 0 to 129879
Data columns (total 24 columns):
 #   Column                                  Non-Null Count   Dtype   
---  ------                                  --------------   -----   
 0   ID                                      129880 non-null  category
 1   Gender                                  129880 non-null  object  
 2   Age                                     129880 non-null  int64   
 3   Customer Type                           129880 non-null  object  
 4   Type of Travel                          129880 non-null  object  
 5   Class                                   129880 non-null  object  
 6   Flight Distance                         129880 non-null  int64   
 7   Departure Delay                         129880 non-null  int64   
 8   Arrival Delay                           129487 non-null  float64 
 9   Departure and Arrival Time Convenience  129880 non-null  int64   
 10  Ease of Online Booking          

#### 👨‍💻 Task 1

Setelah diperoleh informasi umum pada data diatas, berikan kesimpulan / analisa sederhana dari perhitungan yang telah dilakukan!

Kesimpulan :

Dataset airline passenger satisfaction adalah kumpulan data yang berisi informasi mengenai kepuasan penumpang maskapai penerbangan. Data tersebut mencakup berbagai variabel seperti jenis kelamin, usia, tipe pelanggan, jenis perjalanan, kelas penerbangan, jarak penerbangan, keterlambatan keberangkatan dan kedatangan, kenyamanan waktu keberangkatan dan kedatangan, kemudahan pemesanan tiket online, layanan check-in, layanan online boarding, lokasi gerbang keberangkatan, kualitas layanan di dalam pesawat, kenyamanan kursi, layanan ruang kaki, kebersihan, makanan dan minuman, layanan di dalam pesawat seperti wifi dan hiburan, penanganan bagasi, serta tingkat kepuasan penumpang.

Data ini dapat digunakan untuk menganalisis faktor-faktor yang mempengaruhi kepuasan penumpang, mengevaluasi kualitas layanan yang ditawarkan oleh maskapai penerbangan, dan mengidentifikasi area di mana perbaikan dapat dilakukan untuk meningkatkan pengalaman penumpang.

---

#### 👨‍💻 Next Task : **ITS YOUR TIME TO SHINE**

<img src="https://media.makeameme.org/created/its-your-time-xadirv.jpg">



Dari data Airline Satisfaction diatas, buatlah proses EDA-nya dan juga buatkan minimal 5 - 10 business question serta berikan actionable insight / business recomendationnya!

## Pengaruh kelas penerbangan yang digunakan terhadap kepuasaan customer

In [4]:
data_airline.head()

Unnamed: 0,ID,Gender,Age,Customer Type,Type of Travel,Class,Flight Distance,Departure Delay,Arrival Delay,Departure and Arrival Time Convenience,Ease of Online Booking,Check-in Service,Online Boarding,Gate Location,On-board Service,Seat Comfort,Leg Room Service,Cleanliness,Food and Drink,In-flight Service,In-flight Wifi Service,In-flight Entertainment,Baggage Handling,Satisfaction
0,1,Male,48,First-time,Business,Business,821,2,5.0,3,3,4,3,3,3,5,2,5,5,5,3,5,5,Neutral or Dissatisfied
1,2,Female,35,Returning,Business,Business,821,26,39.0,2,2,3,5,2,5,4,5,5,3,5,2,5,5,Satisfied
2,3,Male,41,Returning,Business,Business,853,0,0.0,4,4,4,5,4,3,5,3,5,5,3,4,3,3,Satisfied
3,4,Male,50,Returning,Business,Business,1905,0,0.0,2,2,3,4,2,5,5,5,4,4,5,2,5,5,Satisfied
4,5,Female,49,Returning,Business,Business,3470,0,1.0,3,3,3,5,3,3,4,4,5,4,3,3,3,3,Satisfied


In [5]:
# Buat pivot table
pivot_table = data_airline.pivot_table(
    index=['Gender', 'Class', 'Satisfaction'],
    values='ID',
    aggfunc='count',
    fill_value=0
)

# Rename the counts column
pivot_table.columns.name = None  # Remove the name of the columns
pivot_table = pivot_table.rename(columns={'ID': 'Jumlah'})

# Tampilkan pivot table
display(pivot_table)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Jumlah
Gender,Class,Satisfaction,Unnamed: 3_level_1
Female,Business,Neutral or Dissatisfied,9663
Female,Business,Satisfied,21600
Female,Economy,Neutral or Dissatisfied,24171
Female,Economy,Satisfied,5499
Female,Economy Plus,Neutral or Dissatisfied,3796
Female,Economy Plus,Satisfied,1170
Male,Business,Neutral or Dissatisfied,9331
Male,Business,Satisfied,21566
Male,Economy,Neutral or Dissatisfied,23195
Male,Economy,Satisfied,5444


In [6]:
# Kelas penerbangan: Class
# Kepuasan Customer: Satisfaction
data_airline.groupby(['Gender', 'Class', 'Satisfaction'], as_index=False).agg(jumlah = ('ID', 'count'))

Unnamed: 0,Gender,Class,Satisfaction,jumlah
0,Female,Business,Neutral or Dissatisfied,9663
1,Female,Business,Satisfied,21600
2,Female,Economy,Neutral or Dissatisfied,24171
3,Female,Economy,Satisfied,5499
4,Female,Economy Plus,Neutral or Dissatisfied,3796
5,Female,Economy Plus,Satisfied,1170
6,Male,Business,Neutral or Dissatisfied,9331
7,Male,Business,Satisfied,21566
8,Male,Economy,Neutral or Dissatisfied,23195
9,Male,Economy,Satisfied,5444


## Faktor apa yang paling mempengaruhi kepuasan pelanggan
Lihat rata-rata

In [7]:
data_airline.describe()

Unnamed: 0,Age,Flight Distance,Departure Delay,Arrival Delay,Departure and Arrival Time Convenience,Ease of Online Booking,Check-in Service,Online Boarding,Gate Location,On-board Service,Seat Comfort,Leg Room Service,Cleanliness,Food and Drink,In-flight Service,In-flight Wifi Service,In-flight Entertainment,Baggage Handling
count,129880.0,129880.0,129880.0,129487.0,129880.0,129880.0,129880.0,129880.0,129880.0,129880.0,129880.0,129880.0,129880.0,129880.0,129880.0,129880.0,129880.0,129880.0
mean,39.427957,1190.316392,14.713713,15.091129,3.057599,2.756876,3.306267,3.252633,2.976925,3.383023,3.441361,3.350878,3.286326,3.204774,3.642193,2.728696,3.358077,3.632114
std,15.11936,997.452477,38.071126,38.46565,1.526741,1.40174,1.266185,1.350719,1.27852,1.287099,1.319289,1.316252,1.313682,1.329933,1.176669,1.32934,1.334049,1.180025
min,7.0,31.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
25%,27.0,414.0,0.0,0.0,2.0,2.0,3.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,3.0,2.0,2.0,3.0
50%,40.0,844.0,0.0,0.0,3.0,3.0,3.0,3.0,3.0,4.0,4.0,4.0,3.0,3.0,4.0,3.0,4.0,4.0
75%,51.0,1744.0,12.0,13.0,4.0,4.0,4.0,4.0,4.0,4.0,5.0,4.0,4.0,4.0,5.0,4.0,4.0,5.0
max,85.0,4983.0,1592.0,1584.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0


In [8]:
list_columns_survey = [
    'Departure and Arrival Time Convenience',
    'Ease of Online Booking',
    'Check-in Service',
    'Online Boarding',
    'Gate Location',
    'On-board Service',
    'Seat Comfort',
    'Leg Room Service',
    'Cleanliness',
    'Food and Drink',
    'In-flight Service',
    'In-flight Wifi Service',
    'In-flight Entertainment',
    'Baggage Handling'
]

mean_values = data_airline[list_columns_survey].mean(axis=0)

# Create a new DataFrame to store the mean values
mean_df = pd.DataFrame(
    mean_values,
    columns=['Mean']
)

mean_df = mean_df.reset_index(names = 'Survey Type')
mean_df['Mean'] = mean_df['Mean'].round(2)
mean_df = mean_df.sort_values(by = ['Mean'], ascending=False, ignore_index = True) #ascending to reverse the order

mean_df['Mean Star'] = '★ ' + mean_df['Mean'].astype(str)

# Print the mean DataFrame
display(mean_df)

Unnamed: 0,Survey Type,Mean,Mean Star
0,In-flight Service,3.64,★ 3.64
1,Baggage Handling,3.63,★ 3.63
2,Seat Comfort,3.44,★ 3.44
3,On-board Service,3.38,★ 3.38
4,In-flight Entertainment,3.36,★ 3.36
5,Leg Room Service,3.35,★ 3.35
6,Check-in Service,3.31,★ 3.31
7,Cleanliness,3.29,★ 3.29
8,Online Boarding,3.25,★ 3.25
9,Food and Drink,3.2,★ 3.2


In [9]:
import plotly.express as px

mean_df['Color'] = 'Other'
mean_df.loc[:2, 'Color'] = 'Bottom'

fig = px.bar(
    mean_df,
    x = 'Mean',
    y = 'Survey Type',
    orientation = 'h',
    color = 'Color',
    color_discrete_map = {
        'Bottom': '#FF6D60',
        'Other': '#9ADE7B'
    },
    text_auto = True
)

fig.update_layout(
    width = 1200,
    height = 600,
    title = '<b>Rataan Review Pelayanan Maskapai Penerbangan</b>',
    xaxis_title = '',
    yaxis_title = '',
    showlegend = False,
    paper_bgcolor = 'rgb(255, 255, 255, 1)',
    plot_bgcolor = 'rgb(255, 255, 255, 0)',
)

fig.update_traces(
    text = '%{label}/5',
    textposition = 'outside',
    hovertemplate = '<b>%{label}</b><br>★%{value} / 5.00'
)

fig.show()

## Pemilihan jenis (Class) berdasarkan usia

In [10]:
average_age_per_class = data_airline.groupby('Class', as_index=False).agg(
    average_age = ('Age', 'mean'),
    median_age = ('Age', 'median'),
).round(2)

average_age_per_class

Unnamed: 0,Class,average_age,median_age
0,Business,41.62,42.0
1,Economy,37.21,36.0
2,Economy Plus,38.73,38.0


In [11]:
import plotly.express as px

fig = px.bar(
    average_age_per_class,
    x = 'Class',
    y = 'average_age',

)
fig.show()

In [12]:
import pandas as pd
from scipy.stats import chi2_contingency

# Data: gender dan kepuasan
data = {
    'Gender': ['Laki-laki', 'Laki-laki', 'Perempuan', 'Perempuan'],
    'Kepuasan': ['Puas', 'Tidak Puas', 'Puas', 'Tidak Puas'],
    'Frekuensi': [30, 20, 25, 5]
}

# Membuat DataFrame
df = pd.DataFrame(data)

# Membuat tabel kontingensi
tabel_kontingensi = df.pivot(index='Gender', columns='Kepuasan', values='Frekuensi').fillna(0)

# Menampilkan tabel kontingensi
print("Tabel Kontingensi:")
print(tabel_kontingensi)

# Melakukan uji Chi-Square
chi2, p, dof, expected = chi2_contingency(tabel_kontingensi)

# Menampilkan hasil
print(f"\nNilai Chi-Square: {chi2:.4f}")
print(f"Nilai p: {p:.4f}")
print(f"Derajat Kebebasan: {dof}")
print("Tabel Ekspektasi:")
print(expected)

alpha = 0.05
if p < alpha:
    print("\nTolak H0: Ada hubungan yang signifikan antara gender dan kepuasan.")
else:
    print("\nGagal menolak H0: Tidak ada hubungan yang signifikan antara gender dan kepuasan.")

Tabel Kontingensi:
Kepuasan   Puas  Tidak Puas
Gender                     
Laki-laki    30          20
Perempuan    25           5

Nilai Chi-Square: 3.7275
Nilai p: 0.0535
Derajat Kebebasan: 1
Tabel Ekspektasi:
[[34.375 15.625]
 [20.625  9.375]]

Gagal menolak H0: Tidak ada hubungan yang signifikan antara gender dan kepuasan.


In [13]:
data_airline['Customer Type'].unique()

array(['First-time', 'Returning'], dtype=object)

In [14]:
data_airline['Customer Type'].value_counts()

Unnamed: 0_level_0,count
Customer Type,Unnamed: 1_level_1
Returning,106100
First-time,23780
