**Proyek: Analisis Data Penerbangan**

**Tujuan: menerapkan teknik Analisis Data Eksplorasi yang telah dipelajari untuk menganalisis kumpulan data penerbangan dan temukan wawasan yang dapat ditindaklanjuti.**

---

In [244]:
# Load Dataset

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

flight_df = pd.read_csv('goibibo_flights_data.csv')
flight_df.head()


Unnamed: 0,flight date,airline,flight_num,class,from,dep_time,to,arr_time,duration,price,stops,Unnamed: 11,Unnamed: 12
0,26-06-2023,SpiceJet,SG-8709,economy,Delhi,18:55,Mumbai,21:05,02h 10m,6013,non-stop,,
1,26-06-2023,SpiceJet,SG-8157,economy,Delhi,06:20,Mumbai,08:40,02h 20m,6013,non-stop,,
2,26-06-2023,AirAsia,I5-764,economy,Delhi,04:25,Mumbai,06:35,02h 10m,6016,non-stop,,
3,26-06-2023,Vistara,UK-995,economy,Delhi,10:20,Mumbai,12:35,02h 15m,6015,non-stop,,
4,26-06-2023,Vistara,UK-963,economy,Delhi,08:50,Mumbai,11:10,02h 20m,6015,non-stop,,


In [245]:
print(flight_df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300261 entries, 0 to 300260
Data columns (total 13 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   flight date  300261 non-null  object 
 1   airline      300261 non-null  object 
 2   flight_num   300261 non-null  object 
 3   class        300261 non-null  object 
 4   from         300261 non-null  object 
 5   dep_time     300261 non-null  object 
 6   to           300261 non-null  object 
 7   arr_time     300261 non-null  object 
 8   duration     300261 non-null  object 
 9   price        300261 non-null  object 
 10  stops        300261 non-null  object 
 11  Unnamed: 11  0 non-null       float64
 12  Unnamed: 12  0 non-null       float64
dtypes: float64(2), object(11)
memory usage: 29.8+ MB
None


**1. Pembersihan dan Pra-pemrosesan Data:**

- Tangani nilai yang hilang.
- Ubah tipe data yang tidak konsisten (misalnya, ubah "Total_Stops" dari objek menjadi integer ).
- Buat fitur baru dari kolom yang ada (misalnya, ekstrak bulan, hari kerja, dan jam dari kolom tanggal/waktu ).


In [246]:
print(flight_df.isna().sum())

flight date         0
airline             0
flight_num          0
class               0
from                0
dep_time            0
to                  0
arr_time            0
duration            0
price               0
stops               0
Unnamed: 11    300261
Unnamed: 12    300261
dtype: int64


In [247]:
#1. handling missing Value
flight_df.dropna(axis=1, how='all', inplace=True)

In [248]:
flight_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300261 entries, 0 to 300260
Data columns (total 11 columns):
 #   Column       Non-Null Count   Dtype 
---  ------       --------------   ----- 
 0   flight date  300261 non-null  object
 1   airline      300261 non-null  object
 2   flight_num   300261 non-null  object
 3   class        300261 non-null  object
 4   from         300261 non-null  object
 5   dep_time     300261 non-null  object
 6   to           300261 non-null  object
 7   arr_time     300261 non-null  object
 8   duration     300261 non-null  object
 9   price        300261 non-null  object
 10  stops        300261 non-null  object
dtypes: object(11)
memory usage: 25.2+ MB


In [249]:
#2. ubah datatype yang tidak konsisten


In [250]:

# pastikan kolom jadi string
flight_df['stops'] = flight_df['stops'].astype(str)
# ganti 'non-stop' dengan 0
flight_df['stops'] = flight_df['stops'].replace('non-stop', '0')
# ambil angka saja
flight_df['stops'] = flight_df['stops'].str.extract(r'(\d+)')
# ganti NaN dengan 0
flight_df['stops'] = flight_df['stops'].fillna(0)
# ubah ke integer
flight_df['stops'] = flight_df['stops'].astype(int)


#  Ubah beberapa kolom ke kategori
for col in ["airline", "class", "from", "to"]:
    flight_df[col] = flight_df[col].astype("category")



print(flight_df.dtypes)


flight date      object
airline        category
flight_num       object
class          category
from           category
dep_time         object
to             category
arr_time         object
duration         object
price            object
stops             int32
dtype: object


In [251]:
flight_df.head(20)



Unnamed: 0,flight date,airline,flight_num,class,from,dep_time,to,arr_time,duration,price,stops
0,26-06-2023,SpiceJet,SG-8709,economy,Delhi,18:55,Mumbai,21:05,02h 10m,6013,0
1,26-06-2023,SpiceJet,SG-8157,economy,Delhi,06:20,Mumbai,08:40,02h 20m,6013,0
2,26-06-2023,AirAsia,I5-764,economy,Delhi,04:25,Mumbai,06:35,02h 10m,6016,0
3,26-06-2023,Vistara,UK-995,economy,Delhi,10:20,Mumbai,12:35,02h 15m,6015,0
4,26-06-2023,Vistara,UK-963,economy,Delhi,08:50,Mumbai,11:10,02h 20m,6015,0
5,26-06-2023,Vistara,UK-945,economy,Delhi,11:40,Mumbai,14:00,02h 20m,6015,0
6,26-06-2023,Vistara,UK-927,economy,Delhi,09:30,Mumbai,11:35,02h 05m,6121,0
7,26-06-2023,Vistara,UK-951,economy,Delhi,14:20,Mumbai,16:30,02h 10m,6121,0
8,26-06-2023,GO FIRST,G8-334,economy,Delhi,08:00,Mumbai,10:10,02h 10m,6014,0
9,26-06-2023,GO FIRST,G8-336,economy,Delhi,14:20,Mumbai,16:35,02h 15m,6014,0


---

**2. Analisis Data Eksplorasi:**
- Analisis distribusi harga tiket pesawat.
- Jelajahi hubungan antara harga tiket dan variabel lain seperti maskapai, durasi penerbangan, dan jumlah perhentian.
- Gunakan tabulasi silang untuk menganalisis hubungan antara variabel kategorikal (misalnya, sumber dan tujuan ).
- Buat kategori harga baru (misalnya, Ekonomi, Ekonomi Premium, Kelas Bisnis, Kelas Utama) menggunakan pd.cut().
- Visualisasikan temuan Anda menggunakan scatterplot, barplot, heatmap, dan countplot.

---


**Pembuatan Hipotesis:**
- Berdasarkan analisis Anda, hasilkan setidaknya tiga hipotesis tentang faktor-faktor yang memengaruhi harga tiket pesawat.
- Contoh hipotesis: "Penerbangan dengan lebih banyak perhentian memiliki harga tiket yang lebih tinggi."

---

**4. Presentasi:**
- Buat ringkasan singkat tentang temuan Anda, termasuk visualisasi utama dan hipotesis yang Anda hasilkan.
- Jelaskan bagaimana wawasan Anda dapat digunakan oleh maskapai penerbangan atau pelancong.