## Data

#### Library

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn.preprocessing import MinMaxScaler
from sklearn.tree import DecisionTreeRegressor
from sklearn import metrics
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import KFold, cross_val_score


##### Mengimport semua library dan module yang dibutuhkan 

In [2]:
pd.options.mode.copy_on_write = True 
pd.set_option('display.max_columns', None) 
pd.set_option('display.max_colwidth', None) 

##### pd.options.mode.copy_on_write = True:

Baris ini mengatur library pandas untuk mengizinkan penulisan ulang pada variabel. baris ini digunakan untuk menghindari masalah yang mungkin muncul akibat perubahan tak terduga pada DataFrame.

##### pd.set_option('display.max_columns', None):

Baris ini mengatur library pandas untuk menampilkan semua kolom DataFrame saat diprint/dicetak. Dengan kata lain, tidak ada kolom yang disembunyikan dalam tampilan DataFrame, sehingga seluruh kolom akan terlihat ketika DataFrame ditampilkan.

##### pd.set_option('display.max_colwidth', None):

Baris ini mengatur library pandas untuk menampilkan seluruh isi dari setiap fitur (kolom) dalam DataFrame. Ini berarti bahwa tidak ada data dalam kolom yang akan dipotong atau disembunyikan, sehingga dapat dilihat seluruh teks atau nilai dalam kolom tersebut.

In [3]:
data = pd.read_csv("C:/Users/ASUS/Documents/Kecerdasan_Buatan/Clean_Dataset.csv")
data.head()

Unnamed: 0.1,Unnamed: 0,airline,flight,source_city,departure_time,stops,arrival_time,destination_city,class,duration,days_left,price
0,0,SpiceJet,SG-8709,Delhi,Evening,zero,Night,Mumbai,Economy,2.17,1,5953
1,1,SpiceJet,SG-8157,Delhi,Early_Morning,zero,Morning,Mumbai,Economy,2.33,1,5953
2,2,AirAsia,I5-764,Delhi,Early_Morning,zero,Early_Morning,Mumbai,Economy,2.17,1,5956
3,3,Vistara,UK-995,Delhi,Morning,zero,Afternoon,Mumbai,Economy,2.25,1,5955
4,4,Vistara,UK-963,Delhi,Morning,zero,Morning,Mumbai,Economy,2.33,1,5955


##### variabel data menyimpan DataFrame yang merupakan hasil dari pengimportan dari pembacaan file CSV di atas

##### Method head() menampilkan lima baris pertama dari DataFrame secara default.Hal tersebut berguna untuk mendapatkan gambaran cepat tentang struktur dan isi data dalam DataFrame.

#### Cleaning Data


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300153 entries, 0 to 300152
Data columns (total 12 columns):
 #   Column            Non-Null Count   Dtype  
---  ------            --------------   -----  
 0   Unnamed: 0        300153 non-null  int64  
 1   airline           300153 non-null  object 
 2   flight            300153 non-null  object 
 3   source_city       300153 non-null  object 
 4   departure_time    300153 non-null  object 
 5   stops             300153 non-null  object 
 6   arrival_time      300153 non-null  object 
 7   destination_city  300153 non-null  object 
 8   class             300153 non-null  object 
 9   duration          300153 non-null  float64
 10  days_left         300153 non-null  int64  
 11  price             300153 non-null  int64  
dtypes: float64(1), int64(3), object(8)
memory usage: 27.5+ MB


##### Untuk melakukan cleaning data maka dilakukan terlebih dahulu pengecekan info data yang akan dikelola/dicleaning

##### Caranya dengan menggunakan method info().

##### Method info()digunakan untuk melihat informasi DataFrame. Informasi yang ditampilkan berupa informasi jumlah baris (300153 baris), jumlah kolom (12 kolom), tipe data, dan memori yang digunakan

In [5]:
data.isna().sum()

Unnamed: 0          0
airline             0
flight              0
source_city         0
departure_time      0
stops               0
arrival_time        0
destination_city    0
class               0
duration            0
days_left           0
price               0
dtype: int64

##### Method isna().sum() menampilkan nama setiap kolom dan nilai null/kosong yang ada pada setiap kolom

##### Terlihat pada output code di atas terdapat kolom yang tidak memiliki nama dan semua kolom tidak ada yang memiliki nilai null (ditandai dengan angka '0' yang berarti tdk ada null) 

In [6]:
data.drop(columns='Unnamed: 0', inplace=True)

##### Karena terdapat kolom yang tidak memiliki nama, maka kita cleaning kolom tsb dengan menggunakan method drop()

In [7]:
data.rename(columns={'class': 'flight_class'}, inplace=True)

##### Code di atas berfungsi untuk merename/mengganti nama kolom class menjadi flight_class. Hal tsb dilakukan untuk memudahkan dan memperjelas nama kolom

In [8]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300153 entries, 0 to 300152
Data columns (total 11 columns):
 #   Column            Non-Null Count   Dtype  
---  ------            --------------   -----  
 0   airline           300153 non-null  object 
 1   flight            300153 non-null  object 
 2   source_city       300153 non-null  object 
 3   departure_time    300153 non-null  object 
 4   stops             300153 non-null  object 
 5   arrival_time      300153 non-null  object 
 6   destination_city  300153 non-null  object 
 7   flight_class      300153 non-null  object 
 8   duration          300153 non-null  float64
 9   days_left         300153 non-null  int64  
 10  price             300153 non-null  int64  
dtypes: float64(1), int64(2), object(8)
memory usage: 25.2+ MB


##### Memanggil kembali method info() untuk melihat bahwa kolom 'Unnamed' telah terhapus dan kolom 'flight' berubah nama menjadi 'flight_name'

## Preprocessing

#### 1. Mengubah Data Kategori menjadi Numerik

In [9]:
# Kolom : airline
data.airline = data.airline.replace(
    {
        'Vistara' : 1,
        'Air_India' : 2,
        'Indigo' : 3,
        'GO_FIRST' : 4,
        'AirAsia': 5,
        'SpiceJet' : 6  
    }
)

##### Diketahui bahwa kolom airline berisi data-data dengan bentuk kategori (tipe data String). Untuk itu perlu mengubah data yang awalnya kategori menjadi numerik. 

##### Caranya dengan mengubah setiap data pada kolom airline menjadi suatu nilai dengan tipe data integer. Jenis airline Vistara diubah menjadi angka 1, dengan kata lain '1' mewakili airline vistara. Begitu juga dengan data/jenis airline lainnya, diubah menjadi suatu nilai/angka seperti pada code di atas. 

In [10]:
# Kolom: source_city
data.source_city = data.source_city.replace(
    {
        'Delhi' : 1,
        'Mumbai' : 2,
        'Bangalore' : 3,
        'Kolkata' : 4,
        'Hyderabad'  : 5,
        'Chennai' : 6
    }
)

##### Seperti pada kolom sebelumnya, kolom source_city yang berisi kategori diubah juga menjadi numerik

##### Caranya dengan mengubah setiap data pada kolom source_city menjadi suatu nilai dengan tipe data integer. Jenis source_city Delhi diubah menjadi angka 1, dengan kata lain '1' mewakili source_city Delhi. Begitu juga dengan data/jenis source_city lainnya, diubah menjadi suatu nilai/angka seperti pada code di atas. 

In [11]:
# Kolom: departure_time
data.departure_time = data.departure_time.replace(
    {
        'Morning' : 1,
        'Early_Morning' : 2, 
        'Evening' : 3,
        'Night' : 4,
        'Afternoon' : 5, 
        'Late_Night' : 6
    }
)

##### Seperti pada kolom-kolom sebelumnya, kolom departure_time yang berisi kategori diubah juga menjadi numerik

##### Caranya dengan mengubah setiap data pada kolom departure_time menjadi suatu nilai dengan tipe data integer. Jenis departure_time Morning diubah menjadi angka 1, dengan kata lain '1' mewakili departure_time Morning. Begitu juga dengan data/jenis departure_time lainnya, diubah menjadi suatu nilai/angka seperti pada code di atas. 

In [12]:
# Kolom: stops
data.stops = data.stops.replace(
    {
        'one' : 1,
        'zero' : 2,
        'two_or_more' : 3
    }
)

##### Seperti pada kolom-kolom sebelumnya, kolom stops yang berisi kategori diubah juga menjadi numerik

##### Caranya dengan mengubah setiap data pada kolom stops menjadi suatu nilai dengan tipe data integer. Jenis stops one diubah menjadi angka 1, dengan kata lain '1' mewakili stops one. Begitu juga dengan data/jenis stops lainnya, diubah menjadi suatu nilai/angka seperti pada code di atas. 

In [13]:
# Kolom: arrival_time
data.arrival_time = data.arrival_time.replace(
    {
        'Night' : 1,
        'Evening' : 2,
        'Morning' : 3,
        'Afternoon' : 4,
        'Early_Morning' : 5,
        'Late_Night' : 6
    }
)

##### Seperti pada kolom-kolom sebelumnya, kolom arrival_time yang berisi kategori diubah juga menjadi numerik

##### Caranya dengan mengubah setiap data pada kolom arrival_time menjadi suatu nilai dengan tipe data integer. Jenis arrival_time Night diubah menjadi angka 1, dengan kata lain '1' mewakili arrival_time Night. Begitu juga dengan data/jenis arrival_time lainnya, diubah menjadi suatu nilai/angka seperti pada code di atas. 

In [14]:
# Kolom: destination_city
data.destination_city = data.destination_city.replace(
    {
        'Mumbai' : 1,
        'Delhi' : 2,
        'Bangalore' : 3,
        'Kolkata' : 4,
        'Hyderabad' : 5,
        'Chennai' : 6
    }
)

##### Seperti pada kolom-kolom sebelumnya, kolom destination_city yang berisi kategori diubah juga menjadi numerik

##### Caranya dengan mengubah setiap data pada kolom destination_city menjadi suatu nilai dengan tipe data integer. Jenis destination_city Mumbai diubah menjadi angka 1, dengan kata lain '1' mewakili destination_city Mumbai. Begitu juga dengan data/jenis destination_city lainnya, diubah menjadi suatu nilai/angka seperti pada code di atas. 

In [15]:
# Kolom: flight_class
data.flight_class = data.flight_class.replace(
    {
        'Economy' : 1,
        'Business' :2
    }
)

##### Seperti pada kolom-kolom sebelumnya, kolom flight_class yang berisi kategori diubah juga menjadi numerik

##### Caranya dengan mengubah setiap data pada kolom flight_class menjadi suatu nilai dengan tipe data integer. Jenis flight_class Economy diubah menjadi angka 1, dengan kata lain '1' mewakili flight_class Economy. Begitu juga dengan data/jenis flight_class lainnya, diubah menjadi suatu nilai/angka seperti pada code di atas. 

In [16]:
data.describe()

Unnamed: 0,airline,source_city,departure_time,stops,arrival_time,destination_city,flight_class,duration,days_left,price
count,300153.0,300153.0,300153.0,300153.0,300153.0,300153.0,300153.0,300153.0,300153.0,300153.0
mean,2.153072,3.201487,2.794901,1.20848,2.498846,3.268316,1.311464,12.221021,26.004751,20889.660523
std,1.348357,1.684757,1.401659,0.503533,1.407841,1.688644,0.463093,7.191997,13.561004,22697.767366
min,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.83,1.0,1105.0
25%,1.0,2.0,2.0,1.0,1.0,2.0,1.0,6.83,15.0,4783.0
50%,2.0,3.0,3.0,1.0,2.0,3.0,1.0,11.25,26.0,7425.0
75%,3.0,5.0,4.0,1.0,3.0,5.0,2.0,16.17,38.0,42521.0
max,6.0,6.0,6.0,3.0,6.0,6.0,2.0,49.83,49.0,123071.0


##### Setelah diubah menjadi numerik, untuk menampilkan ringkasan statistik deskriptif untuk kolom-kolom numerik di DataFrame, digunakan method describe()

In [17]:
data.drop(columns='flight', inplace=True)

##### Kolom flight dihapus dari DataFrame karena bertindak kolom ini bertindak seperti ID dan tidak diperlukan untuk pemodelan.

In [18]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300153 entries, 0 to 300152
Data columns (total 10 columns):
 #   Column            Non-Null Count   Dtype  
---  ------            --------------   -----  
 0   airline           300153 non-null  int64  
 1   source_city       300153 non-null  int64  
 2   departure_time    300153 non-null  int64  
 3   stops             300153 non-null  int64  
 4   arrival_time      300153 non-null  int64  
 5   destination_city  300153 non-null  int64  
 6   flight_class      300153 non-null  int64  
 7   duration          300153 non-null  float64
 8   days_left         300153 non-null  int64  
 9   price             300153 non-null  int64  
dtypes: float64(1), int64(9)
memory usage: 22.9 MB


##### Memanggil kembali method info() untuk melihat bahwa kolom 'fligt' telah didrop atau terhapus

#### 2. Normalisasi Data

In [19]:
x_temp = data.drop(columns='price') 
y = data.price

##### Code di atas berisi pendefinisian variabel x_temp sebagai atribut dan y sebagai label/target, dimana x_temp berisi semua kolom kecuali kolom 'price'(kolom 'price didrop/dihapus dari DataFrame'), karena kolom 'price' digunakan sebagai label/target. Kolom y berisi kolom 'price'

In [20]:
scaler = MinMaxScaler().fit_transform(x_temp)
x = pd.DataFrame(scaler, columns=x_temp.columns)

##### Code di atas digunakan untuk melakukan normalisasi data dengan skala minimum-maksimum menggunakan MinMaxScaler dari library scikit-learn.

##### MinMaxScaler mengubah skala fitur-fitur dalam x_temp sehingga nilainya berada dalam rentang [0, 1].

##### Kemudian variabel x menampung DataFrame yang  berisi data x_temp yang telah dinormalisasi.

In [21]:
x.describe().T[['min', 'mean', 'std', '50%', 'max']].style.background_gradient(axis=1)

Unnamed: 0,min,mean,std,50%,max
airline,0.0,0.230614,0.269671,0.2,1.0
source_city,0.0,0.440297,0.336951,0.4,1.0
departure_time,0.0,0.35898,0.280332,0.4,1.0
stops,0.0,0.10424,0.251766,0.0,1.0
arrival_time,0.0,0.299769,0.281568,0.2,1.0
destination_city,0.0,0.453663,0.337729,0.4,1.0
flight_class,0.0,0.311464,0.463093,0.0,1.0
duration,0.0,0.23247,0.146775,0.212653,1.0
days_left,0.0,0.520932,0.282521,0.520833,1.0


##### Code di atas berfungsi menampilkan nilai statistik (min, mean, standar deviasi, 50%/median, dan max) setelah data dinormalisasi

In [22]:
main_x = x.copy()
print(main_x)

        airline  source_city  departure_time  stops  arrival_time  \
0           1.0          0.0             0.4    0.5           0.0   
1           1.0          0.0             0.2    0.5           0.4   
2           0.8          0.0             0.2    0.5           0.8   
3           0.0          0.0             0.0    0.5           0.6   
4           0.0          0.0             0.0    0.5           0.4   
...         ...          ...             ...    ...           ...   
300148      0.0          1.0             0.0    0.0           0.2   
300149      0.0          1.0             0.8    0.0           0.0   
300150      0.0          1.0             0.2    0.0           0.0   
300151      0.0          1.0             0.2    0.0           0.2   
300152      0.0          1.0             0.0    0.0           0.2   

        destination_city  flight_class  duration  days_left  
0                    0.0           0.0  0.027347        0.0  
1                    0.0           0.0  0.03061

##### Method copy() pada code di atas berfungsi membuat salinan dari DataFrame x dan disimpan di variabel yang disebut main_x. 

##### Fungsi copy() pada DataFrame digunakan untuk membuat salinan yang terpisah dari DataFrame asli sehingga perubahan yang dilakukan pada main_x tidak akan mempengaruhi x dan sebaliknya. Ini penting untuk menjaga integritas data asli sambil melakukan manipulasi atau analisis pada salinan data.

## Modelling

#### Membagi Train Sets dan Test Sets

In [23]:
x_train, x_test, y_train, y_test = train_test_split(main_x, y, test_size=0.2, random_state=0)

print("x_train: ", x_train)
print("y_train: ", y_train)
print("x_test: ", x_test)
print("y_test: ", y_test) 

x_train:          airline  source_city  departure_time  stops  arrival_time  \
8891        0.0          0.0             0.8    0.0           0.4   
273375      0.0          0.6             0.2    0.0           0.0   
229182      0.0          0.2             0.4    0.5           0.0   
38568       0.6          0.0             1.0    0.0           0.8   
218311      0.2          0.0             0.0    0.0           0.4   
...         ...          ...             ...    ...           ...   
211543      0.2          0.0             0.0    0.5           0.4   
86293       0.0          0.4             0.0    0.0           0.0   
122579      0.6          0.6             0.4    0.0           1.0   
152315      0.2          0.6             0.8    0.0           0.8   
117952      0.0          0.4             0.6    0.0           0.2   

        destination_city  flight_class  duration  days_left  
8891                 0.0           0.0  0.375918   0.895833  
273375               1.0           1.

##### Code di atas berfungsi untuk membagi data baik variabel x (atribut) maupun variabel y (label/target) menjadi training dan testing sets. Pembagiannya yaitu 20% data dijadikan sebagai test sets, sehingga sisanya yaitu 80% dari data dijakan sebagai train sets. Random_state digunakan untuk memastikan bahwa pembagian data konsisten dan dapat direproduksi setiap kali kode dijalankan


#### Desicion Tree menggunakan Cross Validation


In [24]:
X, y = data.drop(columns='price'), data['price']
clf = DecisionTreeClassifier(random_state=42)
k_folds = KFold(n_splits=5, shuffle=True, random_state=42)

for train_index, test_index in k_folds.split(X):
    X_train, X_test = X.iloc[train_index], X.iloc[test_index]
    y_train, y_test = y.iloc[train_index], y.iloc[test_index]

    clf.fit(X_train, y_train)
    y_pred = clf.predict(X_test)
    r2 = metrics.r2_score(y_test, y_pred)
    print(f'Cross Validation Score: {r2:.3f}')

Cross Validation Score: 0.976
Cross Validation Score: 0.977
Cross Validation Score: 0.976
Cross Validation Score: 0.977
Cross Validation Score: 0.977


##### Code di atas befungsi untuk melakukan cross-validation menggunakan K-Fold dengan 5 fold pada model decision tree. Data dibagi menjadi train dan test sets untuk setiap fold, kemudian model dilatih dan diuji, dan skor cross validation dicetak untuk setiap fold. Hal tsb berfungsi untuk mengevaluasi kinerja model secara lebih robust dan menghindari overfitting.