# FIX

In [9]:
# Import library yang dibutuhkan untuk membaca data csv dan seleksi fitur terbaik
import pandas as pd
from sklearn.feature_selection import RFE
from sklearn.ensemble import RandomForestClassifier

# Load data train dan data test
train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')

# Pisahkan fitur dan target
X_train = train.drop('Satisfaction', axis=1)
y_train = train['Satisfaction']
X_test = test.drop('Satisfaction', axis=1)
y_test = test['Satisfaction']

# Encoding fitur kategorik
categorical_cols = ['Gender', 'Customer Type', 'Type of Travel', 'Class']
ft_train = pd.get_dummies(X_train, columns=categorical_cols)
ft_test = pd.get_dummies(X_test, columns=categorical_cols)

# Mengisi data missing value
ft_train.fillna(ft_train.mean(), inplace=True)
ft_test.fillna(ft_test.mean(), inplace=True)

# Inisiasi model classifier
rfc = RandomForestClassifier()

# Inisiasi objek RFE dan fit ke data train
rfe = RFE(estimator=rfc, n_features_to_select=7, step=1)
rfe.fit(ft_train, y_train)

# Fitur yang terpilih
selected_features = ft_train.columns[rfe.support_].tolist()

# Menggabungkan data yang sudah di-encode dengan data target
train_fix = pd.concat([ft_train, y_train], axis=1)
test_fix = pd.concat([ft_test, y_test], axis=1)

# Tampilkan keseluruhan data pada data train
print(train_fix)

# Tampilkan 7 fitur terbaik yang telah diseleksi
print(selected_features)

        Age  Flight Distance  Inflight wifi service  Time convenient  \
0        13              460                      3                4   
1        25              235                      3                2   
2        26             1142                      2                2   
3        25              562                      2                5   
4        61              214                      3                3   
...     ...              ...                    ...              ...   
103899   23              192                      2                1   
103900   49             2347                      4                4   
103901   30             1995                      1                1   
103902   22             1000                      1                1   
103903   27             1723                      1                3   

        Ease of booking  Gate location  Food and drink  Online boarding  \
0                     3              1               5      

# KNN

In [10]:
# Import library untuk mengaplikasikan metode KNN
from sklearn.neighbors import KNeighborsClassifier

# Membuat variabel berisi data fitur dan target
X_train = train_fix[selected_features]
y_train = train_fix['Satisfaction']
X_test = test_fix[selected_features]
y_test = test_fix['Satisfaction']

# Memasukkan nilai k menjadi 3, 5, 7, 9, dan 11 dan menghitung masing-masing akurasi
for k in [3, 5, 7, 9, 11]: # Perulangan untuk masing-masing jumlah K
    knn = KNeighborsClassifier(n_neighbors=k) # Inisiasi model KNN dengan k=3,5,7,9, dan 11
    knn.fit(X_train, y_train) # Training model KNN dengan data train
    acc = knn.score(X_test, y_test) # Menghitung nilai akurasi
    print('Akurasi dengan k={}: {}'.format(k, acc)) # Menampilkan nilai akurasi untuk masing-masing jumlah K

Akurasi dengan k=3: 0.7930012319063752
Akurasi dengan k=5: 0.7935401909454881
Akurasi dengan k=7: 0.790190945488143
Akurasi dengan k=9: 0.7867262088081306
Akurasi dengan k=11: 0.7832229750538959
