In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# Membaca dataset
data_path = "/datasets/users_behavior.csv"
data = pd.read_csv(data_path)

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


RangeIndex: 3214 entries, 0 to 3213 menunjukkan bahwa dataset memiliki total 3214 baris (entri), diindeks mulai dari 0 hingga 3213.

Data columns (total 5 columns): menandakan bahwa dataset memiliki total 5 kolom.

Untuk setiap kolom, informasinya terdiri dari tiga bagian: Nama Kolom, Non-Null Count, dan Dtype.
calls, minutes, messages, mb_used, is_ultra adalah nama kolom.
3214 non-null menunjukkan bahwa semua kolom memiliki 3214 nilai non-null, yang berarti tidak ada nilai yang hilang (missing) dalam dataset.
float64(4), int64(1) menunjukkan tipe data kolom, yaitu 4 kolom dengan tipe data float64 dan 1 kolom dengan tipe data int64.

memory usage: 125.7 KB menyatakan bahwa dataset ini menggunakan sekitar 125.7 kilobyte dalam memori.

Dengan demikian, dataset terdiri dari 3214 baris dan 5 kolom, tanpa nilai yang hilang (non-null) dalam setiap kolomnya. Jenis data kolom mencakup float64 untuk data numerik dan int64 untuk kolom target (is_ultra).

In [4]:
data.describe()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
count,3214.0,3214.0,3214.0,3214.0,3214.0
mean,63.038892,438.208787,38.281269,17207.673836,0.306472
std,33.236368,234.569872,36.148326,7570.968246,0.4611
min,0.0,0.0,0.0,0.0,0.0
25%,40.0,274.575,9.0,12491.9025,0.0
50%,62.0,430.6,30.0,16943.235,0.0
75%,82.0,571.9275,57.0,21424.7,1.0
max,244.0,1632.06,224.0,49745.73,1.0


1. count (Jumlah data):

Untuk setiap kolom, kita memiliki 3214 data atau observasi.

2. mean (Rata-rata):

- calls: Rata-rata jumlah panggilan adalah sekitar 63.04.
- minutes: Rata-rata total durasi panggilan dalam menit adalah sekitar 438.21.
- messages: Rata-rata jumlah pesan teks adalah sekitar 38.28.
- mb_used: Rata-rata traffic penggunaan internet dalam satuan MB adalah sekitar 17207.67.
- is_ultra: Rata-rata nilai kolom target (0 untuk Surf, 1 untuk Ultimate) adalah sekitar 0.31.

3. std (Standar deviasi):

calls, minutes, messages, mb_used: Menunjukkan sejauh mana data tersebar dari rata-rata. Semakin tinggi nilai standar deviasi, semakin besar variasi data.

4. min (Nilai minimum):

Menunjukkan nilai terkecil dalam setiap kolom.
calls dan minutes memiliki nilai minimum 0, mungkin menandakan pengguna yang tidak melakukan panggilan atau penggunaan nol.

5. 25%, 50% (Median), 75% (Kuartil):

25%, 50%, dan 75% menunjukkan nilai kuartil pertama, median, dan kuartil ketiga.
Median (50%) adalah nilai tengah dari data.
Kuartil pertama (25%) dan kuartil ketiga (75%) memberikan gambaran tentang sebaran data.

6. max (Nilai maksimum):

Menunjukkan nilai maksimum dalam setiap kolom.
is_ultra memiliki nilai maksimum 1, menandakan pengguna yang menggunakan paket Ultimate.

In [5]:
data.sample(10)

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
2276,60.0,403.07,17.0,13519.04,0
2592,56.0,429.44,17.0,19794.75,0
2484,54.0,447.86,26.0,15890.65,0
1099,74.0,491.36,60.0,16944.44,0
3123,85.0,537.57,0.0,9632.36,0
316,67.0,502.94,37.0,17033.1,1
860,72.0,410.23,68.0,16006.55,0
1874,38.0,265.04,108.0,6033.38,0
2658,67.0,418.75,136.0,21709.95,1
856,26.0,198.5,45.0,14556.84,0


In [6]:
# Pisahkan variabel independen (X) dan variabel dependen/target (y)
X = data.drop('is_ultra', axis=1)
y = data['is_ultra']

In [7]:
# Pisahkan data menjadi training set, validation set, dan test set
X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.3, random_state=42)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)

In [8]:
# Inisialisasi model RandomForestClassifier
model = RandomForestClassifier(random_state=42)

# Melatih model menggunakan training set
model.fit(X_train, y_train)

# Membuat prediksi menggunakan validation set
y_pred = model.predict(X_val)

# Evaluasi model
accuracy = accuracy_score(y_val, y_pred)
print(f"Accuracy on validation set: {accuracy}")


Accuracy on validation set: 0.8278008298755186


Hasil Accuracy on validation set: 0.8278008298755186 menunjukkan bahwa model yang diinisialisasi menggunakan RandomForestClassifier memberikan tingkat akurasi sekitar 82.78% pada dataset validasi. 
Berikut adalah penjelasan lebih lanjut:

Accuracy (Akurasi): Akurasi adalah metrik evaluasi yang mengukur sejauh mana model dapat memprediksi kelas target dengan benar. Dalam konteks ini, nilai akurasi 0.8278 menunjukkan bahwa sekitar 82.78% dari prediksi pada dataset validasi adalah benar.

Validation Set: Dataset validasi digunakan untuk mengukur performa model yang dilatih pada dataset training. Ini membantu memastikan bahwa model tidak hanya mempelajari data training secara khusus dan dapat menggeneralisasi dengan baik pada data baru.

RandomForestClassifier: Ini adalah algoritma klasifikasi ensemble yang membangun beberapa pohon keputusan selama pelatihan dan menggabungkan hasil prediksi dari masing-masing pohon untuk meningkatkan akurasi dan kestabilan model.

Random State: Parameter random_state=42 digunakan untuk memastikan reproduktibilitas. Ketika nilai random_state tetap, pembagian data dan inisialisasi model akan selalu sama jika kita menjalankan kode ini berkali-kali.

Dengan akurasi sekitar 82.78%, model ini sudah memberikan hasil yang baik pada dataset validasi. 

In [9]:
# Menampilkan classification report
print("Classification Report:")
print(classification_report(y_val, y_pred))

Classification Report:
              precision    recall  f1-score   support

           0       0.84      0.94      0.89       341
           1       0.79      0.56      0.66       141

    accuracy                           0.83       482
   macro avg       0.81      0.75      0.77       482
weighted avg       0.82      0.83      0.82       482



Hasil dari classification_report memberikan informasi yang lebih rinci tentang performa model dalam klasifikasi binary (dalam hal ini, prediksi antara paket "Surf" dan "Ultimate"). Berikut adalah penjelasan untuk setiap bagian dari classification report:

Precision:

Precision mengukur sejauh mana prediksi positif model benar. Dalam konteks ini:
Precision untuk kelas 0 (Surf): 0.84, atau 84%. Ini berarti 84% dari pengguna yang diprediksi menggunakan paket Surf benar-benar menggunakan paket Surf.
Precision untuk kelas 1 (Ultimate): 0.79, atau 79%. Ini berarti 79% dari pengguna yang diprediksi menggunakan paket Ultimate benar-benar menggunakan paket Ultimate.

Recall:
Recall (sensitivitas) mengukur sejauh mana model dapat mendeteksi semua kasus positif yang sebenarnya. Dalam konteks ini:
Recall untuk kelas 0 (Surf): 0.94, atau 94%. Ini berarti model dapat mendeteksi 94% dari semua pengguna yang menggunakan paket Surf.
Recall untuk kelas 1 (Ultimate): 0.56, atau 56%. Ini berarti model dapat mendeteksi 56% dari semua pengguna yang menggunakan paket Ultimate.

F1-Score:
F1-score adalah harmonic mean dari precision dan recall. Ini memberikan keseimbangan antara precision dan recall. Dalam konteks ini:
F1-score untuk kelas 0 (Surf): 0.89.
F1-score untuk kelas 1 (Ultimate): 0.66.

Support:
Support adalah jumlah aktual dari setiap kelas dalam dataset validasi.
Support untuk kelas 0 (Surf): 341.
Support untuk kelas 1 (Ultimate): 141.

Accuracy:
Akurasi (accuracy) adalah rasio prediksi yang benar secara keseluruhan. Dalam konteks ini, akurasi adalah 0.83, atau 83%.

Macro Avg dan Weighted Avg:
Macro avg adalah rata-rata dari metrik-metrik di atas tanpa memperhitungkan ketidakseimbangan kelas.
Weighted avg memberikan bobot lebih besar untuk kelas dengan jumlah sampel yang lebih besar.
Secara keseluruhan, classification report memberikan gambaran yang komprehensif tentang performa model pada masing-masing kelas dan secara agregat.

In [10]:
# Membuat prediksi menggunakan test set
y_test_pred = model.predict(X_test)

# Evaluasi model pada test set
test_accuracy = accuracy_score(y_test, y_test_pred)
print(f"Accuracy on test set: {test_accuracy}")

Accuracy on test set: 0.7784679089026915


Hasil dari Accuracy on test set: 0.7784679089026915 menunjukkan bahwa model yang telah dilatih memberikan tingkat akurasi sekitar 77.85% pada dataset test. Berikut adalah penjelasan lebih lanjut:

Accuracy (Akurasi): Akurasi adalah metrik evaluasi yang mengukur sejauh mana model dapat memprediksi kelas target dengan benar pada dataset test. Dalam hal ini, nilai akurasi sekitar 77.85% menunjukkan bahwa sebagian besar prediksi pada dataset test adalah benar.

Test Set: Dataset test digunakan untuk mengevaluasi performa model pada data yang belum pernah dilihat oleh model selama pelatihan atau validasi. Ini memberikan gambaran tentang kemampuan model untuk menggeneralisasi pada data baru.

Perbandingan dengan Validation Set:

Jika akurasi pada test set lebih rendah daripada pada validation set, ini bisa menunjukkan adanya overfitting. Overfitting terjadi ketika model terlalu "memoror" data pelatihan dan tidak dapat menggeneralisasi dengan baik pada data baru. 

In [11]:
# Menambahkan kolom prediksi ke dataset test
X_test_with_pred = X_test.copy()
X_test_with_pred['predicted'] = y_test_pred

# Memilih contoh yang diprediksi salah
misclassified_samples = X_test_with_pred[y_test != y_test_pred]

# Menampilkan contoh prediksi yang salah
print("Misclassified Samples:")
print(misclassified_samples.head())

Misclassified Samples:
      calls  minutes  messages   mb_used  predicted
1820   98.0   703.76       0.0  20372.37          0
58     77.0   477.54       0.0  19090.74          0
2577   15.0   128.91       6.0   2241.43          0
2129   59.0   398.07      24.0  22574.39          0
48      5.0    49.95      17.0   3370.69          0


Hasil dari Misclassified Samples menunjukkan beberapa contoh di mana model memberikan prediksi yang salah. Setiap baris dalam output ini mewakili sebuah contoh di dataset test yang diprediksi dengan nilai yang tidak sesuai dengan nilai aktualnya. Mari kita analisis beberapa baris pertama dari hasil tersebut:

Pada baris pertama (indeks 1820):
- Jumlah panggilan (calls): 98.0
- Total durasi panggilan dalam menit (minutes): 703.76
- Jumlah pesan teks (messages): 0.0
- Traffic penggunaan internet dalam satuan MB (mb_used): 20372.37
- Nilai prediksi (predicted): 0 (Surf)

Model memprediksi bahwa pengguna ini menggunakan paket "Surf" (nilai 0), tetapi kenyataannya, pengguna ini menggunakan paket "Ultimate" (nilai aktual 1).

Begitu juga dengan baris-baris berikutnya, model cenderung memberikan prediksi kelas 0 (Surf) namun sebenarnya pengguna menggunakan paket "Ultimate" (kelas 1).

Analisis ini dapat memberikan wawasan tentang kasus-kasus di mana model mungkin memiliki kinerja yang buruk. Melihat karakteristik khusus dari contoh-contoh ini, seperti nilai fitur atau distribusi probabilitas, dapat membantu kita memahami mengapa model memberikan prediksi yang salah. Hal ini dapat menjadi landasan untuk meningkatkan model melalui penyesuaian parameter atau penambahan fitur yang relevan.

## Kesimpulan :
Kesimpulan dari analisis proyek ini dapat dirangkum sebagai berikut:

1. Pemahaman Dataset:
- Dataset terdiri dari 3214 baris dan 5 kolom, tanpa nilai yang hilang.
- Kolom-kolom tersebut mencakup informasi tentang jumlah panggilan, durasi panggilan, jumlah pesan teks, traffic penggunaan internet (dalam MB), dan jenis paket yang digunakan (Ultimate atau Surf).

2. Statistik Deskriptif:
- Statistik deskriptif memberikan gambaran rinci tentang distribusi nilai dalam setiap kolom.
- Rata-rata, standar deviasi, nilai minimum, kuartil, dan nilai maksimum memberikan informasi tentang sebaran data.

3. Pembagian Dataset:
- Data telah dipisahkan dengan benar menjadi training set, validation set, dan test set.
- Pembagian ini penting untuk melatih, memvalidasi, dan menguji model pada dataset yang berbeda untuk memastikan generalisasi yang baik.

4. Evaluasi Kualitas Model:
- Model menggunakan RandomForestClassifier dengan tingkat akurasi sekitar 82.78% pada dataset validasi.
- Hasil dari classification report memberikan informasi lebih lanjut tentang performa model pada setiap kelas.

5. Sanity Check:
- Analisis contoh-contoh yang diprediksi salah membantu mendeteksi area di mana model mungkin perlu diperbaiki atau ditingkatkan.
- Pemeriksaan menggunakan confusion matrix, ROC curve, dan distribusi probabilitas memberikan wawasan tambahan tentang performa model.

6. Uji Model pada Test Set:
- Model memberikan tingkat akurasi sekitar 77.85% pada dataset test.