## Deskripsi Proyek

Operator seluler Megaline merasa tidak puas karena sebagian besar pelanggan mereka masih menggunakan paket lama. Perusahaan tersebut ingin mengembangkan sebuah model yang bisa menganalisis perilaku konsumen dan merekomendasikan salah satu dari kedua paket terbaru Megaline: Smart atau Ultra.
Data yang dapat diakses adalah data untuk perilaku para pelanggan yang sudah beralih ke paket terbaru (dari proyek kursus Analisis Data Statistik). Dalam tugas klasifikasi ini, perlu pengembangan sebuah model yang mampu memilih paket dengan tepat.
Kembangkan sebuah model dengan tingkat accuracy yang setinggi-tingginya. Di proyek ini, ambang batas untuk tingkat accuracy adalah 0,75 dan Jangan lupa untuk memeriksa tingkat accuracy model menggunakan test dataset.

## Deskripsi Data

- `сalls` — jumlah panggilan
- `minutes` — total durasi panggilan dalam satuan menit
- `messages` — jumlah pesan teks
- `mb_used` — traffic penggunaan internet dalam satuan MB
- `is_ultimate` — paket untuk bulan yang sedang berjalan (Ultimate - 1, Surf - 0)

## Tahapan

- Tahap 1. Import library
- Tahap 2. Import data & Checking data
- Tahap 3. Pemisahan data
- Tahap 4. Kualitas model
- Tahap 5. Periksa kualitas Model
- Tahap 6. Sanity Check


## Tahap 1. Import library

Import library yang akan digunakan

In [1]:
import pandas as pd

# model
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression

# split data
from sklearn.model_selection import train_test_split

# cek akurasi
from sklearn.metrics import accuracy_score


## Tahap 2. Import data & Checking data

Data berada di data path berikut:

- /datasets/users_behavior.csv

In [2]:
path = '/datasets/users_behavior.csv'
data = pd.read_csv(path)
data.head()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


In [3]:
data.shape

(3214, 5)

In [4]:
data['is_ultra'].value_counts() / data.shape[0] * 100

0    69.352831
1    30.647169
Name: is_ultra, dtype: float64

**Kesimpulan**

Terdapat 5 kolom yang berbeda, 4 kolom sebagai fitur dan satu kolom sebagai target. Target yang digunakan adalah kolom `is_ultra`. Persentase yang ada pada kolom target memiliki nilai yang cukup besar perbedaannya atau dengan kata lain pada kolom target terdapat ketidak seimbangan data. Untuk nilai 0 (bukan ultra) berkisar hingga 70% sedangkan nilai 1 (ultra) berkisar 30%.  

## Tahap 3. Pemisahan data

Data yang ada dipisahkan ke dalam 3 bagian data yaitu:
- training set
- validation set
- test set

Dengan mengunakan train_test_split data dapat di pisahkan menjadi 3 bagian dengan porsi terbesar berada pada training set.

In [5]:
train_valid, test = train_test_split(data, test_size=0.1) 
train, valid = train_test_split(train_valid, test_size=0.1) 

train.shape, valid.shape, test.shape

((2602, 5), (290, 5), (322, 5))

Data telah dipisahkan dengan kedalam 3 bagian yaitu train, valid, dan test. Dari ke 3 bagian data tersebut pisahkan fitur dan target. Sesuai dengan keterangan sebelumnya, 4 kolom sebagai fitur dan kolom `is_ultra` sebagai target.

In [6]:
# training set, validation set, dan test set.

features_train = train.drop(['is_ultra'], axis=1)
target_train = train['is_ultra']

features_valid = valid.drop(['is_ultra'], axis=1)
target_valid = valid['is_ultra']

features_test = test.drop(['is_ultra'], axis=1)
target_test = test['is_ultra']

In [7]:
print(features_train.shape, target_train.shape)
print(features_valid.shape, target_valid.shape)
print(features_test.shape, target_test.shape)

(2602, 4) (2602,)
(290, 4) (290,)
(322, 4) (322,)


**Kesimpulan**

Ada beberapa catatan dari langkah yang telah dilakukan diatas, diantaranya:
1. - features_train menyimpan fitur untuk training set.
   - target_train menyimpan target untuk training set.
2. - features_valid menyimpan fitur untuk validation set.
   - target_valid menyimpan target untuk validation set.
3. - features_test menyimpan fitur untuk test set.
   - target_test menyimpan target untuk test set.

## Tahap 4. Kualitas model

Pada tahap ini mari buat kualitas model yang berbeda. Sesuai intruksi yang ada yaitu gunkan beberapa model lalu dengan model tersebut coba ruubah hyperparameter nya. Langkah berikutnya yaitu jelaskan secara singkat semua temuan yang didapatkan dari penelitian ini.

Model yang akan digunakan pada penelitian kali ini yaitu:
1. Logistic Regression.
2. Decision Tree Classifier.
3. Random Forest Classifier.

Untuk memudahkan langkah yang akan dilakukan, maka perlu sebuah fungsi untuk mempermudah perubahan dari hyperparameter.

### Logistic Regression

Pada model sklearn.linear_model.LogisticRegression, hyperparameter yang akan dirubah adalah penalty nya. MAri buat fungsi untuk memudahkan penelitian ini. 

In [8]:
list_penalty = ['l1', 'l2']

for penalty in list_penalty:
    logreg = LogisticRegression(random_state=1234, penalty=penalty, solver='liblinear')
    logreg.fit(features_train, target_train)
    
    #prediksi data training
    pred_train_logreg = logreg.predict(features_train)
    print(f'Training-Set')
    print(f'penalty: {penalty}')
    print(f'Accuracy Score: {accuracy_score(target_train, pred_train_logreg)}')
    
    #prediksi data valid
    pred_valid_logreg = logreg.predict(features_valid)
    print(f'Validation-Set')
    print(f'penalty: {penalty}')
    print(f'Accuracy Score: {accuracy_score(target_valid, pred_valid_logreg)}')
    
    print('--------------------------------------')

Training-Set
penalty: l1
Accuracy Score: 0.7455803228285934
Validation-Set
penalty: l1
Accuracy Score: 0.7275862068965517
--------------------------------------
Training-Set
penalty: l2
Accuracy Score: 0.708685626441199
Validation-Set
penalty: l2
Accuracy Score: 0.6689655172413793
--------------------------------------


**Kesimpulan**

Dari data yang ditampilkan diatas, didapat kesimpulan bahwa pada model Logistic Regression nilai dari accuracy score pada training set dan validation set tertinggi berada pada penalty yang di set di l1. Penalty yang di set di l1 memiliki accuracy score yang hampir mirip pada training set dan validation set.

### Decision Tree Classifier

Mari lanjut ke model berikutnya. Pada model sklearn.tree.DecisionTreeRegressor, hyperparameter yang akan dirubah adalah nilai dari max_depth nya. Mari buat fungsi untuk memudahkan penelitian ini.

In [9]:
list_max_depth = [2,3,4,5,6]

for depth in list_max_depth:
    dtree = DecisionTreeClassifier(random_state=1234, max_depth=depth)
    dtree.fit(features_train, target_train)
    
    #prediksi data training
    pred_train_dtree = dtree.predict(features_train)
    print(f'Training-Set')
    print(f'Max-depth: {depth}')
    print(f'Accuracy Score: {accuracy_score(target_train, pred_train_dtree)}')
    
    #prediksi data valid
    pred_valid_dtree = dtree.predict(features_valid)
    print(f'Validation-Set')
    print(f'Max-depth: {depth}')
    print(f'Accuracy Score: {accuracy_score(target_valid, pred_valid_dtree)}')
    
    print('--------------------------------------')

Training-Set
Max-depth: 2
Accuracy Score: 0.7851652574942352
Validation-Set
Max-depth: 2
Accuracy Score: 0.7586206896551724
--------------------------------------
Training-Set
Max-depth: 3
Accuracy Score: 0.7963105303612605
Validation-Set
Max-depth: 3
Accuracy Score: 0.7862068965517242
--------------------------------------
Training-Set
Max-depth: 4
Accuracy Score: 0.8020753266717909
Validation-Set
Max-depth: 4
Accuracy Score: 0.7793103448275862
--------------------------------------
Training-Set
Max-depth: 5
Accuracy Score: 0.818216756341276
Validation-Set
Max-depth: 5
Accuracy Score: 0.7931034482758621
--------------------------------------
Training-Set
Max-depth: 6
Accuracy Score: 0.8259031514219831
Validation-Set
Max-depth: 6
Accuracy Score: 0.7827586206896552
--------------------------------------


**Kesimpulan**

Dari data yang ditampilkan diatas, didapat kesimpulan bahwa model Decision Tree mimiliki nilai accuracy score yang beragam sesuao dengan max depth yang di setting. Nilai accuracy score tertinggi berada pada max depth 6, baik itu training set maupun validation set, nilai accuracy score pada max depth ini adalah yang tertinggi. 

### Random Forest Classifier.

Mari lanjut ke model terakhir. Pada model sklearn.ensemble.RandomForestClassifier, hyperparameter yang akan dirubah adalah nilai dari max_depth nya. Mari buat fungsi untuk memudahkan penelitian ini.

In [10]:
list_max_depth = [2,3,4,5,6]

for depth in list_max_depth:
    rf = RandomForestClassifier(random_state=1234, max_depth=depth)
    rf.fit(features_train, target_train)
    
    #prediksi data training
    pred_train_rf = rf.predict(features_train)
    print(f'Training-Set')
    print(f'Max-depth: {depth}')
    print(f'Accuracy Score: {accuracy_score(target_train, pred_train_rf)}')
    
    #prediksi data valid
    pred_valid_rf = rf.predict(features_valid)
    print(f'Validation-Set')
    print(f'Max-depth: {depth}')
    print(f'Accuracy Score: {accuracy_score(target_valid, pred_valid_rf)}')
    
    print('--------------------------------------')

Training-Set
Max-depth: 2
Accuracy Score: 0.7851652574942352
Validation-Set
Max-depth: 2
Accuracy Score: 0.7586206896551724
--------------------------------------
Training-Set
Max-depth: 3
Accuracy Score: 0.7974634896233667
Validation-Set
Max-depth: 3
Accuracy Score: 0.7793103448275862
--------------------------------------
Training-Set
Max-depth: 4
Accuracy Score: 0.8105303612605688
Validation-Set
Max-depth: 4
Accuracy Score: 0.7862068965517242
--------------------------------------
Training-Set
Max-depth: 5
Accuracy Score: 0.818216756341276
Validation-Set
Max-depth: 5
Accuracy Score: 0.7931034482758621
--------------------------------------
Training-Set
Max-depth: 6
Accuracy Score: 0.8297463489623367
Validation-Set
Max-depth: 6
Accuracy Score: 0.7931034482758621
--------------------------------------


**Kesimpulan**

Dari data yang ditampilkan diatas, didapat kesimpulan bahwa pada model Random Forest, nilai accuracy score yang di tampilkan cukup beragam sesuai dengan max depth yang di setting. Nilai accuracy scor tertinggi berada pada max depth 6. Training set dan validation set pada max depth 6 memiliki accuracy score yang tertinggi.

## Tahap 5. Periksa kualitas Model

Dari ke 3 model yang telah di uji sebelumnya, didapat model yang paling baik atau yang memiliki nilai accuracy score tertinggi adalah model Random Forest. Pada model ini nilai accuracy score tertinggi berada dapa max depth yang diset di 6. Sesuai dengan intruksi tugas yag diberikan bahwa ambang batas untuk tingkat accuracy adalah 0,75, maka model ini sudah sesuai atau nilai dari accuracy score nya sudah melampaui dari ambang batas yang diberikan. Oleh karena itu, mari lakukan pemeriksaan model menggunakan model Random Forest dan data yang akan di uji adalah data dari test set.

In [11]:
rf_test = RandomForestClassifier(random_state=1234, max_depth=6)
rf_test.fit(features_test, target_test)

RandomForestClassifier(max_depth=6, random_state=1234)

In [12]:
pred_test_rf = rf_test.predict(features_test)
accuracy_score(target_test, pred_test_rf)

0.9006211180124224

**Kesimpulan**

Dari uji model yang telah dilakukan, didapat model Random Forest dengan max depth 6 yang memiliki nilai accuracy score yang paling tinggi. Accuracy score dari ke 3 data tersebut adalah:
1. Training-Set
   - Max-depth: 6
   - Accuracy Score: 82%
2. Validation-Set
   - Max-depth: 6
   - Accuracy Score: 79%
2. Test-Set
   - Max-depth: 6
   - Accuracy Score: 90%

## Tahap 6. Sanity Check

Pada tahap ini, mari coba menggunkan dummy prediction untuk mengecek tingkat kewarasan dari model yang telah diuji. Dengan menggunakan dummy prediction mari bandingkan dengan tingkat dari accuracy data yang ada. 

In [14]:
data['is_ultra'].value_counts()

0    2229
1     985
Name: is_ultra, dtype: int64

In [15]:
data['is_ultra'].value_counts() / data.shape[0] * 100

0    69.352831
1    30.647169
Name: is_ultra, dtype: float64

In [16]:
data_dummy = data
data_dummy['dummy_predictions'] = 0 

In [22]:
print('Accuracy score dummy:', accuracy_score(data_dummy['is_ultra'], data_dummy['dummy_predictions']))
print('------------------------------------------')
print('Accuracy score model:', accuracy_score(target_test, pred_test_rf))


Accuracy score dummy: 0.693528313627878
------------------------------------------
Accuracy score model: 0.9006211180124224


**Kesimpulan**

Dari hasil yang telah ditampilkan, didapat kesimpulan bahwa model yang telah diuji dan dipilih untuk test set telah melampaui dari nilai accuracy score dummy predictions.

## Kesimpulan

Dari langkah yang telah dilakukan, didapat kesimpulan sebagai berikut:

1. Data yang diuji disimpan kedalm variable data.
2. Data yang ada dibagi menjadi 3 bagian data, yaitu training set, validation set, dan test set.
3. Model yang digunakan pada penelitian kali ini ada 3 model, yaitu Logistic Regression, Decission Tree, dan juga Random Forest.
4. Model yang digunakan pada test set adalah model Random Forest Classifier dengan max depth 6
5. Model Random Forest Classifier dengan max depth 6 yang dilakukan pada test set memiliki accuracy score 90%.
6. Sanity check dilakukan dengan dummy predictions dan didapat accuracy score dari dummy predictions adalah 69%,  