<a href="https://colab.research.google.com/github/rinnarachma/latihan-DA/blob/main/RINNA_RACHMATIKA_DA_TUGAS_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **MODEL SUPERVISED LEARNING - PREDIKSI CHURN PELANGGAN**

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [None]:
# Memuat dataset
url = "https://drive.google.com/uc?export=download&id=1SEpVMpj5HFlqmlzqQE8Yt7Q6tzCMBiNt"
data = pd.read_csv(url)

In [None]:
# Preprocessing data
# Menghapus kolom yang tidak diperlukan untuk pemodelan
data.drop(columns=['RowNumber', 'CustomerId', 'Surname'], inplace=True)

In [None]:
# Melakukan encoding pada variabel kategori
data = pd.get_dummies(data, columns=['Geography', 'Gender'])

In [None]:
# Memisahkan fitur dan label
X = data.drop(columns=['Exited'])
y = data['Exited']

In [None]:
# Membagi data menjadi set pelatihan dan pengujian
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Model Random Forest
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)
rf_pred = rf_model.predict(X_test)

# Evaluasi model Random Forest
print("Random Forest Classifier:")
print("Accuracy:", accuracy_score(y_test, rf_pred))
print("Classification Report:\n", classification_report(y_test, rf_pred))
print("Confusion Matrix:\n", confusion_matrix(y_test, rf_pred))

Random Forest Classifier:
Accuracy: 0.865
Classification Report:
               precision    recall  f1-score   support

           0       0.88      0.96      0.92      1607
           1       0.75      0.47      0.58       393

    accuracy                           0.86      2000
   macro avg       0.82      0.72      0.75      2000
weighted avg       0.86      0.86      0.85      2000

Confusion Matrix:
 [[1546   61]
 [ 209  184]]


In [None]:
# Model Gradient Boosting
gb_model = GradientBoostingClassifier(n_estimators=100, random_state=42)
gb_model.fit(X_train, y_train)
gb_pred = gb_model.predict(X_test)

# Evaluasi model Gradient Boosting
print("\nGradient Boosting Classifier:")
print("Accuracy:", accuracy_score(y_test, gb_pred))
print("Classification Report:\n", classification_report(y_test, gb_pred))
print("Confusion Matrix:\n", confusion_matrix(y_test, gb_pred))


Gradient Boosting Classifier:
Accuracy: 0.864
Classification Report:
               precision    recall  f1-score   support

           0       0.88      0.96      0.92      1607
           1       0.74      0.47      0.58       393

    accuracy                           0.86      2000
   macro avg       0.81      0.72      0.75      2000
weighted avg       0.85      0.86      0.85      2000

Confusion Matrix:
 [[1542   65]
 [ 207  186]]


Dari hasil evaluasi terdapat beberapa hal yang dapat diperhatikan:
1. Akurasi: Kedua model, baik Random Forest Classifier maupun Gradient Boosting Classifier, memiliki akurasi yang relatif tinggi, sekitar 86.5% untuk Random Forest dan 86.4% untuk Gradient Boosting. Ini menunjukkan bahwa secara keseluruhan, model-model tersebut mampu memprediksi dengan baik sebagian besar kasus.
2. Precision, Recall, dan F1-Score: Ketika melihat hasil dari kelas positif (churn), kita bisa melihat bahwa precision (presisi) dan recall (sensitivitas) untuk kelas positif (1) cenderung lebih rendah dibandingkan dengan kelas negatif (0). Hal ini menunjukkan bahwa model memiliki kecenderungan untuk memprediksi dengan baik ketika data sebenarnya adalah kelas negatif, namun kurang akurat dalam memprediksi kelas positif.
3. Confusion Matrix: Dari confusion matrix, kita bisa melihat bahwa jumlah False Negative (FN) cukup tinggi, terutama dalam memprediksi pelanggan yang akan churn (kelas 1). Ini berarti ada sejumlah pelanggan yang sebenarnya akan churn, tetapi diprediksi tidak akan churn oleh model. Hal ini menjadi penting karena dalam bisnis, memprediksi churn dengan baik penting untuk mengambil tindakan yang tepat untuk mempertahankan pelanggan.
4. Perbandingan antara Model: Secara keseluruhan, kedua model memiliki performa yang serupa dalam hal akurasi dan evaluasi klasifikasi lainnya. Namun, Random Forest Classifier memiliki recall yang sedikit lebih tinggi untuk kelas 1 (recall 0.47) dibandingkan dengan Gradient Boosting Classifier (recall 0.47), yang berarti Random Forest mungkin sedikit lebih baik dalam mengidentifikasi pelanggan yang akan churn. Namun, perbedaan ini tidak signifikan secara statistik.

Kesimpulan: Meskipun kedua model menunjukkan performa yang relatif baik, masih ada ruang untuk meningkatkan kemampuan mereka dalam memprediksi churn, terutama dalam mengurangi jumlah False Negative (FN). Mungkin perlu dilakukan penyetelan parameter lebih lanjut, pemilihan fitur yang lebih baik, atau penggunaan teknik penanganan ketidakseimbangan kelas untuk meningkatkan performa model dalam kasus ini.


# **CROSS VALIDATION**

##**Random Forest**

In [None]:
import pandas as pd
from sklearn.model_selection import cross_val_score, train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [None]:
# Memuat dataset
url = "https://drive.google.com/uc?export=download&id=1SEpVMpj5HFlqmlzqQE8Yt7Q6tzCMBiNt"
data = pd.read_csv(url)

In [None]:
# Select features and target variable
features = ['CreditScore', 'Age', 'Tenure', 'Balance', 'NumOfProducts',
            'HasCrCard', 'IsActiveMember', 'EstimatedSalary']
target = 'Exited'

X = data[features]
y = data[target]

In [None]:
# Initialize Random Forest classifier
rf_classifier = RandomForestClassifier(n_estimators=100, random_state=42)

In [None]:
# Perform cross-validation
cv_scores = cross_val_score(rf_classifier, X, y, cv=5)

# Print cross-validation scores
print("Cross-Validation Scores:", cv_scores)
print("Mean CV Score:", cv_scores.mean())

Cross-Validation Scores: [0.8515 0.8615 0.853  0.857  0.8505]
Mean CV Score: 0.8547


## **Gradient Bosting**

In [None]:
import pandas as pd
from sklearn.model_selection import cross_val_score, train_test_split
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [None]:
# Memuat dataset
url = "https://drive.google.com/uc?export=download&id=1SEpVMpj5HFlqmlzqQE8Yt7Q6tzCMBiNt"
data = pd.read_csv(url)

In [None]:
# Select features and target variable
features = ['CreditScore', 'Age', 'Tenure', 'Balance', 'NumOfProducts',
            'HasCrCard', 'IsActiveMember', 'EstimatedSalary']
target = 'Exited'

X = data[features]
y = data[target]

In [None]:
# Initialize Gradient Boosting classifier
gb_classifier = GradientBoostingClassifier(n_estimators=100, random_state=42)

In [None]:
# Perform cross-validation
cv_scores = cross_val_score(gb_classifier, X, y, cv=5)

# Print cross-validation scores
print("Cross-Validation Scores:", cv_scores)
print("Mean CV Score:", cv_scores.mean())

Cross-Validation Scores: [0.8595 0.8585 0.853  0.8655 0.849 ]
Mean CV Score: 0.8571


Dari hasil cross-validation terdapat beberapa hal yang dapat diamati:
1. Random Forest:
Skor cross-validation untuk Random Forest berkisar antara 0.8515 hingga 0.8615 dengan rata-rata skor sebesar 0.8547. Skor yang konsisten dan relatif stabil di sekitar rata-rata menunjukkan bahwa model memiliki kinerja yang konsisten di seluruh fold cross-validation.
2. Gradient Boosting:
Skor cross-validation untuk Gradient Boosting berkisar antara 0.849 hingga 0.8655 dengan rata-rata skor sebesar 0.8571. Skor yang lebih bervariasi dalam rentang yang lebih besar mungkin menunjukkan bahwa model lebih sensitif terhadap variasi dalam data atau mungkin lebih rentan terhadap overfitting.

Perbandingan:
Secara umum, Gradient Boosting memiliki sedikit skor rata-rata cross-validation yang lebih tinggi dibandingkan dengan Random Forest, menunjukkan bahwa Gradient Boosting mungkin memiliki kinerja yang sedikit lebih baik dalam kasus ini. Namun, perbedaan skor rata-rata antara kedua model tidak signifikan secara statistik. Oleh karena itu, keputusan untuk memilih model tergantung pada preferensi pribadi, kebutuhan bisnis, dan evaluasi lebih lanjut seperti evaluasi performa pada data uji yang belum pernah dilihat sebelumnya.

Pertimbangan Tambahan:
Penting untuk mempertimbangkan trade-off antara kinerja dan kompleksitas model. Gradient Boosting cenderung lebih kompleks dan memerlukan waktu komputasi yang lebih lama dibandingkan dengan Random Forest. Selain itu, faktor-faktor seperti interpretabilitas model, kebutuhan akan penanganan ketidakseimbangan kelas, dan sifat data dapat memengaruhi pilihan model yang tepat. Dengan demikian, meskipun Gradient Boosting menunjukkan sedikit kinerja yang lebih baik dalam cross-validation, tetapi keputusan akhir untuk memilih model harus didasarkan pada evaluasi yang komprehensif dan pertimbangan praktis yang sesuai dengan kebutuhan kebutuhan user.

## **Uji Cross-validation dengan menggunakan accuracy untuk setiap fold**

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import cross_val_predict
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from scipy.stats import ttest_rel, friedmanchisquare

In [None]:
# Memuat dataset
url = "https://drive.google.com/uc?export=download&id=1SEpVMpj5HFlqmlzqQE8Yt7Q6tzCMBiNt"
data = pd.read_csv(url)

In [None]:
# Memilih fitur-fitur dan variabel target
features = ['CreditScore', 'Age', 'Tenure', 'Balance', 'NumOfProducts',
            'HasCrCard', 'IsActiveMember', 'EstimatedSalary']
target = 'Exited'

X = data[features]
y = data[target]

In [None]:
# Inisialisasi model-model
rf_classifier = RandomForestClassifier(n_estimators=100, random_state=42)
gb_classifier = GradientBoostingClassifier(n_estimators=100, random_state=42)

In [None]:
# Standarisasi data
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

In [None]:
# Melakukan cross-validation 10 fold dan mendapatkan label prediksi
rf_predicted = cross_val_predict(rf_classifier, X_scaled, y, cv=10)
gb_predicted = cross_val_predict(gb_classifier, X_scaled, y, cv=10)

In [None]:
# Menghitung akurasi untuk setiap fold
rf_accuracy_per_fold = accuracy_score(y, rf_predicted)
gb_accuracy_per_fold = accuracy_score(y, gb_predicted)

In [None]:
# Melakukan uji t yang berpasangan
t_statistic, p_value = ttest_rel(rf_accuracy_per_fold, gb_accuracy_per_fold)

print("Random Forest Accuracy per Fold:", rf_accuracy_per_fold)
print("Gradient Boosting Accuracy per Fold:", gb_accuracy_per_fold)
print("Paired t-test p-value:", p_value)

Random Forest Accuracy per Fold: 0.8539
Gradient Boosting Accuracy per Fold: 0.8579
Paired t-test p-value: nan


  var *= np.divide(n, n-ddof)  # to avoid error on division by zero
  var *= np.divide(n, n-ddof)  # to avoid error on division by zero


Dari hasil analisis ada beberapa hal yang dapat diamati:
1. Akurasi Per Fold:
Akurasi Random Forest sebesar 0.8539 dan akurasi Gradient Boosting sebesar 0.8579. Ini menunjukkan bahwa secara rata-rata, model Gradient Boosting memiliki performa yang sedikit lebih baik daripada Random Forest dalam memprediksi kelas target.
2. Uji T yang Berpasangan (Paired t-test):
Hasil dari uji t yang berpasangan menunjukkan nilai p-value yang tidak terdefinisi (NaN). Hal ini mungkin disebabkan oleh perbedaan yang terlalu kecil antara akurasi dari kedua model atau mungkin ada ketidaksesuaian dalam perhitungan.

Kesimpulan:
Berdasarkan akurasi per fold, model Gradient Boosting memiliki performa yang sedikit lebih baik dibandingkan dengan Random Forest. Untuk lebih lanjutnya dapat dicoba dengan Teknik SMOTE and BAGGING untuk melihat ketidakseimbangan kelasnya.
