# **Stay or Leave? Predicting Telco Customer Churn with Machine Learning**

## Penjelasan Kolom Dataset Telco Customer Churn

Berikut ini adalah deskripsi setiap kolom pada dataset prediksi churn pelanggan:

| **Kolom** | **Deskripsi** |
|-----------|----------------|
| **CustomerID** | ID unik yang merepresentasikan setiap pelanggan Telco. |
| **Gender** | Jenis kelamin pelanggan: `Male` atau `Female`. |
| **Age** | Usia pelanggan dalam tahun. |
| **Under30** | Apakah pelanggan berusia di bawah 30 tahun: `Yes` atau `No`. |
| **SeniorCitizen** | Menunjukkan apakah pelanggan tergolong lansia (biasanya usia > 65 tahun): `Yes` atau `No`. |
| **Partner** | Apakah pelanggan memiliki pasangan (menikah atau tidak): `Yes` atau `No`. |
| **Dependents** | Apakah pelanggan memiliki tanggungan: `Yes` atau `No`. |
| **NumberOfDependents** | Jumlah tanggungan (anak/keluarga) yang dimiliki pelanggan. |
| **Married** | Status pernikahan pelanggan: `Yes` atau `No`. |
| **Contract** | Jenis kontrak langganan: `Month-to-Month`, `One Year`, atau `Two Year`. |
| **PaperlessBilling** | Apakah pelanggan menggunakan tagihan elektronik (`Yes`) atau cetak (`No`). |
| **PaymentMethod** | Metode pembayaran yang digunakan: `Mailed check`, `Electronic check`, `Bank transfer`, atau `Credit card`. |
| **MonthlyCharges** | Jumlah tagihan bulanan pelanggan. |
| **AvgMonthlyLongDistanceCharges** | Rata-rata biaya jarak jauh per bulan. |
| **TotalCharges** | Total tagihan keseluruhan yang telah dibayarkan pelanggan. |
| **TotalRefunds** | Jumlah pengembalian dana yang telah diberikan kepada pelanggan. |
| **TotalExtraDataCharges** | Total biaya tambahan karena penggunaan data di luar kuota. |
| **TotalLongDistanceCharges** | Total biaya panggilan jarak jauh yang dikenakan. |
| **TotalRevenue** | Total pendapatan yang dihasilkan dari pelanggan tersebut. |
| **Tenure** | Lama waktu pelanggan berlangganan (dalam bulan). |
| **InternetService_x** | Apakah pelanggan menggunakan layanan internet (`Yes`/`No`). |
| **PhoneService_x** | Apakah pelanggan menggunakan layanan telepon (`Yes`/`No`). |
| **MultipleLines** | Apakah pelanggan memiliki lebih dari satu jalur telepon (`Yes`/`No`). |
| **AvgMonthlyGBDownload** | Rata-rata penggunaan data internet pelanggan per bulan (dalam GB). |
| **UnlimitedData** | Apakah pelanggan memiliki data tanpa batas (`Yes`/`No`). |
| **Offer** | Jenis promo atau penawaran yang diterima pelanggan (`Offer A`, `Offer B`, dll.). |
| **ReferredAFriend** | Apakah pelanggan direkomendasikan oleh teman (`Yes`/`No`). |
| **NumberOfReferrals** | Jumlah pelanggan lain yang direkomendasikan oleh pelanggan tersebut. |
| **PhoneService_y** | Duplikat dari kolom PhoneService (mungkin karena penggabungan data). |
| **InternetService_y** | Duplikat dari kolom InternetService. |
| **OnlineSecurity** | Apakah pelanggan menggunakan layanan keamanan online (`Yes`/`No`). |
| **OnlineBackup** | Apakah pelanggan menggunakan layanan backup online (`Yes`/`No`). |
| **DeviceProtection** | Apakah pelanggan menggunakan proteksi perangkat (`Yes`/`No`). |
| **PremiumTechSupport** | Apakah pelanggan menggunakan dukungan teknis premium (`Yes`/`No`). |
| **StreamingTV** | Apakah pelanggan menggunakan layanan TV streaming (`Yes`/`No`). |
| **StreamingMovies** | Apakah pelanggan menggunakan layanan streaming film (`Yes`/`No`). |
| **StreamingMusic** | Apakah pelanggan menggunakan layanan streaming musik (`Yes`/`No`). |
| **InternetType** | Jenis koneksi internet: `Fiber Optic`, `DSL`, `Cable`, dll. |
| **SatisfactionScore** | Skor kepuasan pelanggan (biasanya dari 1–5). |
| **CLTV (Customer Lifetime Value)** | Nilai estimasi pendapatan dari pelanggan selama masa kontraknya. |
| **CustomerStatus** | Status pelanggan saat ini: `Stayed`, `Churned`, atau `Joined`. |
| **ChurnScore** | Skor prediksi kemungkinan churn. Semakin tinggi, semakin berisiko. |
| **ChurnLabel** | Indikator apakah pelanggan churn (`Yes`) atau tidak (`No`). |
| **ChurnValue** | Label numerik untuk churn (`1` = churn, `0` = tidak churn). |
| **ChurnCategory** | Kategori churn berdasarkan penyebabnya, seperti `Competitor`, `Dissatisfaction`, dll. |
| **ChurnReason** | Alasan spesifik kenapa pelanggan berhenti berlangganan (jika churn). |

---

📋 **Overview**  
Dalam industri telekomunikasi, kehilangan pelanggan (churn) merupakan tantangan serius yang dapat menurunkan pendapatan dan menghambat pertumbuhan perusahaan.

Dalam proyek ini, saya :

- Melakukan *data cleaning* dan *data integration* dari beberapa sumber data.
- Melakukan *exploratory data analysis (EDA)* untuk memahami perilaku dan karakteristik pelanggan.
- Membangun model prediksi churn menggunakan algoritma *Machine Learning*.
- Mengembangkan aplikasi interaktif dengan Streamlit untuk menampilkan hasil prediksi churn secara real-time.

---

# Install & Load Library

In [1]:
pip uninstall tensorflow


[0m

In [2]:
!pip install scipy==1.11.4
!pip install dalex
!pip install scikit-plot
!pip install shap
!pip install lime



In [3]:
pip uninstall numpy -y


Found existing installation: numpy 1.26.4
Uninstalling numpy-1.26.4:
  Successfully uninstalled numpy-1.26.4


In [6]:
pip install numpy==1.26.4




In [7]:
# load pandas untuk data wrangling
import pandas as pd
# load numpy untuk manipulasi vektor
import numpy as np
# load matplotlib untuk visualisasi data
import matplotlib.pyplot as plt
# load seaborn untuk visualisasi data
import seaborn as sns

# load metrics object dari sklearn
from sklearn import metrics
# load train-test data splitter
from sklearn.model_selection import train_test_split
# load Decision Tree classifier model
from sklearn.tree import DecisionTreeClassifier
# load Random Forest classifier model
from sklearn.ensemble import RandomForestClassifier
# load SVM classifier model
from sklearn.svm import SVC
# load KNN classifier model
from sklearn.neighbors import KNeighborsClassifier

# load xgboost classifier model
from xgboost import XGBClassifier

# Load DALEX untuk interpretability
import dalex as dx

# load scikitplot untuk visualisasi metrik
# import scikitplot as skplt

%matplotlib inline

# Load Dataset

In [9]:
# load dataset ke raw_data
raw_data = pd.read_csv("https://raw.githubusercontent.com/dhardianto281094/customer-churn-analytics/main/telco_customer_churn_final.csv")

In [10]:
raw_data.head()

Unnamed: 0,Customerid,Gender,Age,Under30,Seniorcitizen,Partner,Dependents,Numberofdependents,Married,Contract,...,Streamingmusic,Internettype,Satisfactionscore,Cltv,Customerstatus,Churnscore,Churnlabel,Churnvalue,Churncategory,Churnreason
0,0002-ORFBO,Female,37,No,No,Yes,No,0,Yes,One Year,...,No,Cable,3,2205,Stayed,65,No,0,Not Applicable,
1,0003-MKNFE,Male,46,No,No,No,No,0,No,Month-to-Month,...,Yes,Cable,5,5414,Stayed,66,No,0,Not Applicable,
2,0004-TLHLJ,Male,50,No,No,No,No,0,No,Month-to-Month,...,No,Fiber Optic,1,4479,Churned,71,Yes,1,Competitor,Competitor had better devices
3,0011-IGKFF,Male,78,No,Yes,Yes,No,0,Yes,Month-to-Month,...,No,Fiber Optic,1,3714,Churned,91,Yes,1,Dissatisfaction,Product dissatisfaction
4,0013-EXCHZ,Female,75,No,Yes,Yes,No,0,Yes,Month-to-Month,...,No,Fiber Optic,1,3464,Churned,68,Yes,1,Dissatisfaction,Network reliability
