# Improving Customer Churn Rate in Telecom: A Machine Learning Approach
by Alpha Team - Abe, Alfi, Hans

## Section 1. Business Understanding

### 1.1 Background
Perusahaan XYZ merupakan penyedia layanan telekomunikasi terkemuka yang dikenal karena pendekatannya yang inovatif dan berfokus pada pelanggan. Beroperasi di pasar yang sangat kompetitif, XYZ menawarkan beragam layanan seperti telepon seluler, internet broadband, dan layanan digital, yang ditujukan untuk pelanggan individu maupun bisnis. Meskipun memiliki posisi yang kuat di pasar, XYZ menghadapi tantangan besar terkait churn pelanggan, yaitu hilangnya pelanggan yang dapat berdampak langsung pada pendapatan dan pertumbuhan perusahaan. Dengan memanfaatkan analisis data dan wawasan pelanggan, XYZ berupaya mengurangi tingkat churn serta meningkatkan retensi pelanggan, guna menjaga keberlanjutan dan profitabilitas jangka panjang di industri telekomunikasi yang dinamis.

Churn pelanggan di industri telekomunikasi mengacu pada tingkat pelanggan yang berhenti menggunakan layanan dalam periode waktu tertentu. Fenomena ini sangat krusial karena berdampak langsung terhadap pendapatan dan laba perusahaan. Alasan pelanggan berhenti bisa bermacam-macam, mulai dari ketidakpuasan terhadap kualitas layanan, harga yang tidak kompetitif, layanan pelanggan yang buruk, hingga penawaran menarik dari pesaing. Memahami dan mengelola churn sangat penting agar perusahaan dapat menjaga basis pelanggan yang stabil serta kesehatan finansialnya. Pada proyek ini, seorang pelanggan didefinisikan sebagai 'churn' jika mereka tidak memperpanjang atau menghentikan layanan berlangganan mereka dalam waktu 30 hari setelah periode tagihan terakhir.

### 1.2 Gap Analysis

Proyek ini merupakan pengembangan lebih lanjut dari inisiatif sebelumnya yang dilakukan oleh Darmawan (2025), di mana fokus utamanya adalah meningkatkan identifikasi pelanggan berisiko churn. Meskipun proyek tersebut berhasil menunjukkan nilai dari pendekatan machine learning dengan meningkatkan recall, proyek saat ini beroperasi pada lingkup data yang sepenuhnya baru dan telah diperbarui.

Dengan adanya pembaruan dataset, model dan hasil analisis dari proyek sebelumnya tidak lagi relevan secara langsung. Pola perilaku pelanggan, faktor pendorong churn, serta demografi pelanggan kemungkinan telah berubah. Hal ini menciptakan sebuah kesenjangan (gap) yang signifikan: perusahaan saat ini tidak memiliki model prediktif yang tervalidasi dan akurat untuk dataset pelanggan yang sekarang. Akibatnya, kemampuan perusahaan untuk secara proaktif mengidentifikasi dan menargetkan pelanggan yang berisiko churn pada kondisi pasar terkini menjadi terbatas.

Oleh karena itu, diperlukan pembangunan dan pelatihan ulang model machine learning dari awal untuk memastikan prediksi yang dihasilkan relevan, akurat, dan dapat ditindaklanjuti sesuai dengan karakteristik data pelanggan saat ini.

### 1.3 Problem Statements
- Siapa saja pelanggan yang berisiko churn?
- Faktor apa saja yang paling memengaruhi churn pelanggan?
- Bagaimana cara perusahaan menurunkan churn dan meningkatkan retensi pelanggan?

### 1.4 Goals
- Mengembangkan model prediktif untuk mengklasifikasikan pelanggan apakah akan churn atau tidak.
- Mengidentifikasi fitur atau atribut utama yang memengaruhi churn.
- Memberikan rekomendasi yang dapat ditindaklanjuti untuk menurunkan churn.

### 1.5 Analytical Approach
Untuk mengukur dampak dan nilai dari implementasi model prediktif, pendekatan analisis akan dimulai dengan menetapkan skenario tanpa model (no model) sebagai baseline. Skenario ini merepresentasikan kondisi saat ini di mana tidak ada sistem proaktif untuk mengidentifikasi pelanggan yang berisiko churn, sehingga setiap tindakan retensi tidak didasarkan pada analisis prediktif. Selanjutnya, akan dikembangkan beberapa model machine learning untuk memprediksi churn. Beberapa kandidat model yang akan dieksplorasi dan dievaluasi performanya meliputi Logistic Regression, Random Forest, dan Gradient Boosting. Kinerja dari setiap model ini akan dibandingkan secara langsung dengan baseline "tanpa model" untuk menunjukkan secara kuantitatif nilai tambah yang dihasilkan oleh pendekatan berbasis data.

### 1.6 Metric Evaluation
- Business Metric 1: Customer Acquisition Cost (CAC)
  + Biaya Akuisisi Pelanggan (CAC) adalah metrik penting yang mengukur total biaya yang dikeluarkan untuk mendapatkan pelanggan baru, termasuk biaya pemasaran dan penjualan. Menurut Yoga (2024), nilai CAC diasumsikan sebesar $200 per pelanggan.

- Business Metric 2: Customer Retention Cost (CRC)
  + Biaya Retensi Pelanggan (CRC) adalah total biaya yang dikeluarkan perusahaan untuk mempertahankan pelanggan, termasuk gaji layanan pelanggan, program loyalitas, dan manajemen akun. Yoga (2024) mengasumsikan bahwa nilai CRC adalah $50 per pelanggan.

- Machine Learning Evaluation Metric: F2-Score
  + F2-Score memberikan bobot lebih besar pada recall dibandingkan precision, sehingga sangat cocok untuk kasus churn prediction. Dalam konteks ini, kehilangan pelanggan yang benar-benar akan churn (false negative) lebih berdampak dibandingkan salah menandai pelanggan setia sebagai akan churn (false positive).

### 1.7 Success Criteria
- Mencapai performa klasifikasi dengan F2-Score >= 80%.
- Menghasilkan model prediktif yang dapat memandu strategi retensi, sehingga berpotensi menurunkan Churn Rate dan mengoptimalkan penggunaan biaya retensi (CRC).
- Menyediakan wawasan yang dapat diinterpretasikan untuk mendukung pengambilan keputusan bisnis.
