# Improving Customer Churn Rate in Telecom: A Machine Learning Approach
by Alpha Team - Abe, Alfi, Hans

## Section 1. Business Understanding

### 1.1 Background
Perusahaan XYZ merupakan penyedia layanan telekomunikasi terkemuka yang dikenal karena pendekatannya yang inovatif dan berfokus pada pelanggan. Beroperasi di pasar yang sangat kompetitif, XYZ menawarkan beragam layanan seperti telepon seluler, internet broadband, dan layanan digital, yang ditujukan untuk pelanggan individu maupun bisnis. Meskipun memiliki posisi yang kuat di pasar, XYZ menghadapi tantangan besar terkait churn pelanggan, yaitu hilangnya pelanggan yang dapat berdampak langsung pada pendapatan dan pertumbuhan perusahaan. Dengan memanfaatkan analisis data dan wawasan pelanggan, XYZ berupaya mengurangi tingkat churn serta meningkatkan retensi pelanggan, guna menjaga keberlanjutan dan profitabilitas jangka panjang di industri telekomunikasi yang dinamis.

Churn pelanggan di industri telekomunikasi mengacu pada tingkat pelanggan yang berhenti menggunakan layanan dalam periode waktu tertentu. Fenomena ini sangat krusial karena berdampak langsung terhadap pendapatan dan laba perusahaan. Alasan pelanggan berhenti bisa bermacam-macam, mulai dari ketidakpuasan terhadap kualitas layanan, harga yang tidak kompetitif, layanan pelanggan yang buruk, hingga penawaran menarik dari pesaing. Memahami dan mengelola churn sangat penting agar perusahaan dapat menjaga basis pelanggan yang stabil serta kesehatan finansialnya. *Pada proyek ini, seorang pelanggan didefinisikan sebagai 'churn' jika mereka tidak memperpanjang atau menghentikan layanan berlangganan mereka dalam waktu 30 hari setelah periode tagihan terakhir. (cari referensinya, if not. Periode tertentu misalnya berapa hari ke depan)*

### 1.2 Gap Analysis

Fokus utama dari proyek ini adalah untuk mengubah pendekatan perusahaan dalam menangani pelanggan, yaitu beralih dari yang semula hanya reaktif menjadi sebuah strategi mitigasi risiko churn yang proaktif. Saat ini, strategi tersebut belum berjalan efektif karena perusahaan tidak memiliki cara untuk mengidentifikasi pelanggan mana yang berisiko tinggi akan berhenti. Akibatnya, tindakan pencegahan sering kali terlambat atau tidak tepat sasaran, seperti memberikan penawaran massal yang justru membuang biaya.

Solusi yang diusulkan adalah sebuah strategi mitigasi yang cerdas, dimulai dengan mengidentifikasi pelanggan berisiko tinggi secara dini. Setelah risiko diketahui, tindakan pencegahan yang terfokus seperti memberikan penawaran khusus senilai $50 dapat dialokasikan secara efisien hanya kepada mereka. Pendekatan ini dapat menekan angka churn secara signifikan sekaligus menghindari biaya akuisisi pelanggan baru yang mahal ($200). *rapihkan GPT Code Generation; Cari rata2 biaya bulanan/tahunan dari perusahaan telco untuk CAC dan CRC.*

Untuk mewujudkan strategi tersebut, proyek ini bertujuan membangun sebuah alat prediksi. Alat ini akan menjadi fondasi utama dari strategi mitigasi risiko dan berfungsi sebagai sistem peringatan dini (early warning system) yang memungkinkan perusahaan untuk bertindak sebelum kehilangan pelanggan.

### 1.3 Problem Statements
- Siapa saja pelanggan yang berisiko churn?
- Faktor apa saja yang paling memengaruhi churn pelanggan? *Better digabung dengan atas sebab intersect*
- Bagaimana cara perusahaan menurunkan churn dan meningkatkan retensi pelanggan? *Jaminannya apa ? -> Karena customer behavior bisa aja ke depannya berubah dan metode ML yang dibuat gak valid*
- Apakah ada pola tertentu dalam lama berlangganan, total pengeluaran, atau biaya bulanan yang berhubungan dengan churn? *Sama seperti 1*
- Apakah demografi atau preferensi layanan pelanggan memengaruhi kemungkinan mereka untuk berhenti berlangganan? *Sama seperti 1*
- Bagaimana distribusi churn berbeda antar jenis kontrak, metode pembayaran, atau layanan yang digunakan pelanggan? *Sama seperti 1*

*lebih ke: Perusahaan gak bisa nebak churn dengan baik; Gak tau faktor apa aja yang memengaruhi churn;*


### 1.4 Goals
- Mengembangkan model prediktif untuk mengklasifikasikan pelanggan apakah akan churn atau tidak.
- Mengidentifikasi fitur atau atribut utama yang paling berpengaruh terhadap churn pelanggan, baik dari aspek demografis maupun perilaku penggunaan layanan.
- Mengeksplorasi pola perilaku pelanggan (seperti durasi berlangganan, jumlah tagihan bulanan, dan total pengeluaran) yang berhubungan erat dengan churn.
- Memberikan rekomendasi strategis berbasis data untuk mengurangi churn dan meningkatkan loyalitas pelanggan, seperti intervensi pada pelanggan berisiko tinggi berdasarkan jenis kontrak atau layanan.
- Menyediakan wawasan eksploratif melalui visualisasi data dan analisis statistik untuk mendukung pengambilan keputusan bisnis.


### 1.5 Analytical Approach
Pendekatan analisis akan dilakukan dalam dua tahap utama. Pertama, akan dilakukan Analisis Data Eksploratif (EDA). Tahap ini seperti "menggali" data yang sudah ada untuk mencari tahu lebih dalam tentang perilaku pelanggan. Tujuannya adalah untuk menemukan pola atau ciri-ciri menarik dari pelanggan yang cenderung berhenti berlangganan. Hasil dari analisis ini bisa langsung memberikan rekomendasi awal untuk bisnis.

Kedua, wawasan dari tahap pertama akan digunakan untuk membangun sebuah model klasifikasi. Sederhananya, ini adalah sistem cerdas yang dilatih untuk memprediksi pelanggan mana yang kemungkinan besar akan churn. Untuk membuktikan kegunaannya, kinerja model ini akan diukur dan dibandingkan dengan skenario "tanpa model", yaitu kondisi perusahaan saat ini yang tidak memiliki sistem prediksi. Perbandingan ini akan menunjukkan secara jelas keuntungan dari penerapan pendekatan berbasis data.

### 1.6 Metric Evaluation

Evaluasi model akan berfokus pada tiga metrik utama yang mengukur dampak kesalahan prediksi dari sisi bisnis dan performa statistik model.

#### Metric 1: Cost of False Negative (FN)
**False Negative (FN)** terjadi ketika model memprediksi pelanggan akan **tetap setia**, padahal **kenyataannya pelanggan tersebut churn**. Ini adalah kesalahan paling merugikan karena perusahaan kehilangan pelanggan tanpa sempat melakukan tindakan pencegahan.

Kaitannya dengan bisnis sangat erat: setiap kali terjadi FN, perusahaan kehilangan seorang pelanggan dan harus mengeluarkan biaya untuk mencari pelanggan baru. Biaya ini disebut **Customer Acquisition Cost (CAC)**.

-   **Biaya per Kesalahan (FN):** $200 (asumsi nilai CAC)
-   **Total Cost of FN:** `Jumlah FN x $200`

#### Metric 2: Cost of False Positive (FP)
**False Positive (FP)** terjadi ketika model memprediksi pelanggan akan **churn**, padahal **kenyataannya pelanggan tersebut tetap setia**. Kesalahan ini tidak separah FN, namun tetap menimbulkan biaya yang tidak perlu.

Ketika terjadi FP, perusahaan akan mengeluarkan biaya untuk tindakan retensi (misalnya, memberikan diskon atau bonus) kepada pelanggan yang sebenarnya tidak berniat pergi. Biaya ini disebut **Customer Retention Cost (CRC)**.

-   **Biaya per Kesalahan (FP):** $50 (asumsi nilai CRC)
-   **Total Cost of FP:** `Jumlah FP x $50`

#### Metric 3: F2-Score
F2-Score adalah versi modifikasi dari F1-Score yang secara spesifik dirancang untuk situasi di mana Recall dianggap lebih penting daripada Presisi. Metrik ini juga menggabungkan Presisi dan Recall, namun memberikan bobot empat kali lebih besar pada Recall. Hal ini menjadikannya pilihan ideal untuk skenario bisnis di mana biaya akibat gagal mendeteksi sebuah kasus (False Negative) jauh lebih merugikan daripada biaya akibat salah menandai (False Positive). Untuk kasus prediksi churn, di mana kehilangan pelanggan lebih mahal daripada memberi penawaran retensi yang tidak perlu, F2-Score menjadi alat ukur yang paling tepat karena ia mendorong model untuk memaksimalkan penemuan pelanggan yang berisiko churn.

$$\text{F2-Score} = 5 \times \frac{\text{Precision} \times \text{Recall}}{4 \times \text{Precision} + \text{Recall}}$$

*Gabungkan CAC dan CRC ke F2-Score.*

### 1.7 Success Criteria
- Mencapai performa klasifikasi dengan F2-Score 70% - 80% untuk memastikan minimisasi false negative (gagal memprediksi churn).
- Menghasilkan model prediktif yang membantu tim bisnis dan manajemen dalam menargetkan pelanggan berisiko churn secara efektif.
- Mengidentifikasi segmentasi pelanggan dengan risiko churn tertinggi dan karakteristiknya, untuk mempermudah strategi retensi yang ditargetkan.
- Menurunkan Churn Rate secara signifikan melalui strategi berbasis data yang dikembangkan dari hasil analisis.
- Mengoptimalkan penggunaan anggaran Customer Retention Cost (CRC) dengan mengarahkan upaya pada pelanggan yang memiliki peluang tertinggi untuk tetap bertahan.
- Memberikan insight EDA yang mudah dipahami oleh pemangku kepentingan non-teknis (manajer bisnis, marketing, CS) sebagai dasar pengambilan keputusan.

*Fokus identify churn + faktor2 churn + impact di cara mitigate churun before vs after ml dalam beberapa periode ke depan (optional)*