# Customer Churn Analysis – Management Perspective

Analisis ini bertujuan untuk memahami pola dan faktor utama yang berkontribusi terhadap churn customer pada perusahaan berbasis subscription. Fokus analisis berada pada level manajemen untuk membantu pengambilan keputusan lintas fungsi, khususnya Product, Marketing, dan Customer Support, dalam upaya menurunkan tingkat churn.

## Business Context

Churn merupakan salah satu indikator bisnis yang paling krusial bagi perusahaan berbasis subscription. Kehilangan customer tidak hanya berdampak pada pendapatan jangka pendek, tetapi juga meningkatkan biaya akuisisi karena kebutuhan menggantikan customer yang hilang.
Manajemen membutuhkan pemahaman yang jelas mengenai:
- Seberapa besar tingkat churn saat ini
- Segmen customer mana yang paling berisiko
- Faktor pengalaman dan perilaku apa yang berkorelasi dengan churn

Analisis ini difokuskan pada identifikasi area prioritas yang dapat ditindaklanjuti oleh tim terkait, bukan pada pembangunan model prediksi churn. Oleh karena itu, tahap awal analisis ini difokuskan pada pemahaman data dan validasi kualitas data sebelum menarik kesimpulan bisnis.

## Dataset Overview

Dataset ini merupakan dataset publik Telco Customer Churn yang digunakan untuk keperluan pembelajaran dan simulasi analisis bisnis. Dataset ini merepresentasikan data customer pada satu titik waktu dimana setiap baris merepresentasikan satu customer unik. Dataset mencakup beberapa kelompok informasi utama, antara lain:
- Informasi demografi dan segmentasi customer
- Detail kontrak dan hubungan berlangganan
- Aktivitas dan tingkat engagement customer
- Pengalaman customer terkait layanan dan dukungan
- Status churn sebagai target analisis

Dataset ini dirancang untuk mendukung analisis deskriptif dan diagnostik guna memahami perbedaan karakteristik antara customer yang churn dan yang tetap aktif.

In [None]:
import pandas as pd



In [23]:
url = "https://raw.githubusercontent.com/AlvitoDwiP/churn-analysis/main/churn/data/raw/WA_Fn-UseC_-Telco-Customer-Churn.csv"

df = pd.read_csv(url)
df.head()



Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,...,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5,No
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,...,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes
3,7795-CFOCW,Male,0,No,No,45,No,No phone service,DSL,Yes,...,Yes,Yes,No,No,One year,No,Bank transfer (automatic),42.3,1840.75,No
4,9237-HQITU,Female,0,No,No,2,Yes,No,Fiber optic,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,70.7,151.65,Yes


In [24]:
df.shape

(7043, 21)

In [25]:
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7043 non-null   object 
 1   gender            7043 non-null   object 
 2   SeniorCitizen     7043 non-null   int64  
 3   Partner           7043 non-null   object 
 4   Dependents        7043 non-null   object 
 5   tenure            7043 non-null   int64  
 6   PhoneService      7043 non-null   object 
 7   MultipleLines     7043 non-null   object 
 8   InternetService   7043 non-null   object 
 9   OnlineSecurity    7043 non-null   object 
 10  OnlineBackup      7043 non-null   object 
 11  DeviceProtection  7043 non-null   object 
 12  TechSupport       7043 non-null   object 
 13  StreamingTV       7043 non-null   object 
 14  StreamingMovies   7043 non-null   object 
 15  Contract          7043 non-null   object 
 16  PaperlessBilling  7043 non-null   object 


## Data Quality Check

Pengecekan kualitas data dilakukan untuk memastikan setiap variabel memiliki tipe data yang sesuai dan dapat digunakan dalam analisis. Secara umum, sebagian besar kolom memiliki tipe data yang sesuai dengan konteks bisnis. Namun, kolom TotalCharges masih terbaca sebagai tipe object, sehingga memerlukan konversi sebelum digunakan dalam analisis finansial.

In [26]:
df.isna().sum().sort_values(ascending=False)


Unnamed: 0,0
customerID,0
gender,0
SeniorCitizen,0
Partner,0
Dependents,0
tenure,0
PhoneService,0
MultipleLines,0
InternetService,0
OnlineSecurity,0


Bagian ini menampilkan jumlah nilai kosong per kolom untuk memastikan kelengkapan data sebelum analisis lebih lanjut. Hasil ini membantu menentukan apakah ada kolom yang membutuhkan penanganan khusus pada tahap berikutnya.

## Target Variable: Churn
Variabel target pada analisis ini adalah Churn, yang menunjukkan apakah seorang customer berhenti berlangganan. Nilai pada kolom ini bersifat kategori (Yes/No), sehingga cocok digunakan untuk analisis perbandingan karakteristik antara customer yang churn dan yang tetap aktif.

Pada tahap ini, tujuan utamanya adalah memastikan definisi target dan memahami proporsi awalnya, tanpa menarik kesimpulan atau rekomendasi.

In [28]:

df['Churn'].value_counts(normalize=True)


Unnamed: 0_level_0,proportion
Churn,Unnamed: 1_level_1
No,0.73463
Yes,0.26537
