# Customer Churn Analysis – Data Overview & Quality Check
Notebook ini merupakan tahap awal dari analisis churn customer pada perusahaan berbasis subscription. 
Fokus tahap ini adalah memahami struktur dataset, memvalidasi kualitas data, serta memastikan bahwa data siap digunakan untuk analisis deskriptif dan diagnostik pada tahap selanjutnya.

Analisis ini disusun dari perspektif manajemen, dengan tujuan akhir mengidentifikasi segmen customer yang berisiko tinggi churn dan layak diprioritaskan untuk intervensi retention.


## Business Context

Churn merupakan metrik kritikal bagi bisnis berbasis subscription karena berdampak langsung pada pendapatan jangka panjang dan efisiensi biaya akuisisi customer.
Manajemen membutuhkan jawaban atas pertanyaan berikut:
- Seberapa besar tingkat churn saat ini?
- Segmen customer mana yang paling rentan churn?
- Faktor apa yang paling berkorelasi dengan churn berdasarkan data historis?

Notebook ini tidak membangun model prediktif, melainkan memastikan fondasi data yang kuat sebelum analisis lanjutan dilakukan.


In [1]:
import pandas as pd
import numpy as np


In [2]:
url = "https://raw.githubusercontent.com/AlvitoDwiP/churn-analysis/main/churn/data/raw/WA_Fn-UseC_-Telco-Customer-Churn.csv"

df = pd.read_csv(url)
df.head()



Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,...,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5,No
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,...,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes
3,7795-CFOCW,Male,0,No,No,45,No,No phone service,DSL,Yes,...,Yes,Yes,No,No,One year,No,Bank transfer (automatic),42.3,1840.75,No
4,9237-HQITU,Female,0,No,No,2,Yes,No,Fiber optic,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,70.7,151.65,Yes


## Dataset Overview

Dataset yang digunakan adalah Telco Customer Churn dataset, dataset publik yang sering digunakan untuk simulasi analisis churn.

Setiap baris merepresentasikan satu customer unik, dengan informasi mencakup:
- Demografi dan status keluarga
- Detail kontrak dan metode pembayaran
- Penggunaan layanan dan support
- Status churn (target analisis)


In [3]:
df.shape

(7043, 21)

Dataset berisi 7.043 customer dengan 21 variabel. Ukuran ini cukup memadai untuk analisis segmentasi churn dan perbandingan karakteristik antar kelompok customer.


In [4]:
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7043 non-null   object 
 1   gender            7043 non-null   object 
 2   SeniorCitizen     7043 non-null   int64  
 3   Partner           7043 non-null   object 
 4   Dependents        7043 non-null   object 
 5   tenure            7043 non-null   int64  
 6   PhoneService      7043 non-null   object 
 7   MultipleLines     7043 non-null   object 
 8   InternetService   7043 non-null   object 
 9   OnlineSecurity    7043 non-null   object 
 10  OnlineBackup      7043 non-null   object 
 11  DeviceProtection  7043 non-null   object 
 12  TechSupport       7043 non-null   object 
 13  StreamingTV       7043 non-null   object 
 14  StreamingMovies   7043 non-null   object 
 15  Contract          7043 non-null   object 
 16  PaperlessBilling  7043 non-null   object 


Mayoritas variabel bersifat kategorikal (object), mencerminkan karakteristik produk dan perilaku customer. 
Variabel numerik utama adalah tenure, MonthlyCharges, dan TotalCharges, yang berpotensi relevan dalam analisis churn dari perspektif nilai dan durasi customer.


## Data Quality Check

Tahap ini bertujuan memastikan data bebas dari permasalahan struktural yang dapat menyesatkan analisis, seperti nilai kosong, tipe data yang tidak sesuai, atau nilai non-standar.


In [5]:
df.isna().sum().sort_values(ascending=False)


Unnamed: 0,0
customerID,0
gender,0
SeniorCitizen,0
Partner,0
Dependents,0
tenure,0
PhoneService,0
MultipleLines,0
InternetService,0
OnlineSecurity,0


Pengecekan ini hanya mendeteksi nilai kosong standar (NaN). 
Dataset churn publik ini dikenal memiliki potensi nilai kosong non-standar, khususnya pada kolom TotalCharges.


In [6]:
df['TotalCharges'] = pd.to_numeric(df['TotalCharges'], errors='coerce')
df['TotalCharges'].isna().sum()


np.int64(11)

Beberapa nilai pada kolom TotalCharges tidak dapat dikonversi ke numerik dan menjadi NaN. 
Hal ini umumnya terjadi pada customer dengan tenure sangat pendek, dimana total tagihan belum terbentuk secara penuh.


## Target Variable: Churn
Variabel target pada analisis ini adalah Churn, yang menunjukkan apakah seorang customer berhenti berlangganan. Nilai pada kolom ini bersifat kategori (Yes/No), sehingga cocok digunakan untuk analisis perbandingan karakteristik antara customer yang churn dan yang tetap aktif.

Pada tahap ini, tujuan utamanya adalah memastikan definisi target dan memahami proporsi awalnya, tanpa menarik kesimpulan atau rekomendasi.

In [7]:

df['Churn'].value_counts(normalize=True)


Unnamed: 0_level_0,proportion
Churn,Unnamed: 1_level_1
No,0.73463
Yes,0.26537


Sekitar 26% (0.26537)customer dalam dataset mengalami churn. 
Proporsi ini menunjukkan bahwa churn merupakan isu bisnis yang signifikan dan layak dianalisis lebih lanjut dari sisi segmentasi dan perilaku customer.


In [8]:
import os
os.makedirs('data/process', exist_ok=True)
df_clean.to_csv('data/process/telco_churn_clean.csv', index=False)


NameError: name 'df_clean' is not defined