#**Proyek Prediksi Customer Churn Menggunakan Decision Tree**

**Author:** Nada Almira Maulida  
**NIM:** 235150701111028  
**Program Studi:** Teknologi Informasi  

---

##**Deskripsi Proyek**
Proyek ini bertujuan untuk membangun model klasifikasi untuk memprediksi **customer churn** pada perusahaan telekomunikasi. Customer churn menggambarkan kondisi ketika pelanggan berhenti menggunakan layanan yang diberikan.

Dataset yang digunakan berisi data pelanggan seperti informasi demografi, layanan yang digunakan, metode pembayaran, serta status churn. Model **Decision Tree Classifier** digunakan karena mampu menangani data kategorikal dan numerik dengan baik serta mudah diinterpretasikan.

---

##**Tujuan Proyek**
Tujuan dari proyek ini adalah:
- Memahami karakteristik data pelanggan telekomunikasi
- Melakukan preprocessing data untuk kebutuhan machine learning
- Membangun model klasifikasi customer churn menggunakan Decision Tree
- Mengevaluasi performa model menggunakan beberapa metrik evaluasi
- Menilai kestabilan model melalui cross validation

---

##**Langkah-Langkah Analisis**

###1. Import Library dan Dataset
Tahap awal meliputi:
- Import library seperti `pandas` dan `scikit-learn`
- Memuat dataset **Telco Customer Churn**
- Menampilkan struktur dan tipe data menggunakan `info()`

---

###2. Preprocessing Data
Tahap preprocessing dilakukan untuk menyiapkan data sebelum pemodelan, meliputi:
- Mengubah label target `Churn` menjadi numerik:
  - No → 0  
  - Yes → 1  
- Memisahkan fitur numerik dan kategorikal
- Menghapus kolom `customerID` karena tidak berpengaruh pada prediksi

---

###3. Encoding Data
Karena dataset memiliki banyak data kategorikal, dilakukan:
- One Hot Encoding menggunakan `OneHotEncoder`
- Penggabungan fitur kategorikal dan numerik dengan `ColumnTransformer`
- Hasil encoding digunakan sebagai input model

---

###4. Pembagian Data
Data dibagi menjadi:
- Data latih (80%)
- Data uji (20%)

Pembagian dilakukan menggunakan `train_test_split` untuk mengukur performa model pada data yang belum pernah dilihat sebelumnya.

---

###5. Pembuatan dan Pelatihan Model
Pada tahap ini:
- Model **Decision Tree Classifier** dibuat
- Model dilatih menggunakan data latih
- Prediksi dilakukan pada data uji

---

###6. Evaluasi Model
Evaluasi performa model dilakukan menggunakan metrik:
- Accuracy
- Precision
- Recall
- F1-score

Selain itu, dilakukan **cross validation (5-fold)** untuk mengetahui kestabilan performa model secara keseluruhan.

---

##**Hasil Evaluasi Model**
Hasil evaluasi menunjukkan bahwa:
- Model memiliki akurasi sekitar **76%**
- Precision dan recall berada pada tingkat menengah
- Nilai F1-score menunjukkan keseimbangan antara precision dan recall
- Hasil cross validation relatif konsisten dengan hasil data uji

---

##**Kesimpulan**
Berdasarkan hasil analisis dan pemodelan, model Decision Tree mampu memprediksi customer churn dengan performa yang cukup baik. Model berhasil mengidentifikasi pelanggan yang berpotensi churn meskipun masih terdapat ruang untuk peningkatan, terutama pada nilai recall. Penggunaan cross validation menunjukkan bahwa model memiliki kestabilan yang cukup konsisten.

---

# **Latihan Praktikum**

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.model_selection import cross_val_score, cross_validate

# Load dataset
df = pd.read_csv("WA_Fn-UseC_-Telco-Customer-Churn.csv")

# Cek sekilas
df.head()
df.info()

df['Churn'] = df['Churn'].map({'No':0, 'Yes':1})
num_features = df.select_dtypes(include=['int64','float64']).columns.tolist()
cat_features = df.select_dtypes(include=['object']).columns.tolist()
cat_features.remove('customerID')
X = df.drop(['Churn','customerID'], axis=1)
y = df['Churn']

transformer = ColumnTransformer([
    ('cat', OneHotEncoder(handle_unknown='ignore'), cat_features)
], remainder='passthrough')

X_encoded = transformer.fit_transform(X)

X_train, X_test, y_train, y_test = train_test_split(X_encoded, y, test_size=0.2, random_state=42)

clf = DecisionTreeClassifier(random_state=42)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

acc = accuracy_score(y_test, y_pred)
prec = precision_score(y_test, y_pred)
rec = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

print("Accuracy:", acc)
print("Precision:", prec)
print("Recall:", rec)
print("F1-score:", f1)

scoring = ['accuracy','precision','recall','f1']
cv_results = cross_validate(clf, X_encoded, y, cv=5, scoring=scoring)

print("Mean Accuracy:", cv_results['test_accuracy'].mean())
print("Mean Precision:", cv_results['test_precision'].mean())
print("Mean Recall:", cv_results['test_recall'].mean())
print("Mean F1-score:", cv_results['test_f1'].mean())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7043 non-null   object 
 1   gender            7043 non-null   object 
 2   SeniorCitizen     7043 non-null   int64  
 3   Partner           7043 non-null   object 
 4   Dependents        7043 non-null   object 
 5   tenure            7043 non-null   int64  
 6   PhoneService      7043 non-null   object 
 7   MultipleLines     7043 non-null   object 
 8   InternetService   7043 non-null   object 
 9   OnlineSecurity    7043 non-null   object 
 10  OnlineBackup      7043 non-null   object 
 11  DeviceProtection  7043 non-null   object 
 12  TechSupport       7043 non-null   object 
 13  StreamingTV       7043 non-null   object 
 14  StreamingMovies   7043 non-null   object 
 15  Contract          7043 non-null   object 
 16  PaperlessBilling  7043 non-null   object 
