# Phân tích tỷ lệ khách hàng rời bỏ (Churn Analysis)

Notebook này thực hiện phân tích dữ liệu khách hàng để xác định các yếu tố ảnh hưởng đến việc rời bỏ dịch vụ.

In [None]:
# 1. Nhập thư viện cần thiết
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

In [None]:
# 2. Đọc dữ liệu
# Thay đường dẫn file bằng đường dẫn thực tế
data = pd.read_csv('customer_churn.csv')
data.head()

In [None]:
# 3. Khám phá dữ liệu ban đầu
print(data.info())
print(data.describe())
print(data.isnull().sum())

In [None]:
# 4. Xử lý dữ liệu thiếu (nếu có)
# data = data.dropna()  # Hoặc điền giá trị trung bình/giá trị phổ biến tùy cột

In [None]:
# 5. Mã hóa các biến phân loại
label_enc = LabelEncoder()
for column in data.select_dtypes(include=['object']).columns:
    data[column] = label_enc.fit_transform(data[column])

In [None]:
# 6. Tách tập train/test
X = data.drop('Churn', axis=1)
y = data['Churn']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# 7. Chuẩn hóa dữ liệu
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [None]:
# 8. Huấn luyện mô hình
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

In [None]:
# 9. Đánh giá mô hình
y_pred = model.predict(X_test)
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))
print('Accuracy:', accuracy_score(y_test, y_pred))

In [None]:
# 10. Phân tích tầm quan trọng của các đặc trưng
importances = model.feature_importances_
features = X.columns
feat_importance = pd.Series(importances, index=features)
feat_importance.nlargest(10).plot(kind='barh')
plt.title('Top 10 đặc trưng quan trọng nhất')
plt.show()