In [1]:
import pandas as pd
df=pd.read_csv('clean_data.csv')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7032 entries, 0 to 7031
Data columns (total 22 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7032 non-null   object 
 1   gender            7032 non-null   object 
 2   SeniorCitizen     7032 non-null   object 
 3   Partner           7032 non-null   object 
 4   Dependents        7032 non-null   object 
 5   tenure            7032 non-null   int64  
 6   PhoneService      7032 non-null   object 
 7   MultipleLines     7032 non-null   object 
 8   InternetService   7032 non-null   object 
 9   OnlineSecurity    7032 non-null   object 
 10  OnlineBackup      7032 non-null   object 
 11  DeviceProtection  7032 non-null   object 
 12  TechSupport       7032 non-null   object 
 13  StreamingTV       7032 non-null   object 
 14  StreamingMovies   7032 non-null   object 
 15  Contract          7032 non-null   object 
 16  PaperlessBilling  7032 non-null   object 


In [6]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.svm import SVC
from sklearn.metrics import classification_report
from joblib import dump
import warnings
warnings.filterwarnings('ignore')

df=pd.read_csv('clean_data.csv')

# Chuẩn bị dữ liệu
X = df.drop(['customerID', 'Churn'], axis=1)
y = df['Churn']

# Chuyển đổi các biến phân loại thành số
X = pd.get_dummies(X, drop_first=True)
y = LabelEncoder().fit_transform(y)

# Chia dữ liệu thành tập huấn luyện và kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Khởi tạo danh sách mô hình
models = {
    'Logistic Regression': LogisticRegression(max_iter=1000),
    'Decision Tree': DecisionTreeClassifier(),
    'Random Forest': RandomForestClassifier(),
    'Support Vector Machine': SVC(),
    'Gradient Boosting': GradientBoostingClassifier()
}

# Vòng lặp để huấn luyện, dự đoán và lưu mô hình
for model_name, model in models.items():
    model.fit(X_train, y_train)  # Huấn luyện mô hình
    y_pred = model.predict(X_test)  # Dự đoán

    # Đánh giá mô hình
    print(f"{model_name}:\n", classification_report(y_test, y_pred))

    # Lưu mô hình
    dump(model, f"{model_name.replace(' ', '_')}.joblib")  # Lưu mô hình vào file


Logistic Regression:
               precision    recall  f1-score   support

           0       0.83      0.89      0.86      1033
           1       0.62      0.51      0.56       374

    accuracy                           0.79      1407
   macro avg       0.73      0.70      0.71      1407
weighted avg       0.78      0.79      0.78      1407

Decision Tree:
               precision    recall  f1-score   support

           0       0.82      0.80      0.81      1033
           1       0.49      0.53      0.51       374

    accuracy                           0.73      1407
   macro avg       0.66      0.67      0.66      1407
weighted avg       0.74      0.73      0.73      1407

Random Forest:
               precision    recall  f1-score   support

           0       0.82      0.89      0.86      1033
           1       0.62      0.47      0.54       374

    accuracy                           0.78      1407
   macro avg       0.72      0.68      0.70      1407
weighted avg       0

In [8]:
import pandas as pd
from joblib import load

# Tải dữ liệu mới (giả sử bạn đã có DataFrame mới gọi là new_data)
new_data = {
    'customerID': ['cust_1', 'cust_2', 'cust_3'],
    'gender': ['Female', 'Male', 'Female'],
    'SeniorCitizen': ['No', 'No', 'Yes'],
    'Partner': ['Yes', 'No', 'Yes'],
    'Dependents': ['No', 'Yes', 'No'],
    'tenure': [12, 24, 36],
    'PhoneService': ['Yes', 'Yes', 'No'],
    'MultipleLines': ['No', 'Yes', 'No phone service'],
    'InternetService': ['DSL', 'Fiber optic', 'No'],
    'OnlineSecurity': ['Yes', 'No', 'No internet service'],
    'OnlineBackup': ['Yes', 'No', 'No internet service'],
    'DeviceProtection': ['No', 'Yes', 'No internet service'],
    'TechSupport': ['Yes', 'No', 'No internet service'],
    'StreamingTV': ['Yes', 'Yes', 'No internet service'],
    'StreamingMovies': ['Yes', 'No', 'No internet service'],
    'Contract': ['Month-to-month', 'One year', 'Two year'],
    'PaperlessBilling': ['Yes', 'No', 'Yes'],
    'PaymentMethod': ['Electronic check', 'Mailed check', 'Bank transfer (automatic)'],
    'MonthlyCharges': [75.5, 85.0, 60.0],
    'TotalCharges': [900.0, 2000.0, 2200.0]
}

new_data = pd.DataFrame(new_data)

# Chuẩn bị dữ liệu mới
X_new = new_data.drop(['customerID'], axis=1)  # Giả sử bạn có cột customerID và cần loại bỏ

# Chuyển đổi các biến phân loại thành số (giống như cách bạn đã làm trước đó)
X_new = pd.get_dummies(X_new, drop_first=True)

# Đảm bảo các cột trong X_new khớp với mô hình đã huấn luyện
# Bạn có thể thêm cột nào thiếu hoặc loại bỏ cột nào thừa nếu cần
X_new = X_new.reindex(columns=X.columns, fill_value=0)  # Điền bằng 0 cho các cột thiếu

# Tải mô hình đã lưu
model_names = ['Logistic_Regression', 'Decision_Tree', 'Random_Forest', 'Support_Vector_Machine', 'Gradient_Boosting']
models = {name: load(f"{name}.joblib") for name in model_names}

# Dự đoán với từng mô hình
predictions = {}
for model_name, model in models.items():
    predictions[model_name] = model.predict(X_new)  # Dự đoán cho dữ liệu mới

# Hiển thị kết quả dự đoán
for model_name, preds in predictions.items():
    print(f"Dự đoán với {model_name}: {preds}")


Dự đoán với Logistic_Regression: [0 0 0]
Dự đoán với Decision_Tree: [1 0 0]
Dự đoán với Random_Forest: [0 0 0]
Dự đoán với Support_Vector_Machine: [0 0 0]
Dự đoán với Gradient_Boosting: [0 0 0]
