In [None]:
# 安装 pandas 库
! pip3 install pandas

# 安装 matplotlib 库
! pip3 install matplotlib

# 安装 scikit-learn 库
! pip3 install scikit-learn

In [None]:
# 导入 pandas 库，使用 pd 简化调用
import pandas as pd

# 从 Github 链接读取 churn.csv 文件，存储在 churn_data 数据框中
churn_data = pd.read_csv("https://raw.githubusercontent.com/awesome-generative-ai/The-Machine-Learning-Solutions-Architect-and-Risk-Management-Handbook/refs/heads/zh/Chapter03/churn.csv")

# 显示数据框的前五行数据
churn_data.head()

In [None]:
# 计算特征的各种统计信息
churn_data.describe()  

# 显示不同特征的直方图
# 可以替换列名以绘制其他特征的直方图
churn_data.hist(['CreditScore', 'Age', 'Balance'])

In [None]:
# 导入 OrdinalEncoder 类，用于对分类特征进行编码
from sklearn.preprocessing import OrdinalEncoder

# 创建两个 OrdinalEncoder 对象
encoder_1 = OrdinalEncoder()
encoder_2 = OrdinalEncoder()

# 对 'Geography' 列进行编码，并将结果存储在 'Geography_code' 列中
churn_data['Geography_code'] = encoder_1.fit_transform(churn_data[['Geography']])

# 对 'Gender' 列进行编码，并将结果存储在 'Gender_code' 列中
churn_data['Gender_code'] = encoder_2.fit_transform(churn_data[['Gender']])

In [None]:
# 从 churn_data 数据框中删除指定的列
churn_data.drop(columns = ['Geography','Gender','RowNumber','Surname'], inplace=True)

# 计算剩余特征之间的相关性
churn_data.corr()

In [None]:
# 导入 train_test_split 类，用于数据分割
from sklearn.model_selection import train_test_split

# 将数据集分成训练集（80%）和测试集（20%）。
churn_train, churn_test = train_test_split(churn_data, test_size=0.2)

# 将特征与目标变量 "Exited" 分开
churn_train_X = churn_train.loc[:, churn_train.columns != 'Exited']  # 训练集特征
churn_train_y = churn_train['Exited']                           # 训练集目标变量
churn_test_X = churn_test.loc[:, churn_test.columns != 'Exited'] # 测试集特征
churn_test_y = churn_test['Exited']                             # 测试集目标变量

In [None]:
# 我们将使用随机森林算法来训练模型
from sklearn.ensemble import RandomForestClassifier

# 创建一个 RandomForestClassifier 对象，并设置参数
bank_churn_clf = RandomForestClassifier(max_depth=2, random_state=0)

# 使用训练集数据训练模型
bank_churn_clf.fit(churn_train_X, churn_train_y)

In [None]:
# 导入 accuracy_score 类来计算模型的准确率
from sklearn.metrics import accuracy_score

# 使用训练好的模型对测试集进行预测
churn_prediction_y = bank_churn_clf.predict(churn_test_X)

# 计算模型的准确率
accuracy_score(churn_test_y, churn_prediction_y)