In [2]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

In [3]:
# 加载数据
data = pd.read_csv('data_ex/train.csv')
data.head()

In [4]:
# 查看数据的基本信息
data.info()
# 查看数据的统计信息
data.describe()

In [5]:
#分析Exited列的不均衡分布
data['Exited'].value_counts()
#绘图饼图
data['Exited'].value_counts().plot.pie(autopct='%1.2f%%')
plt.savefig('image/Exited.svg')

In [6]:
#研究特征CustomerId
data['CustomerId'].value_counts()

In [7]:
#进行CustomerID和Exited的相关性分析,进行卡方检验
from scipy.stats import chi2_contingency
crosstab = pd.crosstab(data['CustomerId'], data['Exited'])
chi2, p, dof, expected = chi2_contingency(crosstab)
print('chi2:', chi2)
print('p:', p)
print('dof:', dof)

- 客户 ID 和是否流失之间存在强烈的相关性。卡方统计量 (23690.199022922447) 非常大。
- 该相关性在统计上是显着的。这是因为 p 值 (0.014986908807046184) 小于常见的显著性水平 (例如 0.05)。
- 自由度为 23220，表明用于创建交叉表的样本量很大。

In [8]:
# 计算每个CustomerId的总数
total_counts = data['CustomerId'].value_counts()

# 计算每个CustomerId中Exited为1的数量
exited_counts = data[data['Exited'] == 1]['CustomerId'].value_counts()

# 计算每个CustomerId中Exited为1的占比
exited_ratio = exited_counts / total_counts

# 创建一个新的DataFrame，包含每个CustomerId的总数和Exited为1的占比
result = pd.DataFrame({
    'TotalCounts': total_counts,
    'ExitedRatio': exited_ratio
})

# 用0填充NaN值
result = result.fillna(0)
result

In [9]:
#可视化result
#以ExitedRatio为y轴，TotalCounts为x轴，绘制散点图
#seaborn
sns.scatterplot(x='TotalCounts', y='ExitedRatio', data=result)
plt.savefig('image/CustomerId.png')

In [10]:
#研究特征Surname
data['Surname'].value_counts()

In [21]:
#进行Surname和Exited的相关性分析
total_counts = data['Surname'].value_counts()
exited_counts = data[data['Exited'] == 1]['Surname'].value_counts()

exited_ratio = exited_counts / total_counts
result = pd.DataFrame({
    'TotalCounts': total_counts,
    'ExitedRatio': exited_ratio
})
result = result.fillna(0)
sns.scatterplot(x='TotalCounts', y='ExitedRatio', data=result)
#x轴每100个单位，y轴每0.1个单位
plt.xticks(np.arange(0, total_counts.max(),200),rotation=45)
plt.savefig('image/Surname.png')

In [12]:
#研究tenure
data['Tenure'].value_counts()

In [13]:
#分析年龄数据的分布情况
#分桶后绘图 seaborn
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
sns.histplot(data['Age'],bins = 10)
plt.subplot(1, 2, 2)
sns.histplot(np.log1p(data['Age']), bins = 10)
plt.savefig('image/Age.svg')    

In [14]:
#分析地理位置和流失之间的关系
#x轴为Geography，每一类分两列表示Exited为0和1的数量，y轴为计数
#seaborn
plt.figure(figsize=(12, 6))
sns.countplot(x='Geography', hue='Exited', data=data)
plt.savefig('image/Geo.svg')