In [22]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib import font_manager
%matplotlib inline

# 设置中文字体
plt.rcParams['font.sans-serif'] = ['SimHei']  # 使用黑体
plt.rcParams['axes.unicode_minus'] = False    # 解决负号显示问题

# 读取breast-cancer-wisconsin.csv数据集
df = pd.read_csv('breast-cancer-wisconsin.csv',header=None)


# 检查数据中是否有空值
print("\n检查数据中的空值:")
print(df.isnull().sum())
print("\n空值总数:", df.isnull().sum().sum())

# 检查数据中是否有'?'值
print("\n检查数据中的'?'值:")
for col in df.columns:
    question_marks = (df[col] == '?').sum()
    if question_marks > 0:
        print(f"列 {col} 中有 {question_marks} 个'?'值")

print("\n'?'值总数:", sum((df == '?').sum()))
# 将'?'值替换为NaN
df = df.replace('?', np.nan)

# 显示每列缺失值的数量
print("\n每列缺失值的数量:")
print(df.isnull().sum())
# 显示数据的基本信息
print("\n数据的基本信息:")
print(df.info())

# 删除包含缺失值的行
print("\n删除前的数据形状:", df.shape)
df = df.dropna()
print("删除后的数据形状:", df.shape)

print("\n确认是否还有缺失值:")
print(df.isnull().sum())

# 重命名列以便更容易理解
columns = ['ID', 'Clump Thickness', 'Uniformity of Cell Size', 'Uniformity of Cell Shape', 
           'Marginal Adhesion', 'Single Epithelial Cell Size', 'Bare Nuclei', 
           'Bland Chromatin', 'Normal Nucleoli', 'Mitoses', 'Class']
df.columns = columns
# 将目标变量转换为二分类问题（2为良性，4为恶性）
# 原始数据中，Class=2表示良性，Class=4表示恶性
# 为了便于逻辑回归分析，将Class值转换为0和1
print("\n目标变量Class的取值:")
print(df['Class'].value_counts())

# 将Class列转换为0和1
# 2(良性)映射为0，4(恶性)映射为1
df['Class'] = df['Class'].map({2: 0, 4: 1})


# 删除ID列，因为它只是记录标识，不包含预测价值
df = df.drop('ID', axis=1)

# 分离特征和目标变量
X = df.drop('Class', axis=1)
y = df['Class']

# 划分数据集为训练集和测试集
from sklearn.model_selection import train_test_split

# 使用train_test_split函数划分数据，test_size=0.2表示测试集占20%，random_state设置随机种子以确保可重复性
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 显示划分后的数据集大小
print("\n数据集划分结果:")
print(f"训练集特征形状: {X_train.shape}")
print(f"测试集特征形状: {X_test.shape}")
print(f"训练集标签形状: {y_train.shape}")
print(f"测试集标签形状: {y_test.shape}")


# 使用逻辑回归模型进行分析
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix, roc_curve, auc
import matplotlib.pyplot as plt
import numpy as np

# 创建逻辑回归模型
# C参数控制正则化强度，较小的C值表示更强的正则化
# max_iter设置最大迭代次数
log_reg = LogisticRegression(C=0.1, random_state=42, max_iter=1000)

# 在训练集上训练模型
log_reg.fit(X_train, y_train)

# 在测试集上进行预测
y_pred = log_reg.predict(X_test)
y_pred_prob = log_reg.predict_proba(X_test)[:, 1]  # 获取正类的概率

# 评估模型性能
print("\n逻辑回归模型评估:")
print(f"准确率: {accuracy_score(y_test, y_pred):.4f}")

# 显示混淆矩阵
conf_matrix = confusion_matrix(y_test, y_pred)
print("\n混淆矩阵:")
print(conf_matrix)

# 显示分类报告（包括精确率、召回率、F1分数）
print("\n分类报告:")
print(classification_report(y_test, y_pred, target_names=['良性(0)', '恶性(1)']))

# 查看模型系数
print("\n特征重要性（模型系数）:")
feature_importance = pd.DataFrame({
    '特征': X.columns,
    '系数': log_reg.coef_[0]
})
print(feature_importance.sort_values('系数', ascending=False))




检查数据中的空值:
0     0
1     0
2     0
3     0
4     0
5     0
6     0
7     0
8     0
9     0
10    0
dtype: int64

空值总数: 0

检查数据中的'?'值:
列 6 中有 16 个'?'值

'?'值总数: 16

每列缺失值的数量:
0      0
1      0
2      0
3      0
4      0
5      0
6     16
7      0
8      0
9      0
10     0
dtype: int64

数据的基本信息:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 699 entries, 0 to 698
Data columns (total 11 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       699 non-null    int64 
 1   1       699 non-null    int64 
 2   2       699 non-null    int64 
 3   3       699 non-null    int64 
 4   4       699 non-null    int64 
 5   5       699 non-null    int64 
 6   6       683 non-null    object
 7   7       699 non-null    int64 
 8   8       699 non-null    int64 
 9   9       699 non-null    int64 
 10  10      699 non-null    int64 
dtypes: int64(10), object(1)
memory usage: 60.2+ KB
None

删除前的数据形状: (699, 11)
删除后的数据形状: (683, 11)

确认是否还有缺失值:
0     0
1     0
2     