# python大数据作业2

李锦韬 2201213292

**作业要求：**

- 使用乳腺癌预测数据集`breast_cancer.csv`
- 读取数据并将数据集划分为训练集和测试集，使用随机森林方法进行预测，并输出在测试集上的准确率，绘制ROC曲线并获得AUC指标。
- 采用决策树桩（深度为1的决策树，即每次只采用一个特征的一个阈值作为划分依据）作为基本分类器，探究随基本分类器个数变化（1-100个），随机森林在测试集上的准确率的变化，画出变化曲线并进行分析。

## 1.数据预处理

### 1.1读入数据
首先读入数据，把握数据的基本情况和内容：
- 使用`pandas`读入csv格式的数据
- 使用`pandas`的`head()`方法查看前若干行数据
- 使用`pandas`的`info()`方法查看数据的基本信息

In [5]:
import pandas as pd
# 读取数据
data = pd.read_csv('breast_cancer.csv')
# 输出显示数据的前3行
# print(data.head(3))
print('数据中正样本的个数：', len(data[data['y']==1]))
print('数据中负样本的个数：', len(data[data['y']==0]))
# 查看数据情况：包括变量名称、变量类型、缺失值情况
print(data.info())

数据中正样本的个数： 357
数据中负样本的个数： 212
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 569 entries, 0 to 568
Data columns (total 31 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   mean radius              561 non-null    float64
 1   mean texture             569 non-null    float64
 2   mean perimeter           563 non-null    float64
 3   mean area                569 non-null    float64
 4   mean smoothness          569 non-null    float64
 5   mean compactness         569 non-null    float64
 6   mean concavity           569 non-null    float64
 7   mean concave points      569 non-null    float64
 8   mean symmetry            569 non-null    float64
 9   mean fractal dimension   569 non-null    float64
 10  radius error             569 non-null    float64
 11  texture error            569 non-null    float64
 12  perimeter error          569 non-null    float64
 13  area error               569 non-null    float64
 

**分析数据情况可知：**
- 数据有30个变量，总共有569条数据，其中标签为正样本的数据有367条，负样本的数据有212条
- 原始数据中变量`mean radius`缺失8条数据，变量`mean perimeter`缺失6条数据，其余变量数据正常无缺失
- 需要对缺失数据进行补全，以便后续数据处理操作

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, roc_curve, auc
import matplotlib.pyplot as plt

# 读取数据
data = pd.read_csv('breast_cancer.csv')

# 将特征和标签分离
X = data.iloc[:, :-1]
y = data.iloc[:, -1]

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 随机森林分类器
rf = RandomForestClassifier(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)

# 预测
y_pred = rf.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print("准确率：", accuracy)

# 计算ROC曲线和AUC指标
y_pred_prob = rf.predict_proba(X_test)[:, 1]
fpr, tpr, thresholds = roc_curve(y_test, y_pred_prob)
roc_auc = auc(fpr, tpr)
print("AUC指标：", roc_auc)

# 绘制ROC曲线
plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC curve (area = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC Curve')
plt.legend(loc="lower right")
plt.show()
