# 基于机器学习的乳腺癌预测
#### (请以你的学号作为train_test_split的随机状态)

# 一、实验简介

## (一）问题描述
乳腺癌是全世界妇女最常见的癌症，占所有妇女癌症的16%，是世界范围内妇女死亡的主要原因之一，准确的诊断是乳腺癌治疗中最重要的步骤之一。在本实验中我们通过机器学习的方法能够对肿瘤的良恶性进行自动识别，那么将有可能大大提高检测效率和准确性。

本实验我们借助来自威斯康辛州的乳腺癌诊断的历史数据集，结合Sklearn机器学习库中的算法对该数据数据集进行了数据分类并做出预测。


## （二）数据介绍

此实验中的数据总共有569个数据样本数据，数据大小为569X32，要求以8:2的形式拆分出来分别作为训练集与测试集。

文件所在的位置“./rxa_data.csv”。

特征是由乳腺肿块的细针穿刺(FNA)的数字化图像计算出来的。它们描述了图像中肿瘤的特征:  
1) id 	ID标识  
2) diagnosis	乳腺组织的诊断(M =恶性，B =良性)  数据集的标签 

每个肿瘤的前10个实值特征:  
a) radius 半径
b) texture 文理(灰度值的标准差)  
c) perimeter 周长  
d) area 面积  
e) smoothness 	平滑程度(半径内的局部变化)  
f) compactness 紧密度（=周长*周长/面积-1.0）  
g) concavity 	凹度（轮廓凹部的严重程度）  
h) concave points 凹缝（轮廓的凹部分）  
i) symmetry 对称性  
j) fractal dimension 分形维数  

对每幅图像计算这些特征的平均值（mean）、标准差（se）、良恶性等，得到30个特征。这些特征值都保留了4位数字。字段中没有缺失的值。在整个569个患者中，一共有357个是良性，212个是恶性。  

## （三）环境要求¶
1.python 3.x（包括pandas、matplotlib、Numpy、seaborn和sklearn包）

2.Jupyter Notebook

3.window 7及以上和linux操作系统下运行。

## （四）技术说明
1.python3.x 语言程序设计

2.sklearn包

3.《大数据智能分析课程》所学的机器学习算法（包括但不仅限于KNN算法、决策树算法、贝叶斯算法、逻辑回归算法、支持向量机......）

# 二、实验目的

## （一）知识目标
1.调用sklearn库中的机器学习算法实现对乳腺癌数据集预测能力

2.掌握机器学习算法在乳腺癌数据集下的初步应用

3.掌握运用机器学习算法来实现对历史数据进行分类的能力

## （二）技能目标¶
1.进一步熟悉sklearn机器学习计算框架和相关包的运用


2.掌握机器学习算法在sklearn库中调用实现方式

3.掌握初级的数据分析流程

## （三）素养目标¶
1.锻炼学生利用网络查找、使用资料的能力

2.锻炼学生撰写文档的能力

3.锻炼学生观察数据、处理数据的能力

4.锻炼学生调用算法实现一个完整机器学习流程的能力

# 三、 实验任务与要求

本实验调用sklearn库中的机器学习模型，将569个样本中的80%作为训练集(以你的学号作为随机状态)输入KNN模型训练，最终对569个样本中的20%实现分类。

具体的实验要求如下：

1.观察数据集：加载数据集，观察数据集的分布情况，是否有缺失值。

2.数据可视化：将30个特征分成三组特征。对三组特征分别画出热力图，来得到特征之间的相关性图。通过观察特征与特征之间的相关性，选择特征与特征之间相关性高的作为模型的输入特征。

3.数据处理：若数据中有缺失值，实验里面综合运用pd.replace()，pd.drop等方法实现数据的清洗，使标签变为数值型，好放到模型里面去训练，之后再对特征数据进行进行标准化，便于减少计算量。

4.数据的划分：采用sklearn中train_test_split(X,y,test_size=0.2,random_state=设置为你的学号)函数按8:2划分数据集，其中X表示数据集特征，y表示数据集标签，test_size是划分比例,random_state为随机状态（请设置为你的学号）。

5.模型训练：从sklearn库中调用KNeighborsClassifier(n_neighbors)函数，设置参数n_neighbors，实现KNN分类模型。

6.模型的评估：采用sklearn.metrics中的评估函数accuracy_score（x_test，y_test）评估KNN模型分类的准确度。

7.尝试用不同的模型进行训练（已学过的算法：决策树，逻辑回归，svm，随机森林，贝叶斯......），对比算法性能。


# 四、实验步骤

本实验主要由以下几个步骤构成：

1.加载相关的包

2.加载数据

3.数据处理 标签数据的转换(编码)、缺失值检查、数据的可视化、特征选择、数据的标准化、数据的缩放。

4.sklearn中调用模型、训练模型、模型的评估。

### （一）、加载相关的包
1.加载numpy、pandas等包做数据处理。

2.加载matplotlib、seaborn包做数据可视化

3.从sklearn.neighbors加载KNeighborsClassifier算法函数

4.从sklearn.model_selection中加载train_test_split训练集-测试集划分的函数

5.从sklearn.metrics中加载accuracy_score来评估分数

In [110]:
import numpy as np#np包
import pandas as pd#问件读取包
import seaborn as sns#数据可视化包
import matplotlib.pyplot as plt#数据可视化包
from sklearn.neighbors import KNeighborsClassifier# KNN分类模型
from sklearn.preprocessing import StandardScaler#数据标准化
from sklearn.model_selection import train_test_split#数据划分函数
from sklearn.metrics import accuracy_score # 评分指标，精确度
......