# 小项目：皮肤科医生的人工智能

## 介绍

在这个小项目中，你要设计一个算法，使其能对最致命的皮肤癌——[黑色素瘤](http://www.skincancer.org/skin-cancer-information/melanoma)进行视觉诊断。你的算法应特别能将这种恶性皮肤肿瘤与两种良性病变（[黑色素痣](http://missinglink.ucsf.edu/lm/dermatologyglossary/nevus.html)和[脂溢性角化病](https://www.aad.org/public/diseases/bumps-and-growths/seborrheic-keratoses)）区分开来。

数据和目标来自[国际皮肤影像协作组织 2017 年黑色素瘤检测的皮肤病变分析挑战](https://challenge.kitware.com/#challenge/583f126bcad3a51cc66c8d9a)。作为挑战的一部分，参与者需要设计一个算法，用于诊断三种不同皮肤病的其中之一（黑色素瘤、黑色素痣或脂溢性角化病）的皮肤病变图像。在该项目中，你要创建一个模型，用于生成你自己的预测结果。

<img src="../../../sources/img/CNN/skin-disease-classes.png" >


## 开始

1.克隆[资源库](https://github.com/IntelligentPeople/dermatologist-ai)并创建 data/ 文件夹，用于保存皮肤图像的数据集。
2.创建用于保存训练、验证和测试图像的文件夹。

>mkdir train; mkdir valid; mkdir test

3.下载并解压[训练数据](https://s3.cn-north-1.amazonaws.com.cn/static-documents/nd101/v4-dataset/train.zip) (5.3 GB)。

4.下载并解压[验证数据](https://s3.cn-north-1.amazonaws.com.cn/static-documents/nd101/v4-dataset/valid.zip) (824.5 MB)。

5.下载并解压[测试数据](https://s3.cn-north-1.amazonaws.com.cn/static-documents/nd101/v4-dataset/test.zip) (5.1 GB)。

6.将训练、验证和测试图像分别保存在 `data/` 文件夹下的 `data/train/`、`data/valid/` 和 `data/test/` 文件夹中。每个文件夹应包含三个子文件夹（`melanoma/`、`nevus/`、`seborrheic_keratosis/`），每个子文件夹分别用于保存这三个图像类的代表性图像。

你可以自行选用任何编码环境完成这个小项目！为了对你的成果进行评分，你最后只需要将预测测试结果保存为 CSV 文件。


## 创建模型

使用训练和验证数据对模型进行训练，使其可以区分三种不同的图像类。（训练之后，你要用测试图像检测模型的性能。）

如需了解该竞赛中获胜的一些算法，请阅读[这篇文章](https://arxiv.org/pdf/1710.05006.pdf)，它对某些最佳方法进行了讨论。几篇相关研究论文如下所述。


- Matsunaga K、Hamada A、Minagawa A、Koga H。“[用深度神经网络集成对黑色素瘤、黑色素痣和脂溢性角化病进行图像分类](https://arxiv.org/ftp/arxiv/papers/1703/1703.03108.pdf)”。国际皮肤影像协作组织 (ISIC) 2017 年国际生物医学成像研讨会 (ISBI) 挑战。

- Daz IG。“[皮肤科医生知识在诊断皮肤病变的卷积神经网络中的运用](https://arxiv.org/pdf/1703.01976.pdf)”。国际皮肤影像协作组织 (ISIC) 2017 年国际生物医学成像研讨会 (ISBI) 挑战。([github](https://github.com/igondia/matconvnet-dermoscopy))

- Menegola A、Tavares J、Fornaciali M、Li LT、Avila S、Valle E。“[ISIC 2017 年挑战 RECOD Titans](https://arxiv.org/abs/1703.04819)”。国际皮肤影像协作组织 (ISIC) 2017 年国际生物医学成像研讨会 (ISBI) 挑战。([github](https://github.com/learningtitans/isbi2017-part3))


最初的挑战提供附加数据（如患者性别和年龄），但我们仅为你提供图像数据。如需下载患者的附加数据，可在竞赛[网站](https://challenge.kitware.com/#phase/5840f53ccad3a51cc66c8dab)下载。

以上三个团队都使用了附加数据来源，增加了训练集中的图像数量。如需扩展你的训练集，可访问[国际皮肤影像协作组织档案](https://isic-archive.com/#images)。


## 评价

受国际皮肤影像协作组织挑战的启发，我们将按照三个类别对你的算法进行评分。


### 类别 1：黑色素瘤分类的 ROC AUC

在第一个类别中，我们将计算与该二元分类任务对应的受试者工作特征曲线 ([ROC AUC](http://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html)) 下方的面积，检测你的卷积神经网络能否区分恶性黑色素瘤与良性皮肤病变（黑色素痣、脂溢性角化病）。

如果你不熟悉 ROC（受试者工作特征）曲线，想要进一步学习，可以阅读 [scikit-learn](http://scikit-learn.org/stable/auto_examples/model_selection/plot_roc.html#sphx-glr-auto-examples-model-selection-plot-roc-py) 中的文件或者阅读这篇 [Wikipedia 文章](https://en.wikipedia.org/wiki/Receiver_operating_characteristic)。

ISIC 竞赛中该类别得分最高的如下图所示。

<img src="../../../sources/img/CNN/cat-1.jpeg" >



### 类别 2: 黑色素痣分类的 ROC AUC

我们将要检查的所有皮肤病变是[黑色素细胞](https://en.wikipedia.org/wiki/Melanocyte)或[角化细胞](https://en.wikipedia.org/wiki/Keratinocyte)（两种不同类型的表皮皮肤细胞）的异常生长造成的。黑色素瘤和黑色素痣是黑色素细胞产生的，而脂溢性角化病是角化细胞产生的。

在第二个类别中，我们将计算与该二元分类任务对应的受试者工作特征曲线 ([ROC AUC](http://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html)) 下方的面积，检测你的卷积神经网络能否区分黑色素细胞和角化细胞的皮肤病变。

ISIC 竞赛中该类别得分最高的如下图所示。

<img src="../../../sources/img/CNN/cat-2.jpeg" >


### 类别 3：平均 ROC AUC

在第三个类别中，我们将取前两个类别中 ROC AUC 值的平均值。

ISIC 竞赛中该类别得分最高的如下图所示。

<img src="../../../sources/img/CNN/cat-3.jpeg" >



### 提交你的成果

训练模型之后，创建一个 CSV 文件，用于保存你的预测测试结果。该文件应有 600 行，每行与不同的测试图像对应，外加一个标题行。可以在资源库中查看提交文件样本 (`sample_submission.csv`)。

你的文件应有 3 列：

- `Id` - 测试图像的文件名（顺序与提交文件样本中的相同）
- `task_1` - 模型对图像（路径在 Id 下）显示黑色素瘤的预测概率
- `task_2` - 模型对图像（路径在 Id 下）显示脂溢性角化病的预测概率

提交 CSV 文件之后，使用 `get_results.py` 文件对你提交的文件进行评分。如需建立运行该文件的环境，需要用 Python 3.5 和可安装 pip 的几个包进行创建（并激活）:

```
>conda create --name derm-ai python=3.5
>source activate derm-ai
>pip install -r requirements.txt
```


建立环境之后，运行以下命令，查看提交文件样本的效果：

>python get_results.py sample_predictions.csv

对获得的三个类别的得分的终端输出进行检查：

```
>Category 1 Score: 0.526
>Category 2 Score: 0.606
>Category 3 Score: 0.566
```


对应的 ROC 曲线以及与黑色素瘤分类对应的混淆矩阵，都会出现在弹出窗口中。

<img src="../../../sources/img/CNN/sample-roc-curve.png" >

<img src="../../../sources/img/CNN/sample-confusion-matrix.png" >

从混淆矩阵中可以看出，提交文件样本当前预测的是，测试数据集中的大多数图像与良性病变对应。我们将会检验你的模型能否改进这个结果，从而更好地检测癌症！

用于生成混淆矩阵的代码假设黑色素瘤的分类阈值为 0.5。如需改变该阈值，只需在调用 `get_results.py` 文件时提供一个额外的命令行参数。例如，如需将阈值设为 0.4，只需运行：

>python get_results.py sample_predictions.csv 0.4

如需测试你自己提交的文件，请更改代码，将你的 CSV 文件路径包含在其中。


