# 机器学习纳米学习 -- 猫狗大战
---

## 开题报告
---

苗沛 2018.08.10

### 项目背景
---

Cats vs. Dogs（猫狗大战）是Kaggle上的一个竞赛题目，利用给定的数据集，用算法实现猫和狗的识别。这个是计算机视觉领域的一个问题。

近些年来，深度学习通过在某些任务中极佳的表现正在改革机器学习。深度学习方法在会话识别、图像识别、对象侦测以及如药物发现和基因组学等领域表现出了惊人的准确性。但是，“深度学习”这个词语很古老，它在1986年由Dechter在机器学习领域提出，然后在2000年有Aizenberg等人引入到人工神经网络中。而现在，由于Alex Krizhevsky在2012年使用卷积网络结构赢得了ImageNet比赛之后受到大家的瞩目。

深度学习在计算机视觉领域最具影响力的突破发生在2012年，欣顿的研究小组采用深度学习赢得了ImageNet图像分类比赛的冠军。排名第2到第4位的小组采用的都是传统的计算机视觉方法、手工设计的特征，他们之间准确率的差别不超过1%。欣顿研究小组的准确率超出第二名10%以上。这个结果在计算机视觉领域产生了极大的震动，引发了深度学习的热潮。

自此以后每年的ImageNet图像分类比赛都是神经网络夺得冠军

2012年冠军 AlexNet, top-5错误率16.4%，使用额外数据可达到15.3%，8层神经网络
2014年亚军 VGGNet，top-5错误率7.3%，19层神经网络）
2014年冠军 InceptionNet，top-5错误率6.7%，22层神经网络
2015年的冠军 ResNet，top-5错误率3.57%，152层神经网络

### 问题描述
---

项目的目的是根据输入的图片识别出是猫还是狗，本质上是一个图像二分类问题。图像分类，顾名思义，就是为输入图像打上固定类别的标签。这是计算机视觉领域的核心问题之一。图像分类比较复杂，一般处理此问题经常会用到深度学习模型，比如CNN（卷积神经网络），还有其他算法（如 KNN、SVM）通常很擅长数据挖掘，但是对于图像分类，它们却不是最佳选择。

项目要求使用深度学习方法识别一张图片是猫还是狗，通过训练模型，任意一张测试的图片，模型总能将输入数据映射为是猫或者狗的概率。因此该问题是可量化的、可衡量、可复制的。

### 输入数据
---

数据集来自 kaggle 上的一个竞赛：[Dogs vs. Cats Redux: Kernels Edition](https://www.kaggle.com/c/dogs-vs-cats-redux-kernels-edition/data)，训练集有25000张，猫狗各占一半。测试集12500张，没有标定是猫还是狗。

数据集的文件名是以type.num.jpg这样的方式命名的，比如cat.0.jpg，但是使用 Keras 的 ImageDataGenerator 需要将不同种类的图片分在不同的文件夹中，因此我们需要对数据集进行预处理。这里我们采取的思路是创建符号链接(symbol link)，这样的好处是不用复制一遍图片，占用不必要的空间。

所有图片中，都是彩色图片都包含 RGB 三通道的信息，但是图片质量差异很大，图片大小不一致没有办法直接输入到神经网络中使用，需要进行resize。本次实验使用keras的ImageDataGenerator.flow_from_directory的参数target_size设置图片大小进行resize。

其中： Xception模型默认输入图片大小为299x299 VGG16模型的默认输入图片大小为224x224 ResNet50模型模型的默认输入尺寸为224x224

### 解决办法
---

项目要求使用深度学习的方法解决问题，这里拟使用卷积神经网络（CNN）。卷积神经网络(Convolutional Neural Network, CNN)是深度学习技术中极具代表的网络结构之一，在图像处理领域取得了很大的成功，在国际标准的ImageNet数据集上，许多成功的模型都是基于CNN的。CNN相较于传统的图像处理算法的优点之一在于，避免了对图像复杂的前期预处理过程（提取人工特征等），可以直接输入原始图像。CNN网络对图片进行多次卷基层和池化层处理，在输出层给出两个节点并进行softmax计算得到两个类别各自的概率。

### 基准模型
---

项目使用ResNet50, Xception, Inception V3 这三个模型完成。本项目的最低要求是 kaggle Public Leaderboard 前10%。在kaggle上，总共有1314只队伍参加了比赛，所以需要最终的结果排在131位之前，131位的得分是0.06127，所以目标是模型预测结果要小于0.06127。

### 评估指标
---

kaggle 官方的评估标准是 LogLoss，下面的表达式就是二分类问题的 LogLoss 定义。

$$ LogLoss = -\frac{1}{n}\sum_{i=1}^n [y_ilog(\hat{y}_i)+(1-y_i)log(1- \hat{y}_i)]$$

其中：

- n 是测试集中图片数量
- $\hat{y}_i$ 是图片预测为狗的概率
- $y_i$ 如果图像是狗，则为1，如果是猫，则为0
- $log()$ 是自然（基数 $e$）对数

对数损失越小，代表模型的性能越好。上述评估指标可用于评估该项目的解决方案以及基准模型。

### 设计大纲
---

#### 数据预处理

- 从kaggle下载好图片
- 将猫和狗的图片放在不同的文件夹以示分类，使用创建符号链接的方法
- 对图片进行resize，保持输入图片信息大小一致
- 对训练数据进行随机偏移、转动等变换图像处理，这样可以尽可能让训练数据多样化

#### 模型搭建

Kera的应用模块Application提供了带有预训练权重的Keras模型，这些模型可以用来进行预测、特征提取和微调整和。

- 使用ResNet50等现有的去掉了全连接层预训练模型
- 添加自己的全连接层到ResNet50网络

#### 模型训练&模型调参

- 导入预训练的网络权重
- 冻结除了全连接成的所有层，获得bottleneck特征
- 尝试使用不同的优化器 adam,adadelta等对模型进行训练，选择最佳模型

#### 模型评估

- 使用$Logloss$进行模型评估,上传Kaggle判断是否符合标准

#### 可视化

- 进行数据探索并且可视化原始数据
- 可视化模型训练过程的准确率曲线，损失函数曲线等