调研：多视角群体计数

单视角的群体计数虽然是目前的主流计数研究方向，在对应的数据集上也取得了比较不错的精度。但在实际应用中，这种方式对于巨大的场景或者宽阔的场景的实际效果较差，主要原因如下：

单视角受限于视距，不能提供计数整个场景所需的足够信息。
较远的人群，其分辨率较低，不易识别。
行人之间存在遮挡，导致误差。
因此，为解决这种问题，我们希望利用不重叠的多视角图像，并且希望多个视角相对分散，以至于相同目标不会一直被遮挡。来更好地估计整个场景中的行人密度分布。

数据集

一共有3个数据集：

数据集	分辨率	视角数量	训练数据/测试数据	人数范围
PETS2009	768×576	3	1105/794	20-40
DukeMTMC	1920×1080	4	700/289	10-30
City Street	2704×1520	3	300/200	70-150

总的来说，传统数据集对这个任务适用性一般，新的深度数据集适用该任务，但与任务的复杂度相比，数据量仍然显得非常小，未来肯定会有大数据集进行跟进。

图中展示了不同数据集下的3D密度图。显然，3D密度图相比2D密度图又多提供了一维的空间信息，对整个场景的密度估计也会更加精确，而且是全场景的，不是单图的（比如一个场景装了3个摄像头，传回来3个人数，由于遮挡、透视等因素可能差异很大，那么整个场景中的人数是多少呢？多视角计数就能解决这个问题）。

那么我们可以怎么接下去做呢？目前这个新提出的数据集只有1个场景，还是单场景下的预测，所以还处于demo阶段，远不能实际应用。要真正能够实用，还需要大量跨场景数据的采集、标注等工作。以及如何进一步优化3D密度图的建模等等。

Wide-Area Crowd Countingvia Ground-Plane Density Maps and Multi-View Fusion CNNs (CVPR2019)
3D Crowd Counting via Multi-View Fusion with 3D Gaussian Kernels (AAAI2020)
People counting in crowded and outdoor scenes using a hybrid multi-camera approach (ArXiv,2017)
People counting across multiple cameras for intelligent video surveillance. In IEEE Ninth International Conference on Advanced Video and Signal-Based Surveillance (AVSS,2012)
A reliable people counting system via multiple cameras. ACM Transactions on Intelligent Systems and Technology (TIST,2012)
People counting by learning their appearance in a multi-view camera environment (Pattern Recognition Letters, 2014)
Scene invariant multi camera crowd counting (Pattern Recognition Letters, 2014)
Cross-camera knowledge transfer for multiview people counting (TIP, 2014)
Crowd detection with a multiview sampler (ECCV,2010)