# 目標檢測數據集PASCAL VOC簡介


PASCAL VOC挑戰賽（The PASCAL Visual Object Classes ）是一個世界級的計算機視覺挑戰賽, PASCAL全稱：Pattern Analysis, Statical Modeling and Computational Learning，是一個由歐盟資助的網絡組織。

很多優秀的計算機視覺模型比如分類，定位，檢測，分割，動作識別等模型都是基於PASCAL VOC挑戰賽及其數據集上推出的，尤其是一些目標檢測模型（比如大名鼎鼎的R CNN系列，以及後面的YOLO，SSD等）。

我們知道在ImageNet挑戰賽上湧現了一大批優秀的分類模型，而PASCAL挑戰賽上則是湧現了一大批優秀的目標檢測和分割模型，這項挑戰賽已於2012年停止舉辦了，但是研究者仍然可以在其服務器上提交預測結果以評估模型的性能。



資料集統計:

![](imgs/class_hist.png)


## 下載位置:

data: http://host.robots.ox.ac.uk/pascal/VOC/voc2012/VOCtrainval_11-May-2012.tar


## 評估標準mAP(mean average precision)

[說明資料](https://medium.com/@kweisamx0322/mean-average-precision-map-%E8%A9%95%E4%BC%B0%E6%B8%AC%E9%87%8F%E6%96%B9%E6%B3%95-7eb156fd5038)
[PDF](pdf/mAP.pdf)


## 資料夾內容

解壓縮後 VOC2012目錄下有5個子資料夾('ImageSets', 'JPEGImages', 'SegmentationObject', 'SegmentationClass','Annotations')

### Annotations

Annotations是存放圖片對應的xml，比如2007_000027.xml存放的是圖片2007_000027.jpg對應的資料。

數據集的標註還是很謹慎的，有專門的標註團隊，並遵從統一的標註標準，xml 文件組織的如下：

* filename ：文件名
* source，owner：圖片來源，及擁有者
* size：圖片大小
* segmented：是否分割
* object：表明這是一個目標，裡面的內容是目標的相關信息
* name：object名稱，20個類別
* pose：拍攝角度：front, rear, left, right, unspecified
* truncated：目標是否被截斷（比如在圖片之外），或者被遮擋（超過15%）
* difficult：檢測難易程度，這個主要是根據目標的大小，光照變化，圖片質量來判斷
* bndbox：bounding box 的左上角點和右下角點的4個坐標值。


### ImageSets

文件夾裡存放了官方為我們劃分好的訓練集和驗證集的txt文件。我們主要使用“ImageSets/Main/"文件夾下的train.txt和val.txt文件，train.txt文件存放了官方劃分的訓練集的圖片名稱，val.txt文件存放了驗證集圖片的名稱。


### JEPGImages

裡面存放了對應圖片名稱的原始圖片。剩下的兩個文件夾我們就不需要特別關注了。


In [1]:
# Annotation 格式範例:

file = 'imgs/VOC2012/Annotations/2011_004284.xml'

with open(file, 'r') as f:
    txt = f.read()
    print(txt)

<annotation>
	<filename>2011_004284.jpg</filename>
	<folder>VOC2011</folder>
	<object>
		<name>person</name>
		<actions>
			<jumping>0</jumping>
			<other>0</other>
			<phoning>0</phoning>
			<playinginstrument>1</playinginstrument>
			<reading>0</reading>
			<ridingbike>0</ridingbike>
			<ridinghorse>0</ridinghorse>
			<running>0</running>
			<takingphoto>0</takingphoto>
			<usingcomputer>0</usingcomputer>
			<walking>0</walking>
		</actions>
		<bndbox>
			<xmax>259</xmax>
			<xmin>87</xmin>
			<ymax>333</ymax>
			<ymin>62</ymin>
		</bndbox>
		<difficult>0</difficult>
		<pose>Unspecified</pose>
		<point>
			<x>162</x>
			<y>210</y>
		</point>
	</object>
	<object>
		<name>person</name>
		<actions>
			<jumping>0</jumping>
			<other>0</other>
			<phoning>0</phoning>
			<playinginstrument>1</playinginstrument>
			<reading>0</reading>
			<ridingbike>0</ridingbike>
			<ridinghorse>0</ridinghorse>
			<running>0</running>
			<takingphoto>0</takingphoto>
			<usingcomputer>0</usingcomputer>
			

In [2]:
# 處理XML格式方法

import xml.etree.ElementTree as ET


file = 'imgs/VOC2012/Annotations/2011_004284.xml'
tree = ET.parse(file)
root = tree.getroot()

# 取出 root下size物件
size = root.find('size')
# 取出 size下width, height物件的text
w = int(size.find('width').text)
h = int(size.find('height').text)
print(size, w, h)


for obj in root.iter('object'):
    print(obj, 'class name: ', obj.find('name').text)


<Element 'size' at 0x7f530016da10> 500 333
<Element 'object' at 0x7f53001676b0> class name:  person
<Element 'object' at 0x7f530016d0b0> class name:  person
