# torchvision.datasets
torchvision.datasets 中包含了以下数据集  
- MNIST COCO（用于图像标注和目标检测）(Captioning and Detection)   
- LSUN Classication 
- ImageFolder 
- Imagenet-12 
- CIFAR10 
- CIFAR100 
- STL10

Datasets 拥有以下 API : \_\_getitem__ \_\_len__
由于以上 Datasets 都是 torch.utils.data.Dataset 的子类，所以，他们也可以通过 torch.utils.data.DataLoader 使用多线程（python的多进程）。  
举例说明： torch.utils.data.DataLoader(coco_cap, batch_size=args.batchSize, shuffle=True, num_workers=args.nThreads)在构造函数中，不同的数据集直接的构造函数会有些许不同，但是他们共同拥有 keyword 参数。
- transform - 一个函数，原始图片作为输入，返回一个转换后的图片。 （详情请看下面关于 torchvision-tranform 的部分）
- target_transform - 一个函数，输入为 target ，输出对其的转换。例子，输入的是图片标注 的 string ，输出为 word 的索引。

```python
import torchvision.datasets as dset
import torchvision.transforms as transforms
cap = dset.CocoCaptions(root = 'dir where images are',   
                        annFile = 'json annotation file',
                        transform=transforms.ToTensor())

print('Number of samples: ', len(cap))
img, target = cap[3] # load 4th sample

print("Image Size: ", img.size())
print(target)
```

```python
#检测:
dset.CocoDetection(root="dir where images are", annFile="json annotation file", [transform, target_transform])  #需要路径
```

## LSUN
dset.LSUN(db_path, classes='train', [transform, target_transform])  
参数说明： 
- db_path = 数据集文件的根目录 
- classes = ‘train’ (所有类别, 训练集), ‘val’ (所有类别, 验证集), ‘test’ (所有类别, 测试集)
- [‘bedroom_train’, ‘church_train’, …] - 需要加载的类别列

## ImageFolder
一个通用的数据加载器，数据集中的数据以以下方式组织：  
root/dog/xxx.png、root/dog/xxy.png、root/dog/xxz.png  
root/cat/123.png、root/cat/nsdf3.png、root/cat/asd932_.png    

dset.ImageFolder(root="root folder path", [transform, target_transform])  
有以下成员变量:  
- self.classes - 用一个list保存 类名
- self.class_to_idx - 类名对应的 索引
- self.imgs - 保存(img-path, class) tuple的list
```python
img_dir='.\\img'
#img_dir='E:\\mtcnn-onet\\train'
data = ImageFolder(img_dir,transform=transforms.Compose(
    [transforms.Resize(224), #Bnnet 改成64,mobilenet,resnet改成224
     transforms.RandomHorizontalFlip(),
     transforms.ToTensor(),
     #transforms.Normalize(mean=(0.034528155, 0.033598177, 0.009853649), std=(0.15804708, 0.16410254, 0.0643605))
     ]))
```

## CIFAR
dset.CIFAR10(root, train=True, transform=None, target_transform=None, download=False)  
dset.CIFAR100(root, train=True, transform=None, target_transform=None, download=False)  
参数说明： 
- root : cifar-10-batches-py 的根目录 
- train : True = 训练集, False = 测试集 - 
- download : True = 从互联上下载数据，并将其放在root目录下

## STL10
dset.STL10(root, split='train', transform=None, target_transform=None, download=False)  
参数说明：   
- root : stl10_binary的根目录 
- split : 'train' = 训练集, 'test' = 测试集, 'unlabeled' = 无标签数据集, 'train+unlabeled' = 训练 + 无标签数据集 (没有标签的标记为-1) 
- download : True = 从互联上下载数据，并将其放在root目录下