## 2. 把datasets中的图片保存为文件

In [1]:
%matplotlib inline
import torch
import numpy as np
import matplotlib.pyplot as plt

torch.set_printoptions(edgeitems=2)
torch.manual_seed(123456)

print("")




### 2.1 MNIST图像

#### 1. 加载MNIST数据

In [2]:
from torchvision import datasets

data_root_dir = "../../data/torchvision/"

In [3]:
# 看下目录中是否已经下载过MNIST图片
! ls ../../data/torchvision | grep MNIST

[1m[36mMNIST[m[m


In [4]:
mnist_dataset = datasets.MNIST(data_root_dir, train=True, download=True)

In [5]:
mnist_dataset

Dataset MNIST
    Number of datapoints: 60000
    Root location: ../../data/torchvision/
    Split: Train

In [6]:
mnist_dataset[0]

(<PIL.Image.Image image mode=L size=28x28>, 5)

In [7]:
type(mnist_dataset[0][0]), type(mnist_dataset[0][1])

(PIL.Image.Image, int)

#### 2. 保存前面100张图片到文件系统中
在git仓库中的.gitignore中的，会忽略掉这些文件。

In [8]:
import os

# 写一个脚本把MINST中的图片数据保存到文件中
TARGET_IMAGE_DIR = "../../data/images/MNIST"

In [9]:
image_dir_path = os.path.join(TARGET_IMAGE_DIR, "5")
print(image_dir_path)

../../data/images/MNIST/5


In [10]:
# 判断目录是否存在
os.path.exists(image_dir_path)

True

In [11]:
os.makedirs(image_dir_path, exist_ok=True)

In [12]:
!ls ../../data/images/MNIST

[1m[36m0[m[m [1m[36m1[m[m [1m[36m2[m[m [1m[36m3[m[m [1m[36m4[m[m [1m[36m5[m[m [1m[36m6[m[m [1m[36m7[m[m [1m[36m8[m[m [1m[36m9[m[m


In [13]:
## 创建一个保存文件的函数
def save_mnist_images(mnist, count, root_dir="../../data/images/MNIST"):
    # 遍历count次
    for index in range(count):
        img, label = mnist[index]
        # print(img, label)
        # 确保图片目录存在
        image_dir = os.path.join(root_dir, str(label))
        # 当目录不存在，创建
        if not os.path.exists(image_dir):
            # 创建图片目录
            os.makedirs(image_dir, exist_ok=True)
            
        # 图片路径
        image_name = "{}_{}.png".format(label, index)
        image_path = os.path.join(image_dir, image_name)
        
        # 判断文件是否存在，不存在才保存
        if not os.path.exists(image_path):
            img.save(image_path)
    print("Done")

In [14]:
# 保存100张图片文件
save_mnist_images(mnist_dataset, 100)

Done


### 2.2 CIFAR10图片
> 参考上面MNIST图片，我们直接写一个函数，保存图片

In [15]:
CIFAR10_IMAGE_DIR = "../../data/torchvision/"

In [16]:
# CIFAR10图片表情对应的英文名
cifar_label_names = [
    'airplane','automobile','bird','cat','deer',
    'dog','frog','horse','ship','truck'
]

In [17]:
def save_cifar_images(dataset, count, root_dir="../../data/images/CIFAR10", labels=None):
    
    # 遍历count次
    for index in range(count):
        img, label = dataset[index]
        # 把label替换为英文名
        if labels:
            label = labels[label]
            
        # print(img, label)
        # 确保图片目录存在
        image_dir = os.path.join(root_dir, str(label))
        # 当目录不存在，创建
        if not os.path.exists(image_dir):
            # 创建图片目录
            os.makedirs(image_dir, exist_ok=True)
            
        # 图片路径
        image_name = "{}_{}.png".format(label, index)
        image_path = os.path.join(image_dir, image_name)
        
        # 判断文件是否存在，不存在才保存
        if not os.path.exists(image_path):
            img.save(image_path)
    print("Done")

In [18]:
# 加载CIFAR10训练数据
cifar10_dataset = datasets.CIFAR10(CIFAR10_IMAGE_DIR, train=True, download=True)
cifar10_dataset

Files already downloaded and verified


Dataset CIFAR10
    Number of datapoints: 50000
    Root location: ../../data/torchvision/
    Split: Train

In [19]:
# 保存100张图片
save_cifar_images(cifar10_dataset, 100, labels=cifar_label_names)

Done
