## Кошки и собаки: создаём датасет

В этом ноутбуке мы подготовим датасет в DataSphere для обучения модели распознавания кошек и собак на фотографии. Мы будем использовать [Kaggle Cats and Dogs Dataset](https://www.microsoft.com/en-us/download/details.aspx?id=54765https://www.microsoft.com/en-us/download/details.aspx?id=54765). Этот датасет можно напрямую скачать из интернет [отсюда](https://download.microsoft.com/download/3/E/1/3E1C3F21-ECDB-4869-8368-6DEBA77B919F/kagglecatsanddogs_5340.ziphttps://download.microsoft.com/download/3/E/1/3E1C3F21-ECDB-4869-8368-6DEBA77B919F/kagglecatsanddogs_5340.zip).

Важно отметить, что в этом датасете есть значительное количество испорченных изображений. Они могут быть сохранены в неправильном формате, или в них присутствует другое количество каналов цветности. Перед обучением от таких изображений имеет смысл избавиться.

Мы хотим создать свободный от ошибочных файлов датасет, которым затем будем пользоваться. Кроме того, мы сможем поделиться им с другими участниками сообщества DataSphere. Создание датасета описано [тут](https://yandex.cloud/ru/docs/datasphere/operations/data/dataset).

Для создания датасета мы используем вначале ячейки специальную директиву `#pragma dataset init catsdogs --size 1Gb`, где `catsdogs` - это имя датасета. Внутри этой ячейки нам становится доступной директория `/home/jupyter/mnt/datasets/catsdogs`, в которую мы можем поместить все файлы, относящиеся к нашему датасету. Когда ячейка завершается, все файлы в этой директории объединяются в датасет, и становятся доступными как отдельная сущность внутри проекта.

В коде ниже мы скачиваем и одновременно разархивируем файлы в директорию `PetImages`, после чего используем специальную функцию `check_image_dir` для удаления испорченных файлов из директории.

**ВНИМАНИЕ**: После запуска следующей ячейки будьте терпеливы, поскольку требуется некоторое время на создание датасета.

In [31]:
#pragma dataset init catsdogs --size 1Gb

import zipfile
import glob
from io import BytesIO
from PIL import Image
from urllib.request import urlopen

url = "https://download.microsoft.com/download/3/E/1/3E1C3F21-ECDB-4869-8368-6DEBA77B919F/kagglecatsanddogs_5340.zip"
path = "/home/jupyter/mnt/datasets/catsdogs"

def check_image(fn):
    try:
        im = Image.open(fn)
        im.verify()
        return im.format=='JPEG'
    except:
        return False
    
def check_image_dir(path):
    for fn in glob.glob(path):
        if not check_image(fn):
            print(" + испорчен: {}".format(fn))
            os.remove(fn)
            
print("Скачиваем и разархивируем")
resp = urlopen(url)
with zipfile.ZipFile(BytesIO(resp.read())) as zip_ref:
    zip_ref.extractall(path)

print("Удаляем испорченные изображения")
check_image_dir(f"{path}/PetImages/*/*")

print("Создание датасета завершено")

Скачиваем и разархивируем
Удаляем испорченные изображения
 + испорчен: /home/jupyter/mnt/datasets/catsdogs/PetImages/Cat/1937.jpg
 + испорчен: /home/jupyter/mnt/datasets/catsdogs/PetImages/Cat/1914.jpg
 + испорчен: /home/jupyter/mnt/datasets/catsdogs/PetImages/Cat/3491.jpg
 + испорчен: /home/jupyter/mnt/datasets/catsdogs/PetImages/Cat/4750.jpg
 + испорчен: /home/jupyter/mnt/datasets/catsdogs/PetImages/Cat/391.jpg
 + испорчен: /home/jupyter/mnt/datasets/catsdogs/PetImages/Cat/4833.jpg
 + испорчен: /home/jupyter/mnt/datasets/catsdogs/PetImages/Cat/660.jpg
 + испорчен: /home/jupyter/mnt/datasets/catsdogs/PetImages/Cat/7845.jpg
 + испорчен: /home/jupyter/mnt/datasets/catsdogs/PetImages/Cat/5553.jpg
 + испорчен: /home/jupyter/mnt/datasets/catsdogs/PetImages/Cat/11565.jpg
 + испорчен: /home/jupyter/mnt/datasets/catsdogs/PetImages/Cat/6435.jpg
 + испорчен: /home/jupyter/mnt/datasets/catsdogs/PetImages/Cat/7978.jpg
 + испорчен: /home/jupyter/mnt/datasets/catsdogs/PetImages/Cat/4000.jpg
 + испо



 + испорчен: /home/jupyter/mnt/datasets/catsdogs/PetImages/Dog/9043.jpg
 + испорчен: /home/jupyter/mnt/datasets/catsdogs/PetImages/Dog/3885.jpg
 + испорчен: /home/jupyter/mnt/datasets/catsdogs/PetImages/Dog/2494.jpg
 + испорчен: /home/jupyter/mnt/datasets/catsdogs/PetImages/Dog/7739.jpg
 + испорчен: /home/jupyter/mnt/datasets/catsdogs/PetImages/Dog/2353.jpg
 + испорчен: /home/jupyter/mnt/datasets/catsdogs/PetImages/Dog/8521.jpg
 + испорчен: /home/jupyter/mnt/datasets/catsdogs/PetImages/Dog/296.jpg
 + испорчен: /home/jupyter/mnt/datasets/catsdogs/PetImages/Dog/561.jpg
 + испорчен: /home/jupyter/mnt/datasets/catsdogs/PetImages/Dog/7969.jpg
 + испорчен: /home/jupyter/mnt/datasets/catsdogs/PetImages/Dog/6555.jpg
 + испорчен: /home/jupyter/mnt/datasets/catsdogs/PetImages/Dog/12289.jpg
 + испорчен: /home/jupyter/mnt/datasets/catsdogs/PetImages/Dog/10863.jpg
 + испорчен: /home/jupyter/mnt/datasets/catsdogs/PetImages/Dog/8126.jpg
 + испорчен: /home/jupyter/mnt/datasets/catsdogs/PetImages/Dog/1

## Успех!

Если предыдущая ячейка завершилась успешно - мы можем переходить к ноутбуку `train-class-dataset.ipynb` для обучения модели на основе этого датасета.