In [1]:
import numpy as np
import pandas as pd

import skimage
import skimage.io
from skimage.transform import resize

import matplotlib.pyplot as plt
import seaborn as sns
import time
import cv2

import os
import shutil

from math import sqrt
from numpy import dot
from numpy.linalg import norm

In [2]:
# Название предмета изображения
imgs_name_1 = "airplane"
imgs_name_2 = "cars"

In [3]:
# Загрузка и подготовка данных

# Переименует названия картинок
def rename_imgs(file_path):
    file_names = os.listdir(file_path)
    i = 0
    for name in file_names:
        src = os.path.join(file_path, name)
        dst = str(i) + ".jpg"
        dst = os.path.join(file_path, dst)
        if not os.path.isfile(dst):
            os.rename(src, dst) 
        i += 1
    
    return "Done"

# Преобразует картинку в матрицу
def jpg2numpy(file_path):
    img = skimage.io.imread(file_path)
    resized_img = cv2.resize(img, dsize=(img_size, img_size), interpolation=cv2.INTER_CUBIC)
    return np.array(resized_img)

# Перемешивает случайным образом изображений
def shuffle_imgs(matrix):
    return np.random.shuffle(matrix)

A = np.array([1, 2, 3])
print("Shuffle before:", A)
shuffle_imgs(A)
print("\t after:", A)

# Разделяет выборку на поисковую и тестовую часть
def test_search_split(matrix, test_size=0.3, shuffle=True):
    matrix_ = matrix.copy()
    if shuffle:
        shuffle_imgs(matrix_)
    size_of_matrix = len(matrix_)
    threshold = round(size_of_matrix * test_size)
    return matrix_[:threshold], matrix_[threshold:]

A = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
B, C = test_search_split(A, shuffle=False)
np.testing.assert_array_equal(B, np.array([[1, 2, 3]]))
np.testing.assert_array_equal(C, np.array([[4, 5, 6], [7, 8, 9]]))
assert len(B) + len(C) == len(A)

# Сохраняет matrix-изображения в file_path
def save_imgs(file_path, matrix):
    count_of_imgs = len(matrix)
    for i in range(0, count_of_imgs):
        skimage.io.imsave(file_path + "\\%d.jpg"%(i), matrix[i])
    return "Done"

Shuffle before: [1 2 3]
	 after: [2 1 3]


In [4]:
start_time = time.time()
# Переименуем изображения, чтобы легче обратиться к конкретному изображению
file_path_1 = "data_\\%s"%(imgs_name_1)
file_path_2 = "data_\\%s"%(imgs_name_2)
rename_imgs(file_path_1)
rename_imgs(file_path_2)

imgs_1, imgs_2 = [], []

# Количесвто изображений на каждый объект (самолет, автомобиль)
N = 1000
# Размер изображения
img_size = 256

for i in range(N):
    # Для первого объекта
    file_path = "data_\\%s\\%d.jpg"%(imgs_name_1, i)
    imgs_1.append(jpg2numpy(file_path))

    # Для второго объекта
    file_path = "data_\\%s\\%d.jpg"%(imgs_name_2, i)
    imgs_2.append(jpg2numpy(file_path))

# массив преобразуем в numpy
imgs_1 = np.array(imgs_1)
imgs_2 = np.array(imgs_2)

# склеим две матрицы в одну
imgs = np.concatenate((imgs_1, imgs_2))

assert imgs_1.shape == (N, img_size, img_size, 3)
assert imgs_2.shape == (N, img_size, img_size, 3)
assert imgs.shape == (2 * N, img_size, img_size, 3)

# создание тестового, поискового файла
test_file_path= "data_\\test_dataset"
search_file_path = "data_\\search_dataset"
test_imgs, search_imgs = test_search_split(imgs, shuffle=True)
save_imgs(test_file_path, test_imgs)
save_imgs(search_file_path, search_imgs)

print("--- %s seconds ---" % (time.time() - start_time))

--- 63.091530084609985 seconds ---
