<a href="https://colab.research.google.com/github/BorisLoveDev/don-t_know-s_agents/blob/main/research_mnist_separate_data.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import numpy as np
from tensorflow.keras.datasets import mnist
from google.colab import drive
import os

In [2]:
# Монтирование Google Drive
drive.mount('/content/drive')

# Путь к папке для сохранения данных
data_path = '/content/drive/My Drive/solo_research_aug_cnn/datasets'

# Создание папки, если она не существует
if not os.path.exists(data_path):
    os.makedirs(data_path)


Mounted at /content/drive


In [3]:
# Загрузка данных MNIST
(x_train, y_train), (x_test, y_test) = mnist.load_data()

# Предварительная обработка данных
x_train = x_train.reshape((x_train.shape[0], 28, 28, 1)).astype('float32') / 255
x_test = x_test.reshape((x_test.shape[0], 28, 28, 1)).astype('float32') / 255

# Разделение на новый тренировочный и валидационный наборы
num_val_samples_per_class = 1000
num_classes = 10
indices = [np.where(y_train == i)[0] for i in range(num_classes)]
val_indices = np.hstack([np.random.choice(indices[i], num_val_samples_per_class, replace=False) for i in range(num_classes)])
x_val = x_train[val_indices]
y_val = y_train[val_indices]
train_indices = np.setdiff1d(np.arange(len(x_train)), val_indices)
x_train_new = x_train[train_indices]
y_train_new = y_train[train_indices]

# Сохранение данных в формате .npy на Google Drive
np.save(os.path.join(data_path, 'x_train_new.npy'), x_train_new)
np.save(os.path.join(data_path, 'y_train_new.npy'), y_train_new)
np.save(os.path.join(data_path, 'x_val.npy'), x_val)
np.save(os.path.join(data_path, 'y_val.npy'), y_val)
np.save(os.path.join(data_path, 'x_test.npy'), x_test)
np.save(os.path.join(data_path, 'y_test.npy'), y_test)

print("Data saved successfully.")

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz
Data saved successfully.


In [4]:
def print_class_distribution(y, dataset_name):
    class_counts = np.bincount(y)
    print(f"Распределение классов в {dataset_name}:")
    for i, count in enumerate(class_counts):
        print(f"Класс {i}: {count} образцов")

# Вывод распределения классов для каждого набора данных
print_class_distribution(y_train_new, "новом тренировочном наборе")
print_class_distribution(y_val, "валидационном наборе")
print_class_distribution(y_test, "тестовом наборе")

Распределение классов в новом тренировочном наборе:
Класс 0: 4923 образцов
Класс 1: 5742 образцов
Класс 2: 4958 образцов
Класс 3: 5131 образцов
Класс 4: 4842 образцов
Класс 5: 4421 образцов
Класс 6: 4918 образцов
Класс 7: 5265 образцов
Класс 8: 4851 образцов
Класс 9: 4949 образцов
Распределение классов в валидационном наборе:
Класс 0: 1000 образцов
Класс 1: 1000 образцов
Класс 2: 1000 образцов
Класс 3: 1000 образцов
Класс 4: 1000 образцов
Класс 5: 1000 образцов
Класс 6: 1000 образцов
Класс 7: 1000 образцов
Класс 8: 1000 образцов
Класс 9: 1000 образцов
Распределение классов в тестовом наборе:
Класс 0: 980 образцов
Класс 1: 1135 образцов
Класс 2: 1032 образцов
Класс 3: 1010 образцов
Класс 4: 982 образцов
Класс 5: 892 образцов
Класс 6: 958 образцов
Класс 7: 1028 образцов
Класс 8: 974 образцов
Класс 9: 1009 образцов
