<a href="https://colab.research.google.com/github/Ddkaba/IAD_Lab_3/blob/main/Untitled0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

ОЛАПЛОРАДЛОРОЛАР

In [None]:
# Импорты
import requests
import zipfile
import os
import shutil
from pathlib import Path
import numpy as np
from PIL import Image
import matplotlib.pyplot as plt
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.preprocessing.image import ImageDataGenerator
from tensorflow.keras import layers, models


In [None]:
# Скачивание и распаковка архива
url = 'https://www.kaggle.com/api/v1/datasets/download/alxmamaev/flowers-recognition'
zip_path = 'flowers-recognition.zip'
extract_path = '.'

# Скачивание
print('Скачивание архива...')
response = requests.get(url, allow_redirects=True)
with open(zip_path, 'wb') as f:
    f.write(response.content)
print(f'Архив скачан: {zip_path}')

# Распаковка
print('Распаковка архива...')
with zipfile.ZipFile(zip_path, 'r') as zip_ref:
    zip_ref.extractall(extract_path)
print('Архив распакован')

# Путь к данным и показать классы
data_path = 'flowers/flowers'
print(f'\nПуть к данным: {data_path}')
print('Классы цветов:')
for flower_class in os.listdir(data_path):
    class_path = os.path.join(data_path, flower_class)
    if os.path.isdir(class_path):
        count = len(os.listdir(class_path))
        print(f'  - {flower_class}: {count} изображений')


In [None]:
# Параметры для преобразования
target_size = (150, 150)  # Целевой размер всех изображений

print(f'Целевой размер изображений: {target_size[0]}x{target_size[1]}')


In [None]:
# Функция для преобразования изображения
def preprocess_image(img_path, target_size):
    """
    1. Читает JPEG файл
    2. Декодирует в RGB
    3. Изменяет размер до target_size
    4. Возвращает PIL изображение
    """
    img = Image.open(img_path)
    # Конвертация в RGB (на случай RGBA или grayscale)
    img = img.convert('RGB')
    # Изменение размера
    img = img.resize(target_size, Image.LANCZOS)
    return img

print('Функция преобразования создана')


In [None]:
# Преобразование всех изображений в исходной папке
original_dataset_dir = 'flowers/flowers'

print('Начало преобразования изображений...\n')

classes = [d for d in os.listdir(original_dataset_dir) 
           if os.path.isdir(os.path.join(original_dataset_dir, d))]

total_processed = 0
for flower_class in classes:
    class_dir = os.path.join(original_dataset_dir, flower_class)
    images = [f for f in os.listdir(class_dir) if f.lower().endswith(('.jpg', '.jpeg', '.png'))]
    
    print(f'Обработка класса "{flower_class}": {len(images)} изображений...')
    
    for img_name in images:
        img_path = os.path.join(class_dir, img_name)
        
        try:
            # Преобразование
            img = preprocess_image(img_path, target_size)
            # Сохранение обратно
            img.save(img_path, 'JPEG', quality=95)
            total_processed += 1
        except Exception as e:
            print(f'  Ошибка при обработке {img_name}: {e}')
    
    print(f'  ✓ Обработано: {len(images)} изображений')

print(f'\nВсего преобразовано: {total_processed} изображений')
print(f'Все изображения теперь имеют размер {target_size[0]}x{target_size[1]} пикселей')


In [None]:
# Проверка: показать несколько преобразованных изображений
print('Примеры преобразованных изображений:\n')

fig, axes = plt.subplots(2, 4, figsize=(15, 8))
axes = axes.ravel()

idx = 0
for flower_class in classes[:2]:  # Первые 2 класса
    class_dir = os.path.join(original_dataset_dir, flower_class)
    images = [f for f in os.listdir(class_dir) if f.lower().endswith(('.jpg', '.jpeg', '.png'))][:4]
    
    for img_name in images:
        img_path = os.path.join(class_dir, img_name)
        img = Image.open(img_path)
        
        axes[idx].imshow(img)
        axes[idx].set_title(f'{flower_class}\n{img.size[0]}x{img.size[1]} px')
        axes[idx].axis('off')
        idx += 1

plt.tight_layout()
plt.show()


In [None]:
# Создание структуры папок для train/validation/test
original_dataset_dir = 'flowers/flowers'
base_dir = 'flowers_dataset'
os.makedirs(base_dir, exist_ok=True)

# Создание основных директорий
train_dir = os.path.join(base_dir, 'train')
validation_dir = os.path.join(base_dir, 'validation')
test_dir = os.path.join(base_dir, 'test')

os.makedirs(train_dir, exist_ok=True)
os.makedirs(validation_dir, exist_ok=True)
os.makedirs(test_dir, exist_ok=True)

# Получить список всех классов
classes = [d for d in os.listdir(original_dataset_dir) 
           if os.path.isdir(os.path.join(original_dataset_dir, d))]

print(f'Найдено классов: {len(classes)}')
print(f'Классы: {classes}')


In [None]:
# Создание поддиректорий для каждого класса
for flower_class in classes:
    os.makedirs(os.path.join(train_dir, flower_class), exist_ok=True)
    os.makedirs(os.path.join(validation_dir, flower_class), exist_ok=True)
    os.makedirs(os.path.join(test_dir, flower_class), exist_ok=True)

print('Структура папок создана')


In [None]:
# Копирование изображений в соответствующие папки
# Разделение: первые 60% - train, следующие 20% - validation, последние 20% - test

for flower_class in classes:
    src_dir = os.path.join(original_dataset_dir, flower_class)
    fnames = os.listdir(src_dir)
    
    total = len(fnames)
    train_count = int(0.6 * total)
    val_count = int(0.2 * total)
    
    # Train
    train_fnames = fnames[:train_count]
    for fname in train_fnames:
        src = os.path.join(src_dir, fname)
        dst = os.path.join(train_dir, flower_class, fname)
        shutil.copyfile(src, dst)
    
    # Validation
    val_fnames = fnames[train_count:train_count + val_count]
    for fname in val_fnames:
        src = os.path.join(src_dir, fname)
        dst = os.path.join(validation_dir, flower_class, fname)
        shutil.copyfile(src, dst)
    
    # Test
    test_fnames = fnames[train_count + val_count:]
    for fname in test_fnames:
        src = os.path.join(src_dir, fname)
        dst = os.path.join(test_dir, flower_class, fname)
        shutil.copyfile(src, dst)
    
    print(f'{flower_class}: train={len(train_fnames)}, val={len(val_fnames)}, test={len(test_fnames)}')


In [None]:
# Вывод структуры папок с размерами
def get_dir_size(path):
    """Вычисляет размер папки в МБ"""
    total_size = 0
    for dirpath, dirnames, filenames in os.walk(path):
        for f in filenames:
            fp = os.path.join(dirpath, f)
            if os.path.exists(fp):
                total_size += os.path.getsize(fp)
    return total_size / (1024 * 1024)  # Конвертация в МБ

print('Структура папок с размерами:\n')
print(f'{base_dir}/ - {get_dir_size(base_dir):.2f} МБ')

for split in ['train', 'validation', 'test']:
    split_dir = os.path.join(base_dir, split)
    split_size = get_dir_size(split_dir)
    print(f'  {split}/ - {split_size:.2f} МБ')
    
    for flower_class in sorted(classes):
        class_dir = os.path.join(split_dir, flower_class)
        class_size = get_dir_size(class_dir)
        count = len(os.listdir(class_dir))
        print(f'    {flower_class}/ - {class_size:.2f} МБ ({count} изображений)')


In [None]:
# Параметры для создания тензоров
img_height = 150
img_width = 150
batch_size = 32

print(f'Параметры преобразования в тензоры:')
print(f'  Размер: {img_height}x{img_width}')
print(f'  Размер батча: {batch_size}')


In [None]:
# Создание генераторов данных для преобразования в тензоры
# ImageDataGenerator выполняет все необходимые шаги:
# 1) Читает файлы JPEG
# 2) Декодирует в RGB массивы пикселей
# 3) Преобразует в тензоры с вещественными числами
# 4) Масштабирует [0, 255] -> [0, 1] через rescale=1./255
# 5) Организует в батчи по 32 изображения

# Для обучающей выборки - с аугментацией данных
train_datagen = ImageDataGenerator(
    rescale=1./255,              # Нормализация значений пикселей [0,255] -> [0,1]
    rotation_range=40,           # Случайный поворот
    width_shift_range=0.2,       # Сдвиг по ширине
    height_shift_range=0.2,      # Сдвиг по высоте
    shear_range=0.2,             # Скос
    zoom_range=0.2,              # Увеличение
    horizontal_flip=True,        # Горизонтальное отражение
    fill_mode='nearest'
)

# Для валидации и теста - только нормализация (без аугментации)
test_datagen = ImageDataGenerator(rescale=1./255)

print('Генераторы данных созданы')


In [None]:
# Создание генераторов для каждой выборки
train_generator = train_datagen.flow_from_directory(
    train_dir,
    target_size=(img_height, img_width),
    batch_size=batch_size,
    class_mode='categorical'
)

validation_generator = test_datagen.flow_from_directory(
    validation_dir,
    target_size=(img_height, img_width),
    batch_size=batch_size,
    class_mode='categorical'
)

test_generator = test_datagen.flow_from_directory(
    test_dir,
    target_size=(img_height, img_width),
    batch_size=batch_size,
    class_mode='categorical',
    shuffle=False  # Для корректной оценки на тесте
)

print(f'\nКоличество классов: {len(train_generator.class_indices)}')
print(f'Mapping классов: {train_generator.class_indices}')
print(f'\nОбучающая выборка: {train_generator.samples} изображений')
print(f'Валидационная выборка: {validation_generator.samples} изображений')
print(f'Тестовая выборка: {test_generator.samples} изображений')


In [None]:
# Проверка: получение одного батча тензоров
sample_batch, sample_labels = next(train_generator)

print('Проверка преобразования в тензоры:\n')
print(f'Форма батча изображений: {sample_batch.shape}')
print(f'  - Батч содержит {sample_batch.shape[0]} изображений')
print(f'  - Каждое изображение: {sample_batch.shape[1]}x{sample_batch.shape[2]} пикселей')
print(f'  - Количество каналов (RGB): {sample_batch.shape[3]}')
print(f'\nФорма батча меток: {sample_labels.shape}')
print(f'  - One-hot encoding для {sample_labels.shape[1]} классов')
print(f'\nДиапазон значений пикселей в тензоре: [{sample_batch.min():.3f}, {sample_batch.max():.3f}]')
print(f'Тип данных: {sample_batch.dtype}')
print(f'\n✓ Изображения успешно преобразованы в тензоры с вещественными числами [0, 1]')


In [None]:
# Визуализация батча преобразованных изображений
plt.figure(figsize=(15, 8))

for i in range(12):
    plt.subplot(3, 4, i + 1)
    plt.imshow(sample_batch[i])  # Значения уже в диапазоне [0, 1]
    
    # Получить название класса
    class_idx = np.argmax(sample_labels[i])
    class_name = list(train_generator.class_indices.keys())[class_idx]
    
    plt.title(f'{class_name}')
    plt.axis('off')

plt.suptitle('Примеры изображений из батча (тензоры нормализованы [0, 1])', fontsize=14)
plt.tight_layout()
plt.show()

print('\nИзображения готовы к подаче в нейронную сеть!')
