In [0]:
import os
import numpy as np
import pickle
from PIL import Image
from sklearn.model_selection import train_test_split
from tensorflow.keras.preprocessing.image import ImageDataGenerator


2025-03-29 00:07:04.904843: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:477] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
E0000 00:00:1743206825.085812    3828 cuda_dnn.cc:8310] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
E0000 00:00:1743206825.140079    3828 cuda_blas.cc:1418] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2025-03-29 00:07:05.556147: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.


In [0]:

# Configurações
DATA_DIR = "/home/joao/Documents/GitHub/Bird-Recognition/dataset"  # Substitua pelo caminho do seu dataset
OUTPUT_DIR = 'preprocessed_data'  # Pasta para salvar os arquivos pickle
IMG_SIZE = (224, 224)  # Tamanho padrão para muitas arquiteturas CNN
BATCH_SIZE = 32

# Lista de espécies (conforme a proposta)
species = [
    'Ciconia_ciconia', 'Columba_livia', 'Streptopelia_decaocto',
    'Emberiza_calandra', 'Carduelis_carduelis', 'Serinus_serinus',
    'Delichon_urbicum', 'Hirundo_rustica', 'Passer_domesticus',
    'Sturnus_unicolor', 'Turdus_merula'
]

# Criar pasta de saída se não existir
os.makedirs(OUTPUT_DIR, exist_ok=True)

# Função para carregar e pré-processar imagens
def load_and_preprocess_images(data_dir, species_list, img_size):
    images = []
    labels = []
    
    for idx, specie in enumerate(species_list):
        specie_dir = data_dir+"/"+specie
        
        for img_name in os.listdir(specie_dir):
            img_path = os.path.join(specie_dir, img_name)
            
            try:
                # Carregar imagem
                img = Image.open(img_path)
                
                # Converter para RGB (caso tenha canais alpha)
                if img.mode != 'RGB':
                    img = img.convert('RGB')
                
                # Redimensionar
                img = img.resize(img_size)
                
                # Converter para array e normalizar [0, 1]
                img_array = np.array(img) / 255.0
                
                images.append(img_array)
                labels.append(idx)
                
            except Exception as e:
                print(f"Erro ao processar {img_path}: {e}")
    
    return np.array(images), np.array(labels)

# Carregar e pré-processar imagens
print("Carregando e pré-processando imagens...")
X, y = load_and_preprocess_images(DATA_DIR, species, IMG_SIZE)

# Dividir em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.1, stratify=y
)

# Aplicar aumento de dados apenas no conjunto de treino
train_datagen = ImageDataGenerator(
    rotation_range=20,
    width_shift_range=0.1,
    height_shift_range=0.1,
    shear_range=0.1,
    zoom_range=0.1,
    horizontal_flip=True,
    fill_mode='nearest'
)

# Configurar gerador de treino com aumento de dados
train_generator = train_datagen.flow(
    X_train, y_train,
    batch_size=BATCH_SIZE
)

# Configurar gerador de teste sem aumento de dados
test_datagen = ImageDataGenerator()
test_generator = test_datagen.flow(
    X_test, y_test,
    batch_size=BATCH_SIZE
)

# Salvar os dados em arquivos pickle
print("Salvando dados pré-processados...")

# Salvar conjuntos originais (sem aumento)
with open(os.path.join(OUTPUT_DIR, 'train_data.pkl'), 'wb') as f:
    pickle.dump({'X': X_train, 'y': y_train}, f)

with open(os.path.join(OUTPUT_DIR, 'test_data.pkl'), 'wb') as f:
    pickle.dump({'X': X_test, 'y': y_test}, f)

# Salvar geradores (opcional - normalmente não é necessário salvar os geradores)
# Mas vamos salvar as informações necessárias para recriá-los
generator_info = {
    'train_datagen_params': train_datagen.get_config(),
    'test_datagen_params': test_datagen.get_config(),
    'batch_size': BATCH_SIZE
}

with open(os.path.join(OUTPUT_DIR, 'generator_info.pkl'), 'wb') as f:
    pickle.dump(generator_info, f)

# Salvar lista de espécies
with open(os.path.join(OUTPUT_DIR, 'species.pkl'), 'wb') as f:
    pickle.dump(species, f)

print("Pré-processamento concluído e dados salvos em:")
print(f"- {os.path.join(OUTPUT_DIR, 'train_data.pkl')}")
print(f"- {os.path.join(OUTPUT_DIR, 'test_data.pkl')}")
print(f"- {os.path.join(OUTPUT_DIR, 'generator_info.pkl')}")
print(f"- {os.path.join(OUTPUT_DIR, 'species.pkl')}")

Carregando e pré-processando imagens...
