Encontre um banco com 5 imagens imagens na web e modele uma Rede
Neural Convolucional para fazer a classificação das imagens.


### Etapa 1 – Convolução


In [272]:
import numpy as np
from PIL import Image
import os

def load_images(image_folder):
    images = []
    labelsFirst = []
    

    output_folder = 'imgsRedimensionadas'
    os.makedirs(output_folder, exist_ok=True) 
    print(f"Pasta '{output_folder}' criada ou já existe.")
    
    # Percorre cada pasta dentro da pasta de imagens
    for label in os.listdir(image_folder):
        label_folder = os.path.join(image_folder, label)
        
        # Verifica se é uma pasta
        if os.path.isdir(label_folder):  
            for file_name in os.listdir(label_folder):
                if file_name.endswith('.jpg'):
                    img_path = os.path.join(label_folder, file_name)
                    
                    # Tenta abrir e processar a imagem
                    try:
                        img = Image.open(img_path).convert('L')  # Converte para grayscale
                        img = img.resize((128, 128))  # Redimensiona para 128x128
                        
                        # Adiciona a imagem à lista
                        images.append(np.array(img))
                        labelsFirst.append(label)  # Usa o nome da pasta como label
                        
                        # Salva a imagem redimensionada na nova pasta
                        resized_img_path = os.path.join(output_folder, f"{label}_{file_name}")
                        img.save(resized_img_path)  # Salva a imagem redimensionada
                        
                        print(f"Imagem '{file_name}' redimensionada e salva em '{output_folder}' com label '{label}'.")

                    except Exception as e:
                        print(f"Erro ao processar a imagem '{file_name}': {e}")

    return np.array(images), np.array(labelsFirst)

# Substitua 'images_folder_path' pelo caminho da pasta onde estão as imagens
images, labelsFirst = load_images('imgs')

print(f"Total de imagens carregadas: {images.shape[0]}")
print("Labels associadas às imagens:", labelsFirst.shape)


Pasta 'imgsRedimensionadas' criada ou já existe.
Imagem '4a291fe31f.jpg' redimensionada e salva em 'imgsRedimensionadas' com label 'elephant'.
Imagem '75fefe8441.jpg' redimensionada e salva em 'imgsRedimensionadas' com label 'elephant'.
Imagem '4dacf9a3f0.jpg' redimensionada e salva em 'imgsRedimensionadas' com label 'elephant'.
Imagem '3c82e731e0.jpg' redimensionada e salva em 'imgsRedimensionadas' com label 'elephant'.
Imagem '9f23f879e5.jpg' redimensionada e salva em 'imgsRedimensionadas' com label 'elephant'.
Imagem '1aac205025.jpg' redimensionada e salva em 'imgsRedimensionadas' com label 'elephant'.
Imagem '5c8e73a595.jpg' redimensionada e salva em 'imgsRedimensionadas' com label 'elephant'.
Imagem '1d84834b1a.jpg' redimensionada e salva em 'imgsRedimensionadas' com label 'elephant'.
Imagem '2f3534e28e.jpg' redimensionada e salva em 'imgsRedimensionadas' com label 'elephant'.
Imagem '43b74457d1.jpg' redimensionada e salva em 'imgsRedimensionadas' com label 'elephant'.
Imagem '2cb

In [273]:
import numpy as np
from PIL import Image
import os

def convolve(image, kernel):
    h, w = image.shape
    kh, kw = kernel.shape
    output = np.zeros((h - kh + 1, w - kw + 1))

    print(f"Dimensões da imagem: {h}x{w}")
    print(f"Dimensões do kernel: {kh}x{kw}")

    for i in range(h - kh + 1):
        for j in range(w - kw + 1):
            region = image[i:i+kh, j:j+kw]
            output[i, j] = np.sum(region * kernel)

    return output

# Função para aplicar a convolução a todas as imagens e salvar os resultados
def apply_convolution_to_all_images(images, kernel, save_path):
    os.makedirs(save_path, exist_ok=True)
    convolved_images = []  # Lista para armazenar imagens convoluídas
    
    for idx, image in enumerate(images):
        # Aplica a convolução
        convolved_image = convolve(image, kernel)

        # Salvar a imagem convoluída
        output_image = Image.fromarray(convolved_image.astype(np.uint8))
        output_image.save(os.path.join(save_path, f'imagem_convoluida_{idx}.png'))  # Salva cada imagem com um nome único
        print(f"Imagem convoluída salva como: imagem_convoluida_{idx}.png")
        
        # Armazenar a imagem convoluída na lista
        convolved_images.append(convolved_image)

    return convolved_images  # Retornar a lista de imagens convoluídas

# Exemplo de kernel (filtro de detecção de bordas)
kernel = np.array([[0, -1, 0], 
                   [-1,  5, -1], 
                   [0, -1, 0]])

# Caminho para salvar as imagens finais da convolução
save_path = 'imgConvolucao'

# Carregar imagens da pasta especificada
images, _ = load_images('imgs')

# Aplicando convolução a todas as imagens e salvando as imagens finais
imagesConvolvidas = apply_convolution_to_all_images(images, kernel, save_path)

# Imprimindo as imagens convoluídas
print(imagesConvolvidas)


Pasta 'imgsRedimensionadas' criada ou já existe.
Imagem '4a291fe31f.jpg' redimensionada e salva em 'imgsRedimensionadas' com label 'elephant'.
Imagem '75fefe8441.jpg' redimensionada e salva em 'imgsRedimensionadas' com label 'elephant'.
Imagem '4dacf9a3f0.jpg' redimensionada e salva em 'imgsRedimensionadas' com label 'elephant'.
Imagem '3c82e731e0.jpg' redimensionada e salva em 'imgsRedimensionadas' com label 'elephant'.
Imagem '9f23f879e5.jpg' redimensionada e salva em 'imgsRedimensionadas' com label 'elephant'.
Imagem '1aac205025.jpg' redimensionada e salva em 'imgsRedimensionadas' com label 'elephant'.
Imagem '5c8e73a595.jpg' redimensionada e salva em 'imgsRedimensionadas' com label 'elephant'.
Imagem '1d84834b1a.jpg' redimensionada e salva em 'imgsRedimensionadas' com label 'elephant'.
Imagem '2f3534e28e.jpg' redimensionada e salva em 'imgsRedimensionadas' com label 'elephant'.
Imagem '43b74457d1.jpg' redimensionada e salva em 'imgsRedimensionadas' com label 'elephant'.
Imagem '2cb

### Etapa 2 – Pooling

In [274]:
import numpy as np
import os
from PIL import Image

def max_pooling(image, pool_size):
    h, w = image.shape
    ph, pw = pool_size
    output_height = h // ph
    output_width = w // pw
    output = np.zeros((output_height, output_width))
    
    for i in range(output_height):
        for j in range(output_width):
            region = image[i * ph:(i + 1) * ph, j * pw:(j + 1) * pw]
            output[i, j] = np.max(region)
    
    return output

def apply_max_pooling_to_all_images(convolved_images, pool_size, save_path):
    os.makedirs(save_path, exist_ok=True)  # Criar a pasta para salvar as imagens, se não existir
    pooled_images = []  # Lista para armazenar as imagens resultantes do pooling

    for idx, image in enumerate(convolved_images):
        # Verifica se a imagem é 2D
        if len(image.shape) != 2:
            print(f"Imagem {idx} não é 2D. Ignorando...")
            continue
        
        pooled_image = max_pooling(image, pool_size)
        
        # Salvar a imagem final do pooling
        output_image = Image.fromarray(pooled_image.astype(np.uint8))
        output_image.save(os.path.join(save_path, f'imagem_pooled_{idx}.png'))  # Salva cada imagem com um nome único
        print(f"Imagem com pooling salva como: imagem_pooled_{idx}.png")
        
        pooled_images.append(pooled_image)  # Adiciona a imagem resultante à lista

        # Verifique a forma da imagem após o pooling
        print(f"Imagem {idx} após pooling: {pooled_image.shape}")

    return pooled_images  # Retorna a lista de imagens resultantes

# Defina o caminho para salvar as imagens de pooling
pooling_save_path = 'imgPooling'

# Aplicar max pooling a todas as imagens convoluídas
# Assegure-se de que as imagens convoluídas foram geradas anteriormente
pooled_images = apply_max_pooling_to_all_images(imagesConvolvidas, (2, 2), pooling_save_path)

# Imprimindo o total de imagens após pooling
print(f"Total de imagens após pooling: {len(pooled_images)}")


Imagem com pooling salva como: imagem_pooled_0.png
Imagem 0 após pooling: (63, 63)
Imagem com pooling salva como: imagem_pooled_1.png
Imagem 1 após pooling: (63, 63)
Imagem com pooling salva como: imagem_pooled_2.png
Imagem 2 após pooling: (63, 63)
Imagem com pooling salva como: imagem_pooled_3.png
Imagem 3 após pooling: (63, 63)
Imagem com pooling salva como: imagem_pooled_4.png
Imagem 4 após pooling: (63, 63)
Imagem com pooling salva como: imagem_pooled_5.png
Imagem 5 após pooling: (63, 63)
Imagem com pooling salva como: imagem_pooled_6.png
Imagem 6 após pooling: (63, 63)
Imagem com pooling salva como: imagem_pooled_7.png
Imagem 7 após pooling: (63, 63)
Imagem com pooling salva como: imagem_pooled_8.png
Imagem 8 após pooling: (63, 63)
Imagem com pooling salva como: imagem_pooled_9.png
Imagem 9 após pooling: (63, 63)
Imagem com pooling salva como: imagem_pooled_10.png
Imagem 10 após pooling: (63, 63)
Imagem com pooling salva como: imagem_pooled_11.png
Imagem 11 após pooling: (63, 63)


### Etapa 3 – Flattening

In [275]:
def flatten(image):
    return image.flatten()  # Achata a matriz 2D em um vetor 1D

def apply_flattening_to_all_images(pooled_images):
    flattened_images = []  # Lista para armazenar imagens achatadas
    
    for idx, image in enumerate(pooled_images):
        # Achata a imagem e adiciona à lista
        flattened_image = flatten(image)
        flattened_images.append(flattened_image)
        print(f"Imagem {idx} achatada: {flattened_image.shape}")

    return flattened_images  # Retorna a lista de imagens achatadas

# Aplicar flattening a todas as imagens após pooling
flattened_images = apply_flattening_to_all_images(pooled_images)

# Imprimindo o total de imagens achatadas
print(f"Total de imagens achatadas: {len(flattened_images)}")


Imagem 0 achatada: (3969,)
Imagem 1 achatada: (3969,)
Imagem 2 achatada: (3969,)
Imagem 3 achatada: (3969,)
Imagem 4 achatada: (3969,)
Imagem 5 achatada: (3969,)
Imagem 6 achatada: (3969,)
Imagem 7 achatada: (3969,)
Imagem 8 achatada: (3969,)
Imagem 9 achatada: (3969,)
Imagem 10 achatada: (3969,)
Imagem 11 achatada: (3969,)
Imagem 12 achatada: (3969,)
Imagem 13 achatada: (3969,)
Imagem 14 achatada: (3969,)
Imagem 15 achatada: (3969,)
Imagem 16 achatada: (3969,)
Imagem 17 achatada: (3969,)
Imagem 18 achatada: (3969,)
Imagem 19 achatada: (3969,)
Imagem 20 achatada: (3969,)
Imagem 21 achatada: (3969,)
Imagem 22 achatada: (3969,)
Imagem 23 achatada: (3969,)
Imagem 24 achatada: (3969,)
Imagem 25 achatada: (3969,)
Imagem 26 achatada: (3969,)
Imagem 27 achatada: (3969,)
Imagem 28 achatada: (3969,)
Imagem 29 achatada: (3969,)
Imagem 30 achatada: (3969,)
Imagem 31 achatada: (3969,)
Imagem 32 achatada: (3969,)
Imagem 33 achatada: (3969,)
Imagem 34 achatada: (3969,)
Imagem 35 achatada: (3969,)
Im

### Etapa 4: Implementando a Rede Neural Fully Connected

In [318]:
import numpy as np
import os
from PIL import Image

# Função para inicializar os pesos e biases
def initialize_weights(input_size, hidden_size, output_size):
    np.random.seed(42)  # Para reprodutibilidade
    W1 = np.random.randn(input_size, hidden_size) * 0.01  # Pesos da camada oculta
    b1 = np.zeros((1, hidden_size))  # Bias da camada oculta
    W2 = np.random.randn(hidden_size, output_size) * 0.01  # Pesos da camada de saída
    b2 = np.zeros((1, output_size))  # Bias da camada de saída
    return W1, b1, W2, b2

# Função de ativação (ReLU)
def relu(z):
    return np.maximum(0, z)

# Função de ativação da camada de saída (Softmax)
def softmax(z):
    exp_z = np.exp(z - np.max(z))  # Para evitar overflow
    return exp_z / np.sum(exp_z, axis=1, keepdims=True)

# Forward Pass
def forward_pass(X, W1, b1, W2, b2):
    Z1 = np.dot(X, W1) + b1  # Camada oculta
    A1 = relu(Z1)            # Ativação ReLU
    Z2 = np.dot(A1, W2) + b2  # Camada de saída
    A2 = softmax(Z2)         # Ativação Softmax
    return A2, A1, Z1  # Retorna a saída da camada de saída e os valores intermediários

# Função para prever a classe
def predict(X, W1, b1, W2, b2):
    A2, _, _ = forward_pass(X, W1, b1, W2, b2)
    return np.argmax(A2, axis=1)

# Função de custo (Cross-Entropy)
def compute_loss(y_true, y_pred):
    m = y_true.shape[0]
    log_likelihood = -np.log(y_pred[range(m), y_true])
    return np.sum(log_likelihood) / m

# Função de treino
def train(X, y, W1, b1, W2, b2, epochs, learning_rate):
    for epoch in range(epochs):

        # Forward pass
        A2, A1, Z1 = forward_pass(X, W1, b1, W2, b2)

        # Cálculo da perda
        loss = compute_loss(y, A2)
        # Backward pass
        m = y.shape[0]
        dZ2 = A2.copy()
        dZ2[np.arange(m), np.argmax(y, axis=1)] -= 1  # Gradiente da perda
        dZ2 /= m
        
        dW2 = np.dot(A1.T, dZ2)  # Gradiente para W2
        db2 = np.sum(dZ2, axis=0, keepdims=True)  # Gradiente para b2
        
        dA1 = np.dot(dZ2, W2.T)  # Gradiente para A1
        dZ1 = dA1 * (Z1 > 0)  # Gradiente para Z1 usando ReLU
        
        dW1 = np.dot(X.T, dZ1)  # Gradiente para W1
        db1 = np.sum(dZ1, axis=0, keepdims=True)  # Gradiente para b1

        # Atualizando os pesos e biases
        W1 -= learning_rate * dW1
        b1 -= learning_rate * db1
        W2 -= learning_rate * dW2
        b2 -= learning_rate * db2

        if epoch % 100 == 0:  # Exibe a perda a cada 100 épocas
            print(f"Epoch {epoch}, Loss: {loss:.4f}")


# Função para carregar imagens e rótulos
def load_images(directory):
    images = []
    labels = []
    class_mapping = {
        'cow': 0,
        'bee': 1,
        'elephant': 2,
        'dog': 3,
        'cat': 4
    }
    
    for label, label_index in class_mapping.items():
        class_dir = os.path.join(directory, label)
        for filename in os.listdir(class_dir):
            if filename.endswith('.jpg') or filename.endswith('.png'):  # Adapte conforme o formato das suas imagens
                img_path = os.path.join(class_dir, filename)
                image = Image.open(img_path).resize((63, 63))  # Redimensionando para 63x63
                images.append(np.array(image).flatten())  # Achata a imagem
                labels.append(label_index)  # Adiciona o rótulo correspondente
    
    return np.array(images), np.array(labels)

# Definições de parâmetros
input_size = 63 * 63  # Tamanho de entrada (imagem achatada)
hidden_size = 128      # Número de neurônios na camada oculta
output_size = 5        # Número de classes (0 a 4, de acordo com o class_mapping)
epochs = 1000          # Número de épocas para o treinamento
learning_rate = 0.01   # Taxa de aprendizado

# Inicializando pesos e biases
W1, b1, W2, b2 = initialize_weights(input_size, hidden_size, output_size)


# Carregando as imagens e rótulos
testImgs, _ = load_images('testImgs')  # O diretório 'imgs' deve conter subpastas para cada classe

# Defina o mapeamento de rótulos para inteiros
class_mapping = {
    'elephant': 0,
    'bee': 1,
    'cat': 2,
    'dog': 3,
    'cow': 4
}

# Inicialize a matriz de one-hot encoding
num_classes = len(class_mapping)  # 5 classes no total (0 a 4)

# Mapear rótulos de strings para inteiros, apenas se estiverem no mapeamento
mapped_labels = np.array([class_mapping[label] for label in labelsFirst if label in class_mapping])


# Inicializando a matriz de one-hot encoding
y = np.zeros((mapped_labels.shape[0], num_classes))

print(mapped_labels.shape[0])

# Preencher a matriz de one-hot encoding com os valores mapeados
for idx, label in enumerate(mapped_labels):
    y[idx, label] = 1

flattened_images = np.array(flattened_images)

print("Dimensões de flattened_images:", flattened_images.shape)  # Exemplo: (300, 3969)
print("Dimensões de y:", y.shape)  # Exemplo: (300, 5)

# Treinando a rede neural
train(flattened_images, y, W1, b1, W2, b2, epochs, learning_rate)

# Forward pass para prever as classes
predictions = predict(testImgs, W1, b1, W2, b2)

# Imprimindo as previsões
print("Predições das classes:", predictions)


300
Dimensões de flattened_images: (300, 3969)
Dimensões de y: (300, 5)


IndexError: arrays used as indices must be of integer (or boolean) type

In [228]:
import numpy as np
from PIL import Image
import os

# Função para carregar as imagens de teste
def load_test_images(test_image_folder):
    test_images = []
    test_labels = []
    
    # Lendo cada subpasta que corresponde a uma classe
    for label, animal_folder in enumerate(os.listdir(test_image_folder)):
        animal_path = os.path.join(test_image_folder, animal_folder)
        
        # Certifique-se de que estamos lidando apenas com pastas
        if os.path.isdir(animal_path):
            for img_name in os.listdir(animal_path):
                if img_name.endswith('.jpg'):
                    img = Image.open(os.path.join(animal_path, img_name)).convert('L')
                    img = img.resize((128, 128))
                    test_images.append(np.array(img).flatten())
                    test_labels.append(label)

    return np.array(test_images), np.array(test_labels)

# Carregando imagens e rótulos de teste
test_images, test_labels = load_test_images('testImgs')

# Testando a rede neural
def test_network(model, test_images, test_labels):
    
    test_outputs = model.predict(test_images)  # Use o método apropriado para a sua rede neural

    predictions = np.argmax(test_outputs, axis=1)  # Índice da classe com maior probabilidade

    # Garantindo que predictions e test_labels tenham o mesmo tamanho
    if len(predictions) != len(test_labels):
        print(f"Erro: O número de previsões ({len(predictions)}) não corresponde ao número de rótulos ({len(test_labels)})")
        return

    accuracy = np.mean(predictions == test_labels)  # Cálculo da precisão
    test_loss = cross_entropy_loss(test_outputs, test_labels)  # Cálculo da perda
    print(f"Perda no teste: {test_loss:.4f}")
    print(f"Precisão no teste: {accuracy * 100:.2f}%")

    # Imprimindo previsões e classes reais
    for i in range(len(test_labels)):
        print(f"Imagem {i+1}: Previsão: {predictions[i]}, Classe Real: {test_labels[i]}")

# Criando a instância do modelo
input_size = 63 * 63 
hidden_size = 100  # Tamanho da camada oculta
output_size = 5  # Número de classes

model = SimpleNeuralNetwork(input_size, hidden_size, output_size)

# Testando a rede neural
test_network(model, test_images, test_labels)


ValueError: shapes (17,16384) and (3969,100) not aligned: 16384 (dim 1) != 3969 (dim 0)