# Classificação de Espécies de Psitacídeos do Cerrado: Uma Análise Comparativa com Redes Convolucionais, Transfer Learning e Fine-Tuning

# 1. Autores

<div style="display: flex; justify-content: center;">
  <table style="margin: auto; border-spacing: 60px;">
    <tr>
      <td align="center" style="padding: 20px;">
        <a href="https://github.com/PedroSampaioDias">
          <img style="border-radius: 50%;" src="https://avatars.githubusercontent.com/u/90795603?v=4" width="150px;"/>
          <h5 class="text-center">Pedro Sampaio - 211043745</h5>
        </a>
      </td>
      <td align="center" style="padding: 20px;">
        <a href="https://github.com/raulbreno">
          <img style="border-radius: 50%;" src="https://avatars.githubusercontent.com/u/72105072?v=4" width="150px;"/>
          <h5 class="text-center">Raul Breno - 200026810</h5>
        </a>
      </td>
    </tr>
  </table>
</div>


# 2. Abstract

# 3. Keywords

- **Deep Learning**
- **Classificação de Imagens** 
- **Transfer Learning** 
- **Fine-Tuning** 
- **Data Augmentation** 
- **Psittacidae**

# 4. Introdução

O Cerrado brasileiro, reconhecido por sua vasta biodiversidade, abriga uma notável diversidade de aves, entre as quais se destaca a família Psittacidae. Este grupo, que inclui espécies populares como araras, papagaios e periquitos, é notório por suas características singulares: são animais de notável inteligência e cérebro desenvolvido, grande longevidade e a capacidade de imitar uma variedade de sons. Apesar de suas plumagens vibrantes, a diferenciação visual entre espécies pode ser um desafio significativo, especialmente para observadores não especializados. Esta dificuldade classifica o problema como um desafio de Classificação Visual de Granularidade Fina (Fine-Grained Visual Classification), onde as variações interclasses são sutis.

Diante deste cenário, o presente trabalho tem como objetivo central o desenvolvimento e a avaliação de um classificador automático baseado em aprendizado profundo, capaz de identificar a espécie de uma ave a partir de uma imagem. Para tal, será utilizado um conjunto de dados composto por aproximadamente 3.000 imagens de 14 espécies distintas de psitacídeos do Cerrado. O dataset, proveniente da plataforma iNaturalist, é composto por imagens RGB com resoluções variadas, retratando as aves em múltiplas poses e ambientes. Uma análise preliminar do conjunto de dados revela um desbalanceamento no número de imagens por classe , uma característica que será abordada através de técnicas de aumento de dados (data augmentation) para garantir a robustez e a capacidade de generalização dos modelos.

As 14 espécies consideradas neste estudo são:

- **Amazona aestiva (Papagaio-verdadeiro)**
- **Amazona amazonica (Curica)**
- **Anodorhynchus hyacinthinus (Arara-azul)**
- **Ara ararauna (Arara-canindé)**
- **Ara chloropterus (Arara-vermelha)**
- **Ara macao (Araracanga)**
- **Brotogeris chiriri (Periquito-de-encontro-amarelo)**
- **Diopsittaca nobilis (Maracanã-pequena)**
- **Eupsittula aurea (Periquito-rei)**
- **Forpus xanthopterygius (Tuim)**
- **Orthopsittaca manilatus (Maracanã-do-buriti)**
- **Primolius maracana (Maracanã)**
- **Psittacara leucophthalmus (Periquitão)**
- **Touit melanonotus (Apuim-de-costas-pretas)**

A abordagem metodológica deste estudo foi estruturada em três estratégias experimentais distintas, visando uma análise comparativa de desempenho. A primeira abordagem consistirá no desenvolvimento de uma Rede Neural Convolucional (CNN) a partir do zero. A segunda estratégia empregará a técnica de Aprendizado por Transferência (Transfer Learning), na qual um modelo pré-treinado será utilizado como um extrator de características fixo. Por fim, a terceira abordagem utilizará a técnica de Fine-Tuning (ajuste fino), que estende o aprendizado por transferência ao reajustar sutilmente os pesos do modelo pré-treinado. O desempenho de cada uma dessas três abordagens será rigorosamente avaliado e comparado utilizando um conjunto abrangente de métricas, incluindo Acurácia, Precisão, Recall, F1-Score e a Matriz de Confusão.

# 5. Trabalhos Relacionados

A classificação de espécies de aves é um campo de estudo ativo em visão computacional, frequentemente categorizado como um problema de Classificação Visual de Granularidade Fina (Fine-Grained Visual Classification - FGVC), onde as distinções entre classes são sutis e exigem a identificação de características locais específicas. Diversos trabalhos têm explorado a eficácia de diferentes arquiteturas de Redes Neurais Convolucionais (CNN) e outras abordagens para este desafio.

Em um estudo comparativo abrangente, Tang (2025) realiza uma análise da eficácia de diferentes famílias de arquiteturas de CNNs aplicadas à tarefa. Empregando um vasto conjunto de dados com mais de 80.000 imagens, abrangendo 525 espécies distintas, a pesquisa avaliou o desempenho de três proeminentes arquiteturas: ResNet, MobileNet e VGG. Os resultados indicaram que as famílias ResNet e MobileNet alcançaram desempenho superior. Notavelmente, a performance da ResNet demonstrou uma correlação positiva com o aumento do número de camadas. Em contrapartida, a família VGG exibiu menor capacidade de discriminação, apresentando dificuldades na distinção entre espécies com características visuais semelhantes. Por fim, a família MobileNet destacou-se por oferecer um balanço notável entre acurácia e eficiência computacional, apresentando-se como uma solução viável para aplicações com restrições de hardware.

Além da comparação direta de arquiteturas padrão, a literatura e a indústria apresentam outras abordagens relevantes:

- Classificação com Redes de Atenção: Para lidar com a sutileza das características em problemas de granularidade fina, pesquisas têm explorado o uso de redes neurais com mecanismos de atenção. Modelos como o proposto por Fu et al. (2017) são projetados para aprender a focar automaticamente nas regiões mais discriminatórias da imagem (ex: o formato do bico, o padrão de uma asa), imitando a forma como um especialista humano analisa uma ave para identificá-la e melhorando a capacidade de distinção do modelo.

- Aplicações Práticas (Merlin Bird ID): Um dos exemplos mais bem-sucedidos da aplicação prática de CNNs para a identificação de aves é o aplicativo Merlin Bird ID, desenvolvido pelo Laboratório de Ornitologia da Cornell. O sistema utiliza modelos de visão computacional treinados com centenas de milhares de imagens para analisar fotos e sugerir a espécie mais provável em tempo real, demonstrando a viabilidade e o impacto desta tecnologia para a ciência cidadã e a educação ambiental.

- Identificação por Vocalização (BirdCLEF): Além da identificação visual, a comunidade de ciência de dados tem explorado a classificação de aves a partir de suas vocalizações. Competições anuais, como a "BirdCLEF" na plataforma Kaggle, desafiam os participantes a desenvolver modelos que possam identificar espécies de aves em gravações de áudio. As soluções frequentemente utilizam CNNs aplicadas a espectrogramas (representações visuais do som), combinando técnicas de visão computacional e processamento de áudio para o monitoramento da biodiversidade.

# 6. Metodologia

A abordagem metodológica deste estudo foi deliberadamente estruturada em três estratégias experimentais distintas e progressivamente complexas para a tarefa de classificação de imagens. O objetivo principal é conduzir uma análise comparativa rigorosa do desempenho, avaliando o compromisso entre o esforço de desenvolvimento, a necessidade de dados e a acurácia final de cada paradigma. As três estratégias representam um espectro que vai desde a criação de um modelo totalmente específico para o domínio até a alavancagem máxima de conhecimento pré-existente.

- Desenvolvimento de uma Rede Neural Convolucional (CNN) a partir do zero (from scratch): A primeira abordagem consiste no projeto e implementação de uma arquitetura de CNN customizada. Esta metodologia oferece um controle granular sobre todos os componentes do modelo, incluindo a profundidade da rede, o número e o tamanho dos filtros convolucionais, as funções de ativação e a topologia das camadas de classificação. A principal vantagem reside na possibilidade de criar uma arquitetura otimizada para as características intrínsecas e a complexidade específica do nosso conjunto de dados. Contudo, este método impõe desafios significativos: exige um volume de dados substancialmente maior para que a rede possa aprender representações de características hierárquicas significativas a partir de uma inicialização de pesos aleatória. Além disso, é computacionalmente intensivo e apresenta um risco elevado de superajuste (overfitting), especialmente com datasets de tamanho limitado. Este modelo servirá como um baseline fundamental, estabelecendo um ponto de referência de desempenho contra o qual as técnicas mais avançadas serão comparadas.

- Aprendizado por Transferência via Extração de Características (Transfer Learning): A segunda estratégia emprega a técnica de aprendizado por transferência em sua forma mais direta. Nesta abordagem, um modelo pré-treinado em um dataset de larga escala e de domínio geral, como o ImageNet (que contém milhões de imagens em milhares de categorias), é utilizado como um extrator de características fixo. As camadas convolucionais do modelo pré-treinado (o backbone) são "congeladas", o que significa que seus pesos não são atualizados durante o treinamento. Apenas a camada de classificação final do modelo original é removida e substituída por uma nova, com um número de saídas correspondente ao número de classes do nosso problema. Subsequentemente, apenas os pesos desta nova camada de classificação são treinados. Esta técnica capitaliza sobre o fato de que as camadas iniciais de uma CNN aprendem características genéricas (e.g., bordas, texturas, cores), que são transferíveis para uma vasta gama de tarefas de visão computacional, reduzindo drasticamente o tempo de treinamento e a necessidade de dados.

- Fine-Tuning (Ajuste Fino): A terceira e última abordagem estende o conceito de aprendizado por transferência. O fine-tuning inicia-se de forma semelhante, treinando apenas a nova camada de classificação com o backbone congelado. Contudo, em uma segunda fase, o modelo inteiro (ou uma parte dele, tipicamente as camadas mais profundas) é "descongelado". O treinamento então prossegue em todo o conjunto de parâmetros, mas com uma taxa de aprendizado (learning rate) muito baixa. O objetivo é ajustar sutilmente os pesos pré-treinados, permitindo que as características genéricas aprendidas no ImageNet se tornem mais especializadas e adaptadas às nuances específicas do nosso conjunto de dados de aves. Esta metodologia busca um equilíbrio ótimo, aproveitando o conhecimento pré-existente enquanto permite uma adaptação mais profunda ao novo domínio, sendo particularmente eficaz quando o dataset da nova tarefa é de tamanho razoável e possui similaridades com o dataset original.

## 6.1 Configuração do Ambiente e Importação de Bibliotecas

A fase inicial do desenvolvimento computacional compreende a importação das bibliotecas que constituem o ferramental para a execução do projeto. O ambiente é configurado com módulos para aquisição e descompressão de dados (gdown, zipfile), manipulação de sistema de arquivos e diretórios (os, shutil, pathlib), processamento e análise de dados tabulares (pandas), visualização de dados (matplotlib, seaborn), e processamento de imagens (PIL, OpenCV). De forma crucial, a biblioteca albumentations é importada para a implementação de técnicas de aumento de dados (data augmentation), e o numpy é utilizado como base para operações numéricas e manipulação de vetores multidimensionais.

In [None]:
import gdown
import zipfile
import os
import shutil
from pathlib import Path
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from collections import Counter
from PIL import Image
import numpy as np
from fractions import Fraction
import random
import shutil
import cv2
from albumentations import Compose, HorizontalFlip, VerticalFlip, Rotate, CoarseDropout

## 6.2 Aquisição e Preparação do Conjunto de Dados

A fundação de qualquer modelo de aprendizado de máquina reside na qualidade e integridade do conjunto de dados. Nesta etapa, é executado um processo programático e automatizado para a obtenção e preparação do dataset original. O script inicialmente verifica a existência e integridade do conjunto de dados no ambiente local para evitar redundância. Caso o dataset não esteja presente ou esteja incompleto, o processo de aquisição é iniciado: o arquivo compactado é baixado de um URI específico do Google Drive utilizando a biblioteca gdown.

Posteriormente, o arquivo é descompactado para um diretório de destino. Uma etapa de sanitização é realizada para remover arquivos e diretórios de metadados específicos de sistemas operacionais (e.g., __MACOSX, .DS_Store), garantindo uma estrutura de dados limpa, consistente e reprodutível, pré-requisito para as etapas subsequentes de pré-processamento e treinamento.

In [None]:
file_id = "1y8tfmhAtVxEHb8hxDlXx6Ek1ALs0SCAm"
url = f"https://drive.google.com/uc?id={file_id}"
zip_name = "dataset_original.zip"

base = Path("datasets"); compact = base/"compactados"; extract = base/"dataset_original"
base.mkdir(exist_ok=True); compact.mkdir(parents=True, exist_ok=True); extract.mkdir(parents=True, exist_ok=True)

exts = {".jpg",".jpeg",".png",".bmp",".tiff",".tif",".webp"}
contar_imgs = lambda p: sum(1 for f in p.rglob("*") if f.is_file() and f.suffix.lower() in exts)

def pronto(p):
    return p.exists() and sum(1 for d in p.iterdir() if d.is_dir()) == 14 and contar_imgs(p) == 2879

if pronto(extract):
    print("✅ Dataset já existe.")
else:
    print("📥 Baixando..."); gdown.download(url, zip_name, quiet=False)
    dest = compact/zip_name; dest.unlink(missing_ok=True); shutil.move(zip_name, dest)
    print("📂 Extraindo..."); zipfile.ZipFile(dest).extractall(extract)
    [shutil.rmtree(d, ignore_errors=True) for d in extract.rglob("__MACOSX")]
    [f.unlink(missing_ok=True) for f in extract.rglob(".DS_Store")]
    print(f"📸 Total de imagens: {contar_imgs(extract)}")
    print("✅ Dataset pronto em:", base.resolve())

## 6.3 Exploração de dados

Neste ponto, a separação, classificação e data augmentation serão feitas.

### 6.3.1 Organização do dataset

In [None]:
dataset_path = "./datasets/dataset_original"

#### 6.3.1.1 Quantidade total de imagens

In [None]:
total_images = sum(len(files) for _, _, files in os.walk(dataset_path))
total_images

#### 6.3.1.2 Número de classes (espécies)

In [None]:
classes = [d for d in os.listdir(dataset_path) if os.path.isdir(os.path.join(dataset_path, d))]
num_classes = len(classes)
num_classes

### 6.3.2 Distribuição das classes

#### 6.3.2.1 Frequência de imagens por classe com representação em quantidade e porcentagem

In [None]:
df = pd.DataFrame([
    (c, sum(1 for _,_,fs in os.walk(os.path.join(dataset_path, c))
            for f in fs if os.path.splitext(f)[1].lower() in exts))
    for c in os.listdir(dataset_path) if os.path.isdir(os.path.join(dataset_path, c))
], columns=["classe","imagens"]).sort_values("imagens")

df["pct"] = (df["imagens"] / df["imagens"].sum() * 100).round(2)

plt.figure(figsize=(11,5))
ax = sns.barplot(data=df, x="imagens", y="classe",
                 hue="classe", dodge=False, palette="viridis",
                 orient="h", legend=False)

for i, p in enumerate(ax.patches):
    ax.text(p.get_width()+5, p.get_y()+p.get_height()/2,
            f"{int(p.get_width())} ({df['pct'].iloc[i]}%)",
            va="center", ha="left", weight="bold")

max_val = df["imagens"].max()
ax.set_xlim(0, max_val * 1.25)

ax.set(title="Distribuição de imagens por classe",
       xlabel="Quantidade de imagens e Porcentagem", ylabel="Classe")

plt.tight_layout()
plt.show()


In [None]:
extensoes = []

# Percorre todas as subpastas e arquivos
for root, dirs, files in os.walk(dataset_path):
    for file in files:
        ext = os.path.splitext(file)[1].lower()
        if ext:  # garante que tem extensão
            extensoes.append(ext)

# Conta as ocorrências de cada extensão
contagem = Counter(extensoes)

# Separa chaves e valores
extensoes_unicas = list(contagem.keys())
quantidades = list(contagem.values())

# Cria gráfico de barras horizontal
plt.figure(figsize=(8,5))
bars = plt.barh(extensoes_unicas, quantidades, color="skyblue")
plt.xlabel("Quantidade de Imagens")
plt.ylabel("Extensão")
plt.title("Distribuição das Extensões de Arquivos de Imagem")

# Adiciona os valores na frente das barras
for bar, qtd in zip(bars, quantidades):
    plt.text(qtd + 0.5, bar.get_y() + bar.get_height()/2,
             str(qtd), va="center")

plt.show()

In [None]:
resolucoes = []

# Percorre todas as subpastas e arquivos
for root, dirs, files in os.walk(dataset_path):
    for file in files:
        ext = os.path.splitext(file)[1].lower()
        if ext in [".jpg", ".jpeg", ".png", ".bmp", ".tiff", ".gif"]:
            try:
                img_path = os.path.join(root, file)
                with Image.open(img_path) as img:
                    w, h = img.size
                    resolucoes.append((w, h))
            except:
                pass

# Estatísticas
larguras = [w for w, h in resolucoes]
alturas = [h for w, h in resolucoes]

res_min = (min(larguras), min(alturas))
res_max = (max(larguras), max(alturas))
res_media = (int(np.mean(larguras)), int(np.mean(alturas)))

# Lista de barras com valores e rótulos
barras = [
    ("Mínimo", res_min),
    ("Média", res_media),
    ("Máximo", res_max)
]

# Ordena por largura*altura (área da imagem)
barras.sort(key=lambda x: x[1][0]*x[1][1])

# Extrai dados para plot
nomes = [nome for nome, res in barras]
res_labels = [f"{res[0]}x{res[1]}" for nome, res in barras]
valores = [res[0]*res[1] for nome, res in barras]  # usado só para tamanho da barra

# Cria gráfico horizontal
plt.figure(figsize=(8,4))
bars = plt.barh(range(len(nomes)), valores, color=["skyblue", "orange", "green"])
plt.yticks(range(len(nomes)), nomes)
plt.xlabel("Resolução relativa (área)")
plt.title("Estatísticas das Resoluções das Imagens")

# Adiciona rótulo [LxA] na frente de cada barra
for bar, label in zip(bars, res_labels):
    plt.text(bar.get_width() + max(valores)*0.01,
             bar.get_y() + bar.get_height()/2,
             label, va="center", fontsize=10)

plt.tight_layout()
plt.show()

In [None]:
resolucoes = []

# Percorre todas as subpastas e arquivos
for root, dirs, files in os.walk(dataset_path):
    for file in files:
        ext = os.path.splitext(file)[1].lower()
        if ext in [".jpg", ".jpeg", ".png", ".bmp", ".tiff", ".gif"]:
            try:
                img_path = os.path.join(root, file)
                with Image.open(img_path) as img:
                    w, h = img.size
                    resolucoes.append(f"{w}x{h}")  # guarda como string "LxA"
            except:
                pass  # ignora arquivos corrompidos

# Conta quantas imagens têm cada resolução
contagem = Counter(resolucoes)

# Pega as 5 resoluções mais comuns
top5 = contagem.most_common(5)  # retorna lista de tuplas: [(resolucao, quantidade), ...]

# Separa em listas para plot
resolucoes_top5 = [item[0] for item in top5]
quantidades_top5 = [item[1] for item in top5]

# Cria gráfico horizontal
plt.figure(figsize=(8,5))
# inverte listas para colocar a maior barra em cima
bars = plt.barh(resolucoes_top5[::-1], quantidades_top5[::-1], color="skyblue")
plt.xlabel("Número de imagens")
plt.ylabel("Resolução [Largura x Altura]")
plt.title("Top 5 resoluções mais comuns")

# Adiciona número de imagens na frente de cada barra
for bar, qtd in zip(bars, quantidades_top5[::-1]):
    plt.text(qtd + max(quantidades_top5)*0.01,
             bar.get_y() + bar.get_height()/2,
             str(qtd), va="center", fontsize=10)

plt.tight_layout()
plt.show()

In [None]:

# Número total de resoluções únicas
total_resolucoes = len(contagem)
print(f"Número total de resoluções únicas: {total_resolucoes}")

In [None]:
proporcoes = []

# Percorre todas as subpastas e arquivos
for root, dirs, files in os.walk(dataset_path):
    for file in files:
        ext = os.path.splitext(file)[1].lower()
        if ext in [".jpg", ".jpeg", ".png", ".bmp", ".tiff", ".gif"]:
            try:
                img_path = os.path.join(root, file)
                with Image.open(img_path) as img:
                    w, h = img.size
                    proporcao = Fraction(w, h).limit_denominator(100)  # simplifica a fração
                    proporcoes.append(proporcao)
            except:
                pass  # ignora arquivos corrompidos

# Calcula estatísticas
prop_min = min(proporcoes)
prop_max = max(proporcoes)
prop_media_decimal = np.mean([float(p) for p in proporcoes])
prop_media = Fraction(prop_media_decimal).limit_denominator(100)

# Lista para plot
barras = [
    ("Mínima", prop_min),
    ("Média", prop_media),
    ("Máxima", prop_max)
]

# Ordena por proporção decimal
barras.sort(key=lambda x: float(x[1]))

# Extrai dados para plot
nomes = [nome for nome, val in barras]
valores = [float(val) for nome, val in barras]
labels = [f"{val.numerator}:{val.denominator}" for nome, val in barras]  # rótulo L:A

# Cria gráfico horizontal
plt.figure(figsize=(8,4))
bars = plt.barh(nomes, valores, color=["skyblue", "orange", "green"])
plt.xlabel("Proporção (Largura / Altura)")
plt.title("Proporções das imagens: mínima, média e máxima")

# Adiciona rótulo L:A na frente da barra
for bar, label in zip(bars, labels):
    plt.text(bar.get_width() + 0.01, bar.get_y() + bar.get_height()/2,
             label, va="center", fontsize=10)

plt.tight_layout()
plt.show()

In [None]:
razoes = []

# Percorre todas as subpastas e arquivos
for root, dirs, files in os.walk(dataset_path):
    for file in files:
        ext = os.path.splitext(file)[1].lower()
        if ext in [".jpg", ".jpeg", ".png", ".bmp", ".tiff", ".gif"]:
            try:
                img_path = os.path.join(root, file)
                with Image.open(img_path) as img:
                    w, h = img.size
                    razao = Fraction(w, h).limit_denominator(100)
                    razoes.append(f"{razao.numerator}:{razao.denominator}")
            except:
                pass  # ignora arquivos corrompidos

# Conta quantas imagens têm cada razão
contagem = Counter(razoes)

# Pega as 10 razões mais frequentes
top10 = contagem.most_common(10)  # lista de tuplas: [(razao, quantidade), ...]

# Separa em listas para plot
razoes_top10 = [item[0] for item in top10]
quantidades_top10 = [item[1] for item in top10]

# Cria gráfico horizontal
plt.figure(figsize=(10, max(4, len(razoes_top10)*0.4)))
bars = plt.barh(razoes_top10[::-1], quantidades_top10[::-1], color="skyblue")  # inverte para a mais frequente em cima
plt.xlabel("Número de imagens")
plt.ylabel("Razão de aspecto [L:A]")
plt.title("Top 10 razões de aspecto mais frequentes")

# Adiciona número de imagens na frente de cada barra
for bar, qtd in zip(bars, quantidades_top10[::-1]):
    plt.text(qtd + max(quantidades_top10)*0.01, bar.get_y() + bar.get_height()/2,
             str(qtd), va="center", fontsize=10)

plt.tight_layout()
plt.show()

## 6.4 Divisão e Aumentação do Dataset

### 6.4.1 Configuração e Dependências

O processo inicia-se com a importação das bibliotecas essenciais para cada etapa da tarefa. Para a manipulação de arquivos e diretórios, são utilizados os módulos os e shutil; a geração de números aleatórios é gerenciada por random; e o processamento de imagens fica a cargo do cv2 (OpenCV) e albumentations. Para a etapa de verificação visual, são empregadas as bibliotecas do Matplotlib: matplotlib.pyplot (como plt), utilizada para criar a grade de visualização, e matplotlib.image (como mpimg), responsável por carregar os arquivos de imagem.

Em seguida, são definidos os parâmetros fundamentais que guiarão todo o processo de preparação de dados. Isso inclui a definição dos caminhos dos diretórios: o de origem (dataset_original), o de destino para os dados aumentados (dataset_aumentado), e os diretórios finais para os subconjuntos de treinamento (train_images) e validação (test_images). Adicionalmente, são estabelecidos os parâmetros numéricos: a variável target_count, que define o número de imagens por classe após o balanceamento, e a proporção de 80/20 para a divisão entre os dados de treinamento e validação.

In [None]:
import os
import shutil
import random
import cv2
from albumentations import Compose, Rotate, HorizontalFlip, VerticalFlip, CoarseDropout
from pathlib import Path
import matplotlib.pyplot as plt
import matplotlib.image as mpimg

In [None]:
# --- Parâmetros de Aumento de Dados ---
dataset_path = "./datasets/dataset_original"
dataset_final_path = "./datasets/dataset_aumentado"
target_count = 300

# --- Parâmetros de Divisão do Dataset ---
train_dir = "./datasets/train_images"
val_dir = "./datasets/val_images"
train_split = 0.8

# --- Criação dos Diretórios ---
os.makedirs(dataset_final_path, exist_ok=True)
os.makedirs(train_dir, exist_ok=True)
os.makedirs(val_dir, exist_ok=True)

# --- Exibição das Configurações ---
print("--- Configurações do Ambiente ---")
print(f"Dataset de origem: '{os.path.abspath(dataset_path)}'")
print(f"Dataset aumentado (destino): '{os.path.abspath(dataset_final_path)}'")
print(f"Diretório de treino: '{os.path.abspath(train_dir)}'")
print(f"Diretório de validação: '{os.path.abspath(val_dir)}'")
print(f"Número alvo de imagens por classe: {target_count}")
print(f"Proporção de divisão (Treino/Validação): {train_split*100:.0f}% / {(1-train_split)*100:.0f}%")

### 6.4.2 Definição da Estratégia de Aumento de Dados

Para gerar diversidade sintética nos dados, foi implementada a função get_random_augmentation. Esta função encapsula a lógica de transformação, selecionando aleatoriamente, a cada chamada, uma de três possíveis técnicas de aumento de dados da biblioteca Albumentations:

- Rotação (Rotate): Aplica uma rotação na imagem em um ângulo aleatório entre 10 e 340 graus.

- Inversão (Flip): Inverte a imagem, com 50% de chance de ser na horizontal e 50% na vertical.

- Recorte (CoarseDropout): Remove de 1 a 3 pequenos retângulos pretos da imagem em locais aleatórios para simular oclusão.

In [None]:
def get_random_augmentation():
    aug_type = random.choice(["rotate", "flip", "cutout"])
    
    if aug_type == "rotate":
        return Compose([Rotate(limit=(10, 340), p=1)])
    
    elif aug_type == "flip":
        if random.random() > 0.5:
            return Compose([HorizontalFlip(p=1)])
        else:
            return Compose([VerticalFlip(p=1)])
            
    elif aug_type == "cutout":
        return Compose([CoarseDropout(
            max_holes=3, min_holes=1,
            max_height=0.2, min_height=0.1,
            max_width=0.2, min_width=0.1,
            fill_value=0, p=1
        )])

### 6.4.3 Geração do Dataset Aumentado

Para corrigir o desbalanceamento entre as classes e aumentar a robustez do modelo, foi executado um processo de aumento de dados (data augmentation). A introdução de variações sintéticas, como rotações e recortes, expõe o modelo a uma gama mais ampla de cenários visuais, melhorando sua capacidade de generalização para imagens do mundo real.

O script a seguir implementa essa estratégia. Ele itera sobre cada subdiretório de classe do dataset original, primeiramente copiando todas as imagens existentes para a nova estrutura de pastas. Em seguida, um laço while é acionado para gerar novas imagens sintéticas, aplicando transformações aleatórias através da função get_random_augmentation. Este processo continua até que o número de imagens em cada classe atinja o limiar pré-definido (target_count), resultando em um conjunto de dados final que é não apenas maior, mas também perfeitamente balanceado e mais diversificado.

In [None]:
for class_folder in os.listdir(dataset_path):
    class_path = os.path.join(dataset_path, class_folder)
    
    if not os.path.isdir(class_path):
        continue

    final_class_path = os.path.join(dataset_final_path, class_folder)
    os.makedirs(final_class_path, exist_ok=True)

    images = [f for f in os.listdir(class_path) if f.lower().endswith((".png", ".jpg", ".jpeg"))]

    for img_name in images:
        shutil.copy(os.path.join(class_path, img_name), os.path.join(final_class_path, img_name))

    current_count = len(images)
    print(f"Classe '{class_folder}': {current_count} imagens originais. Gerando novas imagens...")

    while current_count < target_count:
        img_name = random.choice(images)
        img_path = os.path.join(class_path, img_name)

        img = cv2.imread(img_path)
        img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)

        aug = get_random_augmentation()
        augmented = aug(image=img)['image']

        save_name = f"aug_{current_count}.jpg"
        save_path = os.path.join(final_class_path, save_name)
        
        augmented_bgr = cv2.cvtColor(augmented, cv2.COLOR_RGB2BGR)
        cv2.imwrite(save_path, augmented_bgr)

        current_count += 1

    print(f"-> Classe '{class_folder}' finalizada com {current_count} imagens.")

print("\n✅ Processo de Data Augmentation concluído!")

### 6.4.4 Verificação do Dataset Aumentado

Após a geração sintética dos dados, é fundamental realizar uma verificação para assegurar a integridade do novo dataset. Esta etapa valida tanto a correção do balanceamento de classes quanto a qualidade visual das imagens que serão utilizadas no treinamento.

O script a seguir executa duas funções de validação em sequência. A primeira é uma verificação quantitativa, que itera sobre o diretório dataset_aumentado para contar e exibir o número de imagens por classe. Este procedimento confirma que o objetivo de balanceamento foi alcançado. A segunda é uma inspeção visual, que seleciona e exibe uma amostra aleatória de cada classe em uma grade. Esta análise qualitativa permite validar que as transformações sintéticas são realistas, não distorcem as características essenciais das espécies e contribuem positivamente para a robustez do modelo.

In [None]:
print("--- Verificação Quantitativa ---")
total_images = 0
class_folders = sorted([d for d in os.listdir(dataset_final_path) if os.path.isdir(os.path.join(dataset_final_path, d))])

for class_folder in class_folders:
    class_path = os.path.join(dataset_final_path, class_folder)
    count = len(os.listdir(class_path))
    print(f"Classe '{class_folder}': {count} imagens")
    total_images += count

print(f"\nTotal de imagens no dataset aumentado: {total_images}")
print("\n--- Verificação Visual (Amostra Aleatória por Classe) ---")

nrows, ncols = 4, 4
fig, axes = plt.subplots(nrows, ncols, figsize=(16, 16))
axes = axes.flatten()

for i, class_folder in enumerate(class_folders):
    class_path = os.path.join(dataset_final_path, class_folder)
    images = [f for f in os.listdir(class_path) if f.lower().endswith(('.png', '.jpg', '.jpeg'))]
    
    if images:
        random_image_name = random.choice(images)
        image_path = os.path.join(class_path, random_image_name)
        
        img = mpimg.imread(image_path)
        axes[i].imshow(img)
        axes[i].set_title(class_folder, fontsize=12)
        axes[i].axis('off')

for j in range(len(class_folders), len(axes)):
    axes[j].axis('off')

plt.tight_layout()
plt.show()

### 6.4.5 Divisão de Datasets em Traino e Validação

Para avaliar a capacidade de generalização do modelo e evitar o superajuste (overfitting), o conjunto de dados aumentado foi dividido em dois subconjuntos distintos e mutuamente exclusivos: treinamento e validação. O subconjunto de treinamento é utilizado para o ajuste dos pesos da rede neural, enquanto o subconjunto de validação, composto por dados não vistos durante o treinamento, serve para fornecer uma estimativa imparcial do desempenho do modelo em dados novos.

Foi adotada uma proporção de 80% para treinamento e 20% para validação, um padrão consolidado na literatura de aprendizado de máquina. A divisão foi realizada de maneira estratificada, garantindo que essa proporção de 80/20 fosse mantida dentro de cada uma das 14 classes de aves. Para assegurar a aleatoriedade da amostragem, a lista de imagens de cada classe foi embaralhada antes da divisão. O script a seguir automatiza a criação das estruturas de diretório e a cópia dos arquivos de imagem para seus respectivos subconjuntos.

In [None]:
for class_name in os.listdir(data_dir):
    class_path = os.path.join(data_dir, class_name)
    if not os.path.isdir(class_path):
        continue

    os.makedirs(os.path.join(train_dir, class_name), exist_ok=True)
    os.makedirs(os.path.join(val_dir, class_name), exist_ok=True)

    images = os.listdir(class_path)
    random.shuffle(images)

    split_idx = int(len(images) * train_split)
    train_files = images[:split_idx]
    val_files = images[split_idx:]

    for img in train_files:
        shutil.copy(os.path.join(class_path, img),
                    os.path.join(train_dir, class_name, img))
    for img in val_files:
        shutil.copy(os.path.join(class_path, img),
                    os.path.join(val_dir, class_name, img))

print("✅ Divisão concluída!")

## 6.5 Configuração e Treinamento da Rede Personalizada

### 6.5.1 Preparação do Ambiente e Importação de Bibliotecas

Antes da construção e treinamento do modelo, é fundamental configurar o ambiente computacional e importar todas as bibliotecas necessárias. Esta etapa inicial garante que o backend de processamento esteja corretamente definido, os recursos de hardware sejam alocados de forma eficiente e todas as ferramentas para modelagem, treinamento e avaliação estejam disponíveis.

O script a seguir executa as seguintes ações:

- Configuração do Ambiente: Através de variáveis de ambiente (os.environ), o Keras é configurado para utilizar o backend PyTorch. Adicionalmente, são aplicadas configurações para o gerenciamento de memória da GPU, prevenindo a alocação total e permitindo um crescimento dinâmico, além de especificar qual dispositivo GPU deve ser utilizado.

- Importação do Framework Keras: São importados os componentes centrais da biblioteca Keras, incluindo o modelo Sequential, as diversas layers (como Dense, Dropout e BatchNormalization) e os regularizers, que são essenciais para construir a arquitetura da rede neural convolucional e implementar técnicas de prevenção de overfitting.

- Ferramentas de Preparação de Dados: Inclui a biblioteca numpy para operações numéricas e a função image_dataset_from_directory do TensorFlow/Keras, uma ferramenta de alto nível para carregar e pré-processar imagens diretamente de uma estrutura de diretórios, criando um pipeline de dados eficiente.

- Módulos de Avaliação e Visualização: São importadas funções da biblioteca scikit-learn para gerar métricas de avaliação, como a matriz de confusão (confusion_matrix), e as bibliotecas matplotlib e seaborn para a visualização gráfica dos resultados do treinamento e da performance do modelo.

- Callbacks para Controle do Treinamento: São importados os callbacks ModelCheckpoint (para salvar o melhor modelo durante o treinamento), EarlyStopping (para interromper o treinamento caso a performance estagne) e ReduceLROnPlateau (para ajustar dinamicamente a taxa de aprendizado), que permitem um controle mais robusto e automatizado do processo de treinamento.

In [None]:
import os
os.environ["KERAS_BACKEND"] = "torch"
os.environ["TF_FORCE_GPU_ALLOW_GROWTH"] = "true"
os.environ["CUDA_VISIBLE_DEVICES"] = "0"

import keras
from keras.models import Sequential
from keras import datasets, layers, models
from keras.utils import to_categorical
from keras import regularizers
from keras.layers import Dense, Dropout, BatchNormalization
import numpy as np
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay, classification_report
import seaborn as sns
import tensorflow as tf
from tensorflow.keras.utils import image_dataset_from_directory
import matplotlib.pyplot as plt
from tensorflow.keras.utils import to_categorical
from tensorflow.keras import models, layers, regularizers
from tensorflow.keras.callbacks import ModelCheckpoint, EarlyStopping, ReduceLROnPlateau

### 6.5.2 Carregamento e Pré-processamento dos Dados

A etapa de carregamento e pré-processamento de dados é fundamental para a construção de um modelo de aprendizado profundo eficaz. Nesta fase, os dados brutos (imagens em disco) são transformados em um formato estruturado, normalizado e otimizado para o consumo pela rede neural. O processo foi dividido em quatro etapas sequenciais: definição de parâmetros, construção do pipeline de dados, conversão para vetores e verificação final.

#### 1. Definição de Parâmetros e Estrutura de Dados
A primeira etapa consiste na definição de todos os parâmetros que governarão o pipeline de dados. É declarada uma lista explícita de class_names, que assegura uma correspondência consistente e determinística entre os nomes das espécies e os rótulos numéricos (inteiros) que serão utilizados pelo modelo. São também especificados os caminhos para os diretórios de treinamento e validação.

Dois hiperparâmetros críticos são definidos:

- IMAGE_SIZE: Estabelecido como (128, 128), este parâmetro define as dimensões para as quais todas as imagens de entrada serão redimensionadas. As redes neurais convolucionais exigem um tensor de entrada com tamanho fixo, e esta uniformização é um pré-requisito essencial.

- BATCH_SIZE: Definido como 32, corresponde ao número de imagens que serão processadas em um único lote (batch) durante o carregamento e o treinamento. A utilização de lotes é uma técnica padrão que otimiza o uso da memória e a estabilidade do processo de otimização dos gradientes.

In [None]:
class_names = [
    "amazona_aestiva",
    "amazona_amazonica",
    "anodorhynchus_hyacinthinus",
    "ara_ararauna",
    "ara_chloropterus",
    "ara_macao",
    "brotogeris_chiriri",
    "diopsittaca_nobilis",
    "eupsittula_aurea",
    "forpus_xanthopterygius",
    "orthopsittaca_manilatus",
    "primolius_maracana",
    "psittacara_leucophthalmus",
    "touit_melanonotus",
]

BASE_PATH = './datasets'
train_dir = os.path.join(BASE_PATH, 'train_images')
val_dir = os.path.join(BASE_PATH, 'val_images')

IMAGE_SIZE = (128, 128)
BATCH_SIZE = 32

#### 2. Construção do Pipeline de Dados com tf.data

Nesta fase, utiliza-se a função de alto nível image_dataset_from_directory da biblioteca Keras para criar um pipeline de dados eficiente (tf.data.Dataset). Esta função automatiza o processo de leitura das imagens a partir dos diretórios, inferindo os rótulos (labels='inferred') a partir da estrutura de subpastas e convertendo-os para um formato inteiro (label_mode='int').

Para o conjunto de treinamento (train_ds), a opção shuffle=True é ativada para embaralhar os dados, uma prática crucial para evitar que o modelo aprenda com a ordem de apresentação das amostras e para melhorar a generalização. Para o conjunto de validação (val_ds), o embaralhamento é desativado (shuffle=False) para garantir que a avaliação da performance seja consistente e reprodutível entre as épocas de treinamento.

Subsequentemente, é aplicada uma camada de normalização (Rescaling(1./255)) a ambos os datasets. Este é um passo de pré-processamento crítico que reescala os valores de pixel, originalmente no intervalo [0, 255], para o intervalo [0, 1]. A normalização dos dados de entrada acelera a convergência do treinamento e melhora a estabilidade numérica do modelo.

In [None]:
print("Carregando dados de TREINO...")
train_ds = image_dataset_from_directory(
    train_dir,
    labels='inferred',
    label_mode='int',
    class_names=class_names,
    image_size=IMAGE_SIZE,
    interpolation='bilinear',
    shuffle=True,
    batch_size=BATCH_SIZE
)

print("\nCarregando dados de VALIDAÇÃO...")
val_ds = image_dataset_from_directory(
    val_dir,
    labels='inferred',
    label_mode='int',
    class_names=class_names,
    image_size=IMAGE_SIZE,
    interpolation='bilinear',
    shuffle=False,
    batch_size=BATCH_SIZE
)

normalization_layer = tf.keras.layers.Rescaling(1./255)
train_ds = train_ds.map(lambda x, y: (normalization_layer(x), y))
val_ds = val_ds.map(lambda x, y: (normalization_layer(x), y))

#### 3. Conversão para Vetores NumPy
Embora o formato tf.data.Dataset seja otimizado para alimentar os modelos durante o treinamento, a conversão dos dados para arrays NumPy oferece maior flexibilidade para inspeção manual e para o uso de bibliotecas de análise de dados, como a scikit-learn. A função dataset_to_numpy foi criada para iterar sobre o pipeline de dados, desempacotar os lotes (unbatch) e agregar todas as imagens e rótulos em dois vetores NumPy distintos: um para as imagens e outro para os rótulos correspondentes.

In [None]:
def dataset_to_numpy(dataset):
    images = []
    labels = []
    for img_batch, label_batch in dataset.unbatch().as_numpy_iterator():
        images.append(img_batch)
        labels.append(label_batch)

    if not images:
        print("Atenção: Nenhum dado encontrado no dataset.")
        return np.array([]), np.array([])
    
    return np.array(images), np.array(labels)

print("\nConvertendo dataset de treino para arrays NumPy...")
train_images, train_labels = dataset_to_numpy(train_ds)

print("Convertendo dataset de validação para arrays NumPy...")
val_images, val_labels = dataset_to_numpy(val_ds)

#### 4. Verificação da Estrutura e Qualidade dos Dados

Como etapa final do pré-processamento, é apresentado um resumo tanto quantitativo quanto qualitativo dos dados preparados. Esta verificação combinada é crucial para validar a integridade estrutural dos vetores e a qualidade visual das amostras antes de iniciar o treinamento.

O resumo quantitativo confirma as dimensões (shape) e os tipos de dados (dtype) dos vetores NumPy gerados. A verificação da dimensionalidade — (número_de_amostras, altura, largura, canais_de_cor) — assegura que os dados estão no formato correto esperado pela camada de entrada da rede neural.

Complementarmente, uma verificação qualitativa é realizada através da exibição de uma amostra aleatória de cada uma das 14 classes a partir do conjunto de treinamento. Esta inspeção visual serve como uma verificação de sanidade final, confirmando que as imagens foram carregadas e normalizadas corretamente e, mais importante, que a associação entre as imagens e seus respectivos rótulos está correta antes de proceder para a etapa de construção do modelo.

In [None]:
print("="*50)
print("RESUMO DOS VETORES GERADOS")
print("="*50)
print(f"train_images (imagens de treino): {train_images.shape}")
print(f"train_labels (rótulos de treino): {train_labels.shape}")
print(f"val_images (imagens de validação): {val_images.shape}")
print(f"val_labels (rótulos de validação): {val_labels.shape}")
print(f"Tipo de dado das imagens: {train_images.dtype}")
print(f"Tipo de dado dos rótulos: {train_labels.dtype}")

if train_labels.size > 0:
    exemplo_label_idx = train_labels[0]
    nome_classe = class_names[exemplo_label_idx]
    print(f"\nExemplo: O primeiro rótulo ({exemplo_label_idx}) corresponde à classe: '{nome_classe}'")

print("\n" + "="*50)
print("VERIFICAÇÃO VISUAL DOS DADOS (Amostra por Classe)")
print("="*50)

fig, axes = plt.subplots(nrows=4, ncols=4, figsize=(16, 16))
axes = axes.flatten()

for i, class_name in enumerate(class_names):
    indices = np.where(train_labels == i)[0]
    
    if indices.size > 0:
        random_index = np.random.choice(indices)
        image_to_show = train_images[random_index]
        
        ax = axes[i]
        ax.imshow(image_to_show)
        ax.set_title(class_name)
        ax.axis('off')

for j in range(len(class_names), len(axes)):
    axes[j].axis('off')

plt.tight_layout()
plt.show()

### 6.5.3 Definição de Hiperparâmetros e Configurações do Modelo

Antes da construção da arquitetura, é crucial definir todos os hiperparâmetros e configurações que governarão o processo de treinamento. Centralizar estes parâmetros em uma única célula de configuração facilita a experimentação, a reprodutibilidade e a clareza do código.

Os parâmetros são agrupados em quatro categorias:

- Dados e Modelo: Define as características fundamentais dos dados, como o formato de entrada das imagens (INPUT_SHAPE) e o número total de classes (NUM_CLASSES). Também especifica o nome do arquivo para salvar o modelo de melhor performance (MODEL_FILEPATH).

- Arquitetura: Estabelece os valores que moldarão a estrutura da rede, como o tamanho dos filtros convolucionais (KERNEL_SIZE), o fator de subamostragem (POOL_SIZE), o número de neurônios na camada densa (DENSE_UNITS), e as taxas de Dropout para regularização. Crucialmente, define-se o fator de regularização L2 (L2_FACTOR), que penaliza pesos grandes para mitigar o superajuste (overfitting).

- Treinamento: Determina os componentes do processo de otimização, incluindo o otimizador (OPTIMIZER), a função de perda (LOSS_FUNCTION), o tamanho dos lotes de dados (BATCH_SIZE) e o número máximo de épocas de treinamento (EPOCHS).

- Callbacks: Configura os mecanismos de controle do treinamento, como a métrica a ser monitorada (MONITOR_METRIC) e os parâmetros de paciência (patience) para as funções de parada antecipada e redução da taxa de aprendizado.

In [None]:
# --- Parâmetros de Dados e Modelo ---
INPUT_SHAPE = train_images.shape[1:]
NUM_CLASSES = len(class_names)
MODEL_FILEPATH = 'modelo_personalizado_v1.keras'

# --- Hiperparâmetros da Arquitetura ---
KERNEL_SIZE = (3, 3)
POOL_SIZE = (2, 2)
DENSE_UNITS = 512
DROPOUT_CONV = 0.35
DROPOUT_DENSE = 0.5
L2_FACTOR = 0.001

# --- Hiperparâmetros de Treinamento ---
OPTIMIZER = 'adam'
LOSS_FUNCTION = 'categorical_crossentropy'
BATCH_SIZE = 16
EPOCHS = 150

# --- Configurações dos Callbacks ---
MONITOR_METRIC = 'val_accuracy'
ES_PATIENCE = 10
RLR_PATIENCE = 3
RLR_FACTOR = 0.2
RLR_MIN_LR = 1e-6

### 6.5.4 Preparação dos Rótulos para Classificação
O modelo será treinado para uma tarefa de classificação multi-classe utilizando a função de ativação softmax na camada de saída. Esta função produz uma distribuição de probabilidade sobre as N classes. Para que a função de perda categorical_crossentropy possa comparar corretamente a predição do modelo com o rótulo verdadeiro, os rótulos, que estão em formato de inteiros (e.g., 0, 1, 2...), devem ser convertidos para o formato one-hot encoding.

Neste formato, cada rótulo é transformado em um vetor binário de tamanho NUM_CLASSES, com todos os elementos sendo 0, exceto pelo índice correspondente à classe, que é 1. A função to_categorical da biblioteca Keras é utilizada para realizar essa conversão de forma eficiente.

In [None]:
train_labels_one_hot = to_categorical(train_labels, NUM_CLASSES)
val_labels_one_hot = to_categorical(val_labels, NUM_CLASSES)

### 6.5.5 Construção da Arquitetura da Rede Neural Convolucional

A arquitetura do modelo foi construída utilizando a API Sequential do Keras, seguindo um design inspirado em arquiteturas VGG, caracterizado pelo empilhamento de blocos convolucionais que progressivamente aumentam a profundidade dos filtros enquanto reduzem a dimensão espacial dos mapas de características.

A rede é composta por:

- Quatro Blocos Convolucionais: Cada bloco é formado por duas camadas Conv2D com ativação ReLU, seguidas por BatchNormalization para estabilizar e acelerar o treinamento. A profundidade dos filtros aumenta a cada bloco (32, 64, 128, 256), permitindo que a rede aprenda características de complexidade crescente. Ao final de cada bloco, uma camada MaxPool2D realiza a subamostragem (downsampling), reduzindo a dimensionalidade e criando invariância a pequenas translações. Uma camada Dropout é aplicada para regularização.

- Regularização L2 (Weight Decay): Para combater o overfitting, a regularização L2 (kernel_regularizer=regularizers.l2(L2_FACTOR)) é aplicada a todas as camadas convolucionais e densas. Esta técnica adiciona um termo de penalidade à função de perda, proporcional ao quadrado do valor dos pesos, incentivando o modelo a aprender pesos menores e, consequentemente, funções mais simples.

- Bloco Classificador: Após os blocos convolucionais, uma camada Flatten transforma o mapa de características 2D em um vetor 1D. Este vetor é então processado por uma camada Dense com DENSE_UNITS neurônios e ativação ReLU. BatchNormalization e Dropout são novamente aplicados antes da camada final.

- Camada de Saída: A última camada é uma Dense com NUM_CLASSES neurônios e ativação softmax, que produz a distribuição de probabilidade final para a classificação.

In [None]:
model = models.Sequential([
    # Bloco 1 (32 filtros)
    layers.Conv2D(filters=32, kernel_size=KERNEL_SIZE, activation='relu', padding='same', input_shape=INPUT_SHAPE, kernel_regularizer=regularizers.l2(L2_FACTOR)),
    layers.BatchNormalization(),
    layers.Conv2D(filters=32, kernel_size=KERNEL_SIZE, activation='relu', padding='same', kernel_regularizer=regularizers.l2(L2_FACTOR)),
    layers.BatchNormalization(),
    layers.MaxPool2D(pool_size=POOL_SIZE),
    layers.Dropout(DROPOUT_CONV),

    # Bloco 2 (64 filtros)
    layers.Conv2D(filters=64, kernel_size=KERNEL_SIZE, activation='relu', padding='same', kernel_regularizer=regularizers.l2(L2_FACTOR)),
    layers.BatchNormalization(),
    layers.Conv2D(filters=64, kernel_size=KERNEL_SIZE, activation='relu', padding='same', kernel_regularizer=regularizers.l2(L2_FACTOR)),
    layers.BatchNormalization(),
    layers.MaxPool2D(pool_size=POOL_SIZE),
    layers.Dropout(DROPOUT_CONV),

    # Bloco 3 (128 filtros)
    layers.Conv2D(filters=128, kernel_size=KERNEL_SIZE, activation='relu', padding='same', kernel_regularizer=regularizers.l2(L2_FACTOR)),
    layers.BatchNormalization(),
    layers.Conv2D(filters=128, kernel_size=KERNEL_SIZE, activation='relu', padding='same', kernel_regularizer=regularizers.l2(L2_FACTOR)),
    layers.BatchNormalization(),
    layers.MaxPool2D(pool_size=POOL_SIZE),
    layers.Dropout(DROPOUT_CONV),

    # Bloco 4 (256 filtros)
    layers.Conv2D(filters=256, kernel_size=KERNEL_SIZE, activation='relu', padding='same', kernel_regularizer=regularizers.l2(L2_FACTOR)),
    layers.BatchNormalization(),
    layers.Conv2D(filters=256, kernel_size=KERNEL_SIZE, activation='relu', padding='same', kernel_regularizer=regularizers.l2(L2_FACTOR)),
    layers.BatchNormalization(),
    layers.MaxPool2D(pool_size=POOL_SIZE),
    layers.Dropout(DROPOUT_CONV),

    # Classificador
    layers.Flatten(),
    layers.Dense(DENSE_UNITS, activation='relu', kernel_regularizer=regularizers.l2(L2_FACTOR)),
    layers.BatchNormalization(),
    layers.Dropout(DROPOUT_DENSE),
    layers.Dense(NUM_CLASSES, activation='softmax')
])

### 6.5.6 Compilação do Modelo e Configuração dos Callbacks

Com a arquitetura definida, o modelo deve ser compilado. A etapa de compilação configura o processo de treinamento, especificando o otimizador, a função de perda e as métricas de avaliação. Em seguida, são configurados os callbacks, que são mecanismos para monitorar e controlar o treinamento em tempo de execução.

Compilação: O modelo é compilado com o otimizador Adam, a função de perda categorical_crossentropy (adequada para a tarefa) e a métrica de accuracy para monitoramento.

Callbacks:

- ModelCheckpoint: Salva o modelo em disco (MODEL_FILEPATH) apenas quando a métrica monitorada (val_accuracy) melhora, garantindo que a versão de melhor performance seja preservada.

- EarlyStopping: Interrompe o treinamento se a val_accuracy não apresentar melhora por um número definido de épocas (ES_PATIENCE), evitando o desperdício de recursos computacionais e o overfitting.

- ReduceLROnPlateau: Reduz a taxa de aprendizado por um fator (RLR_FACTOR) se a val_accuracy estagnar, permitindo que o modelo refine sua busca por um mínimo local de forma mais precisa.

In [None]:
model.compile(optimizer=OPTIMIZER,
              loss=LOSS_FUNCTION,
              metrics=['accuracy'])

print("\nResumo do Modelo:")
model.summary()

checkpoint_callback = ModelCheckpoint(filepath=MODEL_FILEPATH, monitor=MONITOR_METRIC, save_best_only=True, mode='max', verbose=1)
early_stopping = EarlyStopping(monitor=MONITOR_METRIC, patience=ES_PATIENCE, restore_best_weights=True, verbose=1)
reduce_lr = ReduceLROnPlateau(monitor=MONITOR_METRIC, factor=RLR_FACTOR, patience=RLR_PATIENCE, min_lr=RLR_MIN_LR, verbose=1)

### 6.5.7 Execução do Processo de Treinamento

A etapa de treinamento é iniciada através da chamada ao método model.fit. Este método alimenta o modelo com os dados de treinamento (train_images, train_labels_one_hot) em lotes de tamanho BATCH_SIZE por um número máximo de EPOCHS.

O argumento validation_data é crucial, pois fornece o conjunto de dados de validação (val_images, val_labels_one_hot) que será utilizado ao final de cada época para avaliar o desempenho do modelo em dados não vistos. As métricas calculadas neste conjunto de validação são utilizadas pelos callbacks para tomar decisões, como salvar o modelo ou interromper o treinamento. O histórico completo do treinamento, contendo as perdas e métricas de treino e validação por época, é armazenado na variável history para posterior análise.

In [None]:
print("\nIniciando Treinamento...")
history = model.fit(
    train_images,
    train_labels_one_hot,
    batch_size=BATCH_SIZE,
    epochs=EPOCHS,
    validation_data=(val_images, val_labels_one_hot),
    callbacks=[checkpoint_callback, early_stopping, reduce_lr]
)

### 6.5.8 Avaliação Final do Modelo de Melhor Performance

Após a conclusão do treinamento, a performance final do modelo não é necessariamente a da última época, mas sim a do modelo que atingiu a maior acurácia de validação, salvo pelo callback ModelCheckpoint.

Portanto, a etapa final consiste em carregar este modelo de melhor performance a partir do arquivo salvo (MODEL_FILEPATH) e reavaliá-lo no conjunto de validação. O método evaluate retorna a perda (loss) e a acurácia (accuracy) finais, que representam a estimativa mais confiável da capacidade de generalização do modelo.

In [None]:
print(f"\nCarregando o melhor modelo salvo em '{MODEL_FILEPATH}'...")
best_model = models.load_model(MODEL_FILEPATH)

print("\nAvaliando o desempenho do MELHOR modelo no conjunto de validação:")
loss, accuracy = best_model.evaluate(val_images, val_labels_one_hot)

print(f"\n-> Acurácia do MELHOR modelo no conjunto de validação: {accuracy * 100:.2f}%")

### 6.5.9 Análise de Desempenho e Validação Aprofundada do Modelo
A avaliação final de um modelo de classificação vai além da acurácia geral, exigindo uma análise aprofundada de seu comportamento durante o treinamento e de sua performance em métricas mais granulares. Esta seção detalha a validação do modelo de melhor performance, utilizando ferramentas visuais e relatórios de classificação para obter uma compreensão completa de seus pontos fortes e fracos.

A análise é conduzida em duas frentes:

1. Análise da Dinâmica de Treinamento: As curvas de acurácia e perda (loss) ao longo das épocas, tanto para o conjunto de treinamento quanto para o de validação, são plotadas. Estes gráficos são ferramentas diagnósticas essenciais. A convergência das curvas indica um aprendizado estável, enquanto a divergência entre as curvas de treinamento e validação pode sinalizar overfitting (superajuste), onde o modelo memoriza os dados de treino em detrimento de sua capacidade de generalização.

2. Avaliação Detalhada da Performance: Para avaliar o desempenho no conjunto de validação, são geradas previsões e calculadas as seguintes métricas, compiladas em um relatório de classificação:

    - Precisão (Precision): Mede a proporção de predições positivas que foram de fato corretas. É um indicador da exatidão do modelo quando ele prevê uma classe específica.

    - Revocação (Recall): Mede a proporção de instâncias positivas reais que foram corretamente identificadas pelo modelo. É um indicador da capacidade do modelo de encontrar todas as amostras de uma classe específica.

    - F1-Score: É a média harmônica entre precisão e revocação, fornecendo uma única métrica que equilibra ambos os aspectos. É particularmente útil quando há um desequilíbrio entre as classes.

    -  Matriz de Confusão: Esta matriz visualiza o desempenho do modelo de forma detalhada, mostrando o número de predições corretas e incorretas para cada classe. A diagonal principal representa as classificações corretas, enquanto os valores fora da diagonal indicam os erros, permitindo identificar quais classes são frequentemente confundidas entre si.

O código a seguir implementa esta análise completa, gerando os gráficos de histórico,

In [None]:
def plot_history(history):
    fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))

    ax1.plot(history.history['accuracy'], label='Acurácia de Treino')
    ax1.plot(history.history['val_accuracy'], label='Acurácia de Validação')
    ax1.set_title('Acurácia do Modelo', fontsize=16)
    ax1.set_xlabel('Época', fontsize=12)
    ax1.set_ylabel('Acurácia', fontsize=12)
    ax1.legend(loc='lower right')
    ax1.grid(True)

    ax2.plot(history.history['loss'], label='Loss de Treino')
    ax2.plot(history.history['val_loss'], label='Loss de Validação')
    ax2.set_title('Loss (Perda) do Modelo', fontsize=16)
    ax2.set_xlabel('Época', fontsize=12)
    ax2.set_ylabel('Loss', fontsize=12)
    ax2.legend(loc='upper right')
    ax2.grid(True)

    plt.tight_layout()
    plt.show()

print("\nGerando previsões para o conjunto de validação...")
y_pred_probs = best_model.predict(val_images)
y_pred_classes = np.argmax(y_pred_probs, axis=1)
y_true = val_labels

print("\n# ========================================= #")
print("#     RELATÓRIO DE CLASSIFICAÇÃO      #")
print("# ========================================= #\n")
print(classification_report(y_true, y_pred_classes, target_names=class_names))

print("\nGerando a Matriz de Confusão...")
conf_matrix = confusion_matrix(y_true, y_pred_classes)

plt.figure(figsize=(14, 12))
sns.heatmap(conf_matrix, annot=True, fmt='g', cmap='Blues',
            xticklabels=class_names, yticklabels=class_names)
plt.title('Matriz de Confusão', fontsize=20)
plt.ylabel('Classe Verdadeira', fontsize=15)
plt.xlabel('Classe Prevista', fontsize=15)
plt.xticks(rotation=45, ha='right')
plt.yticks(rotation=0)
plt.tight_layout()
plt.show()

plot_history(history)

## 6.6 Treinamento com Aprendizado por Transferência (Transfer Learning)

Nesta seção, adota-se a metodologia de aprendizado por transferência para treinar um classificador de aves. A arquitetura selecionada é a Vision Transformer (ViT), um modelo que aplica o mecanismo de atenção, originalmente da área de Processamento de Linguagem Natural, ao domínio da visão computacional. O processo consiste em utilizar um modelo ViT pré-treinado na base de dados ImageNet, congelar os pesos de sua base extratora de características (backbone), e treinar exclusivamente uma nova camada de classificação ("cabeça") adaptada para as 14 espécies de psitacídeos do nosso conjunto de dados.

### 6.6.1 Importação de Bibliotecas e Frameworks

A etapa inaugural do processo experimental consiste na importação das bibliotecas e frameworks que constituem a fundação do ambiente de desenvolvimento. A escolha recai sobre o fastai, um framework de alto nível, construído sobre PyTorch, que encapsula as melhores práticas da área de aprendizado profundo. Sua utilização visa abstrair complexidades operacionais, permitindo um foco maior na experimentação e na aplicação de técnicas avançadas, como políticas de treinamento otimizadas e pipelines de dados eficientes. Implicitamente, o fastai integra a biblioteca timm (PyTorch Image Models), um repositório extensivo que oferece acesso a um vasto leque de arquiteturas de visão computacional estado-da-arte, incluindo a família de modelos Vision Transformer. Complementarmente, as bibliotecas padrão os e pathlib são empregadas para a manipulação de caminhos e diretórios, garantindo a portabilidade e a robustez do código em diferentes sistemas operacionais.

In [None]:
import os
from pathlib import Path
from fastai.vision.all import *
import timm
from sklearn.metrics import classification_report

### 6.6.2 Configuração de Parâmetros e Hiperparâmetros

Nesta fase, realiza-se a definição centralizada de todos os parâmetros e hiperparâmetros que regem o experimento, uma prática essencial para garantir a consistência e a reprodutibilidade dos resultados. São estabelecidos os caminhos para os diretórios contendo os dados de treinamento e validação, bem como o diretório de destino para o armazenamento dos artefatos do modelo treinado. Os hiperparâmetros, que definem a configuração do treinamento, são cuidadosamente especificados:

- IMG_SIZE: A resolução das imagens de entrada é fixada em 224x224 pixels. Esta dimensão não é arbitrária; ela corresponde à resolução com a qual a arquitetura ViT selecionada foi pré-treinada na base de dados ImageNet, sendo, portanto, um requisito para a correta utilização dos pesos transferidos.

- BATCH_SIZE: O tamanho do lote de dados é definido como 64. Este hiperparâmetro influencia diretamente a estimativa do gradiente durante a otimização, a utilização da memória da GPU e a velocidade de treinamento.

- LEARNING_RATE e EPOCHS: A taxa de aprendizado máxima (2e-3) e o número máximo de épocas (100) são definidos como os principais controladores do processo de otimização, ditando a magnitude das atualizações dos pesos e a duração total do treinamento.

In [None]:
BASE_PATH = Path('./datasets')
SAVE_PATH = Path('./transfer_learning_models')
SAVE_PATH.mkdir(parents=True, exist_ok=True)

train_dir_name = 'train_images'
val_dir_name = 'val_images'

IMG_SIZE = 224
BATCH_SIZE = 64
LEARNING_RATE = 2e-3
EPOCHS = 100

### 6.6.3 Construção do Pipeline de Dados com ImageDataLoaders

A construção de um pipeline de dados eficiente e robusto é realizada por meio da classe ImageDataLoaders do fastai. Este objeto de alto nível automatiza a criação de um pipeline completo que abrange desde a leitura dos arquivos de imagem até a aplicação de transformações complexas. O processo é configurado da seguinte forma: as classes são inferidas a partir da estrutura de subdiretórios; uma transformação ao nível do item (item_tfms=Resize(IMG_SIZE)) é aplicada para garantir que todas as imagens sejam redimensionadas para a resolução de entrada uniforme exigida pelo modelo.

In [None]:
dls = ImageDataLoaders.from_folder(
    BASE_PATH,
    train=train_dir_name,
    valid=val_dir_name,
    item_tfms=Resize(IMG_SIZE),
    bs=BATCH_SIZE
)

num_classes = len(dls.vocab)
print(f"Classes detectadas ({num_classes}): {dls.vocab}")
dls.show_batch(max_n=9, figsize=(7,8))

### 6.6.4 Instanciação do Modelo e Implementação da Estratégia de Congelamento

UNesta etapa, o modelo Vision Transformer é instanciado através da função vision_learner, que baixa a arquitetura vit_small_patch32_224 com seus pesos pré-treinados e anexa uma nova "cabeça" de classificação, inicializada aleatoriamente, com um número de saídas correspondente ao número de classes do nosso problema.

Subsequentemente, a estratégia central do transfer learning é implementada através do congelamento explícito dos pesos do backbone. O modelo no fastai é estruturado em duas partes: o corpo extrator de características (learn.model[0]) e a cabeça de classificação (learn.model[1]). O código itera sobre todos os parâmetros do backbone e define seu atributo requires_grad como False. Esta operação instrui o framework de otimização (PyTorch) a não calcular gradientes para estes parâmetros durante a fase de retropropagação, efetivamente os "congelando". Apenas os parâmetros da nova cabeça de classificação permanecem treináveis (requires_grad = True), focando o aprendizado exclusivamente na tarefa de mapear as características de alto nível, extraídas pelo backbone, para as classes de aves específicas do nosso dataset. Por fim, o otimizador é recriado para garantir que ele esteja ciente do novo conjunto de parâmetros treináveis.

In [None]:
learn = vision_learner(
    dls,
    'vit_small_patch32_224',
    metrics=[accuracy, error_rate]
)

print("\n🧊 Aplicando congelamento explícito — todas as camadas do backbone serão congeladas...")

for p in learn.model[0].parameters():
    p.requires_grad = False

for p in learn.model[1].parameters():
    p.requires_grad = True

learn.create_opt()

print("\n🔍 Verificando camadas congeladas e treináveis:")
trainable, frozen = 0, 0
for name, param in learn.model.named_parameters():
    status = "🔓 treinável" if param.requires_grad else "🧊 congelado"
    if param.requires_grad: trainable += 1
    else: frozen += 1
print(f"Resumo: 🧊 {frozen} camadas congeladas | 🔓 {trainable} camadas treináveis")

### 6.6.5 Treinamento da Camada de Classificação

Com o corpo do modelo congelado, o processo de treinamento é iniciado, focando exclusivamente na otimização dos pesos da nova cabeça de classificação. São configurados os callbacks EarlyStoppingCallback e SaveModelCallback como mecanismos de controle empírico. O primeiro previne o overfitting ao interromper o treinamento caso a performance de validação estagne, enquanto o segundo garante a persistência do modelo que alcançou o melhor desempenho. O treinamento é conduzido pelo método fit_one_cycle, que implementa a política de treinamento "1-cycle". Esta técnica avançada modula a taxa de aprendizado de forma cíclica ao longo das épocas, começando baixa, aumentando até um máximo e depois decaindo. Essa abordagem tem se mostrado eficaz para acelerar a convergência e navegar de forma mais eficiente pelo espaço de perda, frequentemente resultando em modelos com melhor capacidade de generalização.

In [None]:
callbacks = [
    EarlyStoppingCallback(
        monitor='accuracy',
        patience=10,
        min_delta=0.001
    ),
    SaveModelCallback(
        monitor='accuracy',
        fname='best_model_vit'
    )
]

print("\n🚀 Iniciando treinamento (apenas a cabeça será ajustada)...")
learn.fit_one_cycle(
    EPOCHS,
    lr_max=LEARNING_RATE,
    cbs=callbacks
)

### 6.6.6 Análise Diagnóstica, Validação Final e Serialização do Modelo

A avaliação da performance de um modelo de classificação transcende a simples mensuração da acurácia. Para obter uma compreensão completa do comportamento do modelo, é imperativo realizar uma análise mais granular de seu desempenho. Nesta seção, o modelo de melhor performance, restaurado pelo callback, é submetido a uma validação aprofundada.

Para tal, é gerado um relatório de classificação textual, que sumariza métricas essenciais como Precisão, Revocação e F1-Score para cada uma das 14 classes. Em conjunto, estas métricas oferecem uma visão granular do equilíbrio do modelo entre os diferentes tipos de erro de classificação (falsos positivos e falsos negativos). Adicionalmente, uma Matriz de Confusão é gerada para visualizar de forma direta os padrões de erro, permitindo identificar quais classes são sistematicamente confundidas entre si. A análise é complementada pela visualização das amostras com maior erro de predição (top losses), uma ferramenta diagnóstica para inspecionar os casos mais desafiadores para o modelo.

In [None]:
print("📊 Avaliando os resultados do modelo treinado...")
interp = ClassificationInterpretation.from_learner(learn)

# Extrai os rótulos verdadeiros e as predições
y_true = interp.targs.numpy()
y_pred = interp.preds.argmax(dim=1).numpy()
class_names = dls.vocab

print("\n# =================================================== #")
print("#     RELATÓRIO DE CLASSIFICAÇÃO DETALHADO      #")
print("# =================================================== #\n")
print(classification_report(y_true, y_pred, target_names=class_names))

print("\nGerando a Matriz de Confusão...")
interp.plot_confusion_matrix(figsize=(12,12), dpi=60)

print("\nExibindo amostras com maior erro de predição (Top Losses)...")
interp.plot_top_losses(9, nrows=3)

### 6.6.7 Validação Final e Exportação do Artefato do Modelo

Como etapa conclusiva do processo experimental, é realizada a validação final para registrar a acurácia global do modelo de melhor performance e, em seguida, o artefato do modelo é serializado e exportado. O método learn.validate() é invocado para recalcular e exibir as métricas de perda (loss) e acurácia no conjunto de dados de validação, fornecendo um registro quantitativo final e definitivo do desempenho do modelo.

Posteriormente, o objeto Learner treinado é exportado para um arquivo .pkl através do método learn.export(). Este processo de serialização é crítico, pois encapsula não apenas a arquitetura da rede neural e seus pesos otimizados, mas todo o pipeline de transformações de dados (e.g., redimensionamento, normalização, aumento de dados) necessário para o pré-processamento de novas imagens. O resultado é um artefato de modelo autocontido, que pode ser facilmente carregado em ambientes de produção para realizar inferências em novos dados, garantindo que o pré-processamento aplicado na inferência seja idêntico ao utilizado durante o treinamento.

In [None]:
print("\nCalculando as métricas finais do melhor modelo no conjunto de validação...")
final_metrics = learn.validate()

final_accuracy = final_metrics[1]
print(f"\n{'='*35}")
print(f"  Acurácia Final de Validação: {final_accuracy*100:.4f}%")
print(f"{'='*35}\n")

final_model_path = SAVE_PATH / "modelo_vit_transfer_learning.pkl"
learn.export(final_model_path)

print(f"✅ Treinamento e validação concluídos.")
print(f"💾 O melhor modelo (pesos) foi salvo em: {learn.path/learn.model_dir}/best_model_vit.pth")
print(f"💾 O modelo final (artefato completo) foi exportado para: {final_model_path}")

## 6.7 Treinamento com a Estratégia de Fine-Tuning

A técnica de fine-tuning (ajuste fino) é uma metodologia de aprendizado por transferência mais avançada, que visa adaptar não apenas a camada de classificação, mas também as representações de características aprendidas pelo corpo do modelo (backbone). Diferentemente da abordagem de congelamento total, o fine-tuning opera em duas fases: primeiro, treina-se apenas a nova "cabeça" de classificação com o backbone congelado; em seguida, o modelo inteiro é "descongelado" e treinado de ponta a ponta, tipicamente com taxas de aprendizado diferenciais (discriminative learning rates). Esta abordagem permite que as características genéricas aprendidas no dataset original (e.g., ImageNet) sejam sutilmente ajustadas para se tornarem mais específicas ao domínio do novo problema. Para este experimento, a arquitetura selecionada é a ResNet50, uma rede neural convolucional de referência, conhecida por sua eficácia e pelo uso de conexões residuais para mitigar o problema do gradiente evanescente.

### 6.7.1 Importação de Bibliotecas e Frameworks

A etapa inaugural consiste na importação das bibliotecas que formam a base do experimento. O framework fastai é novamente empregado como uma interface de alto nível sobre PyTorch, pois suas abstrações são particularmente poderosas para implementar estratégias de treinamento complexas como o fine-tuning de forma concisa e eficaz. As bibliotecas os e pathlib são utilizadas para a manipulação de caminhos de arquivos de forma independente do sistema operacional, garantindo a robustez do código.

In [None]:
import os
from pathlib import Path
from fastai.vision.all import *
import timm
from sklearn.metrics import classification_report

### 6.7.2 Configuração de Parâmetros e Hiperparâmetros do Experimento

Nesta fase, realiza-se a definição centralizada de todos os parâmetros e hiperparâmetros que regem o experimento. São estabelecidos os caminhos para os diretórios de dados. Os hiperparâmetros críticos para a estratégia de fine-tuning são especificados:

- IMG_SIZE e BATCH_SIZE: A resolução de entrada (224x224) é mantida para ser compatível com as dimensões de pré-treinamento da ResNet50, e o tamanho do lote é definido para otimizar o uso de recursos computacionais.

- HEAD_LEARNING_RATE: Esta é a taxa de aprendizado que será utilizada para treinar a cabeça de classificação durante a primeira fase do fine-tuning e como taxa de aprendizado base para as camadas finais na segunda fase.

- EPOCHS: Define o número máximo de épocas para a segunda fase do fine-tuning, na qual o modelo inteiro é treinado.

In [None]:
BASE_PATH = Path('./datasets')
SAVE_PATH = Path('./finetuning_models')
SAVE_PATH.mkdir(parents=True, exist_ok=True)

train_dir_name = 'train_images'
val_dir_name = 'val_images'

IMG_SIZE = 224
BATCH_SIZE = 64
HEAD_LEARNING_RATE = 2e-3
EPOCHS = 150

### 6.7.3 Construção do Pipeline de Dados

O carregamento e pré-processamento dos dados são gerenciados pela classe ImageDataLoaders do fastai. Este objeto constrói um pipeline de dados que automatiza a inferência de classes a partir da estrutura de diretórios e aplica uma transformação de redimensionamento (item_tfms=Resize(IMG_SIZE)) para uniformizar as dimensões das imagens. É importante notar que, nesta configuração, não foram explicitamente adicionadas transformações de aumento de dados, focando na capacidade do fine-tuning de adaptar os pesos do modelo.

In [None]:
dls = ImageDataLoaders.from_folder(
    BASE_PATH,
    train=train_dir_name,
    valid=val_dir_name,
    item_tfms=Resize(IMG_SIZE),
    bs=BATCH_SIZE
)

num_classes = len(dls.vocab)
print(f"Classes detectadas ({num_classes}): {dls.vocab}")
dls.show_batch(max_n=9, figsize=(7,8))

### 6.7.4 Instanciação do Modelo e Configuração dos Callbacks

Um objeto Learner é instanciado através da função vision_learner, que baixa a arquitetura resnet50 com pesos pré-treinados no ImageNet, anexa uma nova cabeça de classificação adaptada ao número de classes do nosso problema e configura as métricas de accuracy e error_rate para monitoramento. A taxa de aprendizado padrão do otimizador é definida como HEAD_LEARNING_RATE.

Os callbacks EarlyStoppingCallback e SaveModelCallback são configurados para controlar o treinamento de forma robusta. O primeiro interrompe o processo caso a performance de validação estagne, prevenindo o overfitting, enquanto o segundo garante a persistência do modelo que alcançou o melhor desempenho ao longo de todas as épocas.

In [None]:
learn = vision_learner(
    dls,
    resnet50,
    metrics=[accuracy, error_rate],
    lr=HEAD_LEARNING_RATE
)

callbacks = [
    EarlyStoppingCallback(
        monitor='accuracy',
        patience=10,
        min_delta=0.001
    ),
    SaveModelCallback(
        monitor='accuracy',
        fname='best_model_resnet50_finetuned'
    )
]

### 6.7.5 Execução da Estratégia de Fine-Tuning
A execução do fine-tuning é encapsulada pelo método learn.fine_tune(), que automatiza a estratégia de duas fases:

- Fase 1 (Congelada): O corpo do modelo (backbone) é mantido congelado, e apenas a nova cabeça de classificação é treinada por um número fixo de épocas (por padrão, uma época). Esta etapa permite que a camada de saída se ajuste rapidamente às novas classes sem perturbar os pesos pré-treinados.

- Fase 2 (Descongelada): O modelo inteiro é descongelado, e todas as camadas são treinadas por EPOCHS épocas. Crucialmente, o fine_tune aplica taxas de aprendizado discriminatórias. A taxa de aprendizado fornecida (base_lr=BASE_LR_BODY) é aplicada às camadas mais iniciais do backbone, e o fastai interpola gradualmente as taxas de aprendizado para as camadas subsequentes, até atingir a taxa de aprendizado original (HEAD_LEARNING_RATE) na cabeça de classificação. Esta técnica é fundamental, pois permite que as características mais genéricas (nas primeiras camadas) sejam ajustadas de forma sutil (com uma taxa de aprendizado baixa), enquanto as características mais específicas (nas camadas finais) são ajustadas de forma mais agressiva.

In [None]:
print("Iniciando treinamento com ResNet50 e a estratégia de Fine-Tuning...")

BASE_LR_BODY = 1e-4

learn.fine_tune(
    EPOCHS,
    base_lr=BASE_LR_BODY,
    cbs=callbacks
)

### 6.7.6 Análise de Desempenho e Validação de Métricas

Para uma avaliação de desempenho robusta do modelo final, uma análise aprofundada é conduzida. Esta etapa vai além da acurácia global para fornecer uma compreensão granular do comportamento do modelo. Para tal, é gerado um relatório de classificação textual, que sumariza um conjunto de métricas essenciais, incluindo Acurácia, Precisão, Recall e F1-Score para cada uma das 14 classes. Em complemento, uma Matriz de Confusão é visualizada para permitir a inspeção direta dos padrões de erro de classificação entre as espécies. A análise é finalizada com a exibição das amostras que geraram o maior erro de predição (top losses), uma ferramenta diagnóstica para inspecionar os casos mais desafiadores para o modelo.

In [None]:
print("📊 Avaliando os resultados do modelo treinado...")
interp = ClassificationInterpretation.from_learner(learn)

# Extrai os rótulos verdadeiros e as predições
y_true = interp.targs.numpy()
y_pred = interp.preds.argmax(dim=1).numpy()
class_names_report = dls.vocab

print("\n# =================================================== #")
print("#     RELATÓRIO DE CLASSIFICAÇÃO DETALHADO      #")
print("# =================================================== #\n")
print(classification_report(y_true, y_pred, target_names=class_names_report))

print("\nGerando a Matriz de Confusão...")
interp.plot_confusion_matrix(figsize=(12,12), dpi=60)

print("\nExibindo amostras com maior erro de predição (Top Losses)...")
interp.plot_top_losses(9, nrows=3)

### 6.7.7 Análise de Desempenho e Validação de Métricas

Como etapa conclusiva do processo experimental, é realizada a validação final para registrar a acurácia global do modelo de melhor performance. O método learn.validate() é invocado para recalcular e exibir as métricas de perda (loss) e acurácia no conjunto de dados de validação, fornecendo um registro quantitativo final e definitivo do desempenho do modelo.

Posteriormente, o objeto Learner treinado é exportado para um arquivo .pkl. Este processo de serialização encapsula a arquitetura, os pesos otimizados e todo o pipeline de transformações de dados, criando um artefato de modelo autocontido e pronto para ser implantado em ambientes de inferência.

In [None]:
print("\nCalculando as métricas finais do melhor modelo no conjunto de validação...")
final_metrics = learn.validate()

final_accuracy = final_metrics[1]
print(f"\n{'='*35}")
print(f"  Acurácia Final de Validação: {final_accuracy*100:.4f}%")
print(f"{'='*35}\n")

final_model_path = SAVE_PATH / "modelo_resnet50_finetuned.pkl"
learn.export(final_model_path)

print(f"✅ Treinamento e validação concluídos.")
print(f"💾 O melhor modelo (pesos) foi salvo em: {learn.path/learn.model_dir}/best_model_resnet50_finetuned.pth")
print(f"💾 O modelo final (artefato completo) foi exportado para: {final_model_path}")

# 7. Resultados

## 7.1 Imports

In [None]:
from fastai.vision.all import *
from PIL import Image
import matplotlib.pyplot as plt
import pathlib
from pathlib import Path
import collections

In [None]:

# Para evitar um erro comum no Windows
# temp = pathlib.PosixPath
# pathlib.PosixPath = pathlib.WindowsPath

# ===================================================================
# 1. CONFIGURE OS CAMINHOS AQUI
# ===================================================================

# Altere esta linha para o caminho exato onde seu modelo .pkl foi salvo.
# Exemplo: "/home/lab11/papagaio/modelo_resnet50_finetuned_fastai.pkl"
caminho_do_modelo = "/content/modelos/modelo_resnet50_finetuned_fastai.pkl"  # <--- MUDE AQUI

# Altere esta linha para o caminho da imagem que você quer classificar.
# Exemplo: "imagens/teste/pardal_01.jpg"
caminho_da_imagem = "/home/lab11/papagaio/papagaio-main/image copy 3.png"  # <--- MUDE AQUI

# ===================================================================
# 2. FUNÇÃO PARA CARREGAR O MODELO E PREVER A IMAGEM
# ===================================================================

def prever_imagem(caminho_modelo, caminho_imagem):
    """
    Carrega um modelo treinado da fastai e faz a previsão em uma única imagem.
    """
    # ---- Carregamento do Modelo ----
    try:
        print(f"Carregando modelo de: {caminho_modelo}")
        # load_learner carrega tudo o que é necessário para a inferência
        learn = load_learner(caminho_modelo)
        print("Modelo carregado com sucesso!")
    except FileNotFoundError:
        print(f"ERRO: Arquivo do modelo não encontrado em '{caminho_modelo}'. Verifique o caminho.")
        return
    except Exception as e:
        print(f"Ocorreu um erro ao carregar o modelo: {e}")
        return

    # ---- Previsão na Imagem ----
    try:
        print(f"\nFazendo previsão na imagem: {caminho_imagem}")

        # O método .predict faz todo o processamento necessário na imagem
        classe_predita, _, probabilidades = learn.predict(caminho_imagem)

        # Exibe a imagem com o resultado
        img = Image.open(caminho_imagem)
        plt.imshow(img)
        # Pega a probabilidade da classe prevista
        prob_max = probabilidades.max()
        plt.title(f"Previsão: {classe_predita}\nConfiança: {prob_max*100:.2f}%")
        plt.axis('off')
        plt.show()

        # ---- Mostra o resultado detalhado no terminal ----
        print("\n" + "="*40)
        print("      RESULTADO DA CLASSIFICAÇÃO")
        print("="*40)
        print(f"A imagem foi classificada como: '{classe_predita}'")

        # Mostra o top 5 de probabilidades para ter mais detalhes
        print("\nTop 5 probabilidades:")
        # Combina os nomes das classes (vocab) com suas probabilidades
        prob_por_classe = sorted(zip(learn.dls.vocab, probabilidades), key=lambda x: x[1], reverse=True)
        for i, (classe, prob) in enumerate(prob_por_classe[:5]):
            print(f"{i+1}. {classe}: {prob*100:.2f}%")

    except FileNotFoundError:
        print(f"ERRO: Arquivo de imagem não encontrado em '{caminho_imagem}'. Verifique o caminho.")
    except Exception as e:
        print(f"Ocorreu um erro durante a previsão: {e}")


# ===================================================================
# 3. EXECUÇÃO PRINCIPAL
# ===================================================================
if __name__ == '__main__':
    prever_imagem(caminho_do_modelo, caminho_da_imagem)

In [None]:


# ===================================================================
# 1) CAMINHOS
# ===================================================================
caminho_do_modelo = "/content/modelos/modelo_resnet50_finetuned_fastai.pkl"
caminho_teste     = "/content/datasets/test_images"

# (Opcional) classes que você informou; usaremos APENAS para validar nomes/pastas
class_names = [
    "amazona_aestiva",
    "amazona_amazonica",
    "anodorhynchus_hyacinthinus",
    "ara_ararauna",
    "ara_chloropterus",
    "ara_macao",
    "brotogeris_chiriri",
    "diopsittaca_nobilis",
    "eupsittula_aurea",
    "forpus_xanthopterygius",
    "orthopsittaca_manilatus",
    "primolius_maracana",
    "psittacara_leucophthalmus",
    "touit_melanonotus",
]

# ===================================================================
# 2) FUNÇÃO
# ===================================================================
def avaliar_modelo_no_teste(caminho_modelo, caminho_teste, class_names=None):
    # 1) Carrega o modelo
    print(f"Carregando modelo de: {caminho_modelo}")
    learn = load_learner(caminho_modelo)
    print("✅ Modelo carregado com sucesso!\n")

    if not hasattr(learn.dls, "vocab") or learn.dls.vocab is None:
        raise RuntimeError("Este Learner não tem 'vocab' — o modelo provavelmente não é de classificação.")

    vocab = list(map(str, learn.dls.vocab))
    print("🔠 Vocab do modelo:", vocab)

    # 2) Valida classes (opcional)
    if class_names is not None:
        print("🔤 Labels fornecidas:", class_names)
        if set(class_names) != set(vocab):
            faltando = [c for c in vocab if c not in class_names]
            extras   = [c for c in class_names if c not in vocab]
            raise RuntimeError(
                "As classes do modelo e as fornecidas diferem.\n"
                f"Faltando no seu 'class_names': {faltando}\n"
                f"Extras no seu 'class_names': {extras}"
            )

    # 3) Coleta arquivos do teste e rótulos a partir da subpasta
    base = Path(caminho_teste)
    if not base.exists():
        raise FileNotFoundError(f"Pasta de teste não encontrada: {base}")

    files = get_image_files(base)
    if len(files) == 0:
        raise RuntimeError("Nenhuma imagem encontrada no conjunto de teste.")

    # Filtra só arquivos cujas pastas são classes válidas
    valid_classes = set(vocab)
    files = [f for f in files if f.parent.name in valid_classes]

    if len(files) == 0:
        raise RuntimeError("As imagens não estão em subpastas com nomes de classes do modelo.")

    # Contagem por classe (diagnóstico)
    contagem = collections.Counter(f.parent.name for f in files)
    print("📦 Imagens por classe no teste:", dict(contagem))
    print(f"📦 Total de imagens no teste: {len(files)}")

    # 4) Monta rótulos verdadeiros (targs) como índices do vocab
    cls2idx = {c:i for i,c in enumerate(vocab)}
    targs_idx = tensor([cls2idx[f.parent.name] for f in files]).long()

    # 5) Cria um test_dl **sem** rótulos (apenas itens). Isso evita o erro de tuplas.
    test_dl = learn.dls.test_dl(files)  # sem with_labels

    # 6) Predições e acurácia manual
    print("Calculando predições...")
    preds = learn.get_preds(dl=test_dl)[0]  # só preds; targs vazio pq não há labels no dl
    pred_idx = preds.argmax(dim=1)

    acc = (pred_idx == targs_idx).float().mean()
    print(f"\n📊 Acurácia no conjunto de teste: {acc.item()*100:.2f}%")

    # (Opcional) mostra matriz de confusão rapidamente
    try:
        from fastai.metrics import ConfusionMatrix
        cm = ConfusionMatrix()
        cm.add(pred_idx, targs_idx)
        print("\nMatriz de confusão (primeiras linhas):")
        print(cm[:min(10, len(vocab)), :min(10, len(vocab))])  # evita imprimir gigante
    except Exception:
        pass

    return acc.item()

# ===================================================================
# 3) EXECUÇÃO
# ===================================================================
if __name__ == '__main__':
    avaliar_modelo_no_teste(caminho_do_modelo, caminho_teste, class_names=class_names)

A acurácia de validação obtida para os três modelos foi:

* Rede criada: 0.8864
* Transfer Learning: 0.998243
* Fine-Tuning: 0.996779



# 8. Conclusão

Conclui-se que, durante os três treinamentos, o com pior resultado é a rede criada. Isso se dá por causa do número limitado de imagens utilizadas. O treinamento das redes utilizando o ResNet50 como base obteve um melhor resultado, porque a rede já havia sido treinada com mais imagens, o que gera mais precisão na detecção dos elementos da imagem. O Fine-Tuning obteve o melhor resultado, pois, além do treinamento do classificador para obter os resultados esperados, a rede como um todo foi ajustada para a detecção das classes desejadas.

# 9. Referências

CORNELL LAB OF ORNITHOLOGY. Merlin Bird ID. Ithaca, NY, 2025. Disponível em: https://merlin.allaboutbirds.org/. Acesso em: 14 out. 2025.

FU, J.; ZHENG, H.; MEI, T. Look closer to see better: Recurrent attention convolutional neural network for fine-grained image recognition. In: PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 2017. Anais... [S.l.]: IEEE, 2017. p. 4438-4446.

KAGGLE. BirdCLEF 2024 - Birdcall Identification. San Francisco, CA, 2024. Disponível em: https://www.kaggle.com/competitions/birdclef-2024. Acesso em: 14 out. 2025.

TANG, Jiayi. Comparative analysis of CNN architectures for bird species classification. ITM Web of Conferences, [S. l.], v. 78, p. 02019, 2025. DOI: 10.1051/itmconf/20257802019.