# Ensemble de modelos

1. Uma das classes mais desafiadoras do ImageNet é a ladle (concha). Verifique se um conjunto de modelos consegue melhorar a classificação que seria feita por um único modelo
2. Use os 5 modelos indicados abaixo para classificar as imagens presentes no diretório "ladle_n03633091". Agregue os resultados dos modelos através da média dos resultados dos 5 modelos
3. Verifique se há uma melhora do resultado em relação a cada modelo individual
4. Para cada imagem, calcule a variação da classificação entre os modelos. Em problemas reais, essa variação pode ser utilizada para estimar o grau de incerteza dos modelos. Você deve definir uma medida de variação
5. Treine o modelo de classificação "efficientnet_b3.in1k" para identificar imagens da classe ladle. Para isso, considere um problema de duas classes: "ladle" e "other". 

Os dados para o projeto estão disponíveis no link: https://www.dropbox.com/scl/fi/5ryjw81wtxtwejadllzsb/tema_4.zip?rlkey=1d44q86ygtflo0tv739j4e8ol&dl=1

O diretório "ladle_n03633091" possui imagens de conchas. O diretório "other_classes" possui 2 imagens de cada uma das 999 outras classes do ImageNet.

Exemplo de aplicação dos modelos

In [None]:
import numpy as np
from PIL import Image
import torch
import timm

tags = [
    'resnet50.a1_in1k', 
    'convnext_tiny.in12k_ft_in1k', 
    'vit_small_patch16_224.augreg_in21k_ft_in1k', 
    'tf_efficientnetv2_s.in21k_ft_in1k', 
    'swinv2_tiny_window8_256.ms_in1k'
]

models = []
transforms = []
for tag in tags:
    model = timm.create_model(tag, pretrained=True)
    model.eval()

    # Obtenção das transformações a serem aplicadas nas imagens
    data_cfg = timm.data.resolve_data_config(model.pretrained_cfg)
    transform = timm.data.create_transform(**data_cfg)

    models.append(model)
    transforms.append(transform)

# Imagem aleatória para ilustração
x = torch.randint(0, 255, (224, 224, 3))
x = Image.fromarray(np.array(x, dtype=np.uint8))
probs = []
with torch.no_grad():
    for transform, model in zip(transforms, models):
        x_t = transform(x)
        probs.append(model(x_t.unsqueeze(0))[0])

Rede a ser utilizada para identificar imagens de concha. Um modelo bem menor que os 5 acima

In [None]:
tag = 'efficientnet_b3.in1k'