In [2]:
import pandas as pd
import numpy as np
import timm
import torchvision.transforms as T

import sys
sys.path.append('../wildlife_tools/')

from features.deep import DeepFeatures
from features.local import SuperPointExtractor, SiftExtractor, AlikedExtractor, DiskExtractor
from similarity.cosine import CosineSimilarity
from similarity.pairwise.loftr import MatchLOFTR
from similarity.pairwise.lightglue import MatchLightGlue
from similarity.pairwise.collectors import CollectCounts, CollectCountsRansac, CollectAll

from data.dataset import WildlifeDataset
from similarity.wildfusion import SimilarityPipeline, WildFusion
from similarity.calibration import IsotonicCalibration

metadata = {'metadata':  pd.read_csv('TestDataset/metadata.csv'), 'root': 'TestDataset'}
transform = T.Compose([T.Resize([224, 224]), T.ToTensor()])
dataset = WildlifeDataset(**metadata, transform=transform)


In [15]:
matchers = [

    SimilarityPipeline(
        matcher = MatchLightGlue(features='superpoint'),
        extractor = SuperPointExtractor(),
        transform = T.Compose([
            T.Resize([512, 512]),
            T.ToTensor()
        ]),
        calibration = IsotonicCalibration()
    ),

    SimilarityPipeline(
        matcher = MatchLightGlue(features='aliked'),
        extractor = AlikedExtractor(),
        transform = T.Compose([
            T.Resize([512, 512]),
            T.ToTensor()
        ]),
        calibration = IsotonicCalibration()
    ),

    SimilarityPipeline(
        matcher = MatchLightGlue(features='disk'),
        extractor = DiskExtractor(),
        transform = T.Compose([
            T.Resize([512, 512]),
            T.ToTensor()
        ]),
        calibration = IsotonicCalibration()
    ),

    SimilarityPipeline(
        matcher = MatchLightGlue(features='sift'),
        extractor = SiftExtractor(),
        transform = T.Compose([
            T.Resize([512, 512]),
            T.ToTensor()
        ]),
        calibration = IsotonicCalibration()
    ),

    SimilarityPipeline(
        matcher = MatchLOFTR(pretrained='outdoor'),
        extractor = None,
        transform = T.Compose([
            T.Resize([512, 512]),
            T.Grayscale(),
            T.ToTensor(),
        ]),
        calibration = IsotonicCalibration()
    ),

    SimilarityPipeline(
        matcher = CosineSimilarity(),
        extractor = DeepFeatures(
            model = timm.create_model('hf-hub:BVRA/wildlife-mega-L-384', num_classes=0, pretrained=True)
        ),
        transform = T.Compose([
            T.Resize(size=(384, 384)),
            T.ToTensor(),
            T.Normalize(mean=(0.485, 0.456, 0.406), std=(0.229, 0.224, 0.225)),
        ]),
        calibration = IsotonicCalibration()
    ),
]


priority_matcher =  SimilarityPipeline(
    matcher = CosineSimilarity(),
    extractor = DeepFeatures(
        model = timm.create_model('hf-hub:BVRA/wildlife-mega-L-384', num_classes=0, pretrained=True)
    ),
    transform = T.Compose([
        T.Resize(size=(384, 384)),
        T.ToTensor(),
        T.Normalize(mean=(0.485, 0.456, 0.406), std=(0.229, 0.224, 0.225)),
    ]),
)

wildfusion = WildFusion(calibrated_matchers = matchers, priority_matcher = priority_matcher)

In [4]:
wildfusion.fit_calibration(dataset, dataset)

100%|█████████████████████████████████████████████████████████████████| 3/3 [00:01<00:00,  2.93it/s]
100%|█████████████████████████████████████████████████████████████████| 3/3 [00:01<00:00,  2.82it/s]
100%|█████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.61s/it]
100%|█████████████████████████████████████████████████████████████████| 3/3 [00:02<00:00,  1.24it/s]
100%|█████████████████████████████████████████████████████████████████| 3/3 [00:01<00:00,  1.59it/s]
100%|█████████████████████████████████████████████████████████████████| 1/1 [00:08<00:00,  8.99s/it]
100%|█████████████████████████████████████████████████████████████████| 3/3 [00:02<00:00,  1.15it/s]
100%|█████████████████████████████████████████████████████████████████| 3/3 [00:02<00:00,  1.17it/s]
100%|█████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.29s/it]
100%|█████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  

In [5]:
wildfusion(dataset, dataset)

100%|█████████████████████████████████████████████████████████████████| 3/3 [00:01<00:00,  2.56it/s]
100%|█████████████████████████████████████████████████████████████████| 3/3 [00:01<00:00,  2.53it/s]
100%|█████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.22s/it]
100%|█████████████████████████████████████████████████████████████████| 3/3 [00:02<00:00,  1.44it/s]
100%|█████████████████████████████████████████████████████████████████| 3/3 [00:02<00:00,  1.44it/s]
100%|█████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.81s/it]
100%|█████████████████████████████████████████████████████████████████| 3/3 [00:02<00:00,  1.26it/s]
100%|█████████████████████████████████████████████████████████████████| 3/3 [00:02<00:00,  1.22it/s]
100%|█████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.03s/it]
100%|█████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  

array([[0.99822124, 0.28558058, 0.40018908],
       [0.29122856, 0.99799509, 0.0557037 ],
       [0.40112083, 0.11838401, 0.99962776]])

In [6]:
wildfusion(dataset, dataset, B=1)

100%|█████████████████████████████████████████████████████████████████| 1/1 [00:03<00:00,  3.60s/it]
100%|█████████████████████████████████████████████████████████████████| 1/1 [00:04<00:00,  4.14s/it]
100%|█████████████████████████████████████████████████████████████████| 3/3 [00:01<00:00,  2.43it/s]
100%|█████████████████████████████████████████████████████████████████| 3/3 [00:01<00:00,  2.64it/s]
100%|█████████████████████████████████████████████████████████████████| 1/1 [00:12<00:00, 12.62s/it]
100%|█████████████████████████████████████████████████████████████████| 3/3 [00:01<00:00,  1.52it/s]
100%|█████████████████████████████████████████████████████████████████| 3/3 [00:01<00:00,  1.64it/s]
100%|█████████████████████████████████████████████████████████████████| 1/1 [00:12<00:00, 12.46s/it]
100%|█████████████████████████████████████████████████████████████████| 3/3 [00:02<00:00,  1.21it/s]
100%|█████████████████████████████████████████████████████████████████| 3/3 [00:02<00:00,  

array([[0.99861646,       -inf,       -inf],
       [      -inf, 0.9987793 ,       -inf],
       [      -inf,       -inf, 0.9996744 ]], dtype=float32)

In [7]:
wildfusion(dataset, dataset, B=2)

100%|█████████████████████████████████████████████████████████████████| 1/1 [00:03<00:00,  3.77s/it]
100%|█████████████████████████████████████████████████████████████████| 1/1 [00:04<00:00,  4.16s/it]
100%|█████████████████████████████████████████████████████████████████| 3/3 [00:01<00:00,  2.62it/s]
100%|█████████████████████████████████████████████████████████████████| 3/3 [00:01<00:00,  2.49it/s]
100%|█████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.76s/it]
100%|█████████████████████████████████████████████████████████████████| 3/3 [00:02<00:00,  1.38it/s]
100%|█████████████████████████████████████████████████████████████████| 3/3 [00:02<00:00,  1.46it/s]
100%|█████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.48s/it]
100%|█████████████████████████████████████████████████████████████████| 3/3 [00:02<00:00,  1.19it/s]
100%|█████████████████████████████████████████████████████████████████| 3/3 [00:02<00:00,  

array([[0.9984537 ,       -inf, 0.40034783],
       [0.29118976, 0.9979655 ,       -inf],
       [0.4013244 ,       -inf, 0.9996744 ]], dtype=float32)