# WildlifeReID-10k creation - part 1

This is the first part for creating the WildlifeReID-10k dataset. It copies the files to a separate folder, applies bounding boxes and masks and combined them together. The split is created in the second part.

First load the necessary packages.

In [1]:
import sys
sys.path.insert(0, '..')

import os
import pandas as pd
from prepare_wildlife_reid_10k import prepare_functions, species_conversion

Then specify the roots, where the dataset is located. Parameters `size` specifies the size to which the datasets will be resized and parameters `copy_files` whether the files copied from `root_datasets` to `root`. Since bounding boxes and masks are applied and the black borders are cropped, it is relatively time-consuming.

In [2]:
root_datasets = '/data/wildlife_datasets/data'
root = os.path.join(root_datasets, 'WildlifeReID10k')
root_images = os.path.join(root, 'images')
root_metadata = os.path.join(root, 'metadata')
size = None
copy_files = False

Create metadata for each dataset and potentially copy the files.

In [3]:
for name, prepare in prepare_functions.items():
    print(name)
    os.makedirs(f'{root_metadata}/{name}/', exist_ok=True)
    metadata_part = prepare(size=size, root=f'{root_datasets}/{name}', new_root=f'{root_images}/{name}', copy_files=copy_files)
    metadata_part.to_csv(f'{root_metadata}/{name}/metadata.csv', index=False)

AAUZebraFish


100%|████████████████████████████████████████████████████████| 6672/6672 [00:00<00:00, 11505.84it/s]


AerialCattle2017


100%|████████████████████████████████████████████████████████| 4700/4700 [00:00<00:00, 12358.95it/s]


ATRW


100%|████████████████████████████████████████████████████████| 5415/5415 [00:00<00:00, 11568.92it/s]


BelugaID


100%|████████████████████████████████████████████████████████| 8559/8559 [00:00<00:00, 14096.96it/s]


BirdIndividualID


100%|██████████████████████████████████████████████████████| 52274/52274 [00:02<00:00, 19736.62it/s]


CatIndividualImages


100%|██████████████████████████████████████████████████████| 13021/13021 [00:01<00:00, 12571.94it/s]


CowDataset


100%|████████████████████████████████████████████████████████| 1485/1485 [00:00<00:00, 12427.85it/s]


Cows2021


100%|████████████████████████████████████████████████████████| 8670/8670 [00:00<00:00, 12041.91it/s]


CTai


100%|████████████████████████████████████████████████████████| 4662/4662 [00:00<00:00, 12025.88it/s]


CZoo


100%|████████████████████████████████████████████████████████| 2109/2109 [00:00<00:00, 12123.25it/s]


DogFaceNet


100%|████████████████████████████████████████████████████████| 8363/8363 [00:00<00:00, 12557.74it/s]


FriesianCattle2015


100%|██████████████████████████████████████████████████████████| 193/193 [00:00<00:00, 12097.99it/s]


FriesianCattle2017


100%|██████████████████████████████████████████████████████████| 940/940 [00:00<00:00, 12175.76it/s]


Giraffes


100%|████████████████████████████████████████████████████████| 1393/1393 [00:00<00:00, 19533.17it/s]


GiraffeZebraID


100%|████████████████████████████████████████████████████████| 6925/6925 [00:00<00:00, 14111.50it/s]


HyenaID2022


100%|████████████████████████████████████████████████████████| 3129/3129 [00:00<00:00, 13424.69it/s]


IPanda50


100%|████████████████████████████████████████████████████████| 6874/6874 [00:00<00:00, 20097.16it/s]


LeopardID2022


100%|████████████████████████████████████████████████████████| 6806/6806 [00:00<00:00, 13475.92it/s]


MPDD


100%|████████████████████████████████████████████████████████| 1657/1657 [00:00<00:00, 11781.53it/s]


NDD20


100%|████████████████████████████████████████████████████████| 2657/2657 [00:00<00:00, 13497.21it/s]


NyalaData


100%|████████████████████████████████████████████████████████| 1942/1942 [00:00<00:00, 11919.26it/s]


OpenCows2020


100%|████████████████████████████████████████████████████████| 4736/4736 [00:00<00:00, 20325.99it/s]


PolarBearVidID


100%|██████████████████████████████████████████████████████| 13918/13918 [00:01<00:00, 12854.40it/s]


SealID


100%|████████████████████████████████████████████████████████| 2080/2080 [00:00<00:00, 11856.64it/s]

SeaStarReID2023



100%|████████████████████████████████████████████████████████| 2187/2187 [00:00<00:00, 21284.31it/s]


SeaTurtleID2022


100%|████████████████████████████████████████████████████████| 8729/8729 [00:00<00:00, 13711.03it/s]


SMALST


100%|██████████| 12850/12850 [00:00<00:00, 25550.85it/s]


StripeSpotter


100%|██████████████████████████████████████████████████████████| 820/820 [00:00<00:00, 21802.68it/s]


WhaleSharkID


100%|████████████████████████████████████████████████████████| 7693/7693 [00:00<00:00, 13954.32it/s]


ZindiTurtleRecall


100%|██████████████████████████████████████████████████████| 12803/12803 [00:00<00:00, 20280.86it/s]


The next codes adds additional information to the metadata and combines them together. After this code, the dataset is finished but splits. To compute splits, we first need to compute the features from `extract_features.py` and then compute the actual splits in `prepare_wildlife_reid_10k_2.ipynb`.

In [4]:
metadata = []
for name in prepare_functions:
    metadata_part = pd.read_csv(f'{root_metadata}/{name}/metadata.csv')
    metadata_part['dataset'] = name
    metadata_part['identity'] = name + '_' + metadata_part['identity'].astype(str)
    metadata_part['path'] = 'images/' + name + '/' + metadata_part['path']
    metadata_part['species'] = metadata_part['species'].apply(lambda x: species_conversion[x])
    metadata.append(metadata_part)
metadata = pd.concat(metadata).reset_index(drop=True)
metadata = metadata.drop('image_id', axis=1)
metadata['image_id'] = range(len(metadata))
idx = ~metadata['date'].isnull()
idx = metadata.index[idx]
metadata.loc[idx, 'date'] = pd.to_datetime(metadata.loc[idx, 'date'].astype(str).apply(lambda x: x[:10]), format='%Y-%m-%d')
metadata['orientation'] = metadata['orientation'].replace({'below': 'down', 'up': 'top', 'above': 'top'})
metadata.to_csv(f'{root}/metadata.csv', index=False)