Neste script, iremos criar um dataset parcial empregado para comparar os resultados obtidos a partir do treinamento de diferentes modelos. O dataset é criado ao selecionar arquivos aleatórios do dataset original contido na pasta `complete_dataset`.

In [1]:
import os 
import numpy as np
import pandas as pd
from xml.dom.minidom import parse

Incialmente, vamos definir os caminhos para o dataset original, que se encontra na pasta `complete_dataset`, bem como para o dataset parcial que iremos criar, o qual se encontrará na pasta `partial_dataset`:

In [2]:
dataset_dir = 'total_dataset'
partial_dir = 'partial_dataset_2'

Agora, iremos coletar todos os nomes dos arquivos __xml__ do dataset original. Lembrando que eles devem ser o mesmo das imagens, trocando apenas a extensão para __jpg__:

In [None]:
filenames = [filename for filename in os.listdir(dataset_dir) if '.xml' in filename]

Além disso, iremos criar um dicionário cujas chaves são as classes do nosso dataset. Os valores inicialmente serão definidos como 0, uma vez que eles serão 

In [3]:
labels = {'sanhaco_do_coqueiro':0,
          'sanhaco_da_amazonia':0,
          'canario_do_amazonas':0,
          'rolinha':0,
          'chupim':0}

Agora, podemos selecionar o nome dos arquivos por meio da função `random.choice` do módulo `numpy`. 

**OBS: A SEED QUE GEROU O DATASET PARCIAL UTILIZADO NO TRABALHO NÃO FOI ANOTADA. LOGO, A EXECUÇÃO DA CÉLULA ABAIXO PROVAVELMENTE SELECIONARÁ ARQUIVOS DIFERENTES DOS DAQUELES EMPREGADOS NO TRABALHO**.

In [4]:
np.random.seed(0) # não é a seed original do trabalho
random_filenames = np.random.choice(filenames, 282, replace=False)

De modo a contar a quantidade de classes nos arquivos selecionados para o conjunto parcial, é necessário entrar em cada xml e contar a quantidade de classes. 

In [5]:
for filename in random_filenames: 
    xml_doc = parse(f'{dataset_dir}/{filename}')
    objects = xml_doc.getElementsByTagName('name')
    
    for elem in objects:
        labels[elem.firstChild.data] += 1

In [7]:
labels

{'sanhaco_do_coqueiro': 97,
 'sanhaco_da_amazonia': 86,
 'canario_do_amazonas': 201,
 'rolinha': 82,
 'chupim': 94}

A partir disso, é possível salvar essa informação em um arquivo csv através da biblioteca `Pandas`. 

In [8]:
df = pd.DataFrame(labels, index=[0])
df.to_csv('partial_proportion_2.csv')

Abaixo, alguns exemplos de arquivos selecionados para comporem o conjunto de dados parcial. 

In [20]:
random_filenames[:10]

array(['210.xml', '619.xml', '872.xml', '229.xml', '726.xml', '602.xml',
       '570.xml', '864.xml', '551.xml', '294.xml'], dtype='<U7')

Por fim, basta copiar e colar os arquivos selecionados. 

In [21]:
if not os.path.isdir(partial_dir):
    os.mkdir(partial_dir)

In [22]:
for filename in random_filenames:
    os.system(f'cp {dataset_dir}/{filename} {partial_dir}/{filename}')
    os.system(f'cp {dataset_dir}/{filename.replace(".xml",".jpg")} {partial_dir}/{filename.replace(".xml",".jpg")}')

In [14]:
os.path.isdir(partial_dir)

False