### A classe Dataset do Pytorch

A classe **Dataset** do Pytorch, é a classe mais básica para representar e manipular um dado dataset ou conjunto de dados. Todas as outras classes de datasets, que existe no core do Pytorch, herdam da Datasetclass. Enquanto o Pytorch também fornece muitas outras classes de conjunto de dados para manipular vários tipos de conjuntos de dados, nós podemos criar a nossa própria classe para representar e ou manipular um dado conjunto de dados específico, e para isso seja possível basta que herdamos nesta nossa classe personalizada a **Datasetclass** que é a classe priordial de datasets do Pytorch.

Quando é interessante criar nossa própria classe de dataset ?

É interessante, criar sua própria classe de dataset, quando os seus dados rotuládos por exemplo, tem um implementacao específica ou, possui um formato que as classes do Pytorch nao dao suporte para aquele tipo específico de dados. Ou seja, resumindo: **é interessante criar uma classe dataset personalizada quando estamos trabalhando com um modelo o um contexto de dados muito específico**.

Bom, e como podemos utilizar a classe Dataset, já implementada no Pytorch?

Para isso veja abaixo como pode realizar esta operacao:

In [1]:
from torch.utils.data import Dataset

##### Criando sua própria classe Dataset
Anteriormente comentamos que é possível criar uma classe Dataset, para lidar com um contexto específico dos dados do nosso modelo. Mas como fazer isso?

Bom, para ser possível criar nossa própria classe Dataset na prática, a principal etapa é herdar a classe primordial `Dataset` do Pytorch. Feito isso, é muito importante utilizarmos ou melhor implementarmos, 2 dunder methods do Python sendo eles o `__getitem__()` e o `__len__()`. 

Caso, o `__getitem__` nao for implementado uma Exception, será levantada e teremos um erro. o que torna ele um dunder method obrigatório para a implementacao da classe Dataset.

Adicionalmente, ao `__getitem__` é interessante utilizar o `__len__` isso se deve ao fato de que a maioria dos samplers ou os loaders de dados, utilizam deste dunder method para carregar o conjunto de dados para alimentar as arquiteturas de **Rede neural** o que torna ele um método fundamental e muito útil porém nao obrigatório.

Perfeito, porém o que estes "métodos mágicos" retornam ou fazem?

O `__getitem__` deve retornar um item do seu conjunto de dados, em um indice ou posicao. Ou seja, os dados retornados devem ser uma tupla contendo (input,label). Ou seja ele contém a matriz ou tensor de entrada, juntamente com seu respectivo rótulo, como se estivesse mapeando x em y. Já o método `__len__` retorna o número de elementos ou tamanho do dataset.

Obs: Só devemos herdar a classe core Dataset do Pytorch caso o meu dataset seja baseado em mapa ou seja onde eu tenho uma entrada (x) e um rótulo (y). Ou seja, se minha classe mapeia um determinado indice(rótulo) para um tensor de entrada(item) 

In [5]:
import os
import numpy as np

class myDataset(Dataset):
    """
        Args:
            root_dir (string): Diretório com todas as imagens
            transform (callable, optional): Transformações a serem aplicadas nas imagens
    """
    
    def __init__(self, root_dir, transform=None) -> None:
        self.root_dir = root_dir
        self.transform = transform

        # Lista todos os arquivos de imagem no diretório (Se sao imagens .png, .jpg, .jpeg)
        self.image_files = [f for f in os.listdir(root_dir) if f.endswith(('.png', '.jpg', '.jpeg'))]
       
        # Para este exemplo, vamos criar rótulos aleatórios
        # Em um caso real, você carregaria os rótulos de um arquivo (COCO, json, csv, etc)
        self.labels = np.random.randint(0, 10, size=len(self.image_files))

    def __getitem__(self, index):
        # Implementar aqui a lógica para pegar cada do item do dataset no indice index.
        
        # Obtém o rótulo correspondente
        label = self.labels[index]
        
        # Aplica transformações se houver
        if self.transform:
            image = self.transform(image)
            
        return image, label
    
    def __len__(self):
        # Implementar aqui a lógica para retornar o tamanho do dataset.
         return len(self.image_files)
    
if __name__ == '__main__':
    dataset = myDataset(root_dir='///', transform = None)




#### Outras classes do núcleo do Pytorch

Pytorch oferece inúmeras outras classes para lidar com conjuntos de dados de vários tipos, veja

| Classes de Dataset   | Particularidades |
|------------------------------|------------|
| `IterableDataset`            | `IterableDataset` é uma subclasse de `Dataset` usada para manipular dados vindos de um fluxo. Ao contrário de `Dataset`, não é um conjunto de dados baseado em mapa. Portanto, em vez de implementar o método `__getitem__()`, você terá que implementar o método `__iter__()`, que deve retornar um iterador que iterará sobre o conjunto de dados. Você pode herdar a classe `IterableDataset` para criar sua própria classe que itera sobre os dados. |
| `ChainDataset`               | `ChainDataset` é uma subclasse de `IterableDataset` usada para encadear eficientemente múltiplos conjuntos de dados do tipo `IterableDataset`. Esta classe pode ser útil ao combinar/encadear `IterableDataset`s existentes de diferentes fluxos de dados. |
| `BufferedShuffleDataset`     | `BufferedShuffleDataset` é uma subclasse de `IterableDataset` usada para embaralhar itens de um `IterableDataset`. Esta classe pode ser útil quando itens de um `IterableDataset` existente precisam ser embaralhados. |
| `TensorDataset`              | `TensorDataset` é uma subclasse de `Dataset` usada para manipular conjuntos de dados na forma de um tensor. |
| `ConcatDataset`              | `ConcatDataset` é uma subclasse de `Dataset` usada para concatenar vários conjuntos de dados existentes. |
| `Subset`                     | `Subset` é uma subclasse de `Dataset` usada para criar um conjunto de dados que é um subconjunto do conjunto de dados original. Este subconjunto é criado a partir de itens nos índices fornecidos no conjunto de dados original. |
