### Tutorial como realizar o treinamento com esse código

Alguns links que foram usados para desenvolver o código:

- [Doc](https://docs.ultralytics.com/datasets/classify/)
- [Vídeo](https://www.youtube.com/watch?v=ZeLg5rxLGLg&ab_channel=Computervisionengineer)
- [Dataset](https://www.kaggle.com/datasets/juniorbueno/neural-networks-homer-and-bart-classification?resource=download)



### Função para Separar Dados em Conjuntos de Treinamento e Teste

A função `separar_dados_train_test_pasta` é uma função Python que foi projetada para ajudar na divisão de um conjunto de dados em subconjuntos de treinamento e teste. É útil em tarefas de aprendizado de máquina, onde você deseja treinar um modelo em parte dos dados e testá-lo em outra parte para avaliar o desempenho.

#### Uso

A função requer os seguintes argumentos:

- `source_dir`: O diretório de origem onde estão localizados os dados que você deseja dividir.
- `treinamento_dir`: O diretório onde as amostras de treinamento serão copiadas.
- `validacao_dir`: O diretório onde as amostras de validação serão copiadas.
- `ratio`: Uma tupla que especifica a proporção em que os dados devem ser divididos entre treinamento e validação. Por padrão, é definido como (0.6, 0.2, 0.2), o que significa que 60% dos dados serão usados para treinamento, 20% para validação e 20% para teste.
- `seed`: Uma semente opcional para garantir a reprodutibilidade na divisão dos dados.

#### Funcionamento

A função começa listando todos os arquivos no diretório de origem e, em seguida, embaralhando essa lista para garantir que os dados sejam aleatórios. Em seguida, calcula o número de amostras para cada conjunto com base na proporção especificada.

O conjunto de dados é dividido em três partes:

- Conjunto de Treinamento: Amostras usadas para treinar o modelo.
- Conjunto de Validação: Amostras usadas para ajustar hiperparâmetros e avaliar o desempenho durante o treinamento.
- Conjunto de Teste: Amostras usadas para avaliar o desempenho final do modelo.

As amostras são copiadas para os diretórios de treinamento e validação de acordo com a divisão definida.

#### Exemplo de Uso

```python
source_dir = "caminho/para/seus/dados"
treinamento_dir = "caminho/para/diretorio/treinamento"
validacao_dir = "caminho/para/diretorio/validacao"
teste_dir = "caminho/para/diretorio/teste"

separar_dados_train_test_pasta(source_dir, treinamento_dir, validacao_dir, teste_dir, ratio=(0.6, 0.2, 0.2), seed=42)


In [None]:
from ultralytics import YOLO
import torch
import os
import shutil
import time
import random
from torchvision import datasets, transforms

def separar_dados_train_test_pasta(source_dir, treinamento_dir, teste_dir, validacao_dir, ratio=(0.2, 0.2, 0.6), seed=42):
    # Define a semente para garantir reproducibilidade
    random.seed(seed)

    # Lista todos os arquivos no diretório de origem
    image_files = [file for file in os.listdir(source_dir)]

    # Embaralha a lista de arquivos
    random.shuffle(image_files)

    # Calcula o número de imagens para treinamento, validação e teste
    num_images = len(image_files)
    num_train = int(num_images * ratio[0])
    num_val = int(num_images * ratio[1])
    num_test = num_images - num_train - num_val

    # Divide a lista de imagens em conjuntos de treinamento, validação e teste
    train_images = image_files[:num_train]
    val_images = image_files[num_train:num_train + num_val]
    test_images = image_files[num_train + num_val:]

    # Cria os diretórios de treinamento, validação e teste, se não existirem
    for directory in [treinamento_dir, validacao_dir, teste_dir]:
        if not os.path.exists(directory):
            os.makedirs(directory)

    # Copia as imagens para os diretórios correspondentes
    for image in train_images:
        shutil.copy(os.path.join(source_dir, image), os.path.join(treinamento_dir, image))

    for image in val_images:
        shutil.copy(os.path.join(source_dir, image), os.path.join(validacao_dir, image))

    for image in test_images:
        shutil.copy(os.path.join(source_dir, image), os.path.join(teste_dir, image))

    # Exibe as informações sobre a quantidade de dados
    print("Diretorio: ", source_dir)
    print("Quantidade total de dados: ", num_images)
    print("Quantidade de dados de treinamento: ", len(train_images))
    print("Quantidade de dados de validacao: ", len(val_images))
    print("Quantidade de dados de teste: ", len(test_images))


### Iniciando o treinamento

Para organizar os dados de treinamento, crie uma pasta chamada "dados". Dentro desta pasta "dados", você deve criar subpastas para cada classe que deseja classificar, como "cachorro", "gato" e "papagaio". Cada uma dessas subpastas deve ser nomeada de acordo com a classe correspondente.

Por exemplo, a estrutura de diretórios ficaria assim:

dados/
├── cachorro/
│ ├── imagem_cachorro1.jpg
│ ├── imagem_cachorro2.jpg
│ ├── ...
│
├── gato/
│ ├── imagem_gato1.jpg
│ ├── imagem_gato2.jpg
│ ├── ...
│
├── papagaio/
│ ├── imagem_papagaio1.jpg
│ ├── imagem_papagaio2.jpg
│ ├── ...


Dentro de cada pasta de classe (por exemplo, "cachorro"), coloque as imagens correspondentes a essa classe. Essa organização de diretórios é fundamental para que seu modelo de aprendizado de máquina possa identificar e diferenciar entre as diferentes classes durante o treinamento.

Certifique-se de que as imagens estejam bem distribuídas e representem fielmente as respectivas classes para obter melhores resultados durante o treinamento e a classificação posterior. No exemplo abaixo temos duas classes (bom e ruim):


dados/
├── bom/
│ ├── imagem_bom.jpg
│ ├── imagem_bom2.jpg
│ ├── ...
│
├── ruim/
│ ├── imagem_ruim.jpg
│ ├── imagem_ruim.jpg
│ ├── ...

In [None]:
separar_dados_train_test_pasta(
        "./dados/Bom",
        "./dados/dados/train/Bom",
        "./dados/dados/test/Bom",
        "./dados/dados/val/Bom",
        ratio=(0.2, 0.2, 0.6),
        seed=42
        )

separar_dados_train_test_pasta(
        "./dados/Ruim",
        "./dados/dados/train/Bom",
        "./dados/dados/test/Ruim",
        "./dados/dados/val/Ruim",
        ratio=(0.4, 0.2, 0.4),
        seed=42
        )

### Carregar um modelo

Após organizar o conjunto de dados de acordo com o padrão especificado, você está pronto para carregar o modelo de classificação. No entanto, antes de fazer isso, é importante destacar que você tem a flexibilidade de escolher entre diferentes modelos disponíveis na documentação.Alguns exemplos de modelos pre-treinados e com configuração de tamanho de imagens: 

- [https://docs.ultralytics.com/tasks/classify/#models](https://docs.ultralytics.com/tasks/classify/#models)

![Alt text](image.png)

Por padrão, se o modelo que você deseja utilizar não estiver presente localmente, o sistema irá automaticamente realizar o download do modelo correspondente para você.

Aqui está um exemplo de como você pode carregar um modelo:

```python
# Carregando um modelo
model = YOLO('yolov8n-cls.yaml')  # Constrói um novo modelo a partir de um arquivo YAML
model = YOLO('yolov8n-cls.pt')  # Carrega um modelo pré-treinado (recomendado para treinamento)
model = YOLO('yolov8n-cls.yaml').load('yolov8n-cls.pt')  # Constrói a partir de um arquivo YAML e transfere os pesos


No exemplo vamos usar o modelo pré-treinado:

In [None]:
model = YOLO('yolov8n-cls.pt')  # Carrega um modelo pré-treinado (recomendado para treinamento)

In [None]:
    model.train(data="./dados/dados", epochs=5, imgsz=224, device=0 , save_period=1) #Train the model

      model.train(data="./dados/dados", epochs=5, imgsz=224, device=0 , save_period=1, workers=8)
    model.export()

### Alguns atributos para a classe train

- **task=classify:** Indica que a tarefa a ser realizada é classificação. O modelo está sendo treinado para classificar algo, por exemplo, imagens.

- **mode=train:** Define o modo de operação, indicando que o script está no modo de treinamento, ou seja, está treinando um modelo.

- **model=yolov8n-cls.pt:** Especifica o nome ou caminho do arquivo do modelo a ser usado. Parece ser um modelo chamado "yolov8n-cls.pt".

- **data=./dados/dados:** Define o caminho para o diretório ou arquivo de dados de treinamento.

- **epochs=20:** Define o número de épocas de treinamento, que é a quantidade de vezes que o modelo percorrerá todo o conjunto de treinamento.

- **patience=50:** Define um limite de paciência que controla quando o treinamento pode ser interrompido se não houver melhorias. Se não houver melhora por 50 épocas, o treinamento pode parar.

- **batch=16:** Especifica o tamanho do lote (batch size) usado durante o treinamento. Isso significa que o modelo será treinado em lotes de 16 exemplos de cada vez.

- **imgsz=224:** Define o tamanho das imagens de entrada que o modelo usará durante o treinamento. As imagens terão 224x224 pixels.

- **save=True:** Indica se o modelo treinado deve ser salvo.

- **save_period=-1:** Define a frequência com que o modelo será salvo durante o treinamento. O valor -1 provavelmente significa que o modelo será salvo apenas ao final do treinamento.

- **cache=False:** Possivelmente controla o uso de cache durante o treinamento.

- **device=None:** Define o dispositivo (por exemplo, CPU ou GPU) a ser usado para treinamento. O valor "None" geralmente significa que o dispositivo padrão será usado.

- **workers=8:** Define o número de processos de trabalho (threads) a serem usados para carregar os dados de treinamento em paralelo.

- **project=None, name=None, exist_ok=False:** Configurações relacionadas ao projeto de treinamento e ao nome do modelo.

- **pretrained=True:** Indica se o modelo deve ser inicializado com pesos pré-treinados, o que é comum em transferência de aprendizado.

- **optimizer=auto:** Configuração relacionada ao otimizador usado durante o treinamento.

- **verbose=True:** Controla a exibição de informações detalhadas durante o treinamento.
