# Preparando os dados:

Este notebook é dedicado para organizar e estruturar os dados que serão utilizados no treinamento dos modelos de redes neurais para previsão de doenças agrícolas em cultivos.

## Separação dos dados:

In [0]:
import os #Mexer com o SO (arquivos, pastas)
import shutil #É como uma extensão do os, mas voltada para cópia, movimentação e remoção de arquivos/pastas.

from sklearn.model_selection import train_test_split #separa dados em treino e teste

In [0]:
import zipfile
import os

zip_path = "/Volumes/workspace/agro-diasease/agro-diasease/dados-20260210T215446Z-1-001.zip"
extract_path = "/Volumes/workspace/agro-diasease/data"

with zipfile.ZipFile(zip_path, 'r') as zip_ref:
    zip_ref.extractall(extract_path)

print("Dataset extraído com sucesso!")

In [0]:
# Caminho onde estão as imagens originais
# Cada pasta representa uma classe (ex: Blight, Healthy, etc.)
CAMINHO_DADOS_ORIGINAIS = "/Volumes/workspace/agro-diasease/data/dados"

# Caminho onde o dataset já dividido (train, val, test) será salvo
CAMINHO_DADOS_DIVIDIDOS = "/Volumes/workspace/agro-diasease/data/dados_divididos"

# Se a pasta de saída já existir, apaga tudo
if os.path.exists(CAMINHO_DADOS_DIVIDIDOS):
    shutil.rmtree(CAMINHO_DADOS_DIVIDIDOS)

# Cria a pasta novamente vazia
os.makedirs(CAMINHO_DADOS_DIVIDIDOS)


**Criação da estrutura de pastas:**

---
```
 dados_divididos/
 ├── train/
 ├── val/
 └── test/
```
 Dentro de cada uma, cria as pastas das classes.

In [0]:
for split in ['train', 'val', 'test']:
  for nome_classe in os.listdir(CAMINHO_DADOS_ORIGINAIS): #lista todas as pastas de classes dentro do diretório original.
    os.makedirs( #Criação dos diretórios
        os.path.join(CAMINHO_DADOS_DIVIDIDOS, split, nome_classe), #os.path.join(...) monta o caminho completo
        exist_ok=True #os.makedirs(..., exist_ok=True) cria essas pastas. Se já existirem, não dá erro (por causa do exist_ok=True).
    )

**Para cada classe, faz a divisão das imagens:**

---

- 70% treino
- 15% validação
- 15% teste

In [0]:
def copiar_arquivos(lista_arquivos, tipo_split):
    """
    Função para copiar arquivos de uma lista para um diretório específico.
    """
    for arquivo in lista_arquivos:
        origem = os.path.join(caminho_classe, arquivo)
        destino = os.path.join(
            CAMINHO_DADOS_DIVIDIDOS,
            tipo_split,
            nome_classe,
            arquivo
        )

        if os.path.exists(origem):
            shutil.copy(origem, destino)
        else:
            print(f"Arquivo {origem} não encontrado.")

In [0]:
for nome_classe in os.listdir(CAMINHO_DADOS_ORIGINAIS):

  caminho_classe = os.path.join(CAMINHO_DADOS_ORIGINAIS, nome_classe)

  #verifica se realmente é uma pasta
  if not os.path.isdir(caminho_classe):
    continue

  # Lista todas as imagens daquela classe
  imagens = os.listdir(caminho_classe)

  # Divide em treino (70%) e o restante (30%)
  imagens_treino, imagens_temp = train_test_split (
    imagens, test_size=0.3, random_state=42
  )

  # Divide o restante em validação (15%) e teste (15%)
  imagens_val, imagens_teste = train_test_split(
        imagens_temp,
        test_size=0.5,
        random_state=42
    )

  # Copia os arquivos para cada conjunto
  copiar_arquivos(imagens_treino, "train")
  copiar_arquivos(imagens_val, "val")
  copiar_arquivos(imagens_teste, "test")

print("Dataset organizado!")