# 🍎 Plant Pathology Dataset Analysis
## Escolha e Justificativa do Dataset

---

### 📊 **Fonte do Dataset**
O dataset utilizado é o **Plant Pathology 2020 - FGVC7**, disponível no Kaggle:

🔗 **[Plant Pathology 2020 - FGVC7](https://www.kaggle.com/competitions/plant-pathology-2020-fgvc7/data)**

Este conjunto de dados foi originalmente proposto como um desafio de visão computacional para a **classificação de doenças em folhas de maçã**, fazendo parte da competição Fine-Grained Visual Categorization (FGVC7).

---

### ✅ **Critérios de Seleção**

#### **Número de Instâncias**
- **18.632 imagens** no total ✅ *(atende ao requisito de ≥1000 linhas)*

#### **Número de Variáveis Relevantes (Features)**
1. 🖼️ **Imagem** - informação visual principal (entrada do modelo)
2. 🟢 **Rótulo de classe:** `healthy` 
3. 🔴 **Rótulo de classe:** `scab`
4. 🟠 **Rótulo de classe:** `rust`
5. 🟡 **Rótulo de classe:** `complex`
6. 🔵 **Rótulo de classe:** `frog_eye_leaf_spot`
7. 🟣 **Rótulo de classe:** `powdery_mildew`

> 💡 **Nota:** Como se trata de um problema de **multi-label classification**, cada doença funciona como uma variável binária (0/1), satisfazendo o critério de ≥5 variáveis.

---

### 🎯 **Justificativa da Escolha**

**Tema:** 🌱 **Agricultura — Análise de Imagens (Plant Pathology)**

A escolha deste dataset se justifica por:

#### 🌍 **Relevância Social e Econômica**
- Doenças em plantas causam **perdas significativas** na produtividade agrícola
- Impacto direto na **segurança alimentar** global

#### 💼 **Aplicação Prática**
- Desenvolvimento de **sistemas de apoio à decisão agrícola**
- Diagnóstico em tempo real via **smartphones** ou **drones**
- Automatização do processo de **identificação de doenças**

#### 🤖 **Potencial de Modelagem**
- Dataset com **múltiplas classes** e **multi-label classification**
- Permite explorar técnicas avançadas:
  - **CNNs (Redes Neurais Convolucionais)**
  - **Transfer Learning**
  - **Ensemble Methods**
  - **Data Augmentation**

#### 🎓 **Adequação ao Curso**
- Aplicação prática de métodos vistos em sala
- Pré-processamento de imagens
- Tuning de hiperparâmetros
- Análise crítica de resultados

---

## 🔍 **Verificação do Dataset**

Vamos fazer uma análise rápida para confirmar as características do dataset:

In [None]:
# 📚 Imports necessários
import pandas as pd
from pathlib import Path
from collections import Counter
import warnings
warnings.filterwarnings('ignore')

# 📂 Configuração dos caminhos
DATA_DIR = Path("../data")  # Ajuste se necessário
TRAIN_CSV = DATA_DIR / "train.csv"

print("🔧 Configuração inicial concluída!")
print(f"📁 Diretório de dados: {DATA_DIR}")
print(f"📄 Arquivo CSV: {TRAIN_CSV}")
print(f"✅ Arquivo existe: {TRAIN_CSV.exists()}")

In [None]:
# 📊 Carregamento e análise básica do dataset
df = pd.read_csv(TRAIN_CSV)

print("=" * 60)
print("📊 INFORMAÇÕES BÁSICAS DO DATASET")
print("=" * 60)
print(f"📈 Número total de instâncias: {len(df):,}")
print(f"📋 Colunas disponíveis: {list(df.columns)}")
print(f"💾 Tamanho do dataset: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

# 🔍 Visualizar as primeiras linhas
print("\n" + "=" * 60)
print("👁️ PRIMEIRAS 5 LINHAS DO DATASET")
print("=" * 60)
display(df.head())

In [None]:
# 🏷️ Análise das classes (multi-label)
print("=" * 60)
print("🏷️ ANÁLISE DAS CLASSES")
print("=" * 60)

# Extrair todas as classes únicas
all_labels = sorted({lab for labs in df["labels"].astype(str).str.split() for lab in labs})
print(f"🎯 Classes encontradas: {all_labels}")
print(f"📊 Total de classes: {len(all_labels)}")

# Contar ocorrências de cada classe
cnt = Counter(l for labs in df["labels"].astype(str).str.split() for l in labs)

print("\n" + "=" * 60)
print("📈 DISTRIBUIÇÃO DE IMAGENS POR CLASSE")
print("=" * 60)

# Criar DataFrame para melhor visualização
class_distribution = pd.DataFrame([
    {"Classe": k, "Quantidade": v, "Porcentagem": f"{v/len(df)*100:.1f}%"}
    for k, v in sorted(cnt.items(), key=lambda x: x[1], reverse=True)
])

display(class_distribution)

# Estatísticas adicionais
print(f"\n📊 Estatísticas das classes:")
print(f"   • Classe mais frequente: {max(cnt, key=cnt.get)} ({max(cnt.values()):,} imagens)")
print(f"   • Classe menos frequente: {min(cnt, key=cnt.get)} ({min(cnt.values()):,} imagens)")
print(f"   • Média de imagens por classe: {sum(cnt.values())/len(cnt):.0f}")

In [None]:
# 🔢 Análise multi-label (quantos rótulos por imagem)
print("=" * 60)
print("🔢 ANÁLISE MULTI-LABEL")
print("=" * 60)

# Calcular número de rótulos por imagem
df['num_labels'] = df['labels'].astype(str).str.split().apply(len)
label_distribution = df['num_labels'].value_counts().sort_index()

print("📊 Distribuição do número de rótulos por imagem:")
for num_labels, count in label_distribution.items():
    percentage = count / len(df) * 100
    print(f"   • {num_labels} rótulo(s): {count:,} imagens ({percentage:.1f}%)")

print(f"\n📈 Estatísticas:")
print(f"   • Média de rótulos por imagem: {df['num_labels'].mean():.2f}")
print(f"   • Mínimo de rótulos por imagem: {df['num_labels'].min()}")
print(f"   • Máximo de rótulos por imagem: {df['num_labels'].max()}")

# Verificar se há imagens sem rótulo ou com rótulos problemáticos
empty_labels = df[df['labels'].isna() | (df['labels'].astype(str).str.strip() == '')].shape[0]
print(f"   • Imagens sem rótulos: {empty_labels}")