# Разведочный анализ данных (EDA)
## Классификация состояния растений

In [None]:
import sys
sys.path.append('..')

import torch
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
from PIL import Image
import os

import config
from dataset import PlantDataset

%matplotlib inline
sns.set_style('whitegrid')

In [None]:
# Загрузка датасета
dataset = PlantDataset(config.PLANTVILLAGE_DIR)
print(f"Всего изображений: {len(dataset)}")
print(f"Классы: {dataset.class_to_idx}")

In [None]:
# Визуализация распределения классов
labels = [label for _, label in dataset]

plt.figure(figsize=(8, 6))
sns.countplot(x=labels)
plt.title('Распределение классов')
plt.xlabel('Класс (0 - здоровый, 1 - больной)')
plt.ylabel('Количество')
plt.show()

In [None]:
# Примеры изображений
fig, axes = plt.subplots(2, 5, figsize=(15, 6))
axes = axes.ravel()

healthy_indices = [i for i, (_, label) in enumerate(dataset) if label == 0][:5]
disease_indices = [i for i, (_, label) in enumerate(dataset) if label == 1][:5]

for idx, img_idx in enumerate(healthy_indices + disease_indices):
    img, label = dataset[img_idx]
    # Денормализация
    img = img.permute(1, 2, 0).numpy()
    mean = np.array([0.485, 0.456, 0.406])
    std = np.array([0.229, 0.224, 0.225])
    img = img * std + mean
    img = np.clip(img, 0, 1)
    
    axes[idx].imshow(img)
    title = 'Здоровый' if label == 0 else 'Больной'
    axes[idx].set_title(title)
    axes[idx].axis('off')

plt.tight_layout()
plt.show()