# Exploraci√≥n del Dataset PlantVillage

Este notebook tiene como objetivo explorar y entender la estructura del dataset de enfermedades en plantas.


In [None]:
# Importaciones necesarias
import os
import numpy as np
from pathlib import Path
import matplotlib.pyplot as plt
from PIL import Image
import pandas as pd


## 1. Definici√≥n de rutas y constantes


In [None]:
# Ruta al dataset (ajusta seg√∫n tu estructura)
DATASET_PATH = Path('../dataset/raw/plant_diseases')

# Verificar si existe el directorio
if not DATASET_PATH.exists():
    print(f"‚ö†Ô∏è  El directorio {DATASET_PATH} no existe.")
    print("Por favor, descarga el dataset de PlantVillage y col√≥calo en dataset/raw/plant_diseases/")
else:
    print(f"‚úÖ Dataset encontrado en: {DATASET_PATH}")


## 2. Exploraci√≥n de la estructura del dataset


In [None]:
# Obtener todas las clases (subdirectorios)
if DATASET_PATH.exists():
    clases = [d.name for d in DATASET_PATH.iterdir() if d.is_dir()]
    print(f"üìä N√∫mero de clases encontradas: {len(clases)}")
    print(f"\nüìÅ Primeras 10 clases:")
    for i, clase in enumerate(clases[:10], 1):
        print(f"  {i}. {clase}")
    if len(clases) > 10:
        print(f"  ... y {len(clases) - 10} m√°s")


## 3. Conteo de im√°genes por clase


In [None]:
# Contar im√°genes por clase
if DATASET_PATH.exists():
    conteo_imagenes = {}
    
    for clase in clases:
        clase_path = DATASET_PATH / clase
        # Contar archivos de imagen comunes
        imagenes = list(clase_path.glob('*.jpg')) + list(clase_path.glob('*.png'))
        conteo_imagenes[clase] = len(imagenes)
    
    # Crear DataFrame para mejor visualizaci√≥n
    df_conteo = pd.DataFrame(list(conteo_imagenes.items()), columns=['Clase', 'N√∫mero de Im√°genes'])
    df_conteo = df_conteo.sort_values('N√∫mero de Im√°genes', ascending=False)
    
    print("üìà Distribuci√≥n de im√°genes por clase:")
    print(df_conteo.head(20))
    
    print(f"\nüìä Estad√≠sticas:")
    print(f"  Total de im√°genes: {df_conteo['N√∫mero de Im√°genes'].sum()}")
    print(f"  Promedio por clase: {df_conteo['N√∫mero de Im√°genes'].mean():.2f}")
    print(f"  M√≠nimo: {df_conteo['N√∫mero de Im√°genes'].min()}")
    print(f"  M√°ximo: {df_conteo['N√∫mero de Im√°genes'].max()}")


## 4. Visualizaci√≥n de im√°genes de ejemplo


In [None]:
# Mostrar algunas im√°genes de ejemplo
if DATASET_PATH.exists():
    fig, axes = plt.subplots(2, 3, figsize=(15, 10))
    axes = axes.ravel()
    
    clases_ejemplo = clases[:6] if len(clases) >= 6 else clases
    
    for idx, clase in enumerate(clases_ejemplo):
        clase_path = DATASET_PATH / clase
        imagenes = list(clase_path.glob('*.jpg')) + list(clase_path.glob('*.png'))
        
        if imagenes:
            img_path = imagenes[0]
            img = Image.open(img_path)
            axes[idx].imshow(img)
            axes[idx].set_title(f"{clase}\n({img.size[0]}x{img.size[1]})", fontsize=10)
            axes[idx].axis('off')
    
    plt.tight_layout()
    plt.show()


## 5. Verificaci√≥n de dimensiones de im√°genes


In [None]:
# Analizar dimensiones de las im√°genes
if DATASET_PATH.exists():
    dimensiones = []
    
    # Muestrear algunas im√°genes de cada clase
    for clase in clases[:5]:  # Primeras 5 clases para no tardar mucho
        clase_path = DATASET_PATH / clase
        imagenes = list(clase_path.glob('*.jpg')) + list(clase_path.glob('*.png'))
        
        for img_path in imagenes[:10]:  # 10 im√°genes por clase
            try:
                img = Image.open(img_path)
                dimensiones.append(img.size)
            except Exception as e:
                print(f"Error al leer {img_path}: {e}")
    
    if dimensiones:
        print(f"üìê Dimensiones encontradas (muestra de {len(dimensiones)} im√°genes):")
        print(f"  Ancho promedio: {np.mean([d[0] for d in dimensiones]):.2f}px")
        print(f"  Alto promedio: {np.mean([d[1] for d in dimensiones]):.2f}px")
        print(f"  Ancho m√≠nimo: {min([d[0] for d in dimensiones])}px")
        print(f"  Ancho m√°ximo: {max([d[0] for d in dimensiones])}px")
        print(f"  Alto m√≠nimo: {min([d[1] for d in dimensiones])}px")
        print(f"  Alto m√°ximo: {max([d[1] for d in dimensiones])}px")


## 6. Resumen y conclusiones


In [None]:
print("‚úÖ Exploraci√≥n completada")
print("\nüìù Pr√≥ximos pasos:")
print("  1. Verificar que el dataset est√© completo")
print("  2. Proceder al notebook 02_entrenamiento_cnn.ipynb")
print("  3. Ajustar par√°metros de entrenamiento seg√∫n los resultados de esta exploraci√≥n")
