In [2]:
import os
from glob import glob
from tqdm import tqdm
os.chdir("..")
# --- CONFIGURACI칍N ---
LABELS_DIR = 'data/raw_originals/labels'
AUGMENT_FACTOR = 4

def analyze_flower_density():
    if not os.path.exists(LABELS_DIR):
        print(f"Error: No existe {LABELS_DIR}")
        return

    txt_files = glob(os.path.join(LABELS_DIR, '*.txt'))
    
    # Estructura para guardar datos: [ratio_flores, num_flores, num_arandanos]
    flower_images_data = []
    
    total_arandanos_global = 0
    total_flores_global = 0

    print(f"游븷 Escaneando {len(txt_files)} archivos...")

    for txt in tqdm(txt_files):
        with open(txt, 'r') as f:
            lines = [line.strip() for line in f.readlines() if line.strip()]
            
        n_arandanos = 0
        n_flores = 0
        
        for line in lines:
            cls_id = int(line.split()[0])
            if cls_id == 0:
                n_arandanos += 1
            elif cls_id == 1:
                n_flores += 1
        
        total_arandanos_global += n_arandanos
        total_flores_global += n_flores
        
        # Solo nos interesan im치genes que tengan al menos 1 flor
        if n_flores > 0:
            total_objs = n_arandanos + n_flores
            ratio = n_flores / total_objs  # 1.0 = Solo Flores, 0.1 = Pocas flores
            flower_images_data.append({
                'file': os.path.basename(txt),
                'ratio': ratio,
                'flores': n_flores,
                'arandanos': n_arandanos
            })

    # --- SIMULACI칍N DE ESCENARIOS ---
    # Vamos a probar 3 umbrales para ver cu치l te conviene
    thresholds = [0.8, 0.5, 0.3] # 80%, 50%, 30% de flores en la imagen
    
    print("\n" + "="*60)
    print(f"AN츼LISIS DE DENSIDAD DE FLORES")
    print(f"   (Global actual: {total_flores_global} Flores vs {total_arandanos_global} Ar치ndanos)")
    print("="*60)
    
    for thresh in thresholds:
        # Filtrar im치genes que superan el umbral
        candidates = [img for img in flower_images_data if img['ratio'] >= thresh]
        
        count_imgs = len(candidates)
        added_flores = sum(img['flores'] for img in candidates) * AUGMENT_FACTOR
        added_arandanos = sum(img['arandanos'] for img in candidates) * AUGMENT_FACTOR
        
        print(f"\n游댳 ESCENARIO: Solo aumentar im치genes con > {int(thresh*100)}% de Flores")
        print(f"   - Im치genes que cumplen: {count_imgs} (de {len(flower_images_data)} con flores)")
        
        if count_imgs == 0:
            print(f"Ninguna imagen cumple este criterio. Baja el umbral.")
            continue

        # Proyecci칩n
        final_flores = total_flores_global + added_flores
        final_arandanos = total_arandanos_global + added_arandanos
        
        ratio_impact = added_flores / (added_arandanos + 1) # +1 evita div por cero
        
        print(f"   - Ganancia (x{AUGMENT_FACTOR} copias):")
        print(f"       Epochs ver치n: +{added_flores} Flores (Bien) | +{added_arandanos} Ar치ndanos (Ruido)")
        print(f"       Ratio de Aumento: Por cada 1 Ar치ndano basura, ganas {ratio_impact:.2f} Flores.")
        
        print(f"   - Balance Final Estimado: {final_flores} Flores vs {final_arandanos} Ar치ndanos")

    print("\n" + "="*60)
    
    # RECOMENDACI칍N AUTOM츼TICA
    # Buscamos el umbral que nos de al menos 1000 flores extra minimizando ar치ndanos
    best_thresh = 0.0
    for thresh in thresholds:
        cands = [img for img in flower_images_data if img['ratio'] >= thresh]
        added_f = sum(img['flores'] for img in cands) * AUGMENT_FACTOR
        if added_f > 1000: # Queremos impacto real
            best_thresh = thresh
            break # Nos quedamos con el m치s alto que cumpla
            
    if best_thresh > 0:
        print(f"RECOMENDACI칍N: Usa el umbral del {int(best_thresh*100)}%.")
    else:
        print(f"RECOMENDACI칍N: Tus flores siempre est치n muy rodeadas de ar치ndanos. \n   Considera aumentar TODAS las fotos con flores, o aceptar el 30%.")

# Ejecutar
analyze_flower_density()

游븷 Escaneando 400 archivos...


100%|郊걱둗郊걱둗郊걱둗郊걱둗郊걱둗| 400/400 [00:00<00:00, 2408.74it/s]


AN츼LISIS DE DENSIDAD DE FLORES
   (Global actual: 96203 Flores vs 13313 Ar치ndanos)

游댳 ESCENARIO: Solo aumentar im치genes con > 80% de Flores
   - Im치genes que cumplen: 258 (de 387 con flores)
   - Ganancia (x4 copias):
       Epochs ver치n: +343632 Flores (Bien) | +24068 Ar치ndanos (Ruido)
       Ratio de Aumento: Por cada 1 Ar치ndano basura, ganas 14.28 Flores.
   - Balance Final Estimado: 439835 Flores vs 37381 Ar치ndanos

游댳 ESCENARIO: Solo aumentar im치genes con > 50% de Flores
   - Im치genes que cumplen: 335 (de 387 con flores)
   - Ganancia (x4 copias):
       Epochs ver치n: +378120 Flores (Bien) | +38996 Ar치ndanos (Ruido)
       Ratio de Aumento: Por cada 1 Ar치ndano basura, ganas 9.70 Flores.
   - Balance Final Estimado: 474323 Flores vs 52309 Ar치ndanos

游댳 ESCENARIO: Solo aumentar im치genes con > 30% de Flores
   - Im치genes que cumplen: 361 (de 387 con flores)
   - Ganancia (x4 copias):
       Epochs ver치n: +383148 Flores (Bien) | +46600 Ar치ndanos (Ruido)
       Ratio de Aumento: Por 


