# Analyse de l'Impact de la Compression sur un Moteur de Recherche d'Images

Ce projet √©tudie l'influence de diff√©rentes m√©thodes de compression sur les performances d'un moteur de recherche d'images bas√© sur la similarit√© visuelle. L'analyse compare quatre approches : deux m√©thodes classiques (PNG sans perte et JPEG avec perte) et deux m√©thodes modernes (compression par ondelettes de Haar et transformation DCT).

Le dataset utilis√© contient environ 3000 images de montagnes et de neige avec des features CNN pr√©-extraites (11520 dimensions). L'objectif est de quantifier le compromis entre efficacit√© de compression et pr√©servation de la qualit√© de recherche.

**M√©thodologie :**
- Compression des images avec les quatre m√©thodes s√©lectionn√©es
- Mesure des m√©triques de qualit√© (PSNR, SSIM) et d'efficacit√© (ratio de compression, temps)
- √âvaluation de l'impact sur la pr√©cision du moteur de recherche par similarit√© visuelle
- Analyse comparative des r√©sultats pour identifier les approches optimales selon le contexte d'usage


In [4]:
import sys
import pandas as pd
import numpy as np
from pathlib import Path
import time
import warnings
warnings.filterwarnings('ignore')

sys.path.append('clean_version')
from compression_engine import CompressionEvaluator
from search_engine import ImageSearchEngine
from analysis_tools import CompressionImpactAnalyzer

print("Analyse de compression d'images pour moteur de recherche")
print("=" * 55)

evaluator = CompressionEvaluator()
classiques = [m for m in evaluator.methods if m.name.startswith(('PNG', 'JPEG'))]
modernes = [m for m in evaluator.methods if m.name.startswith(('Haar', 'DCT'))]

print(f"M√©thodes configur√©es: {[m.name for m in evaluator.methods]}")
print(f"Configuration: {len(classiques)} m√©thodes classiques, {len(modernes)} m√©thodes modernes")


Analyse de compression d'images pour moteur de recherche
M√©thodes configur√©es: ['PNG_Lossless', 'JPEG_Q85', 'Haar_T5.0', 'DCT_Q50']
Configuration: 2 m√©thodes classiques, 2 m√©thodes modernes


In [None]:
analyzer = CompressionImpactAnalyzer(data_path="data")

print("D√©but de l'analyse de compression")
print("Dur√©e estim√©e : 2-3 minutes")
print()

start_time = time.time()

results = analyzer.run_complete_analysis(
    max_images=15,
    num_queries=10
)

total_time = time.time() - start_time

print(f"\nAnalyse termin√©e en {total_time:.1f}s")
print(f"R√©sultats g√©n√©r√©s: {len(results)} datasets")


D√©but de l'analyse de compression
Dur√©e estim√©e : 2-3 minutes

üöÄ ANALYSE COMPL√àTE - COMPRESSION POUR RECHERCHE D'IMAGES
Configuration du moteur de recherche baseline...
Dataset train: 2158 images, 11520 features
Index construit: 2158 images
Cat√©gories: ['mountain-peaks' 'mountains' 'snow']
Features: 11520 dimensions
Baseline pr√™t: 2158 images

üìù S√©lection √©chantillon de 15 images...
‚úÖ √âchantillon: 15 images
√âvaluation des m√©thodes de compression...
   Progress: 1/15
   Progress: 6/15
   Progress: 11/15
60 mesures de compression collect√©es

R√©sum√© compression par m√©thode:
              compression_ratio    psnr   ssim  compression_time  \
method                                                             
DCT_Q50                   0.046  31.571  0.989             4.867   
Haar_T5.0                 0.033  11.166  0.297             0.023   
JPEG_Q85                  1.452  39.763  0.998             0.001   
PNG_Lossless              0.268     inf  1.000             

In [None]:
report = analyzer.generate_summary_report(results)
print(report)

timestamp = time.strftime('%Y%m%d_%H%M%S')

with open(f'rapport_final_compression_{timestamp}.txt', 'w', encoding='utf-8') as f:
    f.write(report)

if 'compression_evaluation' in results:
    results['compression_evaluation'].to_csv(f'compression_results_{timestamp}.csv', index=False)
    print(f"Sauvegarde compression: compression_results_{timestamp}.csv")

if 'search_impact' in results:
    results['search_impact'].to_csv(f'search_impact_{timestamp}.csv', index=False)  
    print(f"Sauvegarde impact recherche: search_impact_{timestamp}.csv")

print(f"Rapport final: rapport_final_compression_{timestamp}.txt")
print("\nAnalyse termin√©e - Fichiers de r√©sultats g√©n√©r√©s")


RAPPORT D'ANALYSE - COMPRESSION POUR RECHERCHE D'IMAGES
G√©n√©r√©: 2025-07-07 12:42:27

CRIT√àRES √âNONC√â √âVALU√âS:
‚úì Coh√©rence choix approches (2 classiques + 2 modernes)
‚úì Qualit√© compression (PSNR, SSIM, ratio)
‚úì Performance compression (temps)
‚úì Impact application cible - performance recherche
‚úì Impact application cible - qualit√© recherche
‚úì Comparaison objective des approches

R√âSULTATS COMPRESSION
------------------------------

DCT_Q50:
  ‚Ä¢ Ratio: 0.05x
  ‚Ä¢ PSNR: 31.6 dB
  ‚Ä¢ SSIM: 0.989
  ‚Ä¢ Temps: 4.820s

Haar_T5.0:
  ‚Ä¢ Ratio: 0.03x
  ‚Ä¢ PSNR: 11.2 dB
  ‚Ä¢ SSIM: 0.297
  ‚Ä¢ Temps: 0.044s

JPEG_Q85:
  ‚Ä¢ Ratio: 1.45x
  ‚Ä¢ PSNR: 39.8 dB
  ‚Ä¢ SSIM: 0.998
  ‚Ä¢ Temps: 0.001s

PNG_Lossless:
  ‚Ä¢ Ratio: 0.27x
  ‚Ä¢ PSNR: inf dB
  ‚Ä¢ SSIM: 1.000
  ‚Ä¢ Temps: 0.077s

IMPACT SUR RECHERCHE D'IMAGES
-----------------------------------

PNG_Lossless:
  ‚Ä¢ Pr√©cision baseline: 0.800
  ‚Ä¢ Pr√©cision compress√©e: 0.400
  ‚Ä¢ Perte pr√©cision: 0.400

JPEG_Q8