# Evaluation des méthodes avec KNN
## Fonctionnement
- Chaque méthode de classification extrait les descripteurs de l'image (histogrammes, ...)
- Pour une requête donnée, on la compare avec plusieurs images de chaque classe (avec un nombre précis de plus proches voisins)
- On calcule la distance moyenne des descripteurs de la requête avec chacune des classes
- La distance la plus petite nous donne la classe de la requête
## Aide
- Un cache est utilisé pour ne pas recalculer les histogrammes, pour re-éffectuer le calcul il faut le supprimer (dossier cache)
- Si des modifications sont effectuées dans un fichier python, il faut redémarrer le Kernel Jupyter

In [6]:
# -*- coding: utf-8 -*-

from __future__ import print_function

from DB import Database
from color import Color
from daisy import Daisy
from edge import Edge
from fusion import FeatureFusion

from scipy import spatial
import numpy as np

import matplotlib.pyplot as plt

import pandas as pd


In [7]:
class Evaluation(object):

  def make_samples(self):
    raise NotImplementedError("Needs to implemented this method")

# Calcule de la distance entre deux vecteurs en utilisant la methode d_type
def distance(v1, v2, d_type='d1'):
  assert v1.shape == v2.shape, "shape of two vectors need to be same!"

  if d_type == 'd1':
    return np.sum(np.absolute(v1 - v2))
  elif d_type == 'd2':
    return np.sum((v1 - v2) ** 2)
  elif d_type == 'd2-norm':
    return 2 - 2 * np.dot(v1, v2)
  elif d_type == 'd3':
    pass
  elif d_type == 'd4':
    pass
  elif d_type == 'd5':
    pass
  elif d_type == 'd6':
    pass
  elif d_type == 'd7':
    return 2 - 2 * np.dot(v1, v2)
  elif d_type == 'd8':
    return 2 - 2 * np.dot(v1, v2)
  elif d_type == 'cosine':
    return spatial.distance.cosine(v1, v2)
  elif d_type == 'square':
    return np.sum((v1 - v2) ** 2)


def weightingDistances(results):
  # On regroupe les distances par classes
  resultsDf = pd.DataFrame(results)
  resultsDfgroups =  resultsDf.groupby("infer_cls")

  # On calcule la distance moyenne pour chaque classe
  classMean = []
  for name, group in resultsDfgroups:
    classMean.append({'infer_cls': name,'meanDis' : np.mean(group['dis'])})
  
  return classMean
 

def infer(query, samples=None, depth=None, d_type='d1'): 
  # Verifie si les données d'entrainement sont bien fournies
  assert samples != None , "need to give either samples"

  # Extraction de l'image et de son histogramme de la requête
  q_img, q_hist, q_cls = query['img'], query['hist'], query['cls']
  results = []

  # Pour chaque échantillons on les ajoutent aux résultats possible
  for idx, sample in enumerate(samples):
    # On extrait les descripteurs de nos échantillons
    s_img, s_cls, s_hist = sample['img'], sample['cls'], sample['hist']

    # On ajoute les distance entre le descripteur de la requête et le descripteur d'un échantillons)
    results.append({
                    'dis': distance(q_hist, s_hist, d_type=d_type),
                    'infer_cls': s_cls
                  })
  # Résulte contient les distance entre la requête et tout les échantillons de la BDD.
    
  # On tri par ordre croissant (les distances les plus petites en haut)  
  results = sorted(results, key=lambda x: x['dis'])

  # On garde les depth plus proche voisins.
  if depth and depth <= len(results):
    results = results[:depth]

  # On calcule les distances pondérées 
  weightedResults = weightingDistances(results)

  # On tri les distances pondérées pour avoir la classe dont la distance pondérée est la plus petit à l'indice 0
  weightedResults = sorted(weightedResults, key= lambda x: x['meanDis'])
  
  return weightedResults

# Evalue un ensemble de requête  
def evaluate_set(db, set_name, c_instance=None, depth=None, d_type='d1', h_type='region'):

  assert c_instance, "needs to give an instance of class"
  
  # Calcule des échantillons du jeu train
  samples = c_instance.make_samples(db)

  results = []
  set_data = db.get_data(set_name)

  good = 0
  # On infer la classe pour chaque requete du jeu à évaluer
  for d in set_data.itertuples():
    query = {
      "img": getattr(d, "img"),
      "hist": c_instance.histogram(getattr(d, "img"), type=h_type), # Calcule des descripteurs de la requete
      "cls": getattr(d, "cls")
    }
    result = infer(query, samples=samples, depth=depth, d_type=d_type)
    if query['cls'] == result[0]['infer_cls']:
      good+= 1

  return good, len(set_data)

##  Méthode de classification par histogramme de couleur
La méthode classification par histogramme de couleur, génère un histogramme des composantes RGB de l'image, une image avec un histogramme proche de ceux d'autre image est considérée appartenant à la même classe.

In [9]:
db = Database("train", "validation", "test")
classification_method =  Color()

# Paramètres nécessaire à l'évaluation (utiliser les même que dans le fichier color.py)
d_type  = 'd1'      # distance type
depth   = 3         # retrieved depth, set to None will count the ap for whole database

# Evaluation de la méthode de classification
result = evaluate_set(db, "validation", classification_method, depth=depth, d_type=d_type)

print("{} classes correctes sur {} demandées".format(result[0], result[1]))
 

Using cache..., config=histogram_cache-region-n_bin12-n_slice3, distance=d1, depth=3
48 classes correctes sur 60 demandées


##  Méthode de classificiation Daisy
La classification daisy se base sur un histogramme de gradients, il s’agit d’une détection de forme sur certaines régions de l’image (comme le montre la figure 1). L’avantage de cette classification est qu’elle est rapide à calculer.

In [16]:
db = Database("train", "validation", "test")
classification_method =  Daisy()

# Paramètres nécessaire à l'évaluation (utiliser les même que dans le fichier daisy.py)
d_type  = 'd1'      # distance type
depth   = 3         # retrieved depth, set to None will count the ap for whole database

# Evaluation de la méthode de classification
result = evaluate_set(db, "validation", classification_method, d_type=d_type, depth=depth)

print("{} classes correctes sur {} demandés".format(result[0], result[1]))

Using cache..., config=daisy-region-n_slice2-n_orient8-step10-radius15-rings2-histograms6, distance=d1, depth=3
47 classes correctes sur 60 demandés
