## Recherche par similarité par histogrammes de couleur ##

**TP1**: calcul de l'histogramme tridimensionnel RGB en 4x4x4 d'une image jpeg et comparaison par distance du Chi2 entre deux images.

Pour le calcul de l'histogramme, il ne faut pas ultiliser la fonction de matplotlib (qui ne fonctionne que pour le cas monodimensionnel). Il faut parcourir les pixels de l'image et pour chacun, incrémenter la valeur de la case correspondante de l'histogramme.

Récupérer une dizaine d'images JPEG, calculer les histogrammes pour toutes puis en choisir une comme image requête et classer les autres par similarité visuelle évaluée selon leurs histogrammes et la distance du Chi2. Afficher la requête et la liste de résultats. Normaliser les histogrammes (L1) et tester avec la même image à des tailles différentes.

Affichage des histogrammes : il n'est pas nécessaire d'afficher les histogrammes pour ce TP, il est juste prévu de les comparer avec une distance Chi2. Si toutefois vous voulez les visualiser, la fonction plt.hist calcule l'histogramme avant de l'afficher. S'il est déjà calculé et qu'il n'y a plus qu'à l'afficher, la méthode suivante fonctionne :

<code>plt.hist(range(0,64),64,weights=np.ravel(h))</code>

In [1]:
import matplotlib.pyplot as plt
import matplotlib.image as mpimg
import numpy as np

In [2]:
def calculate_rgb_histogram(image):
    img = mpimg.imread(image)
    img_array = np.array(img)
    
    # Normaliser les valeurs des pixels entre 0 et 3 (4 * 4 * 4)
    img_array = img_array // 64
    
    # Initialiser l'histogramme à zéro
    histogram = np.zeros((4, 4, 4))
    
    # Remplir l'histogramme en parcourant les pixels
    for row in img_array:
        
        for pixel in row:
            r, g, b = pixel
            histogram[r, g, b] += 1
    
    # Normaliser l'histogramme (L1)
    histogram /= np.sum(histogram)
    
    return histogram


In [3]:
def chi_square_distance(hist1, hist2):
    return np.sum(((hist1 - hist2) ** 2) / (hist1 + hist2 + 1e-10))

In [4]:
# Liste d'images JPEG
image_files = ['images/hacker1.jpeg', 'images/hacker2.jpeg', 'images/hacker3.jpeg', 'images/mask1.jpeg', 'images/mask2.jpeg']


In [5]:
# Calculer l'histogramme pour chaque image
histograms = [calculate_rgb_histogram(image) for image in image_files]


In [6]:
# Image requête (choisir une parmi les images)
query_image_index = 0

In [7]:
query_histogram = histograms[query_image_index]

In [8]:
# Calculer la distance du Chi2 avec toutes les autres images
distances = [chi_square_distance(query_histogram, hist) for hist in histograms]

In [9]:
sorted_indices = np.argsort(distances)

In [10]:
# Afficher les résultats
print(f"Image requête: {image_files[query_image_index]}")

Image requête: images/hacker1.jpeg


In [11]:
print("Résultats:")
for i, index in enumerate(sorted_indices):
    print(f"{i + 1}. {image_files[index]} - Distance du Chi2: {distances[index]}")


Résultats:
1. images/hacker1.jpeg - Distance du Chi2: 0.0
2. images/hacker3.jpeg - Distance du Chi2: 0.12077057212773681
3. images/hacker2.jpeg - Distance du Chi2: 0.46831978055262535
4. images/mask2.jpeg - Distance du Chi2: 1.453641202872059
5. images/mask1.jpeg - Distance du Chi2: 1.4995825762184447


Image requête: images/hacker1.jpeg

Résultats:
1. images/hacker1.jpeg - Distance du Chi2: 0.0
2. images/hacker3.jpeg - Distance du Chi2: 0.12077057212773681
3. images/hacker2.jpeg - Distance du Chi2: 0.46831978055262535
4. images/mask2.jpeg - Distance du Chi2: 1.453641202872059
5. images/mask1.jpeg - Distance du Chi2: 1.4995825762184447


En observant les résultats de la distance du Chi2, on peut déduire plusieurs informations :

1. **Image requête par elle-même:** La distance du Chi2 entre l'image requête "images/hacker1.jpeg" et elle-même est de 0.0, ce qui est attendu. Cela confirme que la distance entre une image et elle-même est nulle.

2. **Images similaires:** Les images "images/hacker1.jpeg", "images/hacker2.jpeg" et "images/hacker3.jpeg" ont une distance du Chi2 très faible (0.12077057212773681), ce qui suggère une similarité élevée dans la distribution des couleurs entre ces deux images.

3. **Images différentes :** Les images "images/mask2.jpeg" et "images/mask1.jpeg" ont les distances du Chi2 les plus élevées par rapport à l'image requête, indiquant qu'elles sont les moins similaires en termes de distribution des couleurs.

En résumé, la distance du Chi2 fournit une mesure de la similarité entre les images en fonction de la distribution des couleurs. Des distances plus faibles indiquent une similarité plus élevée, tandis que des distances plus élevées indiquent une dissimilarité plus importante.