# Clustering d'Images avec Scikit-learn et Visualisation avec Streamlit

Le clustering est une technique d'apprentissage non supervisé qui permet de regrouper des données similaires en différents groupes ou clusters. Dans le contexte de l'analyse d'images, le clustering peut être utilisé pour segmenter des images, détecter des objets ou des régions d'intérêt, et comprendre la structure des données d'image. Ce TP vous guidera à travers le processus de clustering d'un ensemble d'images de chiffres manuscrits en utilisant l'algorithme K-Means et l'extraction de caractéristiques HOG et d'histogrammes de niveaux de gris. Vous visualiserez ensuite les résultats du clustering à l'aide de la bibliothèque Streamlit.


À la fin de ce TP, vous aurez une compréhension pratique du processus de clustering d'images, de l'extraction de caractéristiques, de l'évaluation des performances et de la visualisation des résultats à l'aide de Streamlit. Ces compétences sont précieuses dans de nombreux domaines tels que la vision par ordinateur, le traitement d'images médicales, l'analyse de données d'imagerie satellitaire, et bien d'autres.


In [6]:
from sklearn.preprocessing import StandardScaler
import os
import pandas as pd
from sklearn import datasets

from features import *
from clustering import *
from utils import *
from constant import  PATH_OUTPUT, MODEL_CLUSTERING


In [7]:
#pip install -r ../requierements.txt


## Partie 1 : Création du modèle de clustering d'images
#### (fichier pipeline.py)

**1. Chargement des données d'images de chiffres manuscrits à partir du dataset Digits.**
   - Vous utiliserez le célèbre dataset Digitis qui contient des images de chiffres manuscrits. Ce dataset est souvent utilisé pour tester des algorithmes de reconnaissance de chiffres et d'apprentissage automatique.



In [9]:
print("##### Chargement des données ######")
digits = datasets.load_digits()
labels_true =digits.target
images = digits.images


##### Chargement des données ######


In [10]:
print(images[0])
print()
print(images[1])

[[ 0.  0.  5. 13.  9.  1.  0.  0.]
 [ 0.  0. 13. 15. 10. 15.  5.  0.]
 [ 0.  3. 15.  2.  0. 11.  8.  0.]
 [ 0.  4. 12.  0.  0.  8.  8.  0.]
 [ 0.  5.  8.  0.  0.  9.  8.  0.]
 [ 0.  4. 11.  0.  1. 12.  7.  0.]
 [ 0.  2. 14.  5. 10. 12.  0.  0.]
 [ 0.  0.  6. 13. 10.  0.  0.  0.]]

[[ 0.  0.  0. 12. 13.  5.  0.  0.]
 [ 0.  0.  0. 11. 16.  9.  0.  0.]
 [ 0.  0.  3. 15. 16.  6.  0.  0.]
 [ 0.  7. 15. 16. 16.  2.  0.  0.]
 [ 0.  0.  1. 16. 16.  3.  0.  0.]
 [ 0.  0.  1. 16. 16.  6.  0.  0.]
 [ 0.  0.  1. 16. 16.  6.  0.  0.]
 [ 0.  0.  0. 11. 16. 10.  0.  0.]]


**2. Extraction des caractéristiques HOG (Histogrammes de Gradients Orientés) et des histogrammes de niveaux de gris à partir des images.**
   - Les caractéristiques HOG capturent les informations de gradient et de bords dans les images, ce qui les rend utiles pour la reconnaissance d'objets et de formes.
   - Les histogrammes de niveaux de gris représentent la distribution des intensités de pixels dans l'image, fournissant des informations sur la texture et les motifs.

**TODO :**
   - Implémentez les fonctions `compute_hog_descriptors` et `compute_gray_histograms` dans  le fichier `features.py`, utilisez respectivement les fonctions `hog` de  la librairie `skimage` et  `calcHist` de `cv2`.
   - lien HOG : https://scikit-image.org/docs/stable/auto_examples/features_detection/plot_hog.html
   - lien  histogrammes de niveaux de gris : https://pyimagesearch.com/2021/04/28/opencv-image-histograms-cv2-calchist/
   

In [12]:

print("\n\n ##### Extraction de Features ######")
print("- calcul features hog...")
descriptors_hog = compute_hog_descriptors(images)
print("- calcul features Histogram...")
descriptors_hist = compute_gray_histograms(images)




 ##### Extraction de Features ######
- calcul features hog...
- calcul features Histogram...


In [13]:
# Pour HOG
descriptors_hog = np.array(descriptors_hog)
print("Shape HOG :", descriptors_hog.shape)  # Doit être (n_samples, n_features)

# Pour les histogrammes
descriptors_hist = np.array(descriptors_hist)
print("Shape Hist :", descriptors_hist.shape)  # Doit être (n_samples, n_features)

Shape HOG : (1797, 36)
Shape Hist : (1797, 256)



**3. Application de l'algorithme K-Means sur les caractéristiques extraites pour obtenir les clusters.**
   - L'algorithme K-Means est un algorithme de clustering populaire qui partitionne les données en K clusters en minimisant la somme des carrés des distances entre les points de données et les centroïdes des clusters.
   
   
 
 **TODO :**
   - Dans le fichier `clustering.py` implémentez les fonctions `initialize_centers()`, `nearest_cluster()` et `fit()` du KMeans.
   

In [21]:
print(descriptors_hog[0])

[0.30081626 0.1975201  0.24791601 0.21325635 0.         0.
 0.         0.         0.         0.30081626 0.         0.
 0.         0.09860799 0.12249676 0.26387247 0.18625954 0.21527182
 0.30081626 0.         0.         0.         0.         0.14902375
 0.14289453 0.12249676 0.28445089 0.30081626 0.30081626 0.29606778
 0.         0.         0.         0.         0.         0.        ]


In [11]:
print("\n\n ##### Clustering ######")
number_cluster = 10
kmeans_hog = KMeans(number_cluster)
kmeans_hist = KMeans(number_cluster)

print("- calcul kmeans avec features HOG ...")
kmeans_hog.fit(np.array(descriptors_hog))
print("- calcul kmeans avec features Histogram...")
kmeans_hist.fit(np.array(descriptors_hist))



 ##### Clustering ######
- calcul kmeans avec features HOG ...
- calcul kmeans avec features Histogram...


In [12]:
# Exemple d'utilisation
kmeans = KMeans(n_clusters=10, random_state=42)
kmeans.fit(descriptors_hog)  # ou descriptors_hist

# Vérification des labels
print("Shape des labels :", kmeans.labels_.shape)  # Doit être (1797,)
print("Valeurs uniques :", np.unique(kmeans.labels_))  # Doit afficher [0 1 2 3 4 5 6 7 8 9]

Shape des labels : (1797,)
Valeurs uniques : [0 1 2 3 4 5 6 7 8 9]


**4. Évaluation des performances du clustering en utilisant des métriques telles que la pureté, l'entropie, et les scores Rand et Mutual Information.**
   - La pureté mesure la fraction d'exemples de cluster qui sont membres du cluster majoritaire.
   - L'entropie est une mesure de désordre ou d'impureté dans les clusters.
   - Le score Rand mesure la similarité entre deux partitions en comparant les paires d'exemples.
   - Le score Mutual Information évalue la quantité d'information partagée entre deux partitions.


In [14]:

print("\n\n##### Résultat ######")
metric_hist = show_metric(labels_true, kmeans_hist.labels_, descriptors_hist, bool_show=True, name_descriptor="HISTOGRAM", bool_return=True)
print("\n\n")
metric_hog = show_metric(labels_true, kmeans_hog.labels_, descriptors_hog,bool_show=True, name_descriptor="HOG", bool_return=True)




##### Résultat ######
########## Métrique descripteur : HISTOGRAM
Adjusted Rand Index: 0.03916815607950104
Jaccard Index: 0.05955041314651436
Homogeneity: 0.0854074400220543
Completeness: 0.08954386713742166
V-measure: 0.08742675417578798
Silhouette Score: 0.0518353208899498
Adjusted Mutual Information: 0.0779938737775304



########## Métrique descripteur : HOG
Adjusted Rand Index: 0.509212906028302
Jaccard Index: 0.05640973499922134
Homogeneity: 0.5959904492483094
Completeness: 0.6042452605305714
V-measure: 0.6000894680031185
Silhouette Score: 0.07100599056317991
Adjusted Mutual Information: 0.5960575331461502


**5. Conversion des données de clustering au format requis pour la visualisation avec Streamlit.**


In [16]:
list_dict = [metric_hist,metric_hog]
df_metric = pd.DataFrame(list_dict)

scaler = StandardScaler()
descriptors_hist_norm = scaler.fit_transform(descriptors_hist)
descriptors_hog_norm = scaler.fit_transform(descriptors_hog)

#conversion vers un format 3D pour la visualisation
x_3d_hist = conversion_3d(descriptors_hist_norm)
x_3d_hog = conversion_3d(descriptors_hog_norm)

# création des dataframe pour la sauvegarde des données pour la visualisation
df_hist = create_df_to_export(x_3d_hist, labels_true, kmeans_hist.labels_)
df_hog = create_df_to_export(x_3d_hog, labels_true, kmeans_hog.labels_)

# Vérifie si le dossier existe déjà
if not os.path.exists(PATH_OUTPUT):
    # Crée le dossier
    os.makedirs(PATH_OUTPUT)

# sauvegarde des données
df_hist.to_excel(PATH_OUTPUT+"/save_clustering_hist_kmeans.xlsx")
df_hog.to_excel(PATH_OUTPUT+"/save_clustering_hog_kmeans.xlsx")
df_metric.to_excel(PATH_OUTPUT+"/save_metric.xlsx")




***6. Création du fichier pipeline.py*** 
- Mettez au propre le code dans le fichier pipeline.py
- Puis exécutez :  `python pipeline.py `

In [29]:
!python pipeline.py

##### Chargement des données ######


 ##### Extraction de Features ######
- calcul features hog...
- calcul features Histogram...


 ##### Clustering ######
- calcul kmeans avec features HOG ...
- calcul kmeans avec features Histogram...


 ##### Résultat ######
########## Métrique descripteur : HISTOGRAM
Adjusted Rand Index: 0.03423672491767972
Jaccard Index: 0.06254882609399884
Homogeneity: 0.08407387137661493
Completeness: 0.08887172940924448
V-measure: 0.08640624928785196
Silhouette Score: 0.053603265434503555
Adjusted Mutual Information: 0.07691904713048492
########## Métrique descripteur : HOG
Adjusted Rand Index: 0.5116634185014238
Jaccard Index: 0.1258268675246286
Homogeneity: 0.6045880144041541
Completeness: 0.6150027245044831
V-measure: 0.6097509011818837
Silhouette Score: 0.08253210359106301
Adjusted Mutual Information: 0.605806584346162
- export des données vers le dashboard
Fin. 

 Pour avoir la visualisation dashboard, veuillez lancer la commande : streamlit run dashboar


## Partie 2 : Visualisation des résultats du clustering avec Streamlit
### (fichier dashboad_clustering.py)

Cette partie constituera le rendu final du TP. Nous développerons une application Streamlit pour visualiser et analyser les résultats du clustering.

L'application permettra de :

***1. Visualisation 3D du clustering***
- Nous créerons une visualisation 3D interactive des clusters obtenus, avec la possibilité de mettre en évidence un cluster spécifique et d'afficher des exemples d'images appartenant à ce cluster.

***TODO :***
- Utilizer la fonction `scatter_3d()` pour faire un plot 3D du clustering.
- lien : https://plotly.com/python/3d-scatter-plots/




In [8]:
import matplotlib.pyplot as plt
import plotly.express as px


***2. Métriques d'évaluation***
- Nous calculerons et afficherons diverses métriques d'évaluation, telles que le score AMI (Adjusted Mutual Information), pour quantifier la qualité du clustering obtenu avec chaque descripteur.

***TODO :*** 
- Utilisez la fonction `px.bar()` pour afficher un histogramme du score AMI.
- lien : https://plotly.com/python/horizontal-bar-charts/

In [2]:
graph_size = 300


In [13]:
df_metric

Unnamed: 0,ami,ari,silhouette,homogeneity,completeness,v_measure,jaccard,descriptor,name_model
0,0.134182,0.068122,0.063914,0.141543,0.144184,0.142851,0.057647,HISTOGRAM,kmeans
1,0.415635,0.31403,0.110121,0.417808,0.425218,0.42148,0.081767,HOG,kmeans


***3. Finalisation du fichier dashboard_clustering.py***

***TODO :***
- Ajoutez les graphiques dans le fichier, puis lancez la commande :  `streamlit run dashboard_clustering.py `

In [None]:
import streamlit as st
import pandas as pd
import numpy as np
from sklearn.cluster import KMeans
from sklearn.datasets import load_digits
from sklearn.manifold import TSNE
import matplotlib.pyplot as plt
import plotly.express as px
import cv2

from constant import PATH_OUTPUT, MODEL_CLUSTERING


@st.cache_data
def colorize_cluster(cluster_data, selected_cluster):
    fig = px.scatter_3d(cluster_data, x='x', y='y', z='z', color='cluster')
    filtered_data = cluster_data[cluster_data['cluster'] == selected_cluster]
    fig.add_scatter3d(x=filtered_data['x'], y=filtered_data['y'], z=filtered_data['z'],
                    mode='markers', marker=dict(color='red', size=10),
                    name=f'Cluster {selected_cluster}')
    return fig

@st.cache_data
def plot_metric(df_metric):
    """Affiche les scores AMI sous forme d'histogramme comparatif"""
    fig = px.bar(
        df_metric,
        x='descriptor',
        y='ami',
        color='descriptor',
        title='Comparaison du score AMI entre descripteurs',
        labels={'ami': 'Adjusted Mutual Info Score', 'descriptor': 'Type de descripteur'}
    )
    st.plotly_chart(fig)

        
#Chargement des données du clustering
#Modifier les lectures des fichiers Excel (ajouter engine='openpyxl')
df_hist = pd.read_excel(PATH_OUTPUT+"/save_clustering_hist_kmeans.xlsx", engine='openpyxl')
df_hog = pd.read_excel(PATH_OUTPUT+"/save_clustering_hog_kmeans.xlsx", engine='openpyxl')
df_metric = pd.read_excel(PATH_OUTPUT+"/save_metric.xlsx", engine='openpyxl')

if 'Unnamed: 0' in df_metric.columns:
    df_metric.drop(columns="Unnamed: 0", inplace=True)

#Création de deux onglets
tab1, tab2 = st.tabs(["Analyse par descripteur", "Analyse global" ])

#Onglet numéro 1
with tab1:

    st.write('## Résultat de Clustering des données DIGITS')
    st.sidebar.write("####  Veuillez sélectionner les clusters à analyser" )
    # Sélection des descripteurs
    descriptor =  st.sidebar.selectbox('Sélectionner un descripteur', ["HISTOGRAM","HOG"])
    if descriptor=="HISTOGRAM":
        df = df_hist
    if descriptor=="HOG":
        df = df_hog
    # Ajouter un sélecteur pour les clusters
    selected_cluster =  st.sidebar.selectbox('Sélectionner un Cluster', range(10))
    # Filtrer les données en fonction du cluster sélectionné
    cluster_indices = df[df.cluster==selected_cluster].index    
    st.write(f"###  Analyse du descripteur {descriptor}" )
    st.write(f"#### Analyse du cluster : {selected_cluster}")
    st.write(f"####  Visualisation 3D du clustering avec descripteur {descriptor}" )
    # Sélection du cluster choisi
    filtered_data = df[df['cluster'] == selected_cluster]
    
    # Création d'un graph 3D des cluster
    fig = colorize_cluster(df, selected_cluster)  # Génération de la figure
    st.plotly_chart(fig)  # Affichage de la figure

#Onglet numéro 2
with tab2:
    st.write('## Analyse Global des descripteurs')
    # Affichage des histogrammes
    plot_metric(df_metric)
    
    st.write('## Métriques ')
    # Affichage du tableau récapitulatif
    st.dataframe(
    df_metric[['descriptor', 'ami', 'ari', 'v_measure', 'silhouette']]
    .style
    .highlight_max(color='lightgreen', subset=['ami', 'ari', 'v_measure', 'silhouette'])
    .format("{:.2f}", subset=['ami', 'ari', 'v_measure', 'silhouette']),  # <-- Correction ici
    height=200
)


#### LANCER LE PROG
Il faut que les excels soit crée

Lancer : `python pipeline.py` <br>
avant le : `streamlit run dashboard_clustering.py `

#### Score AMI et HOG

LIEN AMI : https://www.google.com/search?q=score+AMI+python&client=firefox-b-d&sca_esv=d4b7a29fd02e8386&ei=GdzGZ-aTCZDskdUPje7GgAY&ved=0ahUKEwimhLvfofCLAxUQdqQEHQ23EWAQ4dUDCBA&uact=5&oq=score+AMI+python&gs_lp=Egxnd3Mtd2l6LXNlcnAiEHNjb3JlIEFNSSBweXRob24yBxAhGKABGAoyBxAhGKABGApIkSZQshBYkCVwAngAkAEAmAFkoAGuBaoBAzguMbgBA8gBAPgBAZgCC6AC6gXCAgsQABiABBiwAxiiBMICCBAAGLADGO8FwgIFEAAYgATCAgcQABiABBgKwgIKEAAYgAQYRhj9AcICFhAAGIAEGEYY_QEYlwUYjAUY3QTYAQHCAgYQABgWGB7CAgUQABjvBcICCBAAGIAEGKIEwgIEECEYFcICBRAhGJ8FwgIFECEYoAGYAwCIBgGQBgW6BgYIARABGBOSBwQxMC4xoAfiMg&sclient=gws-wiz-serp

##### AMI :
Le problème du "hasard"

Si tu regroupes aléatoirement les jouets (sans logique), il y aura quand même un peu de similitudes par chance avec la bonne méthode.
→ C’est comme si tu gagnais à un jeu de dés sans savoir jouer : c’est juste de la chance, pas de la compétence.

##### L’AMI, le "score anti-chance"

L’Adjusted Mutual Information (AMI) est un score qui :

    Mesure à quel point vos deux regroupements se ressemblent.(Regarde si deux tris de jouets se ressemblent.)
    Enlève les points communs dus uniquement au hasard
    Donne un résultat entre 0 et 1 :

        1 = Vos regroupements sont parfaitement identiques (ex: triés par type tous les deux).
        0 = Vos regroupements sont aussi similaires que s’ils étaient faits au hasard.



LIEN VIDEO HOG : https://www.youtube.com/watch?v=t4pgvy_hiRk

a) Détecter les "bordures" (contours)

    Comment ? L’image est convertie en noir et blanc.
    On cherche où la luminosité change brusquement (ex: passage du noir au blanc = bordure d’un objet).
    Exemple : Le contour d’un visage est une zone où la couleur de la peau contraste avec le fond.

b) Calculer les "flèches" (gradients)

    Pour chaque pixel d’une bordure, on calcule une flèche :
        Direction : Où va la bordure (ex: horizontale, verticale, diagonale).
        Longueur : À quel point le changement est fort (ex: bordure nette → flèche longue).

    Exemple : Un trait vertical (comme une jambe) aura des flèches orientées vers le haut/bas.