In [16]:
import numpy as np
import cv2 as cv
from matplotlib import pyplot as plt
import glob

import os
import pandas as pd
import pickle

import csv
import copy

### Implémentation de sift et surf

Le but de stift et surf est de trouver un ensemble de keypoints et de descripteurs qui permettent de décrire une image qu'importent les transformations que nous y faisons tel qu'une rotation ou un changement d'échelle. 
surf est une version plus rapide de stift et plus étendue.


La valeur 500 permet de paramétrer l'Hessian qui permet de détecter le nombre de coin dans une image. Une plus grande valeur détecte moins de coins. 

In [17]:
def getSurf(img):
    surf = cv.xfeatures2d.SURF_create(500)
    kp, des = surf.detectAndCompute(img,None)
    return kp, des

def getSift(img):
    gray= cv.cvtColor(img,cv.COLOR_BGR2GRAY)
    sift = cv.xfeatures2d.SIFT_create()
    kp = sift.detect(gray,None)
    kp,des = sift.compute(gray,kp)
    return kp, des



Dans chaque fonction nous récupérons la liste des keypoints et la liste des descripteurs, dans le cas de stift cela sera pour les descripteurs une liste de tableaux de taille 128 et dans le cas de surf une liste de tableaux de taille 64

### Etape 1 : lecture des images et génération des descripteurs

Nous allons lire toutes les images, stocker les descripteurs de l'image et le nom de l'image pour savoir dans quelle image nous avons trouvé les descripteurs

In [18]:
descriptors_images = []
descriptors2 = []
for filename in os.listdir('../data/jpg3'):
    img = cv.imread(os.path.join('../data/jpg3',filename))
    if img is not None:
        print(filename)
        kp,des = getSurf(img)
        descriptors_images.append((filename, des))



131402.jpg
131401.jpg
131400.jpg
131000.jpg
133602.jpg
131001.jpg
133600.jpg
133601.jpg
138308.jpg
138309.jpg
133700.jpg
138708.jpg
131102.jpg
133701.jpg
131100.jpg
133703.jpg
133702.jpg
131101.jpg
138302.jpg
133900.jpg
138100.jpg
138706.jpg
138504.jpg
138505.jpg
138707.jpg
138101.jpg
133901.jpg
138303.jpg
138301.jpg
138103.jpg
138705.jpg
138507.jpg
138506.jpg
138704.jpg
138102.jpg
138300.jpg
138304.jpg
130200.jpg
138700.jpg
138502.jpg
138503.jpg
138701.jpg
130201.jpg
138305.jpg
130001.jpg
138307.jpg
138105.jpg
138703.jpg
138501.jpg
138500.jpg
138702.jpg
138104.jpg
138306.jpg
130000.jpg
138605.jpg
134003.jpg
138003.jpg
138201.jpg
138200.jpg
138002.jpg
133802.jpg
134002.jpg
138604.jpg
134000.jpg
133800.jpg
138202.jpg
138203.jpg
138001.jpg
133801.jpg
134001.jpg
138401.jpg
138603.jpg
130303.jpg
130101.jpg
130100.jpg
138004.jpg
130302.jpg
138602.jpg
138400.jpg
138600.jpg
130300.jpg
138012.jpg
130102.jpg
130301.jpg
138601.jpg


Maintenant pour chaque image nous avons un ensemble de descripteurs, ce que nous voulons c'est tous les regrouper et pouvoir les résumer en l'appartenance à un cluster. 

In [19]:
descriptors_images[2][1].shape

(4926, 64)

On crée une immense liste qui contient tous les descripteurs et une autre liste qui contient le nom de l'image lié au descripteurs

In [20]:
alldes = []
alldes_filename = []
for filename, des in descriptors_images:
    for item in des:
        alldes.append(item)
        alldes_filename.append(filename)
alldes = np.array(alldes)
alldes_filename = np.array(alldes_filename)

In [21]:
alldes_filename

array(['131402.jpg', '131402.jpg', '131402.jpg', ..., '138601.jpg',
       '138601.jpg', '138601.jpg'], dtype='<U10')

### Etape 2 : k-means

Le but de kmeans est de trouver k centro-ids qui permet de regrouper le datas et de façon à que les éléments d'un groupe soient très "proches" entre eux et très "éloigné" des autres groupes.

In [22]:
k = 100
criteria = (cv.TERM_CRITERIA_EPS + cv.TERM_CRITERIA_MAX_ITER, 10, 1.0)
ret,label,cente = cv.kmeans(alldes, k,None,criteria,10,cv.KMEANS_RANDOM_CENTERS)

Nous obtenons  la distance au centre pour chaque descripteur ainsi que leur label d'appartenance et le centroid des clusters

On pourrait utiliser la distance au cluster pour regrouper nos descripteurs mais le label suffit. 
Comme nous pouvons le voir ici pour chaque descripteurs nous avons le numéro du label auquel il appartient. 

In [23]:
label

array([[47],
       [29],
       [29],
       ...,
       [93],
       [46],
       [29]], dtype=int32)

In [24]:
lab = []
for l in label:
    lab.append(l[0])
    
lab = np.array(lab)

In [25]:
label.flatten()

array([47, 29, 29, ..., 93, 46, 29], dtype=int32)

Comme nous savons également avec alldes_filename l'image auquel appartient le descripteur nous pouvons crée un dataframe qui relie le nom de l'image à un cluster

In [26]:
df = pd.DataFrame(np.vstack((alldes_filename, lab)).T, columns=['image', 'cluster']) 

In [27]:
df.to_csv("../data/clusters.csv", encoding='utf-8', index=False)
