## Partie Théorique

L'idée intuitive du clustering est de créer des groupes en fonction de la similarité des différents points. En somme, si l'on prend deux points d'un même groupe, leur similarité sera plutôt grande, inversement si l'on prend deux points de deux groupes distincts, leur similarité sera petite.

Par ailleurs, on peut dérivé le Clustering Spectral en un tout autre problème, à savoir celui de partitioner un graphe. En effet, le clustering peut-être transposé en la recherche d'une partition du graphe tel que les arêtes entre des points de deux groupes différents soientt de poids très petits et inversement, que dans un même groupe le poid soit plutôt grand.

Soit un un graphe de similitude et $W$ sa matrice adjacente.
Une façon simple de construire une partition du graphe est de résoudre le mincut problème.
On note $W(A,B) := \sum_{i \in A,j \in B} w_{ij}$ et $A^{c}$ le complémentaire de A.
Le mincut problème, étant donné k sous-ensemble demandé, revient à de façon intuitive à trouver une partition $A_{1},...,A_{k}$ tel que $cut(A_{1},...,A_{k}) := \frac{1}{2} \sum_{i=1}^{k} W(A_{i},A_{i}^{c})$.

Mais on souhaite tout de même que chaque $A_{i}$ soit un groupe de points assez conséquent, afin de pouvoir tirer des conclusions sur les données. Il existe ainsi deux manières d'imposer cette condition, le RatioCut qui mesure la taille de chaque ensemble en comptant le nombre de sommet dans $A_{i}$, et la coupe normalisée Ncut qui lui utilise le poid des arêtes. 
Ainsi on a :
$RatioCut(A_{1},...,A_{k}) := \sum_{i=1}^{k} \frac{cut(A_{i},A_{i}^{c})}{|A_{i}|}$.

$Ncut(A_{1},...,A_{k}) := \sum_{i=1}^{k} \frac{cut(A_{i},A_{i}^{c})}{vol(A_{i})}$.

où $|A|$ est le nombre de sommet de $A$ et $vol(A)$ est la somme du poids des arêtes de $A$.

On remarquera ainsi que le RatioCut est transcription du spectral clustering non normalisé, tandis que le Ncut celui du normalisé

### RatioCut

Soit k le nombre de sous-ensemble dans la partition $V$.
On défini $h_{j}=(h_{1,j},...,h_{n,j})'$ k vecteurs tel que 

$h_{i,j} = \left\{
  \begin{array}{rcr}
    1/ \sqrt|A_{j}| & si & v_{i} \in A_{j}\\
    0 & sinon\\
  \end{array}
\right.$

$(i=1,...,n; j=1,...,k).$

On considère $H \in \mathbb{R}^{n*k}$ la matrice contenant ces k vecteurs comme colonnes.

On calcul $h_{i}'Lh_{i} = \frac{cut(A_{i},A_{i}^{c})}{|A_{i}|}$

Par ailleurs on a aussi $h_{i}'Lh_{i} =(H'LH)_{ii}$

D'où $RatioCut(A_{1},...,A_{k})=Tr(H'LH)$

Ainsi la minimisation de $RatioCut(A_{1},...,A_{k})$ peut-être formulée comme 

$min_{A_{1},...,A_{k}} Tr(H'LH)$ tel que $H'H=I$

In [None]:
knearest = function(k,d,mutual=FALSE){
    n=nrow(d)
    #Matrix n*p of zero
    M=matrix(data=numeric(n*n),ncol=n,nrow=n)
    for(i in 1:n){
        #Iterate the number of point that we have to connect
        kk=k
        while(kk>0){
            #Cordinates of the nearest point of i
            #Start at (i,1)
            ii=i
            if(i==1){ jj=2 }
            else{ jj=1 }
            if(mutual){
                min2=d[jj,ii] 
                min=d[ii,jj] 
            }
            else{
                min=d[ii,jj]
            }
            #Found the cordinates of the nearest point of i
            for(j in 1:n){
                if(j!=i){
                    if(mutual){
                        if(d[i,j]<min && M[i,j]==0 && d[j,i]<min2 && M[j,i]==0){
                            min=d[i,j]
                            min2=d[j,i]
                            ii=i
                            jj=j
                        }
                    }
                    else{
                        if((d[i,j]<min && M[i,j]==0)){
                            min=min(d[i,j],d[j,i])
                            ii=i
                            jj=j
                        }

                    }
                }
            }
            kk=kk-1
            #M take the nearest point which is at (ii,jj)
            if(mutual){
                
            }
            else{
                M[ii,jj]=d[ii,jj]
            }
        }
    }
    return(M)
}