# Învățare Automată
# Grupare. Algoritmul K-Means
### Autori:
* Tudor Berariu - 2016
* George Muraru - 2020

## 1.Scopul laboratorului
Scopul laboratorului ı̂l reprezintă ı̂nțelegerea si implementarea unei metode de ı̂nvățarare nesupervizată pentru grupare (engl. clustering): **algoritmul K-Means**.

Structura documentului este următoarea. [Secțiunea 2](https://colab.research.google.com/drive/1Eap7t9FJcP6DSX9z9-F68KJ_vctl7hZC#scrollTo=lmsr8fvNKQ5m) prezintă contextul teoretic și formalizează problema ce se dorește rezolvată. Secțiunea 3 descrie ı̂n detaliu algoritmul K-Means. Secțiunea 4 enumeră câteva dintre limitările algoritmului K-Means și oferă câteva soluții simple pentru depășirea acestora. 

Una dintre aceste probleme se referă la importanța
centroizilor inițiali, iar Secțiunea 5 descrie câteva metode avansate pentru alegerea acestora.
Secțiunea 7 conține cerințele ce trebuie rezolvate ı̂n cadrul laboratorului, datele folosite pentru testare fiind descrise ı̂n Anexa B.

## 2.Problema
Una dintre problemele fundamentale ale ı̂nvățării automate o reprezintă identificarea grupurilor (engl. clusters) ı̂ntr-un set de obiecte astfel ı̂ncât obiectele din același grup să prezinte un grad mare de similaritate. Această problemă de ı̂nvățare nesupervizată se numește cluster analysis.

Problema grupării se poate formaliza ı̂n diferite feluri, existând mai multe abordări.
În acest laborator vom rezolva problema grupării bazate pe **centroizi** (engl. centroid-based clustering).
Alte metode sunt:
* ierarhice (agglomerative vs divisive)
* bazate pe densitate
* bazate pe distribuție

Mai multe detalii se găsesc [aici](https://developers.google.com/machine-learning/clustering/clustering-algorithms).

Se consideră un set de date $X = \{x_{1} , . . . x_{N}\}$ ce conține N exemple ı̂ntr-un spațiu D-dimensional. Scopul este partiționarea setului de date ı̂n K grupuri reprezentate prin K vectori prototip (engl. prototype vectors) $c_{k}$ (unde $k \in \{1,.,K\}$) numiți centre sau centroizi (engl. centroids), astfel ı̂ncât distanța totală de la fiecare exemplu la cel mai apropiat centroid să fie minimă:

$$
\begin{equation}
J = \sum_{i=1}^{N}\sum_{k=1}^{K}in_{i,k} \cdot \left\Vert{x_{i} - c_{k}}\right\Vert^2 \tag{1}
\end{equation}
$$

$$
\begin{equation}
in_{i,k} = 
    \begin{cases}
    1, dacă\ k = argmin\left\Vert{x_{i} - c_{l}}\right\Vert\\
    0, altfel
    \end{cases} \tag{2}
\end{equation}
$$

## 3.Algoritmul K-Means
Algoritmul K-Means pornește de la un set de K centroizi aleși aleator din setul de obiecte. Se repetă alternativ următorii doi pași până când algoritmul converge:
1. Se parcurg toate obiectele din setul de date și fiecare dintre acestea este alocat grupului corespunzator celui mai apropiat centroid
2. Se recalculează centroidul fiecarui grup

Algoritmul converge atunci când în urma unei iterații nu s-a modificat componența grupurilor.

Pentru a înțelege de ce algoritmul K-Means găsește un minim al expresiei J (Formula 1), trebuie observat că cei doi pași optimizează succesiv parametrii $in_{i,k}$ și $c_{k}$.
1. Fixând $c_{k}$, se recalculează $in_{i,k}$ conform ecuației 2.
2. Fixând $in_{i,k}$, un minim al expresiei $J$ se găsește în punctul în care derivata este zero:
$$
\begin{equation}
\sum_{i=1}^{N}in_{i,k}(x_{i} - c_{k}) = 0
\end{equation}
$$

<img src="https://drive.google.com/uc?export=view&id=1V2m8cYakqLohh_mipzup-vzQlWHysGFE"
/>

## 4. Limitări ale algoritmului K-Means
Algoritmul K-Means prezintă următoarele limitări importante:
1. Numărul de grupuri K trebuie cunoscut a priori.
* Dacă acest număr nu este cunoscut, se poate rula algoritmul pentru diferite valori ale lui K și se poate alege o partiție convenabilă. Altfel, se poate alege o altă metodă de grupare.
2. Algoritmul converge către un minim local.
* Nu există o metodă tractabilă care să garanteze un minim global. În practică
se obișnuiește rularea algoritmului de mai multe ori și păstrarea celui mai bun
rezultat.
3. Rezultatul algoritmului depinde de alegerea centroizilor inițiali.
* Există mai multe strategii pentru alegerea centroizilor inițiai ($c_{k}, 1 \le k \le K$), două dintre acestea fiind descrie în Secțiunea 5.

## 5. Alegerea centroizilor inițiali
În algoritmul clasic K-Means cei K centroizi inițiali se aleg aleator din mulțimea obiectelor din setul de date. În continuare sunt descrise două metode mai bune pentru acest pas.

### 5.1 Algoritmul K-Means++
Algoritmul K-Means++ reprezintă o variantă ı̂mbunătățită a algoritmului K-Means ı̂n care centroizii inițiali sunt alesi după cum urmează
* Primul centroid $c_{1}$ se alege aleator din setul de date
* Următorii $K − 1$ se aleg succesiv dintre obiectele din setul de date cu o probabilitate
$$
\begin{equation}
p_i = \frac{D(x_{i})^2}{\sum_{x\in{X}}D(x)^2}
\end{equation}
$$

pentru fiecare obiect $x_{i}\in{X}$, unde $D(x)$ este distanța cea mai mică dintre obiectul $x$ și un centroid deja ales.