# K-means
**[EN-US]**

It will loop two different things, until the algorithm converges:
1. Assign points to cluster centroids, assign each point to the closest centroid.
    * Guess where the centers of the clusters (centroids) are, after that, it will examine all the examples ($x_1, ..., x_m$), and for each of them, it will check which centroid it is closest to.
2. Move cluster centroids, recalculate centroids.
    * Examine all the points of the first centroid and average them, and this will move the analyzed centroid to whatever the average location of the points of that centroid is, after that, we will do the same for the second cluster, and so on.

**[PT-BR]**

Fará um loop de duas coisas diferentes, até o algoritmo convergir:
1. Atribuir pontos aos centróides do agrupamento, atribuir cada ponto para o centróide mais próximo.
    * Adivinhar aonde estão os centros dos clusters (centróides), depois disso, ele examinará todos os exemplos ($x_1, ..., x_m$), e para cada um deles, ele verificará de qual centróide está mais próximo.
2. Mover os centróides do cluster, recalcular os centróides.
    * Examinar todos os pontos do primeiro centróide e fazer uma média deles, e isso moverá o centróide analisado para qualquer que seja a localização média dos pontos desse centróide, após isso, faremos o mesmo para o segundo cluster, e assim por diante.

## Table of Contents
* [Libraries](#Libraries-(Bibliotecas))
* [Clustering](#Clustering-(Agrupamento))
    * [Applications](#Applications-(Aplicações))
    * [Centroids](#Centroids-(Centróides))
    * [Computing Centroids Means](#Computing-Centroids-Means-(Calculando-a-Média-dos-Centroides))
    * [K-means Algorithm](#K-means-Algorithm-(Algoritmo-K-means))

## Libraries (Bibliotecas)

In [None]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

## Clustering (Agrupamento)
**[EN-US]**

A clustering algorithm analyzes multiple data points and automatically finds data points that are related or similar to each other.

**[PT-BR]**

Um algoritmo de agrupamento (clustering) analisa vários ponto de dados e encontra automaticamento pontos de dados que são relacionados ou semelhantes entre si.

## Applications (Aplicações)
**[EN-US]**

- Grouping similar news
- Market segmentation
- Analyze DNA data
- Analyze astronomical data

**[PT-BR]**
- Agrupando notícias similares
- Segmentação de mercado
- Analisar dados de DNA
- Análisar dados astronômicos

### Centroids (Centróides)
$$c^{(i)} := j \quad \text{minimize (minimizar): } ||x^{(i)} - \mu_j||^2$$
**[EN-US]**

1. Randomly initialize $K$ cluster centroids ($\mu_1, \mu_2, ..., \mu_K$).
    * $\mu_1, \mu_2, ..., \mu_K$, are vectors that have the same dimension as your training examples, of $x_1, ..., x_m$, for example, if $x_m$ has 2 features , $\mu_K$ will be a vector with 2 values, that is, 2 features.
2. Assign points to cluster centroids and move cluster centroids.
3. In case a cluster does not have any training examples assigned to it, we eliminate that cluster, where we end up with $K$ - 1 clusters or in case we cannot eliminate that cluster, we randomly reset that cluster centroid and wait for it to receive at least some points next time.
* $c^{(i)}$ is the index of the centroid that is closest to $x^{(i)}$. 
* $\mu_j$ is the position (value) of the $j$’th centroid.

**[PT-BR]**
1. Inicializar aleatoriamente $K$ centróides de clusters ($\mu_1, \mu_2, ..., \mu_K$).
    * $\mu_1, \mu_2, ..., \mu_K$, são vetores que têm a mesma dimensão de seus exemplos de treinamento, de  $x_1, ..., x_m$, por exemplo, se $x_m$ tiver 2 features, $\mu_K$ será um vetor com 2 valores, ou seja, 2 features.
2. Atribuir pontos aos centróides dos clusters e mover os centróides dos clusters.
3. Caso um cluster não tiver nenhum exemplo de treinamento atribuído a ele, eliminamos esse cluster, onde acabamos com $K$ - 1 clusters ou caso não pudermos eliminar esse cluster, reinicializamos aleatoriamente esse centróide de cluster e esperar que ele receba pelo menos alguns pontos na próxima vez.
* $c^{(i)}$ é o índice do centróide que está mais próximo de $x^{(i)}$.
* $\mu_j$ é a posição (valor) do $j$’ésimo centróide.

In [None]:
def closest_centroids(X, centroids):

    K = centroids.shape[0]

    idx = np.zeros(X.shape[0], dtype=int)

    for i in range(X.shape[0]):
        distance = []
        for j in range(centroids.shape[0]):
            norm_ij = np.linalg.norm(X[i] - centroids[j])
            distance.append(norm_ij)
        idx[i] = np.argmin(distance)
    
    return idx

In [None]:
centroids = np.array([[3, 3],
                      [6, 2],
                      [8, 5]])

idx = closest_centroids(X, centroids)

print(f'First five elements in idx are: {idx[:5]}')

### Computing Centroids Means (Calculando a Média dos Centroides)
$$\mu_k = \frac{1}{|C_k|} \sum_{i\ \in\ C_k} x^{(i)}$$
**[EN-US]**

* $C_k$ is the set of examples that are assigned to centroid $k$
* $|C_k|$ is the number of examples in the set $C_k$

**[PT-BR]**

* $C_k$ é o conjunto de exemplos atribuídos ao centróide $k$
* $|C_k|$ é o número de exemplos no conjunto $C_k$

In [5]:
def compute_centroids(X, idx, K):

    _, n = X.shape

    centroids = np.zeros((K, n))
    for i in range(K):
        points = X[idx == i]
        centroids[i] = np.mean(points, axis=0)
    return centroids

In [None]:
k = 3
centroids = np.array([[3, 3],
                      [6, 2],
                      [8, 5]])

print(f'The centroids are: {centroids}')

### K-means Algorithm (Algoritmo K-means)

In [None]:
def KMeans(X, centroids, max_iters=10, plot_progress=False):
    m, n = X.shape
    K = centroids.shape[0]
    centroids = centroids
    idx = np.zeros(m)
    plt.figure(figsize=(8, 6))

    for i in range(max_iters):
        print(f'K-Means iteration {i}/{max_iters - 1}')
        idx = closest_centroids(X, centroids)

        centroids = compute_centroids(X, idx, K)
    return centroids, idx

In [None]:
def KMeans_init_centroids(X, K):
    randidx = np.random.permutation(X.shape[0])
    centroids = X[randidx[:K]]
    return centroids