In [None]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

# Clustering
[PT-BR] Um algoritmo de agrupamento (clustering) analisa vários ponto de dados e encontra automaticamento pontos de dados que são relacionados ou semelhantes entre si

### Aplicações
- Agrupando notícias similares
- Segmentação de mercado
- Analisar dados de DNA
- Análisar dados astronômicos

In [None]:
def closest_centroids(X, centroids):

    K = centroids.shape[0]

    idx = np.zeros(X.shape[0], dtype=int)

    for i in range(X.shape[0]):
        distance = []
        for j in range(centroids.shape[0]):
            norm_ij = np.linalg.norm(X[i] - centroids[j])
            distance.append(norm_ij)
        idx[i] = np.argmin(distance)
    
    return idx

In [None]:
centroids = np.array([[3, 3],
                      [6, 2],
                      [8, 5]])

idx = closest_centroids(X, centroids)

print(f'First five elements in idx are: {idx[:5]}')

In [5]:
def compute_centroids(X, idx, K):

    _, n = X.shape

    centroids = np.zeros((K, n))
    for i in range(K):
        points = X[idx == i]
        centroids[i] = np.mean(points, axis=0)
    return centroids

In [None]:
k = 3
centroids = np.array([[3, 3],
                      [6, 2],
                      [8, 5]])

print(f'The centroids are: {centroids}')

## K-means
Centros do cluster: centróides

Fará um loop de duas coisas diferentes, até o algoritmo convergir:
1. Atribuir pontos aos centróides do agrupamento, atribuir cada ponto para o centróide mais próximo
    * Adivinhar aonde estão os centros do cluester (centróides), depois disso, ele examinará todos os exemplos ($x_1, ..., x_m$), e para cada um deles, ele verificará de qual centróide está mais próximo.  Sinal que aponta para centróides de clusters
2. Mover os centróides do clueter, recalcular os centróides
    * Examinar todos os pontos do primeiro centróide e fazer uma média deles, e isso moverá o centróide analisado para qualquer que seja a localização média dos pontos desse centróide, após isso, faremos o mesmo para o segundo cluster, e assim por diante

### Algoritmo K-means
1. Inicializar aleatoriamente $K$ centróides de clusters ($\mu_1, \mu_2, ..., \mu_K$)
    * $\mu_1, \mu_2, ..., \mu_K$, são vetores que têm a mesma dimensão de seus exemplos de treinamento, de  $x_1, ..., x_m$, por exemplo, se $x_m$ tiver 2 features, $\mu_K$ será um vetor com 2 valores, ou seja, 2 features
2. Repeat {</br>
    Atribuir pontos aos centróides dos clusters, ou seja, cada ponto vermelho ($\mu_1$) ou azul ($\mu_2$), dependendo de qual centróide está mais próximo (Matematicamente, podemos escrever isso como calcular a distância entre $x^{(i)}$ e $\mu_K$. A distância entre dois pontos geralmente é escrita assim: $min_K = || x^{(i)} - \mu_K ||^2$ = norma L2, onde queremos encontrar o valor de $K$ que minimiza essa distância, então, o valor de $K$ que minimiza isso, será atribuido ao $c^{(i)}$)</br>
    for $i$ in range($m$):</br>
        $c^{(i)}$ = index (from 1 to $K$) of cluster centroid closest to $x^{(i)}$</br></br>
    Mover os centróides de cada cluster</br>
    for $k$ in grande($K$):</br>
        $\mu_k$ = média (média do eixo x, da feature $x_1$ e do eixo y, da feature $x_2$) dos pontos atribuídos a esse cluster $k$</br>
}
3. Caso um cluster não tiver nenhum exemplo de treinamento atribuído a ele, eliminamos esse cluster, onde acabamos com $K$ - 1 clusters ou caso não pudermos eliminar esse cluster, reinicializamos aleatoriamente esse centróide de cluster e esperar que ele receba pelo menos alguns pontos na próxima vez

In [None]:
def KMeans(X, centroids, max_iters=10, plot_progress=False):

    m, n = X.shape
    K = centroids.shape[0]
    centroids = centroids
    idx = np.zeros(m)
    plt.figure(figsize=(8, 6))

    for i in range(max_iters):
        print(f'K-Means iteration {i}/{max_iters - 1}')
        idx = closest_centroids(X, centroids)

        centroids = compute_centroids(X, idx, K)
    return centroids, idx

In [None]:
def KMeans_init_centroids(X, K):

    randidx = np.random.permutation(X.shape[0])
    centroids = X[randidx[:K]]
    return centroids