# K-means Clustering

Neste exercício, você implementará o algoritmo K-means e o usará para compactação de imagem.

* Você começará com um conjunto de dados de amostra que o ajudará a obter uma intuição de como funciona o algoritmo K-means.
* Depois disso, você usará o algoritmo K-means para compactação de imagem, reduzindo o número de cores que ocorrem em uma imagem apenas para aquelas que são mais comuns nessa imagem.




# Outline
- [ 1 - Implementando K-means](#1)
   - [1.1 Encontrando centróides mais próximos](#1.1)
     - [Exercício 1](#ex01)
   - [1.2 Computação do centróide significa](#1.2)
     - [Exercício 2](#ex02)
- [ 2 - K-means em um conjunto de dados de amostra ](#2)
- [ 3 - Inicialização aleatória](#3)
- [ 4 - Compressão de imagem com K-means](#4)
   - [ 4.1 Conjunto de dados](#4.1)
   - [4,2 K-Means em pixels de imagem](#4,2)
   - [4.3 Comprimir a imagem](#4.3)

>_**OBSERVAÇÃO:** Para evitar erros do autoavaliador, você não tem permissão para editar ou excluir células não avaliadas neste laboratório. Evite também adicionar novas células.
**Depois de ser aprovado nesta tarefa** e quiser experimentar qualquer um dos códigos não avaliados, siga as instruções na parte inferior deste caderno._

Primeiramente, execute a célula abaixo para importar os pacotes necessários nesta atribuição:

- [numpy](https://numpy.org/) é o pacote fundamental para computação científica com Python.
- [matplotlib](http://matplotlib.org) é uma biblioteca popular para plotar gráficos em Python.
- `utils.py` contém funções auxiliares para esta atribuição. Você não precisa modificar o código neste arquivo.

In [2]:
import numpy as np
import matplotlib.pyplot as plt
from utils import *

%matplotlib inline

<a name="1"></a>
## 1 - Implementando K-means

O algoritmo K-means é um método para agrupar automaticamente
pontos de dados juntos.

* Concretamente, você recebe um conjunto de treinamento $\{x^{(1)}, ..., x^{(m)}\}$ e deseja
para agrupar os dados em alguns “clusters” coesos.


* K-means é um procedimento iterativo que
      * Começa adivinhando os centróides iniciais e, em seguida,
      * Refine este palpite por
          * Atribuir repetidamente exemplos aos seus centróides mais próximos e, em seguida,
          * Recalculando os centróides com base nas atribuições.
         

* Em pseudocódigo, o algoritmo K-means é o seguinte:

     ``` píton
     # Inicializa centroides
     # K é o número de clusters
     centróides = kMeans_init_centroids(X, K)
    
     para iter in range(iterações):
         # Etapa de atribuição de cluster:
         # Atribua cada ponto de dados ao centróide mais próximo.
         # idx[i] corresponde ao índice do centróide
         # atribuído ao exemplo i
         idx = find_closest_centroids(X, centróides)

         # Mover passo do centróide:
         # Calcula as médias com base nas atribuições do centróide
         centróides = compute_centroids(X, idx, K)
     ```


* O loop interno do algoritmo executa repetidamente duas etapas:
     1. Atribuir cada exemplo de treinamento $x^{(i)}$ ao centroide mais próximo e
     2. Recalcular a média de cada centróide usando os pontos atribuídos a ele.
    
    
* O algoritmo $K$-means sempre convergirá para algum conjunto final de médias para os centróides.

* No entanto, a solução convergente pode nem sempre ser ideal e depende da configuração inicial dos centróides.
     * Portanto, na prática, o algoritmo K-means geralmente é executado algumas vezes com diferentes inicializações aleatórias.
     * Uma maneira de escolher entre essas diferentes soluções de diferentes inicializações aleatórias é escolher aquela com o menor valor de função de custo (distorção).

Você implementará as duas fases do algoritmo K-means separadamente
nas próximas seções.
* Você começará completando `find_closest_centroid` e, em seguida, concluirá `compute_centroids`.

<a name="1.1"></a>
### 1.1 Encontrando centróides mais próximos

Na fase de “atribuição de cluster” do algoritmo K-means, o
algoritmo atribui cada exemplo de treinamento $x^{(i)}$ ao seu mais próximo
centróide, dadas as posições atuais dos centroides.

<a name="ex01"></a>
### Exercício 1

Sua tarefa é completar o código em `find_closest_centroids`.
* Esta função pega a matriz de dados `X` e as localizações de todos
centróides dentro de 'centróides'
* Deve gerar um array unidimensional `idx` (que tem o mesmo número de elementos que `X`) que contém o índice do centróide mais próximo (um valor em $\{0,...,K-1\}$, onde $K$ é o número total de centróides) para cada exemplo de treinamento . *(Observação: o intervalo de índice de 0 a K-1 varia ligeiramente do que é mostrado nas aulas (ou seja, 1 a K) porque os índices de lista do Python começam em 0 em vez de 1)*
* Especificamente, para cada exemplo $x^{(i)}$ que definimos
$$c^{(i)} := j \quad \mathrm{que \; minimiza} \quad ||x^{(i)} - \mu_j||^2,$$
onde
  * $c^{(i)}$ é o índice do centróide que está mais próximo de $x^{(i)}$ (corresponde a `idx[i]` no código inicial), e
  * $\mu_j$ é a posição (valor) do $j$’ésimo centróide. (armazenado em `centroids` no código inicial)
  * $||x^{(i)} - \mu_j||$ é a norma L2
 
Se você tiver dúvidas, pode conferir as dicas apresentadas após a célula abaixo para ajudá-lo na implementação.

In [5]:
# UNQ_C1
# GRADED FUNCTION: find_closest_centroids

def find_closest_centroids(X, centroids):
    """
    Computes the centroid memberships for every example
    
    Args:
        X (ndarray): (m, n) Input values      
        centroids (ndarray): (K, n) centroids
    
    Returns:
        idx (array_like): (m,) closest centroids
    
    """

    # Set K
    K = centroids.shape[0]

    # You need to return the following variables correctly
    idx = np.zeros(X.shape[0], dtype=int)

    ### START CODE HERE ###
    for i in range(X.shape[0]):
        distance = []
        for j in range(centroids.shape[0]):
            norm_ij = np.linalg.norm(X[i] - centroids[j])
            distance.append(norm_ij)
        
        idx[i] = np.argmin(distance)
        
     ### END CODE HERE ###
    
    return idx

Now let's check your implementation using an example dataset

In [4]:
# Load an example dataset that we will be using
X = load_data()

The code below prints the first five elements in the variable `X` and the dimensions of the variable

In [6]:
print("First five elements of X are:\n", X[:5]) 
print('The shape of X is:', X.shape)

First five elements of X are:
 [[1.84207953 4.6075716 ]
 [5.65858312 4.79996405]
 [6.35257892 3.2908545 ]
 [2.90401653 4.61220411]
 [3.23197916 4.93989405]]
The shape of X is: (300, 2)


In [7]:
# Select an initial set of centroids (3 Centroids)
initial_centroids = np.array([[3,3], [6,2], [8,5]])

# Find closest centroids using initial_centroids
idx = find_closest_centroids(X, initial_centroids)

# Print closest centroids for the first three elements
print("First three elements in idx are:", idx[:3])

# UNIT TEST
from public_tests import *

find_closest_centroids_test(find_closest_centroids)

First three elements in idx are: [0 2 1]
[92mAll tests passed!
