<a href="https://colab.research.google.com/github/sergiosdlima/unsupervised-learning/blob/main/1_mini_projeto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
from sklearn.cluster import KMeans
import numpy as np
import random
import math

In [2]:
X = np.array([[1, 2], [1, 4], [1, 0], [10, 2], [10, 4], [10, 0]])
kmeans = KMeans(n_clusters=2, random_state=0).fit(X)
kmeans.labels_

array([1, 1, 1, 0, 0, 0], dtype=int32)

In [3]:
kmeans.predict([[0, 0], [12, 3]])

array([1, 0], dtype=int32)

In [4]:
kmeans.cluster_centers_

array([[10.,  2.],
       [ 1.,  2.]])

In [5]:
X

array([[ 1,  2],
       [ 1,  4],
       [ 1,  0],
       [10,  2],
       [10,  4],
       [10,  0]])

In [6]:
# fit_k_means(pontos, parada, max_iter) Retorne os centroids finais.

In [7]:
def pick_random_itens(array, size=1):
  a = np.arange(len(array))
  choices = np.random.choice(a, size=size, replace=False)
  return array[choices]

def euclidean_distance(p1, p2):
  dim, sum = len(p1), 0
  for i in range(dim):
    sum += math.pow(p1[i] - p2[i], 2)
  return math.sqrt(sum)

In [11]:
def fit_k_means(X, n_clusters=3, tol=0.0001, max_iter=300):
  """Compute k-means clustering

  Parameters
  ----------

  X : {array-like, sparse matrix} of shape (n_samples, n_features)
    Set of 2d points that will be clustered.

  n_clusters : int, default=3
    The number of clusters to form as well as the number of
    centroids to generate.

  tol : float, default=1e-4
    Relative tolerance with regards to Frobenius norm of the difference
    in the cluster centers of two consecutive iterations to declare
    convergence.

  max_iter : int, default=300
    Maximum number of iterations of the k-means algorithm for a
    single run.

  Returns
  -------
  cluster_centers_ndarray of shape (n_clusters, n_features)
    Coordinates of cluster centers.
  """
  # 1 - definir a quantidade de cluster
  # 2 - sortear as coordenadas iniciais para cada um dos k centroides
  #     2.1 - sortear quaisquer coordenadas
  #     2.2 - sortear pontos do próprio conjunto de dados
  # 3 - calcular a distância de cada ponto para cada centroide
  #     como calcular distância entre dois pontos (x1, y1), (x2, y2)? 
  #     distância euclidiana! 
  #     d = raiz quadrada de (x1 - x2)² + (y1 - y2)²
  # 4 - associar cada ponto ao centroide mais próximo
  # 5 - atualizar as coordenada de cada centroide
  #     as novas coordenadas de cada centroide são calculadas como sendo a média
  #     das coordenadas de todos os pontos associados aquele centroide
  # 6 - executar os passos de 3 a 5 até que os centroides não alterem mais suas
  #     posições ou que elas variem muito pouco
  # 7 - retornar as coordenadas dos centroides como resultado do algoritmo

  centroids = pick_random_itens(X, n_clusters)
  print(f'centroides escolhidos: {centroids}')
  centroids_points = []
  for point in X:
    dmin = -1
    cmin = []
    for centroid in centroids:
      if (centroid-point).any():
        print(f'centroid: {centroid} - point: {point} - distance: {euclidean_distance(centroid, point)}')
        d = euclidean_distance(centroid, point)
        if dmin < 0 or d < dmin:
          dmin = d
          cmin = centroid
        # if centroid in centroids_points:
        #   idx = centroids_points.index(centroid)
          # centroids_points[idx]
    print(f'ponto {point} é mais próximo do centroid {cmin}')
    centroids_points.append(cmin)

  print(f'FIM: {X} e {centroids_points}')
  
  return 'centroids finais'

fit_k_means(X, n_clusters=2)

centroides escolhidos: [[ 1  4]
 [10  4]]
centroid: [1 4] - point: [1 2] - distance: 2.0
centroid: [10  4] - point: [1 2] - distance: 9.219544457292887
ponto [1 2] é mais próximo do centroid [1 4]
centroid: [10  4] - point: [1 4] - distance: 9.0
ponto [1 4] é mais próximo do centroid [10  4]
centroid: [1 4] - point: [1 0] - distance: 4.0
centroid: [10  4] - point: [1 0] - distance: 9.848857801796104
ponto [1 0] é mais próximo do centroid [1 4]
centroid: [1 4] - point: [10  2] - distance: 9.219544457292887
centroid: [10  4] - point: [10  2] - distance: 2.0
ponto [10  2] é mais próximo do centroid [10  4]
centroid: [1 4] - point: [10  4] - distance: 9.0
ponto [10  4] é mais próximo do centroid [1 4]
centroid: [1 4] - point: [10  0] - distance: 9.848857801796104
centroid: [10  4] - point: [10  0] - distance: 4.0
ponto [10  0] é mais próximo do centroid [10  4]
FIM: [[ 1  2]
 [ 1  4]
 [ 1  0]
 [10  2]
 [10  4]
 [10  0]] e [array([1, 4]), array([10,  4]), array([1, 4]), array([10,  4]), arr

'centroids finais'

In [None]:
a = [1, 0]
b = [2, 0]
lista = [[1, 0]]

if a in lista:
  print('a está na lista')
  print(f'posicao {lista.index(a)}')
else:
  print('a não está na lista')

## ref

- http://prorum.com/?qa=3205/resolver-problema-pontos-proximo-possivel-abordagem-eficiente