# Comparação de Algoritmos de Agrupamento

Implementação e comparação de três algoritmos de agrupamento não supervisionado: Kohonen (SOM), K-means e DBSCAN, utilizando o conjunto de dados (Iris Dataset).

## Integrantes do grupo

- Beatriz Farias do Nascimento - 122053127
- Natan Azevedo Gomes - 122047435
- Thomas

## Bibliotecas

In [None]:
from sklearn.datasets import load_iris
import pandas as pd
import numpy as np

## Carregamento do dataset

In [None]:
data = load_iris()
df = pd.DataFrame(data=data.data, columns=data.feature_names)
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


## K-Means

### Lógica do algoritmo

1. Escolha de K valores de forma aleatória como centróides iniciais.
2. Atribuição de cada ponto ao centróide mais próximo (com base na distância euclidiana calculada).
3. Obtenção de um novo centróide pelo cálculo da média dos pontos de cada grupo.
4. Repetir os passos 2 e 3 até a convergência.


### Implementação

In [None]:
def k_means(X, k, max_iters=100):
    n_samples = X.shape[0]
    # Escolher K centróides iniciais de forma aleatória
    centroids = X[np.random.choice(n_samples, k, replace=False)]

    for _ in range(max_iters):
        # Atribuir cada ponto ao cluster mais próximo
        distances = np.linalg.norm(X[:, np.newaxis] - centroids, axis=2)
        clusters = np.argmin(distances, axis=1)

        # Atualizar os centróides
        new_centroids = np.array([X[clusters == i].mean(axis=0) for i in range(k)])

        # Verificar convergência
        if np.allclose(centroids, new_centroids):
            break

        centroids = new_centroids

    return clusters, centroids

##DBSCAN

###Lógica do Algoritmo

1. Escolher um ponto arbitrário (para esta implementação, é seguida a ordem sequencial dos pontos).
2. Verificar quantos vizinhos ele possui dentro de uma determinada distância.
3. Se o número de vizinhos for maior ou igual a um determinado valor mínimo, esse conjunto forma um cluster, no qual esse ponto é o núcleo e os outros são borda.
4. Retornar ao passo 1 até que todos os pontos sejam analisados.
5. Remover todos os pontos de núcleo do conjunto de pontos de borda.
6. Iterar sobre todos os pontos, classificando os que não pertencem a nenhum dos outros dois conjuntos como pontos de ruído.

###Implementação

In [None]:
def dbscan(X,eps = 0.5 ,minPts = 3):
  clusterList = [] #Lista com todos os clusters
  corePoints = {} #Sets para classificar os pontos
  borderPoints = {}
  noisePoints = {}
  for i in range(X.shape[0]):
    point1 = X[i]
    cluster = [point1,[]] #Cluster no formato [centro,[elementos]]
    for j in range(X.shape[0]):
      point2 = X[j]
      distance = np.linalg.norm(point1 - point2)
      if distance <= eps and distance != 0:
        cluster[1].append(point2)
    if len(cluster[1]) >= minPts: #Verifica se o nùmero de elementos do cluster é maior que o mínimo
      clusterList.append(cluster)
      corePoints.add(cluster[0])
      for point in cluster[1]:
        borderPoints.add(point)

  borderPoints = borderPoints - corePoints

  for i in range(X.shape[0]):
    if X[i] not in corePoints and X[i] not in borderPoints:
      noisePoints.add(X[i])

  return clusterList, corePoints, borderPoints, noisePoints

