# **Teoria pre-code**

Clusterização, ou agrupamento, é uma técnica de análise de dados usada em mineração de dados e aprendizado de máquina. Seu objetivo é agrupar um conjunto de objetos de tal forma que objetos no mesmo grupo (ou cluster) sejam mais semelhantes entre si do que com aqueles em outros grupos, de acordo com algum critério de semelhança.

Em outras palavras, a clusterização busca encontrar estruturas intrínsecas nos dados, identificando grupos naturais ou segmentos dentro de um conjunto de dados, mesmo sem a necessidade de rótulos prévios. Essa técnica é amplamente utilizada em diversas áreas, como reconhecimento de padrões, análise de dados, mineração de textos, biologia, entre outras.

Existem vários algoritmos de clusterização, cada um com suas próprias características e aplicabilidades, incluindo o algoritmo k-means, DBSCAN, entre outros. A escolha do algoritmo depende das características dos dados e dos objetivos específicos do problema em questão.

<table border="1" cellpadding="5">
  <thead>
    <tr>
      <th>Método de Clusterização</th>
      <th>Como é Calculado</th>
      <th>Avaliação de Correção</th>
      <th>Quando Utilizar</th>
      <th>Exemplo de Utilização</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>KMeans</td>
      <td>Agrupa os pontos em k clusters, minimizando a soma dos quadrados das distâncias dos pontos ao centroide de seus clusters.</td>
      <td>Variabilidade intra-cluster, Coesão e Separação</td>
      <td>Quando se tem uma noção prévia do número de clusters e os clusters são convexos.</td>
      <td>Segmentação de clientes com base em seus padrões de compra.</td>
    </tr>
    <tr>
      <td>Affinity Propagation</td>
      <td>Identifica os "exemplares" entre os pontos e então propaga afinidades entre todos os pares de pontos.</td>
      <td>Silhueta, Cohesão, Interpretabilidade</td>
      <td>Quando não se sabe o número de clusters a priori e quando há um grande número de pontos de dados e a estrutura de similaridade é complexa.</td>
      <td>Segmentação de redes sociais com base em interações entre usuários.</td>
    </tr>
    <tr>
      <td>BIRCH</td>
      <td>Utiliza uma árvore hierárquica de clusters (Cluster Feature Tree) para dividir os dados em subclusters hierárquicos.</td>
      <td>Coesão, Separação</td>
      <td>Quando se tem um grande volume de dados, pois é escalável e eficiente, e quando a estrutura dos clusters é hierárquica.</td>
      <td>Análise de logs de servidores para identificar padrões de tráfego.</td>
    </tr>
    <tr>
      <td>DBSCAN</td>
      <td>Baseado na densidade dos pontos, agrupa regiões densas de pontos e identifica pontos isolados como ruído.</td>
      <td>Silhueta, Separabilidade, Tamanho dos Clusters</td>
      <td>Quando os clusters têm formas arbitrárias e tamanhos diferentes, e quando há ruído nos dados.</td>
      <td>Identificação de regiões de alta densidade em um conjunto de dados geoespaciais.</td>
    </tr>
    <tr>
      <td>Mean Shift</td>
      <td>Move iterativamente os pontos para a região de maior densidade de pontos até convergir para os centros dos clusters.</td>
      <td>Silhueta, Separabilidade, Coesão</td>
      <td>Quando não se sabe o número de clusters a priori, os clusters não são necessariamente esféricos e a densidade dos pontos varia.</td>
      <td>Segmentação de uma imagem para identificar objetos.</td>
    </tr>
    <tr>
      <td>OPTICS</td>
      <td>Identifica os clusters e suas estruturas através da construção de um "reachability plot", que mostra a densidade dos pontos e a conectividade entre eles.</td>
      <td>Silhueta, Separabilidade, Estrutura do Cluster</td>
      <td>Quando não se sabe o número de clusters a priori, quando os clusters têm formas arbitrárias e tamanhos diferentes, e quando há ruído nos dados.</td>
      <td>Análise de tráfego de rede para identificar anomalias ou padrões de uso.</td>
    </tr>
    <tr>
      <td>Spectral Clustering</td>
      <td>Usa a estrutura espectral dos dados para realizar a clusterização, convertendo os dados em um espaço de menor dimensão e aplicando algoritmos de clustering nesse espaço.</td>
      <td>Coesão, Separação, Estrutura do Cluster</td>
      <td>Quando os clusters não são necessariamente convexos, a topologia dos dados é importante e quando os dados são representados como um grafo.</td>
      <td>Segmentação de imagens médicas para identificação de tecidos e órgãos.</td>
    </tr>
    <tr>
      <td>Gaussian Mixture Model (GMM)</td>
      <td>Assume que os dados são gerados a partir de uma mistura de várias distribuições gaussianas e usa o algoritmo de Expectation-Maximization (EM) para estimar os parâmetros das distribuições.</td>
      <td>Coesão, Separação, Estrutura do Cluster</td>
      <td>Quando os clusters têm distribuições gaussianas e podem ter sobreposição, ou quando os dados não podem ser facilmente separados linearmente.</td>
      <td>Segmentação de clientes com base em características demográficas e comportamentais.</td>
    </tr>
    <tr>
      <td>Agglomerative Clustering</td>
      <td>Constrói uma hierarquia de clusters unindo pares de clusters próximos, iterativamente.</td>
      <td>Coesão, Separação, Estrutura do Cluster</td>
      <td>Quando a estrutura hierárquica dos clusters é importante e quando se deseja entender a relação entre os clusters em diferentes níveis de granularidade.</td>
      <td>Análise de expressão gênica para identificação de padrões de regulação e relacionamentos entre genes.</td>
    </tr>
  </tbody>
</table>

# **Libraries principais**



In [1]:
from sklearn.model_selection import train_test_split
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats
from sklearn.metrics import silhouette_score, calinski_harabasz_score
from tqdm import tqdm
import seaborn as sns

# **Dataset**


In [2]:
# Fonte dos dados:  https://www.kaggle.com/datasets/shwetabh123/mall-customers
df = pd.read_csv('/content/Mall_Customers.csv')

In [None]:
df

In [4]:
#Fazendo feature encoding
df1 = pd.get_dummies(df, columns=['Genre'], prefix=['Genre'])

In [None]:
df1

In [None]:
#verificando se não há celulas vazias

df1.isna().sum()

In [7]:
df1 = df1.drop(['CustomerID'], axis= 1)

##split data

In [8]:
# Dividindo o DataFrame em treinamento (70%) e teste (30%)
train_data, test_data = train_test_split(df1, test_size=0.3, random_state=42)

# Dividindo o conjunto de treinamento em teste (50%) e validação (50%) = 15/15
test_data, validation_data = train_test_split(test_data, test_size=0.5, random_state=42)

In [None]:
#checkando divisão
Ctotal = df1['Age'].count()
Ctrain = train_data['Age'].count()
Ctest = test_data['Age'].count()
Cvalid = validation_data['Age'].count()

print (Ctrain/Ctotal)
print (Ctest/Ctotal)
print (Cvalid/Ctotal)

##Remoção de outliers por IQR

In [None]:
# Calcule o primeiro quartil (Q1)
q1 = train_data.quantile(0.25)

# Calcule o terceiro quartil (Q3)
q3 = train_data.quantile(0.75)

# Calcule o IQR (Intervalo Interquartil)
iqr = q3 - q1

print(f"Q1: {q1}")
print(f"Q3: {q3}")
print(f"IQR: {iqr}")

In [None]:
c = 1.5   #constante
LI = q1 - c*iqr   #limite inferior
LS = q3 + c*iqr   #limite superior

print(f"LI: {LI}")
print(f"LS: {LS}")

In [None]:
# Fazer remoção de outlier por coluna
trainlimpo = train_data[(train_data['Age'] >= LI['Age']) & (train_data['Age'] <= LS['Age'])]
print(trainlimpo.shape)
trainlimpo = trainlimpo[(trainlimpo['Annual Income (k$)'] >= LI['Annual Income (k$)']) & (trainlimpo['Annual Income (k$)'] <= LS['Annual Income (k$)'])]
print(trainlimpo.shape)
trainlimpo = trainlimpo[(trainlimpo['Spending Score (1-100)'] >= LI['Spending Score (1-100)']) & (trainlimpo['Spending Score (1-100)'] <= LS['Spending Score (1-100)'])]
print(trainlimpo.shape)

## Normalizando os dados


In [13]:
medtrain = trainlimpo.mean()
stdtrain = trainlimpo.std()
Ctreino = (trainlimpo - medtrain)/ stdtrain

In [None]:
Ctreino

In [None]:
#verificando se não há celulas vazias

trainlimpo.isna().sum()

In [None]:
# Verificando desvio padrão normalizado =>>> Tem q ser igual ou proximo 1.
Ctreino.std()

In [None]:
#Media normalizada =>>>>>> Tem que ser igual a 0

round(Ctreino.mean(),7)

In [None]:
Ctreino

In [19]:
Cvad = (validation_data - medtrain)/ stdtrain
Ctest = (test_data - medtrain)/ stdtrain

In [None]:
Cvad

###Grupo Para testar novos inputs

In [21]:
pessoasnovas = {
    'Genre': ['Male', 'Female', 'Male', 'Female', 'Male'],
    'Age': [25, 30, 35, 28, 40],
    'Annual Income (k$)': [50, 60, 45, 70, 80],
    'Spending Score (1-100)': [70, 50, 75, 60, 45],
    }

pessoasnovas = pd.DataFrame(pessoasnovas)
pessoasnovas = pd.get_dummies(pessoasnovas, columns=['Genre'], prefix=['Genre'])

# **Clusterização**

## KMeans


### Explicação

O algoritmo K-means é uma técnica popular de clusterização que divide um conjunto de dados em K grupos, onde K é um número definido previamente pelo usuário. Aqui está uma explicação simplificada de como o algoritmo K-means funciona:

No algoritmo K-means, você define a **quantidade de clusters K** antes de executar o algoritmo. A escolha do número ideal de clusters depende do seu conhecimento do problema e dos dados.

Existem várias técnicas para determinar o número ideal de clusters, como o método do cotovelo (elbow method), coeficiente de silhueta (silhouette coefficient), entre outros. Estes métodos ajudam a identificar o número ótimo de clusters com base nas características dos seus dados.

Depois de determinar o número de clusters, o algoritmo K-means atribui cada ponto de dado ao cluster mais próximo do centroide correspondente.

O <font color="red">**Centroid** </font> é o ponto central de um cluster. O algoritmo atualiza iterativamente a posição dos centroides até que os clusters estejam otimizados.


**1 - Inicialização**: O algoritmo começa selecionando aleatoriamente K **(n_clusters)** pontos <font color="red">**(Centroid)** </font>
 no espaço de dados para representar os centros iniciais dos clusters.

**2- Atribuição de pontos aos clusters**: Cada ponto de dado <font color="blue">**(sample)** </font> é então atribuído ao cluster cujo centro é mais próximo, com base na distância euclidiana, por exemplo.

**3- Recálculo dos centros dos clusters**: Depois que todos os pontos são atribuídos a um cluster, os centros dos clusters são recalculados, ajustando suas posições para serem a média dos pontos que estão dentro de cada cluster.

**4- Repetição**: Os passos 2 e 3 são repetidos até que os centros dos clusters não mudem significativamente entre as iterações ou até que um critério de parada seja alcançado **(max_iter)**.

Geralmente, um critério de parada pode ser um número máximo de iterações ou quando a mudança nos centros dos clusters é pequena o suficiente.


<img src="https://www.unioviedo.es/compnum/labs/PYTHON/d1.png" alt="Imagem" width="450" height="300">

**5- Convergência**: Quando o algoritmo convergiu, os centros dos clusters permanecem estáveis e os pontos de dados estão bem atribuídos a cada cluster **(tol)**.

</p>

<img src="https://cdn-images-1.medium.com/v2/resize:fit:709/1*JsfEdbXKwJw_Euprvx17KA.png" alt="Imagem" width="450" height="300">

O resultado final do algoritmo K-means é uma partição dos dados em K clusters, onde cada ponto de dado pertence a um e apenas um cluster. Este algoritmo é eficiente e fácil de implementar, porém, pode convergir para um ótimo local dependendo da inicialização dos centros dos clusters e pode ser sensível à presença de outliers nos dados.


### Parametros



```
class sklearn.cluster.KMeans(n_clusters=8, *, init='k-means++', n_init='auto', max_iter=300, tol=0.0001, verbose=0, random_state=None, copy_x=True, algorithm='lloyd')
```



**Número de clusters (n_clusters)**: Este é o parâmetro mais fundamental do algoritmo K-means. Define o número de clusters nos quais o conjunto de dados será dividido.

**Inicialização (init):** Este parâmetro determina o método de inicialização dos centróides dos clusters. Pode ser definido como "k-means++", que usa um método inteligente para escolher os centróides iniciais de forma a melhorar a convergência, ou "random", que escolhe aleatoriamente os centróides iniciais.

**Número máximo de iterações (max_iter)**: Define o número máximo de iterações permitidas antes de o algoritmo ser considerado convergido. Se os centróides não convergirem antes de atingir esse número de iterações, o algoritmo para. Isso ajuda a evitar loops infinitos. O valor padrão geralmente é 300.

**Critério de convergência (tol)**: Este é o critério de convergência que controla o quão próximo os centróides devem estar uns dos outros para considerar que o algoritmo convergiu. Se a mudança nos centróides entre duas iterações consecutivas for menor que esse valor, o algoritmo para. O valor padrão é geralmente 1e-4.

**Número de inicializações (n_init)**: Define o número de vezes que o algoritmo será executado com diferentes centróides iniciais. Isso ajuda a melhorar a robustez do algoritmo, pois o resultado final pode depender da escolha inicial dos centróides. O resultado final é o melhor de todas as execuções. O valor padrão geralmente é 10.


### Code

#### Melhores metricas

In [22]:
from sklearn.cluster import KMeans
def treinakmeans(k,Ctreino):
    best = None
    bestin = np.Inf
    for _ in range(0,10):
        kmeans = KMeans(n_clusters=k, n_init=10)  #n_init é o numero de vezes que vai correr com numero do centroid diferentes
        kmeans.fit(Ctreino)
        inertia = kmeans.inertia_
        if inertia < bestin:
            best = kmeans
            bestin = inertia
    return best, bestin

In [None]:
# Crie uma lista para armazenar os valores de inércia
inertia = []
siluetas = []
n = 11

# Execute o K-Means para diferentes valores de k
for k in tqdm(range(2, n)):  # Teste valores de k de 1 a 10 (você pode ajustar o intervalo)
    kmeans,IN = treinakmeans(k,Ctreino)
    inertia.append(IN)
    labels= kmeans.predict(Cvad)
    silhouette_avg = silhouette_score(Cvad, labels)
    siluetas.append(silhouette_avg)

In [None]:
# Crie um gráfico do Elbow Point
plt.plot(inertia, marker='o')
plt.xticks(range(len(inertia)),range(len(inertia)) )
plt.xlabel('Número de Clusters (k) -2')
plt.ylabel('Inércia')
plt.title('Método Elbow para Determinação de k')
plt.show()

In [None]:
    # Trace o gráfico da silhueta
plt.plot(siluetas, marker='o')
plt.xlabel('Número de Clusters (k)-2')
plt.xticks(range(len(siluetas)),range(len(siluetas)) )
plt.ylabel('Silhouette Score')
plt.title('Avaliação do Número de Clusters ')
plt.show()

#### Clusterizando

In [26]:
from sklearn.cluster import KMeans

kmeans = KMeans(n_clusters=6, n_init=10)
kmeans_model = kmeans.fit(Ctreino)
centroids = kmeans.cluster_centers_
labels = kmeans.labels_

In [None]:
# Adicione os rótulos dos clusters ao DataFrame
Ctreino2 = trainlimpo.copy()
Ctreino2['Cluster'] = kmeans.labels_
Ctreino2['Gasto'] = Ctreino2['Spending Score (1-100)']/Ctreino2['Annual Income (k$)']

# Criar o gráfico de dispersão
plt.figure(figsize=(10, 6))

# Plotar os pontos para o cluster atual com cor diferente
plt.scatter(Ctreino2['Age'], Ctreino2['Gasto'],c=Ctreino2['Cluster'] )

plt.ylabel('Gasto medio')
plt.xlabel('Cluster')
plt.title('Distribution of Clusters by Spending Score')
plt.show()

#Age
#Annual Income (k$)
#Spending Score (1-100)
#Gender_Female
#Gender_Male

In [None]:
# Plote os resultados em 3D
fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')

# Atribua as colunas aos eixos x, y e z
ax.scatter(Ctreino2['Age'], Ctreino2['Gasto'], Ctreino2['Genre_Male'], c=Ctreino2['Cluster'], cmap='viridis', s=50, alpha=0.6)

# Rotule os eixos
ax.set_xlabel('idade')
ax.set_ylabel('gasto')
ax.set_zlabel('receita')

plt.show()

In [29]:
#Aplicando a clusterização aos grupos de validação e teste
labels_validacao = kmeans.predict(Cvad)
labels_teste = kmeans.predict(Ctest)

In [30]:
Cvad['Cluster'] = labels_validacao
validation_data['Cluster'] = labels_validacao
Ctest['Cluster'] = labels_teste

In [None]:
Ctest

In [None]:
# Pontuação de silhueta quanto mais proximo de 1 melhor
silhouette_score_validacao = silhouette_score(Cvad, labels_validacao)
print("Pontuação de silhueta do conjunto de validação:", silhouette_score_validacao)

# Pontuação Calinski-Harabasz quanto maior melhor.
calinski_harabasz_score_validacao = calinski_harabasz_score(Cvad, labels_validacao)
print("Pontuação Calinski-Harabasz do conjunto de validação:", calinski_harabasz_score_validacao)

In [33]:
#grupos 0 e 5 gasta muito
#grupo 2 e 1 gasta pouco
#grupo 4 e 3 gasta medio
# impar mulher par homem

#### Testando clusterização com novas inserções

In [34]:
def clusterizar(data,medtrain,stdtrain,kmeans):
  df1 = data
  df1 = (df1 - medtrain)/ stdtrain
  labels = kmeans.predict(df1)
  print(labels)
  return labels

In [None]:
pessoasnovas

In [None]:
labels = []
for index, row in pessoasnovas.iterrows():
  labels.append(clusterizar(pessoasnovas.iloc[[index]],medtrain,stdtrain,kmeans)[0])

pessoasnovas2 = pessoasnovas.copy()
pessoasnovas2['Cluster'] = labels

In [None]:
pessoasnovas2

## AffinityPropagation


### Explicação

O algoritmo Affinity Propagation é uma técnica de clusterização que **não requer que o número de clusters** seja especificado a priori. Ele funciona encontrando automaticamente os exemplos mais representativos no conjunto de dados, e atribuindo outros pontos a esses exemplares com base em sua similaridade.

**Similaridade entre pontos**: O algoritmo começa calculando uma matriz de similaridade entre todos os pares de pontos de dados. A similaridade pode ser medida de várias maneiras, como a distância euclidiana ou uma função de similaridade específica ao domínio do problema.

**Escolha dos exemplares iniciais:** Cada ponto de dado é considerado como um possível exemplar inicial. **(preference)**

**Mensagens de responsabilidade e disponibilidade**: O algoritmo itera entre duas mensagens entre todos os pares de pontos **(damping)**:

*   **Mensagem de responsabilidade**: Reflete a evidência de quanto um ponto deve ser um exemplar com base na comparação com outros pontos.
*   **Mensagem de disponibilidade**: Reflete a evidência de quanto um ponto deve escolher outro ponto como seu exemplar com base na comparação com outros pontos.

**Atualização das mensagens**: As mensagens de responsabilidade e disponibilidade são atualizadas em cada iteração com base nas mensagens anteriores e na similaridade entre os pontos **(Convergência)**.

**Determinação dos clusters**: O algoritmo continua iterando até convergir para um conjunto de exemplares e pontos atribuídos a esses exemplares. Os clusters são então formados com base nessas atribuições.


<img src="https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcSUK0tObaVWkQ_YZKdyJY1c1ulEZUTywUflsb1bRgmS__Z89HcLTZicUfL1q_kJ4snhxDs&usqp=CAUg" alt="Imagem" width="450" height="300">

O algoritmo Affinity Propagation é poderoso, mas pode ser computacionalmente caro para grandes conjuntos de dados devido à sua complexidade quadrática em relação ao número de pontos. No entanto, é útil quando o número de clusters não é conhecido a priori e quando os dados têm uma estrutura complexa.

### Parametros



```
class sklearn.cluster.AffinityPropagation(*, damping=0.5, max_iter=200, convergence_iter=15, copy=True, preference=None, affinity='euclidean', verbose=False, random_state=None)
```



O algoritmo de Affinity Propagation possui alguns parâmetros que podem ser ajustados para controlar seu comportamento. Os principais parâmetros incluem:

**Preferência (preference)**: Este parâmetro controla a quantidade de exemplos que são escolhidos como exemplares iniciais. Quanto maior o valor da preferência, mais exemplos serão escolhidos como exemplares iniciais. Se não for especificado, a preferência é definida como a mediana da matriz de similaridade.

**Convergência (convergence_iter)**: Define o número máximo de iterações permitidas antes de o algoritmo ser considerado convergido. Se não for especificado, o padrão é 200.

**Amortecimento (damping)**: Este parâmetro controla o fator de amortecimento aplicado durante a atualização das mensagens de responsabilidade e disponibilidade. Um fator de amortecimento menor pode acelerar a convergência, mas também pode tornar o algoritmo instável. O valor padrão é 0.5.

Utilize métricas de avaliação de clusterização, como coeficiente de silhueta, índice Davies-Bouldin, índice de Calinski-Harabasz, entre outros, para comparar e avaliar os resultados obtidos com diferentes conjuntos de parâmetros

### Code

#### Melhores metricas

In [38]:
from sklearn.cluster import AffinityPropagation
from sklearn.metrics import silhouette_score, calinski_harabasz_score

def treina_affinity_propagation(X):
    best_model = None
    best_silhouette = -1  # Inicializamos com o valor mínimo possível de silhouette score
    best_cohesion = float('inf')  # Inicializamos com o valor máximo possível de coesão
    best_interpretability = -1  # Inicializamos com o valor mínimo possível de interpretabilidade
    best_n_clusters = -1  # Inicializamos com o valor mínimo possível de número de clusters

    # Tente diferentes configurações para encontrar o melhor modelo
    for _ in range(10):  # Faz 10 tentativas
        model = AffinityPropagation(damping=0.9)  # Pode ajustar os parâmetros conforme necessário
        labels = model.fit_predict(X)
        n_clusters = len(model.cluster_centers_indices_)
        silhouette = silhouette_score(X, labels)
        cohesion = calinski_harabasz_score(X, labels)
        interpretability = len(model.cluster_centers_indices_)

        # Se as métricas forem melhores que as atuais, atualizamos o melhor modelo e as métricas correspondentes
        if silhouette > best_silhouette:
            best_model = model
            best_silhouette = silhouette
            best_cohesion = cohesion
            best_interpretability = interpretability
            best_n_clusters = n_clusters
        if cohesion < best_cohesion:
            best_cohesion = cohesion
            best_silhouette = silhouette
            best_interpretability = interpretability
            best_n_clusters = n_clusters
        if interpretability > best_interpretability:
            best_interpretability = interpretability
            best_silhouette = silhouette
            best_cohesion = cohesion
            best_n_clusters = n_clusters

    return best_model, best_n_clusters, best_silhouette, best_cohesion, best_interpretability


In [None]:
best_model, best_n_clusters, best_silhouette, best_cohesion, best_interpretability = treina_affinity_propagation(Ctreino)

print(f'melhor modelo: {best_model}')
print(f'Número de clusters: {best_n_clusters}')
print(f'Silhueta: {best_silhouette}')
print(f'Coesão: {best_cohesion}')
print(f'Interpretabilidade: {best_interpretability}')

In [None]:
def treina_affinity_propagation(Ctreino, preference=None):
    af = AffinityPropagation(preference=preference)
    af.fit(Ctreino)
    return af

# Crie uma lista para armazenar os valores de inércia e silhueta
silhouettes = []
num = 100

# Execute o Affinity Propagation para diferentes valores de preferência
for preference in tqdm(np.linspace(-100, -1, num)):
    af = treina_affinity_propagation(Ctreino, preference=preference)
    labels = af.predict(Cvad)
    silhouette_avg = silhouette_score(Cvad, labels)
    silhouettes.append(silhouette_avg)

In [None]:
# Trace o gráfico da silhueta
plt.plot(silhouettes, marker='o')
plt.xlabel('Número de Clusters (k)-2')
plt.xticks(range(len(silhouettes)),range(len(silhouettes)) )
plt.ylabel('Silhouette Score')
plt.title('Avaliação do Número de Clusters ')
plt.show()

#### Clusterizando

In [None]:
from sklearn.cluster import AffinityPropagation
# Crie o objeto de clusterização
af = AffinityPropagation()

# Realize a clusterização
clusters = af.fit_predict(Ctreino)

# Adicione os clusters de volta ao DataFrame original
Ctreino2 = Ctreino.copy()
Ctreino2['Cluster'] = clusters
Ctreino2

##### Novos Dados

In [None]:
def clusterizar(data,medtrain,stdtrain,af):
  df1 = data
  df1 = (df1 - medtrain)/ stdtrain
  labels = af.predict(df1)
  return labels

In [None]:
labels = []
for index, row in pessoasnovas.iterrows():
  labels.append(clusterizar(pessoasnovas.iloc[[index]],medtrain,stdtrain,af)[0])

pessoasnovas2 = pessoasnovas.copy()
pessoasnovas2['Cluster'] = labels

pessoasnovas2

## BIRCH

### Explicação

O algoritmo **BIRCH** (Balanced Iterative Reducing and Clustering using Hierarchies) é uma técnica de clusterização que se destaca por sua eficiência computacional e capacidade de lidar com grandes conjuntos de dados.

**Construção da estrutura de árvore (Tree Structure)**: O algoritmo começa construindo uma estrutura de árvore hierárquica. Esta estrutura de árvore é chamada de CF Tree (Clustering Feature Tree) e é usada para representar o conjunto de dados de forma compacta e eficiente.

<img src="https://miro.medium.com/v2/resize:fit:1100/format:webp/1*Gzzzv2MmddlUla_958pzqg.jpeg" alt="Imagem" width="500" height="400">

**Agrupamento incremental dos dados**: À medida que novos pontos de dados são apresentados ao algoritmo, eles são inseridos na estrutura da árvore. O algoritmo atualiza dinamicamente as estatísticas (como o número de pontos, a média e a variância) de cada nó da árvore para refletir os novos dados.

**Fusão de subclusters:** Periodicamente, o algoritmo verifica os nós da árvore e funde subclusters semelhantes para reduzir a complexidade da árvore e manter a eficiência do algoritmo.

**Identificação de clusters**: Após a construção da árvore, o algoritmo passa por ela para identificar os clusters finais. Ele faz isso percorrendo os nós da árvore e combinando os subclusters semelhantes em clusters maiores, com base em um limiar de similaridade definido pelo usuário.

**Atribuição de pontos aos clusters**: Finalmente, os pontos de dados são atribuídos aos clusters identificados com base em sua proximidade com os centros dos clusters.

O algoritmo **BIRCH** é particularmente eficaz para grandes conjuntos de dados, pois permite uma representação compacta dos dados e opera de maneira incremental, sem a necessidade de armazenar todos os pontos de dados na memória ao mesmo tempo. Isso o torna adequado para aplicações onde os dados são muito grandes para caber na memória principal do computador.




### Parametros



```
class sklearn.cluster.Birch(*, threshold=0.5, branching_factor=50, n_clusters=3, compute_labels=True, copy=True)
```

**Fator de ramificação (branching factor)**: Este parâmetro controla quantos subclusters podem ser mesclados em um único cluster durante a fase de fusão de subclusters. Um fator de ramificação maior pode resultar em árvores mais profundas e mais amplas. Um valor padrão comum é 50.

**Limiar de espalhamento (threshold)**: O limiar de espalhamento é usado para determinar quando um novo subcluster deve ser criado. Ele controla a quantidade de dispersão dentro de um subcluster. Pontos dentro do mesmo subcluster devem estar dentro de uma certa distância do centroide do subcluster. Se a distância exceder o limiar de espalhamento, um novo subcluster é criado. O valor padrão pode variar, mas geralmente é definido empiricamente com base na natureza dos dados.

**Número máximo de subclusters (maximum number of subclusters)**: Este parâmetro define o número máximo de subclusters que podem ser mantidos em cada nó da árvore. Se esse número for excedido, os subclusters são mesclados para manter a complexidade da árvore sob controle.

**Altura máxima da árvore (maximum tree height)**: Define a altura máxima permitida para a árvore CF. Se a altura máxima for atingida durante a construção da árvore, os subclusters serão mesclados para manter a altura da árvore dentro do limite.

**Método de mesclagem de subclusters (subcluster merging method)**: Este parâmetro define como os subclusters devem ser mesclados durante a fusão de subclusters. Existem diferentes métodos que podem ser utilizados, como mesclagem baseada em distância ou mesclagem baseada em densidade.

### Code

#### Melhores metricas

In [None]:
from sklearn.cluster import Birch
from sklearn.metrics import calinski_harabasz_score

def treina_birch(X, threshold_values, branching_factor_values):
    best_model = None
    best_cohesion = float('inf')
    best_separation = float('inf')
    best_n_clusters = -1
    best_threshold = None
    best_branching_factor = None

    for threshold in threshold_values:
        for branching_factor in branching_factor_values:
            model = Birch(threshold=threshold, branching_factor=branching_factor)
            model.fit(X)
            labels = model.predict(X)
            cohesion = calinski_harabasz_score(X, labels)

            # Calcula a separação
            centroids = model.subcluster_centers_
            separation = 0
            for i in range(len(centroids)):
                for j in range(i + 1, len(centroids)):
                    separation += np.linalg.norm(centroids[i] - centroids[j])
            separation /= (len(centroids) * (len(centroids) - 1) / 2)

            n_clusters = len(model.subcluster_centers_)
            if cohesion < best_cohesion:
                best_model = model
                best_cohesion = cohesion
                best_separation = separation
                best_n_clusters = n_clusters
                best_branching_factor = branching_factor

    return best_model, best_cohesion, best_separation, best_n_clusters, best_branching_factor


In [None]:
# Definir listas de valores para threshold e branching factor
threshold_values = [0.1, 0.5, 1.0,2.0]
branching_factor_values = [50, 100, 200,400]

best_model, best_cohesion, best_separation, best_n_clusters, best_branching_factor = treina_birch(Ctreino, threshold_values, branching_factor_values)

print(f'branching factor: {best_branching_factor}')
print(f'melhor modelo: {best_model}')
print(f'Número de clusters: {best_n_clusters}')
print(f'Coesão: {best_cohesion}')
print(f'Separation: {best_separation}')

In [None]:
def treina_birch(Ctreino, n_clusters):
    for _ in range(10):
        birch = Birch(n_clusters=n_clusters)
        birch.fit(Ctreino)
    return birch

# Crie uma lista para armazenar os valores de inércia
silhouettes = []
n = 20

# Execute o BIRCH para diferentes valores de clusters
for k in tqdm(range(2, n)):
    birch = treina_birch(Ctreino, k)
    labels = birch.predict(Cvad)
    silhouette_avg = silhouette_score(Cvad, labels)
    silhouettes.append(silhouette_avg)

In [None]:
# Trace o gráfico da silhueta
plt.plot(silhouettes, marker='o')
plt.xlabel('Número de Clusters (k)-2')
plt.xticks(range(len(silhouettes)),range(len(silhouettes)) )
plt.ylabel('Silhouette Score')
plt.title('Avaliação do Número de Clusters ')
plt.show()

#### Clusterizar

In [None]:
from sklearn.cluster import Birch

n_clusters = 9

# Crie o objeto de clusterização Birch
birch = Birch(n_clusters=n_clusters)

# Realize a clusterização
clusters = birch.fit_predict(Ctreino)

# Adicione os clusters de volta ao DataFrame original
Ctreino2 = Ctreino.copy()
Ctreino2['Cluster'] = clusters
Ctreino2

##### Novos Dados

In [None]:
def clusterizar(data,medtrain,stdtrain,birch):
  df1 = data
  df1 = (df1 - medtrain)/ stdtrain
  labels = birch.predict(df1)
  return labels

In [None]:
labels = []
for index, row in pessoasnovas.iterrows():
  labels.append(clusterizar(pessoasnovas.iloc[[index]],medtrain,stdtrain,birch)[0])

pessoasnovas2 = pessoasnovas.copy()
pessoasnovas2['Cluster'] = labels

pessoasnovas2

## DBSCAN

### Explicação

O algoritmo DBSCAN (Density-Based Spatial Clustering of Applications with Noise) é uma técnica de clusterização que agrupa pontos de dados com base na densidade local.

1. **Definição de parâmetros**: O DBSCAN requer dois parâmetros principais:
   - **Eps (ε)**: É a distância máxima que define a vizinhança de um ponto.
   - **MinPts**: É o número mínimo de pontos que devem estar dentro da vizinhança de um ponto para que ele seja considerado um "ponto central".

2. **Identificação de pontos centrais (Core) e pontos de fronteira (Boundary)**: O algoritmo começa selecionando aleatoriamente um ponto de dados e verifica se há pelo menos MinPts pontos dentro de sua vizinhança (incluindo ele mesmo). Se houver, o ponto é marcado como um "ponto central". Se não, é marcado como um "ponto de fronteira".

<img src="https://www.researchgate.net/profile/Yijin-Liu-2/publication/308750501/figure/fig4/AS:412083041652736@1475259661770/Schematic-drawings-of-the-DBSCAN-clustering-algorithm-Panel-a-shows-the-clustering.png" alt="Imagem" width="800" height="600">

3. **Expansão de clusters**: Para cada "ponto central", o algoritmo expande o cluster incluindo todos os pontos atingíveis dentro de uma distância ε a partir desse ponto. Isso significa que o algoritmo verifica se os pontos dentro da vizinhança de cada "ponto central" também são "pontos centrais" e, se forem, expande o cluster para incluí-los também.

4. **Identificação de ruído (outlier)**: Os pontos que não são "pontos centrais" nem "pontos de fronteira" são considerados ruído e não são atribuídos a nenhum cluster.

5. **Resultados**: O algoritmo termina quando todos os pontos foram processados. Os clusters são formados pelos pontos que foram alcançáveis a partir dos "pontos centrais", e os "pontos de fronteira" são atribuídos aos clusters apropriados. Os pontos que não pertencem a nenhum cluster são considerados ruído.

O DBSCAN é eficaz para identificar clusters de diferentes formas e tamanhos, além de poder lidar com ruído e outliers nos dados. No entanto, é sensível à escolha dos parâmetros ε e MinPts, e encontrar valores adequados para esses parâmetros pode exigir um certo grau de experimentação e entendimento dos dados.



```
class sklearn.cluster.DBSCAN(eps=0.5, *, min_samples=5, metric='euclidean', metric_params=None, algorithm='auto', leaf_size=30, p=None, n_jobs=None)
```



### Code

#### Melhores metricas

In [None]:
from sklearn.cluster import DBSCAN
from sklearn.metrics import silhouette_score
from sklearn.neighbors import NearestNeighbors

def calculate_separability(X, labels):
    if len(np.unique(labels)) == 1:
        return 0.0
    nbrs = NearestNeighbors(n_neighbors=2).fit(X)
    distances, indices = nbrs.kneighbors(X)
    separability = np.mean(distances[:, 1])
    return separability

def treina_dbscan(X, eps_values, min_samples_values):
    best_model = None
    best_silhouette = -1
    best_separability = -1
    best_avg_cluster_size = -1
    best_eps = None
    best_min_samples = None

    for eps in eps_values:
        for min_samples in min_samples_values:
            model = DBSCAN(eps=eps, min_samples=min_samples)
            labels = model.fit_predict(X)

            # Check if there's only one cluster
            if len(np.unique(labels)) == 1:
                continue

            silhouette = silhouette_score(X, labels)
            separability = calculate_separability(X, labels)
            unique, counts = np.unique(labels, return_counts=True)
            avg_cluster_size = np.mean(counts)

            if silhouette > best_silhouette:
                best_model = model
                best_silhouette = silhouette
                best_separability = separability
                best_avg_cluster_size = avg_cluster_size
                best_eps = eps
                best_min_samples = min_samples

    return best_model, best_silhouette, best_separability, best_avg_cluster_size, best_eps, best_min_samples


In [None]:
# Defina uma lista de valores para eps e min_samples
eps_values = [0.1, 0.5, 1.0]
min_samples_values = [5, 10, 15]

best_model, best_silhouette, best_separability, best_avg_cluster_size, best_eps, best_min_samples = treina_dbscan(Ctreino, eps_values, min_samples_values)

print(f'Silhueta: {best_silhouette}')
print(f'Separabilidade: {best_separability}')
print(f'Tamanho médio dos clusters: {best_avg_cluster_size}')
print(f'Valor de eps utilizado: {best_eps}')
print(f'Valor de min_samples utilizado: {best_min_samples}')


#### Clusterizando

In [None]:
from sklearn.cluster import DBSCAN

def treina_dbscan(Ctreino, eps, min_samples):
    dbscan = DBSCAN(eps=eps, min_samples=min_samples)
    dbscan.fit(Ctreino)
    return dbscan

# Lista para armazenar os valores de silhueta
silhouettes = []

# Defina os valores mínimos e máximos para eps e min_samples
eps_min = 0.1
eps_max = 2.0
min_samples_min = 5
min_samples_max = 20

# Número de valores que você deseja gerar dentro do intervalo
num_eps = 10
num_samples = 15

# Gere os valores para eps e min_samples
eps_values = np.linspace(eps_min, eps_max, num=num_eps)
min_samples_values = np.linspace(min_samples_min, min_samples_max, num=num_samples, dtype=int)

# Loop para testar diferentes combinações de eps e min_samples
for eps in tqdm(eps_values):
    for min_samples in min_samples_values:
        # Treina o modelo DBSCAN com os parâmetros atuais
        dbscan = treina_dbscan(Ctreino, eps, min_samples)

        # Obtém os rótulos dos clusters
        labels = dbscan.labels_

        # Verifica se há mais de um rótulo além do rótulo de ruído (-1)
        unique_labels = set(labels)
        n_clusters = len(unique_labels) - (1 if -1 in labels else 0)

        # Se houver mais de um cluster (excluindo o rótulo de ruído), calcule a silhueta
        if n_clusters > 1:
            silhouette_avg = silhouette_score(Ctreino, labels)
            silhouettes.append((eps, min_samples, silhouette_avg))

# Encontre os parâmetros que produzem a maior pontuação de silhueta
best_eps, best_min_samples, best_silhouette = max(silhouettes, key=lambda x: x[2])

print(f"Melhor configuração: eps={best_eps}, min_samples={best_min_samples}, silhouette_score={best_silhouette}, n_cluster={n_clusters}")

In [None]:
eps= 1.4
min_samples= 5

# Criando o objeto de clusterização DBSCAN
dbscan = DBSCAN(eps=eps, min_samples=min_samples)

# Realizando a clusterização
clusters = dbscan.fit_predict(Ctreino)

# Adicionando os clusters de volta ao DataFrame original
Ctreino2 = Ctreino.copy()
Ctreino2['Cluster'] = clusters

##### Novos Dados

In [None]:
def clusterizar(data,medtrain,stdtrain,dbscan):
  df1 = data
  df1 = (df1 - medtrain)/ stdtrain
  labels = dbscan.fit_predict(df1)
  return labels

In [None]:
labels = []
for index, row in pessoasnovas.iterrows():
  labels.append(clusterizar(pessoasnovas.iloc[[index]],medtrain,stdtrain,dbscan)[0])

pessoasnovas2 = pessoasnovas.copy()
pessoasnovas2['Cluster'] = labels

pessoasnovas2

## Mean Shift

### Explicação

O algoritmo Mean Shift é uma técnica de clusterização que não requer a especificação do número de clusters a priori.

1. **Seleção dos centros iniciais**: O algoritmo começa com uma etapa de inicialização, onde os "centros" dos clusters são selecionados. Isso pode ser feito escolhendo aleatoriamente pontos no conjunto de dados ou usando uma estratégia mais sistemática.

2. **Deslocamento médio (Mean Shift)**: Para cada centro inicial, o algoritmo calcula o deslocamento médio ponderado dos pontos de dados em direção a regiões de maior densidade de pontos. Esse deslocamento é calculado como a média ponderada dos vetores de deslocamento de todos os pontos em relação ao centro.

3. **Atualização dos centros**: Os centros dos clusters são atualizados movendo-os na direção do deslocamento médio calculado na etapa anterior.

4. **Convergência**: Os passos 2 e 3 são repetidos até que os centros dos clusters não mudem significativamente entre as iterações ou até que um critério de parada seja alcançado. Geralmente, um critério de parada pode ser um número máximo de iterações ou quando a mudança nos centros dos clusters é pequena o suficiente.

5. **Atribuição de pontos aos clusters**: Depois que os centros dos clusters convergem, os pontos de dados são atribuídos aos clusters com base na proximidade com os centros. Cada ponto é atribuído ao cluster cujo centro está mais próximo.

<img src="https://media.geeksforgeeks.org/wp-content/uploads/20190429213154/1354.png" alt="Imagem" width="500" height="400">

O algoritmo Mean Shift é eficaz para identificar clusters com diferentes formas e tamanhos, e pode encontrar clusters de densidade variável nos dados. Ele é particularmente útil quando a estrutura dos dados não é conhecida a priori e quando os clusters têm formas irregulares ou distribuições de densidade variáveis.

### Parametros

```
sklearn.cluster.estimate_bandwidth(X, *, quantile=0.3, n_samples=None, random_state=0, n_jobs=None)
```


1. **Banda (Bandwidth)**: Este é o parâmetro mais importante do algoritmo Mean Shift. A banda (bandwidth) define a escala espacial sobre a qual a densidade dos dados é avaliada. Ela determina o tamanho da janela de busca ao redor de cada ponto para calcular o deslocamento médio. Uma banda maior resulta em uma janela de busca maior, o que pode levar a uma suavização maior dos clusters, enquanto uma banda menor pode resultar em uma identificação de clusters mais detalhada, mas também pode ser mais sensível a ruídos.

Além do parâmetro de banda, existem outros parâmetros secundários que podem ser ajustados dependendo da implementação específica do algoritmo Mean Shift:

```
class sklearn.cluster.MeanShift(*, bandwidth=None, seeds=None, bin_seeding=False, min_bin_freq=1, cluster_all=True, n_jobs=None, max_iter=300)
```

2. **Kernel**: O algoritmo Mean Shift utiliza um kernel para ponderar a contribuição de cada ponto no cálculo do deslocamento médio. O tipo de kernel e sua largura podem afetar significativamente os resultados da clusterização.

3. **Método de convergência**: O algoritmo pode ter critérios diferentes para determinar a convergência, como um número máximo de iterações ou uma tolerância para a mudança nos centros dos clusters.

4. **Inicialização dos centros**: A maneira como os centros dos clusters são inicializados também pode influenciar o desempenho do algoritmo. Isso pode incluir estratégias como escolha aleatória de pontos como centros iniciais ou seleção de pontos baseados em critérios específicos.

A escolha dos parâmetros adequados é crucial para obter bons resultados de clusterização com o algoritmo Mean Shift. Experimentação e ajuste dos parâmetros com base nas características dos seus dados e nos objetivos da análise são essenciais para obter resultados significativos e úteis.

### Code

#### Melhores parametros

In [None]:
from sklearn.cluster import MeanShift, estimate_bandwidth
from sklearn.metrics import silhouette_score
from sklearn.metrics.pairwise import pairwise_distances

def calculate_separability(cluster_centers):
    if len(cluster_centers) <= 1:
        return 0.0
    return np.mean(pairwise_distances(cluster_centers, metric='euclidean'))

def calculate_cohesion(X, labels, cluster_centers):
    cohesion = 0.0
    for label in np.unique(labels):
        cluster_points = X[labels == label]
        if len(cluster_points) > 0:
            cluster_cohesion = np.mean(np.sum((cluster_points - cluster_centers[label])**2, axis=1))
            cohesion += cluster_cohesion
    return cohesion / len(X)

def treina_ms(Ctreino, quantile, samples):
    bandwidth = estimate_bandwidth(Ctreino, quantile=quantile, n_samples=samples)
    ms = MeanShift(bandwidth=bandwidth, bin_seeding=True)
    ms.fit(Ctreino)

    labels = ms.labels_
    cluster_centers = ms.cluster_centers_
    n_clusters_ = len(np.unique(labels))

    if n_clusters_ > 1:
        silhouette = silhouette_score(Ctreino, labels)
        separability = calculate_separability(cluster_centers)
        cohesion = calculate_cohesion(Ctreino, labels, cluster_centers)
    else:
        silhouette = -1
        separability = -1
        cohesion = float('inf')

    return ms, silhouette, separability, cohesion, n_clusters_

In [None]:
min_quantile = 0.1
max_quantile = 1.0
quantile_values = np.linspace(min_quantile, max_quantile, num=Div_quantile)

min_samples = 20
max_samples = n_samples
n_samples_values = np.linspace(min_samples, max_samples, num=Div_sample, dtype=int)


best_silhouette = -1
best_separability = -1
best_cohesion = float('inf')
best_quantile = None
best_samples = None
best_model = None

for quantile in tqdm(quantile_values):
    for samples in n_samples_values:
        ms, silhouette, separability, cohesion, n_clusters_ = treina_ms(Ctreino, quantile, samples)
        if silhouette > best_silhouette and separability > best_separability and cohesion < best_cohesion:
            best_silhouette = silhouette
            best_separability = separability
            best_cohesion = cohesion
            best_quantile = quantile
            best_samples = samples
            best_model = ms

print('Melhores parâmetros encontrados:')
print('Quantile:', best_quantile)
print('Samples:', best_samples)
print("Número estimado de clusters:", len(np.unique(best_model.labels_)))
print('Silhueta:', best_silhouette)
print('Separabilidade:', best_separability)
print('Coesão:', best_cohesion)

#### Clusterizando

In [None]:
from sklearn.cluster import MeanShift, estimate_bandwidth

# Estime a largura de banda
bandwidth = estimate_bandwidth(Ctreino, quantile=0.1, n_samples=20)

# Crie o objeto de clusterização Mean Shift
ms = MeanShift(bandwidth=bandwidth, bin_seeding=True)

# Realize a clusterização
ms.fit(Ctreino)

# Obtenha os rótulos dos clusters e os centros dos clusters
labels = ms.labels_

# Realizando a clusterização
clusters = ms.fit_predict(Ctreino)

# Adicionando os clusters de volta ao DataFrame original
Ctreino2 = Ctreino.copy()
Ctreino2['Cluster'] = clusters

In [None]:
Ctreino2['Cluster'].value_counts()

## OPTICS

### Explicação

O algoritmo OPTICS (Ordering Points To Identify the Clustering Structure) é uma técnica de clusterização que se baseia na densidade dos pontos de dados.

1. **Cálculo da distância**: O algoritmo começa calculando a distância entre todos os pares de pontos no conjunto de dados.

2. **Ordenação dos pontos**: Os pontos de dados são então ordenados com base em sua densidade. Isso é feito determinando a distância até o ponto mais próximo que tenha uma densidade maior ou igual a um certo limiar (MinPts), que é um parâmetro definido pelo usuário.

3. **Construção da estrutura OPTICS**: Durante a ordenação, o algoritmo constrói uma estrutura de árvore chamada de OPTICS Reachability Plot. Esta estrutura é semelhante a um dendrograma e representa a hierarquia da densidade dos pontos de dados.

<img src="https://miro.medium.com/v2/resize:fit:1400/1*HRwa9lQgPhwoCAVlX4S_xA.png" alt="Imagem" width="800" height="400">

4. **Identificação de clusters**: Após a construção da estrutura OPTICS, é possível identificar os clusters observando os "vales" na estrutura. Um vale indica uma região de baixa densidade, que pode ser interpretada como uma fronteira entre clusters.

5. **Extração dos clusters**: Os clusters são extraídos da estrutura OPTICS considerando os vales e as densidades dos pontos. Isso permite identificar clusters de diferentes formas e tamanhos, além de lidar com ruído e outliers de forma mais eficaz.

O algoritmo OPTICS é eficaz para identificar clusters em conjuntos de dados com densidade variável e pode lidar com ruído e outliers de forma robusta. Ele fornece uma visão hierárquica da estrutura de clusterização dos dados, o que pode ser útil para análises exploratórias e identificação de padrões complexos.

### Parametros



```
class sklearn.cluster.OPTICS(*, min_samples=5, max_eps=inf, metric='minkowski', p=2, metric_params=None, cluster_method='xi', eps=None, xi=0.05, predecessor_correction=True, min_cluster_size=None, algorithm='auto', leaf_size=30, memory=None, n_jobs=None)
```




1. **MinPts**: Este é o parâmetro mais importante do algoritmo OPTICS. MinPts define o número mínimo de pontos que devem existir dentro de uma vizinhança de um ponto para que ele seja considerado parte de um cluster. Pontos que têm menos vizinhos do que MinPts são considerados ruído. Escolher um valor adequado para MinPts é crucial para identificar clusters significativos e evitar a identificação de pequenos grupos espúrios.

2. **Eps**: O parâmetro Eps (ε) define a distância máxima entre dois pontos para que sejam considerados vizinhos. É usado para calcular a densidade dos pontos em torno de cada ponto e para identificar a estrutura de densidade dos dados. Escolher um valor apropriado para Eps depende da escala dos dados e da densidade esperada dos clusters.

3. **Algoritmo de vizinhança**: O algoritmo OPTICS pode usar diferentes algoritmos para calcular vizinhos próximos, como k-d trees ou algoritmos de busca espacial. A escolha do algoritmo de vizinhança pode afetar significativamente o desempenho do algoritmo e a eficiência do cálculo de vizinhança em grandes conjuntos de dados.

4. **Método de distância**: O algoritmo OPTICS pode usar diferentes métodos de cálculo de distância, como distância euclidiana, distância de Manhattan, distância de Minkowski, entre outros. A escolha do método de distância depende das características dos dados e da natureza do problema de clusterização.

### Code

In [None]:
from sklearn.cluster import OPTICS
from sklearn.metrics import silhouette_score
from sklearn.metrics.pairwise import pairwise_distances
import numpy as np

def calculate_separability(cluster_labels, X):
    unique_labels = np.unique(cluster_labels)
    separability = 0.0
    for label in unique_labels:
        cluster_points = X[cluster_labels == label]
        centroid = np.mean(cluster_points, axis=0)
        separability += np.sum(pairwise_distances(cluster_points, [centroid]))
    return separability

def evaluate_optics(X, min_samples_range, max_eps_range):
    best_silhouette = -1
    best_separability = -1
    best_structure = -1
    best_min_samples = None
    best_max_eps = None
    best_n_clusters = -1  # Variável para armazenar o número de clusters

    min_samples_values = np.linspace(min_samples_range[0], min_samples_range[1], num=20)
    max_eps_values = np.linspace(max_eps_range[0], max_eps_range[1], num=20)

    pbar = tqdm(total=len(min_samples_values) * len(max_eps_values))

    for min_samples in min_samples_values:
        for max_eps in max_eps_values:
            optics = OPTICS(min_samples=int(min_samples), max_eps=max_eps)
            try:
                optics.fit(X)
            except ValueError:
                continue
            labels = optics.labels_  # Rótulos gerados pelo OPTICS
            n_clusters = len(np.unique(labels))  # Contagem de rótulos únicos
            if n_clusters > 1:  # Consideramos apenas configurações válidas com mais de um cluster
                silhouette = silhouette_score(X, labels)
                separability = calculate_separability(labels, X)
                structure = n_clusters
                if silhouette > best_silhouette:
                    best_silhouette = silhouette
                    best_separability = separability
                    best_structure = structure
                    best_min_samples = min_samples
                    best_max_eps = max_eps
                    best_n_clusters = n_clusters
            pbar.update(1)

    pbar.close()

    return best_silhouette, best_separability, best_structure, best_min_samples, best_max_eps, best_n_clusters

In [None]:
# Defina os intervalos para os parâmetros min_samples e max_eps
min_samples_range = (5, 50)  # Amplie o intervalo conforme necessário
max_eps_range = (2,10)  # Amplie o intervalo conforme necessário

# Avalie o OPTICS com diferentes combinações de parâmetros
best_silhouette, best_separability, best_structure, best_min_samples, best_max_eps, best_n_clusters = evaluate_optics(Ctreino, min_samples_range, max_eps_range)

# Apresente os melhores resultados encontrados
if best_min_samples is not None and best_max_eps is not None:
    print('Melhores parâmetros encontrados:')
    print('Min_samples:', best_min_samples)
    print('Max_eps:', best_max_eps)
    print('Silhueta:', best_silhouette)
    print('Separabilidade:', best_separability)
    print('Estrutura do Cluster:', best_structure)
    print('Número de Clusters:', best_n_clusters)
else:
    print('Nenhum conjunto de parâmetros válido encontrado.')

In [None]:
from sklearn.cluster import OPTICS

# Crie o objeto OPTICS
optics_model = OPTICS(min_samples=2, xi=.05, min_cluster_size=.05)

# Ajuste o modelo aos dados
optics_model.fit(Ctreino)

# Atribuições de cluster
clusters = optics_model.labels_

# Adicionando os clusters de volta ao DataFrame original
Ctreino2 = Ctreino.copy()
Ctreino2['Cluster'] = clusters

In [None]:
Ctreino2['Cluster'].value_counts()

## Spectral Clustering

### Explicação

O método Spectral Clustering é uma técnica de clusterização que utiliza propriedades dos autovetores de matrizes para encontrar estruturas de clusters nos dados.

1. **Construção da matriz de similaridade**: O primeiro passo é construir uma matriz de similaridade que capture as relações entre os pontos de dados. Esta matriz pode ser construída usando diferentes medidas de similaridade, como distância euclidiana, distância de similaridade ou outras métricas relevantes para o problema.

2. **Construção da matriz laplaciana**: A matriz laplaciana é derivada da matriz de similaridade e é usada para capturar a estrutura de conectividade dos dados. Existem diferentes formas de construir a matriz laplaciana, sendo a mais comum a matriz laplaciana não normalizada ou a matriz laplaciana normalizada.

3. **Cálculo dos autovetores**: Os autovetores (e possivelmente autovalores) da matriz laplaciana são calculados. Os autovetores correspondentes aos menores autovalores capturam a estrutura de cluster dos dados.

4. **Redução de dimensionalidade e agrupamento espectral**: Os autovetores são usados para reduzir a dimensionalidade dos dados para um espaço de menor dimensão, onde é mais fácil identificar os clusters. Em seguida, um algoritmo de agrupamento, como k-means, é aplicado neste espaço de menor dimensão para atribuir os pontos aos clusters.

5. **Atribuição de pontos aos clusters**: Finalmente, os pontos de dados são atribuídos aos clusters identificados pelo algoritmo de agrupamento no espaço de menor dimensão.

O método Spectral Clustering é eficaz para identificar clusters de formas complexas e não lineares nos dados. Ele é frequentemente utilizado em problemas de clusterização onde os clusters não são linearmente separáveis e apresentam estruturas intrínsecas mais complexas.


<img src="https://media.springernature.com/lw685/springer-static/image/chp%3A10.1007%2F978-3-030-65347-7_8/MediaObjects/498806_1_En_8_Fig1_HTML.png" alt="Imagem" width="900" height="300">


### Parametros



```
class sklearn.cluster.SpectralClustering(n_clusters=8, *, eigen_solver=None, n_components=None, random_state=None, n_init=10, gamma=1.0, affinity='rbf', n_neighbors=10, eigen_tol='auto', assign_labels='kmeans', degree=3, coef0=1, kernel_params=None, n_jobs=None, verbose=False)
```



1. **Número de Clusters (k)**: Este é o número de grupos nos quais você deseja segmentar seus dados. Escolher o número correto de clusters é crucial e pode exigir alguma investigação e compreensão do conjunto de dados.

2. **Matriz de Similaridade (ou afinidade)**: Esta é a matriz que descreve a relação de proximidade ou similaridade entre as amostras do conjunto de dados. As opções comuns incluem a matriz de adjacência, matriz de distância euclidiana, matriz de similaridade baseada em grafos, entre outras.

3. **Tipo de Kernel (se aplicável)**: Se você estiver usando uma matriz de similaridade baseada em kernel (por exemplo, o kernel de Gaussiano), precisará especificar o tipo de kernel e seus parâmetros, como a largura de banda para o kernel de Gaussiano.

4. **Método de Decomposição Espectral**: A matriz de similaridade é transformada em uma matriz Laplaciana, que é então decomposta em seus componentes principais. Existem diferentes métodos para realizar essa decomposição, como a Decomposição em Valores Singulares (SVD), Decomposição Espectral Normalizada, entre outros.

5. **Método de Atribuição de Cluster**: Depois de obter os componentes principais da matriz Laplaciana, é necessário atribuir as amostras aos clusters. Isso pode ser feito de várias maneiras, como o método k-means aplicado aos componentes principais ou métodos de corte espectral.

6. **Parâmetros Específicos do Método de Atribuição de Cluster**: Dependendo do método de atribuição de cluster escolhido, pode haver parâmetros adicionais a serem ajustados, como o número máximo de iterações no k-means.

### Code

In [None]:
from sklearn.cluster import SpectralClustering

# Criar o objeto SpectralClustering
spectral_model = SpectralClustering(n_clusters=6, affinity='nearest_neighbors')

# Ajustar o modelo aos dados
spectral_model.fit(Ctreino)

# Atribuições de cluster
clusters = spectral_model.labels_

# Adicionando os clusters de volta ao DataFrame original
Ctreino2 = Ctreino.copy()
Ctreino2['Cluster'] = clusters

In [None]:
Ctreino2['Cluster'].value_counts()

## Gaussian Mixture Model

### Explicação

Claro! O método Gaussian Mixture Model (GMM) é uma técnica de agrupamento probabilístico que assume que os dados são gerados por uma mistura de várias distribuições gaussianas.

1. **Inicialização**: Primeiro, você precisa inicializar os parâmetros do modelo, incluindo o número de clusters e os parâmetros das distribuições gaussianas para cada cluster. Isso pode ser feito de várias maneiras, como aleatoriamente ou usando algum método de inicialização.

2. **Expectation-Maximization (EM)**: Depois da inicialização, o algoritmo EM é utilizado para ajustar os parâmetros do modelo iterativamente. Este algoritmo tem duas etapas:

   - **Expectation Step (Passo de Expectativa)**: Nesta etapa, o algoritmo calcula a probabilidade de cada ponto de dados pertencer a cada um dos clusters. Isso é feito usando a distribuição gaussiana de cada cluster e atualizando as probabilidades usando o teorema de Bayes.
   
   - **Maximization Step (Passo de Maximização)**: Com as probabilidades atualizadas, o algoritmo então recalcula os parâmetros das distribuições gaussianas para maximizar a probabilidade de observar os dados. Isso geralmente envolve ajustar as médias, covariâncias e pesos (ou seja, proporções de pontos de dados atribuídos a cada cluster).

3. **Convergência**: O processo de Expectation-Maximization é repetido iterativamente até que os parâmetros do modelo converjam para valores onde a mudança nos parâmetros se torna insignificante entre iterações consecutivas ou até que um critério de parada predefinido seja atingido.

4. **Atribuição de Clusters**: Depois que o algoritmo convergiu, os pontos de dados são atribuídos ao cluster com a maior probabilidade de pertencimento calculada durante a etapa de Expectation.

5. **Avaliação**: Por fim, é importante avaliar a qualidade dos clusters obtidos. Isso pode ser feito usando métricas de avaliação interna, como coeficiente de silhueta, ou métricas externas, dependendo dos dados e dos objetivos do problema.

O processo de clusterização pelo método GMM é iterativo e probabilístico, o que significa que ele pode ser robusto e eficaz para dados complexos que não podem ser adequadamente agrupados usando métodos mais simples, como o k-means.

<img src="https://miro.medium.com/v2/resize:fit:753/1*lTv7e4Cdlp738X_WFZyZHA.png" alt="Imagem" width="600" height="300">


### Parametros

```
class sklearn.mixture.GaussianMixture(n_components=1, *, covariance_type='full', tol=0.001, reg_covar=1e-06, max_iter=100, n_init=1, init_params='kmeans', weights_init=None, means_init=None, precisions_init=None, random_state=None, warm_start=False, verbose=0, verbose_interval=10)
```

1. **Número de Componentes (Clusters)**: Este é o número de distribuições gaussianas que serão usadas para modelar os dados. Cada componente representa um cluster potencial. Escolher o número certo de clusters é crucial e pode exigir alguma investigação e compreensão do conjunto de dados.

2. **Inicialização dos Parâmetros**: Os parâmetros iniciais do GMM incluem as médias, covariâncias e pesos de cada componente gaussiano. Esses parâmetros podem ser inicializados de várias maneiras, como aleatoriamente ou usando métodos de inicialização específicos, como o algoritmo k-means++.

3. **Critério de Convergência**: É necessário definir um critério de parada para o algoritmo, que determina quando o processo de otimização dos parâmetros converge. Isso pode ser baseado em uma tolerância para a mudança nos parâmetros ou no número máximo de iterações.

4. **Covariance Type (Tipo de Covariância)**: Este parâmetro determina a forma da matriz de covariância para cada componente gaussiano. As opções comuns incluem:
   - **full**: Covariância completa, onde cada componente tem sua própria matriz de covariância completa.
   - **tied**: Covariância compartilhada, onde todos os componentes têm a mesma matriz de covariância.
   - **diag**: Covariância diagonal, onde cada componente tem sua própria matriz de covariância diagonal.
   - **spherical**: Covariância esférica, onde cada componente tem uma única variância.

5. **Algoritmo de Otimização**: O GMM geralmente é otimizado usando o algoritmo Expectation-Maximization (EM). Existem variações do EM que podem ser usadas, como o algoritmo EM padrão ou o EM variacional.

6. **Parâmetros de Regularização (se aplicável)**: Em alguns casos, pode ser necessário aplicar técnicas de regularização para evitar overfitting ou instabilidade numérica. Por exemplo, você pode querer adicionar uma pequena quantidade de diagonal à matriz de covariância para estabilizar o cálculo.

A escolha adequada desses parâmetros depende da natureza do conjunto de dados e dos objetivos do agrupamento. Experimentação e validação cruzada geralmente são necessárias para determinar os melhores parâmetros para o seu caso específico.

### Code

In [None]:
from sklearn.mixture import GaussianMixture

# Criar o objeto GaussianMixture
gmm_model = GaussianMixture(n_components=6)

# Ajustar o modelo aos dados
gmm_model.fit(Ctreino)

# Atribuições de cluster
clusters = gmm_model.predict(Ctreino)

# Adicionando os clusters de volta ao DataFrame original
Ctreino2 = Ctreino.copy()
Ctreino2['Cluster'] = clusters

In [None]:
Ctreino2['Cluster'].value_counts()

## Agglomerative Clustering

### Explicação

O método de Aglomerative Clustering é uma técnica de agrupamento hierárquico que começa com cada ponto de dados em seu próprio cluster e, em seguida, mescla gradualmente os clusters mais próximos uns dos outros até que todos os pontos de dados estejam em um único cluster.

1. **Inicialização**: No início, cada ponto de dados é considerado como um cluster separado. Portanto, se você tiver N pontos de dados, haverá N clusters no início.

2. **Cálculo da Similaridade entre Clusters**: Em cada etapa do processo, calcula-se a similaridade entre todos os pares de clusters. A similaridade pode ser medida de várias maneiras, como a distância entre os centróides dos clusters, a distância mínima entre os pontos de cada cluster (single linkage), a distância máxima entre os pontos de cada cluster (complete linkage), ou a média das distâncias entre os pontos de cada cluster (average linkage).

3. **Mesclagem dos Clusters Mais Próximos**: Após calcular as similaridades entre os clusters, o par de clusters mais similares é mesclado em um novo cluster. A definição de "mais similares" depende da medida de similaridade escolhida.

4. **Atualização da Matriz de Similaridade**: Após mesclar os clusters, a matriz de similaridade é atualizada para refletir a nova configuração de clusters. Isso significa que a similaridade entre o novo cluster e os clusters restantes precisa ser recalculada.

5. **Repetição do Processo**: Os passos 3 e 4 são repetidos até que todos os pontos de dados estejam em um único cluster.

6. **Construção da Árvore Hierárquica (Dendrograma)**: Durante o processo de mesclagem, uma árvore hierárquica é construída, chamada dendrograma, que mostra como os clusters foram mesclados ao longo do tempo. Isso pode ser útil para entender a estrutura hierárquica dos dados.

7. **Determinação do Número de Clusters (Opcional)**: Você pode decidir onde cortar a árvore hierárquica para obter um determinado número de clusters. Isso pode ser feito usando critérios como a distância entre os clusters no dendrograma ou usando métodos como o Elbow Method.

O método Aglomerative Clustering é relativamente simples de entender e implementar, e é especialmente útil quando a estrutura hierárquica dos dados é importante ou quando não se sabe a priori o número ideal de clusters.

<img src="https://miro.medium.com/v2/resize:fit:740/1*VvOVxdBb74IOxxF2RmthCQ.png" alt="Imagem" width="600" height="300">


### Parametros



```
class sklearn.cluster.AgglomerativeClustering(n_clusters=2, *, metric='euclidean', memory=None, connectivity=None, compute_full_tree='auto', linkage='ward', distance_threshold=None, compute_distances=False)
```



1. **Método de Ligação (Linkage)**: O método de ligação é utilizado para calcular a similaridade entre clusters durante o processo de aglomeração. Alguns dos métodos de ligação mais comuns incluem:
   - **Single Linkage**: Calcula a similaridade entre os dois clusters mais próximos.
   - **Complete Linkage**: Calcula a similaridade entre os dois clusters mais distantes.
   - **Average Linkage**: Calcula a similaridade entre todos os pares de pontos nos dois clusters e, em seguida, calcula a média dessas similaridades.
   - **Ward's Linkage**: Minimiza a variância intra-cluster quando os clusters são mesclados.

2. **Métrica de Distância**: A métrica de distância é usada para calcular a distância entre os pontos de dados ou os centróides dos clusters. Alguns exemplos de métricas de distância incluem a distância euclidiana, a distância de Manhattan, a distância de Minkowski, entre outras.

3. **Critério de Fusão (Critério de Parada)**: Este parâmetro define o critério para parar o processo de aglomeração. Pode ser especificado como um número de clusters desejado ou uma distância máxima entre os clusters.

4. **Matriz de Conectividade (Opcional)**: Uma matriz de conectividade pode ser fornecida para restringir quais clusters podem ser mesclados entre si. Isso pode ser útil em casos onde há conhecimento prévio sobre a estrutura dos dados.

5. **Número de Clusters (Opcional)**: Embora não seja um parâmetro direto, o número de clusters pode ser inferido observando o dendrograma resultante do processo de aglomeração. Você pode decidir onde cortar o dendrograma para obter um número desejado de clusters.

Estes são os principais parâmetros que podem ser ajustados no algoritmo de Aglomerative Clustering. A escolha adequada desses parâmetros depende da natureza dos dados e dos objetivos do agrupamento. Experimentação e validação cruzada são geralmente necessárias para determinar os melhores parâmetros para o seu caso específico.

### Code

In [None]:
from sklearn.cluster import AgglomerativeClustering

# Criar o objeto AgglomerativeClustering
agg_model = AgglomerativeClustering(n_clusters=6)

# Ajustar o modelo aos dados
agg_model.fit(Ctreino)

# Atribuições de cluster
clusters = agg_model.labels_

# Adicionando os clusters de volta ao DataFrame original
Ctreino2 = Ctreino.copy()
Ctreino2['Cluster'] = clusters


In [None]:
Ctreino2['Cluster'].value_counts()