# Clusterização Amostra Total

## Imports and packages

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
import seaborn as sns
from sklearn.cluster import DBSCAN
import os

In [None]:
df = pd.read_csv("./data_source/amostra_total.csv",  sep=';')

In [None]:
df_c = df.copy()

In [None]:
df_c.info()

In [None]:
df_c.head()

## K-Means

In [None]:
# Selecionar as características relevantes para a clusterização
X = df[['LATITUDE', 'LONGITUDE']]

# Instanciar o modelo K-means com o número desejado de clusters para o projeto
kmeans = KMeans(n_clusters=6000)

# Treinar o modelo
kmeans.fit(X)

df['cluster_labels'] = kmeans.labels_

# Verificar se a pasta 'cluster' já existe, se não, criar
if not os.path.exists('cluster'):
    os.makedirs('cluster')

# Caminho para salvar o arquivo CSV dentro da pasta 'cluster'
file_path = os.path.join('cluster', 'clusters_kmeans.csv')

# Salvar os clusters em um arquivo CSV dentro da pasta 'cluster'
df.to_csv(file_path, index=False)

# Obter o número total de clusters
num_clusters = len(set(kmeans.labels_))

# Plotagem dos clusters
plt.figure(figsize=(15, 7))
scatter = sns.scatterplot(x='LONGITUDE', y='LATITUDE', hue='cluster_labels', data=df, palette='viridis', alpha=0.5, sizes=10)

# Adicionar legenda no gráfico
plt.legend(title='Quantidade de Clusters', fontsize='small', title_fontsize='medium', labels=[f'{num_clusters} clusters'], loc='upper center', bbox_to_anchor=(0.5, -0.1), ncol=1)
plt.xlabel('Longitude')
plt.ylabel('Latitude')
plt.title('K-means')

plt.show()

## DBSCAN

In [None]:
# Reduzir o tamanho do conjunto de dados
df_sample = df.sample(frac=0.1) 

# Selecionar as características relevantes para a clusterização
X = df_sample[['LATITUDE', 'LONGITUDE']]

# Instanciar o modelo DBSCAN com os parâmetros desejados
dbscan = DBSCAN(eps=0.1, min_samples=10)

# Treinar o modelo
dbscan.fit(X)

df_sample['cluster_labels'] = dbscan.labels_

# Verificar se a pasta 'cluster' já existe, se não, criar
if not os.path.exists('cluster'):
    os.makedirs('cluster')

# Caminho para salvar o arquivo CSV dentro da pasta 'cluster'
file_path = os.path.join('cluster', 'clusters_dbscan.csv')

# Salvar os clusters em um arquivo CSV dentro da pasta 'cluster'
df_sample.to_csv(file_path, index=False)

# Obter o número total de clusters (desconsiderando o rótulo de ruído, -1)
num_clusters = len(set(dbscan.labels_)) - (1 if -1 in dbscan.labels_ else 0)

# Plotagem dos clusters
plt.figure(figsize=(15, 7))
scatter = sns.scatterplot(x='LONGITUDE', y='LATITUDE', hue='cluster_labels', data=df_sample, palette='viridis', alpha=0.5, sizes=10)

# Adicionar legenda no gráfico
plt.legend(title='Quantidade de Clusters', fontsize='small', title_fontsize='medium', labels=[f'{num_clusters} clusters'], loc='upper center', bbox_to_anchor=(0.5, -0.1), ncol=1)
plt.xlabel('Longitude')
plt.ylabel('Latitude')
plt.title('DBSCAN')

plt.show()