In [1]:
import pandas as pd
import numpy as np
from sklearn.datasets import make_classification
from sklearn.cluster import KMeans, DBSCAN
import plotly.express as px
from plotly.subplots import make_subplots

In [2]:
# criando o dataset com dados aleatórios
X, _ = make_classification(
    n_samples=1000, 
    n_features=2, 
    n_informative=2, 
    n_redundant=0, 
    n_clusters_per_class=1, 
    random_state=4
)
X.shape

(1000, 2)

In [3]:
# definindo o modelo K-means
kmeans = KMeans(
    n_clusters=4,
    n_init=10
)
# treinando o modelo
kmeans.fit(X)
# avaliando uma nova amostra (predição de cluster)
kmeans_yhat = kmeans.predict(X)
# recuperando centroids do kmeans para plotar
centroides = kmeans.cluster_centers_

kmeans_yhat.shape

(1000,)

In [4]:
# definindo o modelo DBSCAN
dbscan = DBSCAN(
    eps=0.25,
    min_samples=10
)
# treinando o modelo
dbscan.fit(X)
# avaliando uma nova amostra (predição de cluster)
dbscan_yhat = dbscan.labels_

dbscan_yhat.shape

(1000,)

In [5]:
# armazenando dados em dataframe
df = pd.DataFrame(
 {
     'x':X[:,0],
     'y':X[:,1],
     'kmeans':kmeans_yhat,
     'dbscan':dbscan_yhat
 }
)
df['kmeans'], df['dbscan'] = df.kmeans.astype('str'), df.dbscan.astype('str')

df.head()

Unnamed: 0,x,y,kmeans,dbscan
0,1.22516,-0.951731,0,0
1,1.016304,-1.725175,2,0
2,0.33534,-1.724896,2,0
3,1.786348,-1.782653,2,-1
4,1.016751,1.062569,0,-1


In [6]:

# plotando clusterização kmeans
fig1 = px.scatter(
    df,
    x='x',
    y='y',  
    color='kmeans',
    width=600,
    height=400,
    title='<b>Clusterização utilizando K-Means</b>'
)
# adicionando centroides
fig1.add_scatter(
    x=centroides[:,0], 
    y=centroides[:,1], 
    mode='markers', 
    marker=dict(
        size=10, 
        symbol='0', 
        color='black'
    ), 
    showlegend=False
)
# plotando clusterização DBSCAN
fig2 = px.scatter(
    df,
    x='x',
    y='y',  
    color='dbscan',
    width=600,
    height=400,
    title='<b>Clusterização utilizando DBSCAN</b>',
    # -1 é não clusterizado, melhor deixar mais claro
    color_discrete_map = {'-1': '#D3D3D3'} 
)
fig1.show()
fig2.show()