# **DBSCAN**

O Density-Based Spatial Clustering of Application with Noise (DBSCAN). Esse algoritmo é baseado em densidade, agrupando os pontos similares no mesmo espaço, não sendo necessário especificar o número de clusteres. EM geral, apresenta resultados melhores que os o k-means além de ser mais rápido. Ele tenta encontrar os pontos que são separados por uma distância não maior do que um limiar (**threshhold distance**).<br>
Ele encontra facilmente padrões não lineares e é robusto contra outliers. Ele pode fornecer valores mais consistentes do que o k-means pois não depende de inicializações aleatórias, mas é difícil encontrar um bom valor para o parâmetro limitante da distância do raio.

In [1]:
import plotly.express as px
import plotly.graph_objects as go
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

## Salário por Idade

In [2]:
x = [20, 27, 21, 37, 46, 53, 55, 47, 52, 32, 39, 41, 39, 48, 48]
y = [1000, 1200, 2900, 1850, 900, 950, 2000, 2100, 3000, 5900, 4100, 5100, 7000, 5000, 6500]

In [10]:
from sklearn.cluster import DBSCAN
from sklearn.preprocessing import StandardScaler

base_salario = np.array([[20,1000],[27,1200],[37,2900],[37,1850],
                         [46,900],[53,950],[55,2000],[47,2100],
                         [52,3000],[32,5900],[39,4100],[41,5100],
                         [39,7000],[48,5000],[48,6500]])

scaler = StandardScaler()
base_salario = scaler.fit_transform(base_salario)

dbscan_salario = DBSCAN(eps=0.95, min_samples=2)
dbscan_salario.fit(base_salario)
rotulos = dbscan_salario.labels_

In [11]:
grafico1 = px.scatter(x=base_salario[:,0],y=base_salario[:,1],color=rotulos)
grafico1.show()

## Base de Crédito

In [12]:
base_cartao = pd.read_csv('/Users/gustavomeira/Documents/Python/Estudo_ML/projects/Agrupamento/credit_card_clients.csv',header=1)

In [13]:
base_cartao['BILL TOTAL'] = base_cartao['BILL_AMT1'] + base_cartao['BILL_AMT2'] + base_cartao['BILL_AMT3'] + base_cartao['BILL_AMT4'] + base_cartao['BILL_AMT5'] + base_cartao['BILL_AMT6']
X_cartao = base_cartao.iloc[:,[1,25]].values
display(X_cartao)

array([[ 20000,   7704],
       [120000,  17077],
       [ 90000, 101653],
       ...,
       [ 30000,  70496],
       [ 80000, 266611],
       [ 50000, 230874]])

In [15]:
scaler_cartao = StandardScaler()
X_cartao = scaler_cartao.fit_transform(X_cartao)

In [20]:
dbscan_cartao = DBSCAN(eps=0.37, min_samples=5)
rotulos = dbscan_cartao.fit_predict(X_cartao)
display(np.unique(rotulos, return_counts=True))

(array([-1,  0,  1,  2]), array([   52, 29920,    18,    10]))

In [21]:
grafico1 = px.scatter(x=X_cartao[:,0],y=X_cartao[:,1],color=rotulos)
grafico1.show()