## DBSCAN

In [None]:
import numpy as np
import seaborn as sns

In [None]:
df = sns.load_dataset("iris")
X = df.drop(columns="species")
X

## Función para Visualizar

In [None]:
import matplotlib.pyplot as plt


## Función ligeramente modificada para no requerir centroides en caso que no sea aplicable.
def pca_viz(pca_X, labels, pca_centroids=None, title=None, cmap="viridis"):
    plt.scatter(pca_X[:, 0], pca_X[:, 1], c=labels, cmap=cmap)
    if pca_centroids is not None:
        plt.scatter(
            pca_centroids[:, 0],
            pca_centroids[:, 1],
            marker="*",
            c="red",
            s=150,
        )
    plt.title(title)

In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import DBSCAN

sc = StandardScaler()
dbs = DBSCAN(min_samples=4, eps=3)
X_sc = sc.fit_transform(X)
labels = dbs.fit_predict(X_sc)
labels

In [None]:
from sklearn.decomposition import PCA

## Probar minPts = 4 y eps = 0.2
## Probar minPts = 10 y eps = 0.5
## Probar minPts = 13 y eps = 0.6
pca = PCA(n_components=2)
pca_X = pca.fit_transform(X_sc)

pca_viz(
    pca_X,
    labels=labels,
    title="Visualización de DBSCAN para Iris en 2D",
)

In [None]:
from sklearn.neighbors import NearestNeighbors


def dbscan_elbow_plot(X, k=5):
    knn = NearestNeighbors(n_neighbors=k)
    knn.fit(X)
    distances, _ = knn.kneighbors(X)
    distances = np.sort(distances[:, -1])
    n_pts = distances.shape[0]

    plt.plot(range(1, n_pts + 1), distances)
    plt.xlabel(
        f"Puntos ordenados por Distancia al {k} vecino más cercano."
    )
    plt.ylabel(f"Distancia al {k} vecino más cercano")
    plt.title(f"Búsqueda de EPS para DBSCAN con k={k}")


# k = 5 escogido ya que tenemos 4 dimensiones.
dbscan_elbow_plot(X_sc, k=5)

## Modelo entrenado con Hiperparámetros Óptimos

In [None]:
MIN_PTS = 5
EPS = 0.75
sc = StandardScaler()
dbs = DBSCAN(min_samples=MIN_PTS, eps=EPS)
X_sc = sc.fit_transform(X)
labels = dbs.fit_predict(X_sc)
pca_viz(
    pca_X,
    labels=labels,
    title=f"Visualización de DBSCAN para Iris en 2D con los mejores Hiperparámetros: MinPts: {MIN_PTS} y eps = {EPS}",
)