# Algoritmo DBSCAN

## Imports

In [1]:
# importamos las librerias y bibliotecas que utilizaremos para el algoritmo DBSCAN
%matplotlib inline
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
import matplotlib.gridspec as gridspec
from collections import Counter
from sklearn.preprocessing import RobustScaler
from sklearn.impute import SimpleImputer
from pandas import DataFrame
from sklearn.pipeline import Pipeline
from sklearn import metrics
import numpy as np

## Funciones auxiliares

In [2]:
def purity_score(y_true, y_pred):
    # compute contingency matrix (also called confusion matrix)
    contingency_matrix = metrics.cluster.contingency_matrix(y_true, y_pred)
    # return purity
    return np.sum(np.amax(contingency_matrix, axis=0)) / np.sum(contingency_matrix)

## Lectura del conjunto de datos

In [3]:
df_ini = pd.read_csv('dataset-equilibrado-1.csv')

## Visualización del conjunto de datos

In [4]:
df_ini.head(10)

Unnamed: 0,id,age,hypertension,heart_disease,avg_glucose_level,bmi,stroke
0,9046,67.0,0,1,228.69,36.6,1
1,51676,61.0,0,0,202.21,,1
2,31112,80.0,0,1,105.92,32.5,1
3,60182,49.0,0,0,171.23,34.4,1
4,1665,79.0,1,0,174.12,24.0,1
5,56669,81.0,0,0,186.21,29.0,1
6,53882,74.0,1,1,70.09,27.4,1
7,10434,69.0,0,0,94.39,22.8,1
8,27419,59.0,0,0,76.15,,1
9,60491,78.0,0,0,58.57,24.2,1


In [None]:
#Validamos la cantidad de ejemplos que posee el dataset
df_ini["stroke"].value_counts()

## Primera preparación del conjunto de datos

In [None]:
#Eliminamos datos que son irrelevantes y que podrian alterar el comportamiento del algoritmo
df_ini = df_ini.drop(["id"], axis=1)

In [None]:
#Función para transformar las columnas categoricas a numericas
df= pd.get_dummies(df_ini, columns=['gender','ever_married','work_type','Residence_type','smoking_status'])

In [None]:
#Validamos que los cambios se aplicarón correctamente 
df

In [None]:
# Representamos gráficamente las características
features = df.drop("stroke", axis=1)

plt.figure(figsize=(12,32))
gs = gridspec.GridSpec(8, 4)
gs.update(hspace=0.8)

for i, f in enumerate(features):
    ax = plt.subplot(gs[i])
    sns.distplot(df[f][df["stroke"] == 1])
    sns.distplot(df[f][df["stroke"] == 0])
    ax.set_xlabel('')
    ax.set_title('feature: ' + str(f))

plt.show()

In [None]:
# Representación gráfica de dos características
plt.figure(figsize=(12, 6))
plt.scatter(df["age"][df['stroke'] == 0], df["avg_glucose_level"][df['stroke'] == 0], c="y", marker=".")
plt.scatter(df["age"][df['stroke'] == 1], df["avg_glucose_level"][df['stroke'] == 1], c="r", marker=".")
plt.xlabel("age", fontsize=14)
plt.ylabel("avg_glucose_level", fontsize=14)
plt.show()

## DBSCAN con un conjunto de datos de dos dimensiones

In [None]:
X_2 = df[["age", "avg_glucose_level"]].copy()
y = df["stroke"].copy()
X_2

In [None]:
# Construcción de un pipeline para rellenar los valores nulos con la mediana y scalar los datos 
from sklearn.impute import SimpleImputer

num_pipeline = Pipeline([
        ('imputer', SimpleImputer(strategy="median")),
        ('rbst_scaler', RobustScaler()),
    ])

In [None]:
# Rellenamos los valores nulos
X = num_pipeline.fit_transform(X_2)

In [None]:
# Transformamos el resultado a un DataFrame de Pandas
X = pd.DataFrame(X, columns=X_2.columns, index=y_df.index)

In [None]:
#Validamos que los cambios se aplicaron correctamente 
X

In [None]:
from sklearn.cluster import DBSCAN

dbscan = DBSCAN(eps=0.15, min_samples=13)
dbscan.fit(X)

In [None]:
def plot_dbscan(dbscan, X, size):
    core_mask = np.zeros_like(dbscan.labels_, dtype=bool)
    core_mask[dbscan.core_sample_indices_] = True
    anomalies_mask = dbscan.labels_ == -1
    non_core_mask = ~(core_mask | anomalies_mask)

    cores = dbscan.components_
    anomalies = X[anomalies_mask]
    non_cores = X[non_core_mask]
    
    plt.scatter(cores[:, 0], cores[:, 1],
                c=dbscan.labels_[core_mask], marker='o', s=size, cmap="Paired")
    plt.scatter(cores[:, 0], cores[:, 1], marker='*', s=20, c=dbscan.labels_[core_mask])
    plt.scatter(anomalies[:, 0], anomalies[:, 1],
                c="y", marker="x", s=100)
    plt.scatter(non_cores[:, 0], non_cores[:, 1], c=dbscan.labels_[non_core_mask], marker="x")
    plt.title("eps={:.2f}, min_samples={}".format(dbscan.eps, dbscan.min_samples), fontsize=14)

In [None]:
plt.figure(figsize=(12, 6))
plot_dbscan(dbscan, X.values, size=100)
plt.xlabel("age", fontsize=14)
plt.ylabel("avg_glucose_level", fontsize=14)
plt.show()

In [None]:
counter = Counter(dbscan.labels_.tolist())
bad_counter = Counter(dbscan.labels_[y == 1].tolist())

for key in sorted(counter.keys()):
    print("Label {0} has {1} samples - {2} are stroke samples".format(
        key, counter[key], bad_counter[key]))

## Reducción del número de características

### Segunda preparación del conjunto de datos

In [None]:
X_df = df.drop("stroke", axis=1)
y_df = df["stroke"].copy()

In [None]:
# Construcción de un pipeline para rellenar los valores nulos con la mediana y scalar los datos 
from sklearn.impute import SimpleImputer

num_pipeline = Pipeline([
        ('imputer', SimpleImputer(strategy="median")),
        ('rbst_scaler', RobustScaler()),
    ])

In [None]:
# Rellenamos los valores nulos
X = num_pipeline.fit_transform(X_df)

In [None]:
# Transformamos el resultado a un DataFrame de Pandas
X = pd.DataFrame(X, columns=X_df.columns, index=y_df.index)

In [None]:
#Validamos que los cambios se aplicaron correctamente 
X

### Aplicamos selección de características con _Random Forest_

In [None]:
# Utilizamos Random Forest para realizar selección de características
from sklearn.ensemble import RandomForestClassifier

clf_rnd = RandomForestClassifier(n_estimators=50, random_state=42, n_jobs=-1)
clf_rnd.fit(X, y_df)

In [None]:
# Seleccionamos las características más importantes
feature_importances = {name: score for name, score in zip(list(X), clf_rnd.feature_importances_)}
feature_importances_sorted = pd.Series(feature_importances).sort_values(ascending=False)

In [None]:
# Reducimos el conjunto de datos a las 7 características más importantes
X_reduced = X[list(feature_importances_sorted.head(5).index)].copy()

In [None]:
X_reduced

### Entrenamiento de DBSCAN con el conjunto de datos reducido

In [None]:
from sklearn.cluster import DBSCAN

dbscan = DBSCAN(eps=0.70, min_samples=25)
dbscan.fit(X_reduced)

In [None]:
counter = Counter(dbscan.labels_.tolist())
bad_counter = Counter(dbscan.labels_[y == 1].tolist())

for key in sorted(counter.keys()):
    print("Label {0} has {1} samples - {2} are stroke samples".format(
        key, counter[key], bad_counter[key]))

## 6. Evaluación de los resultados

In [None]:
# Obtenemos los clusters del objeto dbscan
clusters = dbscan.labels_

In [None]:
# Calculamos el purity score, es importante darse cuenta de que recibe las etiquetas
print("Purity Score:", purity_score(y, clusters))

In [None]:
# Calculamos el coeficiente de Shiloutte, es importante darse cuenta de que no le pasamos las etiquetas
print("Shiloutte: ", metrics.silhouette_score(X_reduced, clusters, sample_size=10000))

In [None]:
# Calculamos el Calinski harabasz score, es importante darse cuenta de que no le pasamos las etiquetas
print("Calinski harabasz: ", metrics.calinski_harabasz_score(X_reduced, clusters))