# **Exemplo de aplicação de clusterização no dataset Breast Cancer**

# **Breast Cancer dataset**

**O dataset [Breast Cancer](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html#sklearn.datasets.load_breast_cancer) representa 2 tipos de câncer de mama (maligno e benigno) com 30 atributos/características/features**

In [None]:
import matplotlib.pyplot as plt
from sklearn.datasets import load_breast_cancer
import pandas as pd

# importar os dados
bc = load_breast_cancer()

dados = pd.DataFrame(bc.data, columns=bc.feature_names)
dados

In [None]:
dados['y'] = bc.target
dados['y_name'] = dados['y'].apply(lambda x: bc.target_names[0] if x==0 else bc.target_names[1])
dados

In [None]:
fig = plt.figure(figsize=(7,3))
eixo = fig.add_axes([0,0,1,1])
sel = dados['y_name'] == 'malignant'
eixo.scatter(dados[sel]['mean radius'], dados[sel]['mean texture'], color='r')
sel = dados['y_name'] == 'benign'
eixo.scatter(dados[sel]['mean radius'], dados[sel]['mean texture'], color='b')
eixo.legend(dados['y_name'].unique(), fontsize=10)
fig.show()

# **Aplicação [Clusterização](https://scikit-learn.org/stable/modules/clustering.html#clustering)**

**Ler mais sobre [performance](https://scikit-learn.org/stable/modules/clustering.html#clustering-performance-evaluation) na clusterização**

**Clusterização via [K-means](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html#sklearn.cluster.KMeans)**

In [None]:
import numpy as np
from sklearn.cluster import KMeans
from sklearn import metrics

# separar os dados
X = dados.iloc[:,:-2]
y = dados['y']

# Cria um modelo de K-means e o treina com os dados (X)
km = KMeans(n_clusters=2)
km.fit(X)

#Verifica performance nos dados
y_pred = km.predict(X)
ari = metrics.adjusted_rand_score(y, y_pred) # mede a similaridade
print(f'Adjusted rand score: {ari:.2f}')
ami = metrics.adjusted_mutual_info_score(y, y_pred) # mede a concordancia
print(f'Adjusted mutual information score: {ami:.2f}')
#homogeneidade: cada cluster contem apenas membros de uma classe
#completude: todos os membros de uma classe sao associados ao mesmo cluster
hom = metrics.homogeneity_score(y, y_pred)
print(f'Homogeneidade: {hom:.2f}')
comp = metrics.completeness_score(y, y_pred)
print(f'Completude: {comp:.2f}')
#V-measure harmoniza a homogeneidade e a completude
v_meas = metrics.v_measure_score(y, y_pred)
print(f'V-measure: {v_meas:.2f}')

**Resultado K-means 2D**

In [None]:
import matplotlib.pyplot as plt

plt.figure()
colors = ['navy', 'darkorange'] #escolher qtd de cores de acordo com #classes
lw = 2
target_names = dados['y_name'].unique()

for color, i, target_name in zip(colors, [0, 1, 2], target_names):
    plt.scatter(X.to_numpy()[y_pred == i, 0], X.to_numpy()[y_pred == i, 1], color=color, alpha=.8, lw=lw,
                label=target_name)
plt.legend(loc='best', shadow=False, scatterpoints=1)
plt.title('K-means no dataset Breast Cancer')

plt.show()

**Clusterização via [MeanShift](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.MeanShift.html#sklearn.cluster.MeanShift)**

In [None]:
import numpy as np
from sklearn.cluster import MeanShift
from sklearn import metrics

# separar os dados
X = dados.iloc[:,:-2]
y = dados['y']

# Cria um modelo de MeanShift e o treina com os dados (X)
ms = MeanShift()
ms.fit(X)

#Verifica performance nos dados
y_pred = ms.predict(X)
ari = metrics.adjusted_rand_score(y, y_pred) # mede a similaridade
print(f'Adjusted rand score: {ari:.2f}')
ami = metrics.adjusted_mutual_info_score(y, y_pred) # mede a concordancia
print(f'Adjusted mutual information score: {ami:.2f}')
#homogeneidade: cada cluster contem apenas membros de uma classe
#completude: todos os membros de uma classe sao associados ao mesmo cluster
hom = metrics.homogeneity_score(y, y_pred)
print(f'Homogeneidade: {hom:.2f}')
comp = metrics.completeness_score(y, y_pred)
print(f'Completude: {comp:.2f}')
#V-measure harmoniza a homogeneidade e a completude
v_meas = metrics.v_measure_score(y, y_pred)
print(f'V-measure: {v_meas:.2f}')

**Resultado MeanShift 2D**

In [None]:
import matplotlib.pyplot as plt

plt.figure()
colors = ['navy', 'darkorange'] #escolher qtd de cores de acordo com #classes
lw = 2
target_names = dados['y_name'].unique()

for color, i, target_name in zip(colors, [0, 1, 2], target_names):
    plt.scatter(X.to_numpy()[y_pred == i, 0], X.to_numpy()[y_pred == i, 1], color=color, alpha=.8, lw=lw,
                label=target_name)
plt.legend(loc='best', shadow=False, scatterpoints=1)
plt.title('MeanShift no dataset Breast Cancer')

plt.show()

# **Iris dataset**

**O dataset [Iris](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html#sklearn.datasets.load_iris) representa 3 tipos de flores Iris (Setosa, Versicolour e Virginica) com 4 atributos: *sepal length*, *sepal width*, *petal length* e *petal width*.**

In [None]:
import matplotlib.pyplot as plt
from sklearn import datasets
import pandas as pd

# importar os dados
iris = datasets.load_iris()
dados = pd.DataFrame(iris.data, columns=iris.feature_names)
dados

In [None]:
dados['y'] = iris.target
dados['y_name'] = dados['y'].apply(lambda x: iris.target_names[0] if x==0 else
                                  (iris.target_names[1] if x==1 else iris.target_names[2]))
dados

In [None]:
fig = plt.figure(figsize=(7,3))
eixo = fig.add_axes([0,0,1,1])
sel = dados['y_name'] == 'setosa'
eixo.scatter(dados[sel]['petal length (cm)'], dados[sel]['petal width (cm)'], color='r')
sel = dados['y_name'] == 'versicolor'
eixo.scatter(dados[sel]['petal length (cm)'], dados[sel]['petal width (cm)'], color='b')
sel = dados['y_name'] == 'virginica'
eixo.scatter(dados[sel]['petal length (cm)'], dados[sel]['petal width (cm)'], color='g')
eixo.legend(dados['y_name'].unique(), fontsize=10)
fig.show()

# **Aplicação [Clusterização](https://scikit-learn.org/stable/modules/clustering.html#clustering)**

**Ler mais sobre [performance](https://scikit-learn.org/stable/modules/clustering.html#clustering-performance-evaluation) na clusterização**

**Clusterização via [K-means](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html#sklearn.cluster.KMeans)**

In [None]:
import numpy as np
from sklearn.cluster import KMeans
from sklearn import metrics

# separar os dados
X = dados.iloc[:,:-2]
y = dados['y']

# Cria um modelo de K-means e o treina com os dados (X)
km = KMeans(n_clusters=3)
km.fit(X)

#Verifica performance nos dados
y_pred = km.predict(X)
ari = metrics.adjusted_rand_score(y, y_pred) # mede a similaridade
print(f'Adjusted rand score: {ari:.2f}')
ami = metrics.adjusted_mutual_info_score(y, y_pred) # mede a concordancia
print(f'Adjusted mutual information score: {ami:.2f}')
#homogeneidade: cada cluster contem apenas membros de uma classe
#completude: todos os membros de uma classe sao associados ao mesmo cluster
hom = metrics.homogeneity_score(y, y_pred)
print(f'Homogeneidade: {hom:.2f}')
comp = metrics.completeness_score(y, y_pred)
print(f'Completude: {comp:.2f}')
#V-measure harmoniza a homogeneidade e a completude
v_meas = metrics.v_measure_score(y, y_pred)
print(f'V-measure: {v_meas:.2f}')

**Resultado K-means 2D**

In [None]:
import matplotlib.pyplot as plt

plt.figure()
colors = ['navy', 'darkorange', 'magenta'] #escolher qtd de cores de acordo com #classes
lw = 2
target_names = dados['y_name'].unique()

for color, i, target_name in zip(colors, [0, 1, 2], target_names):
    plt.scatter(X.to_numpy()[y_pred == i, -2], X.to_numpy()[y_pred == i, -1], color=color, alpha=.8, lw=lw,
                label=target_name)
plt.legend(loc='best', shadow=False, scatterpoints=1)
plt.title('K-means no dataset Iris')

plt.show()

**Clusterização via [MeanShift](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.MeanShift.html#sklearn.cluster.MeanShift)**

In [None]:
import numpy as np
from sklearn.cluster import MeanShift
from sklearn import metrics

# separar os dados
X = dados.iloc[:,:-2]
y = dados['y']

# Cria um modelo de MeanShift e o treina com os dados (X)
#ms = MeanShift()
ms = MeanShift(bandwidth=0.75)
ms.fit(X)

#Verifica performance nos dados
y_pred = ms.predict(X)
ari = metrics.adjusted_rand_score(y, y_pred) # mede a similaridade
print(f'Adjusted rand score: {ari:.2f}')
ami = metrics.adjusted_mutual_info_score(y, y_pred) # mede a concordancia
print(f'Adjusted mutual information score: {ami:.2f}')
#homogeneidade: cada cluster contem apenas membros de uma classe
#completude: todos os membros de uma classe sao associados ao mesmo cluster
hom = metrics.homogeneity_score(y, y_pred)
print(f'Homogeneidade: {hom:.2f}')
comp = metrics.completeness_score(y, y_pred)
print(f'Completude: {comp:.2f}')
#V-measure harmoniza a homogeneidade e a completude
v_meas = metrics.v_measure_score(y, y_pred)
print(f'V-measure: {v_meas:.2f}')

**Resultado MeanShift 2D**

In [None]:
import matplotlib.pyplot as plt

plt.figure()
colors = ['navy', 'darkorange', 'magenta'] #escolher qtd de cores de acordo com #classes
lw = 2
target_names = dados['y_name'].unique()

for color, i, target_name in zip(colors, [0, 1, 2], target_names):
    plt.scatter(X.to_numpy()[y_pred == i, -2], X.to_numpy()[y_pred == i, -1], color=color, alpha=.8, lw=lw,
                label=target_name)
plt.legend(loc='best', shadow=False, scatterpoints=1)
plt.title('MeanShift no dataset Iris')

plt.show()